-
데이터과학을 위한 통계 리뷰 - 3일차 (범주형,다변수,랜덤표본추출,편향)Machine Learning/데이터과학을 위한 통계 2021. 3. 3. 22:35반응형
시각화 관련 및 표본 추출 관련 내용입니다.
1.8.2 범주형 변수 대 범주형 변수
분할표란? 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로,
두 변수가 모두 범주형에 속할 때, 도수분포표를 2차원으로 확장한 형태로 요약할 수 있다.
엑셀 = 피봇테이블. R = CrossTable()함수
데이터로 예시-
상자그림 : 범주형 변수에 따라 분류된 수치형 변수의 분포를 시각화
공항 지연 통계 (교통 통계국)
arr_del15 : 지연된 비행 횟수 (> = 15 분 늦음).
carrier_ct : 항공기로 인해 지연된 항공편 수.
weather_ct : 날씨로 인해 지연된 항공편 수.
nas_ct : 국가 항공 시스템으로 인해 지연된 항공편 수
security_ct : 보안으로 인해 지연된 항공편 수
장점 : 데이터의 특이값들을 명확하게 보여준다
바이올린도표 : Y축을 따라 밀도추정 결과를 동시에 시각화
장점: 상자그림에서 보이지 않는 데이터의 분포를 볼 수 있다.
1.8.4 다변수 시각화하기
Chapter 2 데이터와 표본분포
Ex) 우리의 목표를 학생이 수능 시험을 봤을 때 어떤 성적을 받을지 예측하는 것으로 해봅니다.
변수는 (모의) 수능 시험 성적입니다.
그리고 데이터는 실제로 변수에서 관측된 값이지요. (0점 ~ 400점)
우리는 모의 수능 시험 성적(데이터들)을 토대로 수능 시험 성적(변수)가 얼마가 나올지 예측할 수 있습니다.
용어정리 표
용어
내용
표본
더 큰 데이터 집합으로부터 얻은 부분집합
모집단
어떤 데이터 집합을 구성하는 전체 대상 혹은 전체 집합
N(n)
모집단(표본)의 크기
임의표집(랜덤표본추출)
무작위로 표본을 추출하는 것
층화표집(층화표본추출)
모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본 추출
단순임의표본(단순랜덤표본)
모집단 층화 없이 랜덤표본추출로 얻은 표본
랜덤표본추출
임의표집(랜덤표본추출)
무작위로 표본을 추출하는 것
층화표집(층화표본추출)
모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본 추출
1.단순랜덤추출 : 선택될 확률이 같도록 설계된 표본추출방법(복원, 비복원)
2.계통추출법 : 첫 번째 요소를 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집방법. K=N/n(N:모집단의 크기, n:표본의 크기, k:표집간격 ).
2.집락 추출법 : 먼저 집락을 추출, 추출된 집락 내의 일부 또는 전체를 조사하는 방법. 집락간에는 동질적, 집락 내에서는 이직적일 때 효율적. ex) 임의의 고등학교
4.층화 추출법 : 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후, 각 층에서 단순 임의추출법에 따라 배정된 표본을 추출하는 방법. ex) 연령, 학년
2.1.4 크기와 품질
•데이터의 개수가 적을수록 편향을 줄이고 데이터 품질에 더 집중가능
•데이터의 개수가 적당히 많을 경우 패턴추출에 용이, 너무 많으면 신뢰성이 떨어진다.
2.1.5 표본평균과 모평균
2.3 선택 편향
모평균을 표본평균의 평균으로 계산하는 이유
•표본집단의 평균이 모집단과 같은 분포를 보임
1.4 변이 추정 ~ 1.4.1 표준편차와 관련 추정값들
선택 편향 : 표본을 사전 또는 사후에 선택하게 되면서 통계 분석이 달라지는 현상
반응형'Machine Learning > 데이터과학을 위한 통계' 카테고리의 다른 글
데이터과학을 위한 통계 리뷰- 5일차 (QQ plot,긴꼬리분포,t-분포,이항분포,푸아송 분포, 지수분포,고장률 추정,와이블 분포) (0) 2021.03.05 데이터과학을 위한 통계 리뷰 - 4일차 (표본분포,중심극한정리,Z점수,부트스트랩,신뢰구간,정규분포,재표본추출,표준오차) (0) 2021.03.04 데이터과학을 위한 통계 리뷰 - 2일차 (변이추정,백분위수,히스토그램,밀도추정,상관관계) (0) 2021.03.02 데이터과학을 위한 통계 리뷰 - 1일차 (탐색적 데이터 분석,분산,편차) (0) 2021.03.01 데이터분석을 위해 공부했던 통계 이론 정리 계획 (0) 2021.02.04