-
반응형1.4 변이추정
•1일차 정리 산포도 dispersion: 정렬된 데이터가 얼마나 퍼져 있는지 보는 것.
•변이를 추정하는 또다른 접근법
순서통계량(order statistic): 정렬된 데이터를 나타내는 통계량
범위(range): 가장 기본이 되는 측도로 가장 큰 값과 가장 작은 값의 차이 (Max - Min)
최솟값과 최댓값은 이상점을 분석하는 데 도움, 특잇값에 매우 민감하여 데이터의 산포 측정에 유용하지는 않음
백분위수 사이의 차이를 가지고 추정합니다.
백분위수 (percentile) : 값들로 이루어진 데이터를 순서대로 나열했을 때 위치를 백분율로 나타낸 값
일반적으로 크기가 가장 작은 것부터 나열하여 가장 작은 것을 0, 가장 큰 것을 100으로 합니다.
데이터에서 P번째 백분위수는 P퍼센트
분위수(quantile): 데이터를 동등한 범위로 구분한 값이고,
백분위수를 분수형태로 나타낸 것입니다.
변위를 측정하는 가장 대표적인 방법
4-분위수(Quartile):
전체 데이터를 4등분하는 구분자는 Q1과 Q2, Q3로 3개입니다.
•사분위범위(IQR; interquartile range)
25번째 백분위수와
75번째 백분위수의 차이를 보는 것
: Q3 - Q1
중간값(medien) 은 두 값의 평균으로 구합니다.
아래 식을 만족하는 순서통계량 x(i) 와 x(i+1) 사이의 어떤 값도 택할 수 있다.
백분위수는 아래 수식과 같은 가중평균입니다.
데이터를 기반해서 예시를 들어보겠습니다.-
median을 구하기 위해서 위 수식을 이용해서 numpy 로 통계연산을 하거나 Statsmodels 모듈을 이용해서 robust.mad() 함수를 사용합니다.
이런 통계 방법을 사용한 이유는 데이터가 전반적으로 어떻게 분포하고 있는지를 알아보는 것이 유용하기 때문입니다.
1.5.1 백분위수와 상자그림전체 분포를 알아보는데에도 백분위수가 유용합니다.
꼬리 부분(외측 범위)을 묘사하는 데 제격 ex) 상위 99번째 백분위수 = 상위 1%
1.5.2 도수분포표와 히스토그램변수의 범위를 동일한 크기의 구간으로 나눈 다음, 각 구간마다 몇 개의 값이 존재하는지 보여주기 위함
1.5.3 밀도추정밀도추정(Density estimation) 이란?
히스토그램과 관련된 그림이고 히스토그램위에 부드러운 선으로 표시하고,
데이터로부터 변수가 가질 수 있는 모든 값의 밀도(확률)을 추정합니다.
밀도추정을 하는 이유 :
사전 지식 없이 데이터 만으로 그 데이터들이 어떤 분포로 나타날지 알 수 있습니다.
그리고 히스토그램 방법은 bin의 경계에서 불연속성이 나타난다는 점,
bin의 크기 및 시작 위치에 따라서 히스토그램이 달라진다는 점,
고차원(high dimension) 데이터에는 메모리 문제 등으로 사용하기 힘들다는 점 등의 문제점이 있습니다.
커널 밀도 추정(KDE)은 커널 함수라는 것을 사용합니다.
커널 함수(Kernel)는 원점을 중심으로 대칭이며 적분값이 1 인 양의 함수로 정의할 수 있습니다.
정규분포(Gaussian distribution), Uniform, 등등을 이용하여 주어진 데이터의 분포를 반영하는 새로운 분포를 만드는 것입니다.
위 그래프는 왼쪽의 히스토그램을 KDE를 이용한 정규분포 처리해서 연속적인 그래프로 만들었다고 보면 됩니다.
쉽게 말해서 부드럽게 처리한다고 보면 됩니다.
1.6 이진 데이터와 범주 데이터 탐색하기
용어정리 :
최빈값 : 데이터에서 가장 자주 등장하는 값
기댓값 : 범주에 해당하는 어떤 수치가 있을 떄, 출현확률에 따른 평균
막대도표 : 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림
파이그림 : 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림
•최빈값 : 데이터에서 가장 자주 등장하는 값 혹은 값들(여러 값들의 최다 빈도수가 같을 경우)
•기댓값 : 기댓값은 어떤 값과 그 값이 일어날 확률을 서로 곱해서 더한 값을 의미한다. 주로 요인변수의 수준을 요약하는데 사용한다. 기댓값은 실제 사업 평가나 자본 예산에 가장 근본적인 토대가 된다.
ex) 회사 참석자 5%는 30만 원짜리 상품, 참석자 15%는 5만 원짜리 상품,80%는 어떤것도 가입하지 않음. 참석자들의 기댓값 22,500 EV = (0.05)(300)+(0.15)(50)+(800)(0) = 22.5
1.7 상관관계
•상관계수 : 예측값과 목푯값과의 상관관계
•양의 상관관계 : x값이 증가하면 y값도 증가할 경우
•음의 상관관계 : x값이 증가하면 y값은 감소할 경우
•상관계수(피어슨 상관계수) : 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량(-1~+1까지의 범위)
•상관행렬 : 행과 열이 변수들을 의미하는 표를 말하며, 각셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미함.
1.7.1 산점도
데이터 시각화 : 인간이 가진 인지능력을 활용하여 데이터에 담긴 의미를 발견하도록 하는 과정
시각화 유형
•변수의 개수에 따른 시각화 : 일변량 변수, 이변량 변수, 다변량 변수
•데이터 타입에 다른 시각화 : 이산형 데이터, 연속형 데이터, 범주형 데이터
•시각화의 목적에 따른 분류 : 데이터의 추세, 분포, 관계 등
변수의 개수에 따른 시각화
•변수가 1개(일변량 변수) - 한 개의 축에 변수 표시
막대그래프: - 데이터의 크고 작음을 한 눈에 알아볼 수 있음
- 각 집단의 대표 특성(평균, 분산, 최소값 등) 중 하나만 나타낼 수 있음
원그래프 :
- 절대적인 수치보다는 각 항목에 대한 백분율로 표현함
- 막대그래프의 항목 수가 많을 때 원그래프를 사용하면 효과적
변수의 개수에 따른 시각화
•변수가 2개(이변량 변수) - 각각의 축에 변수 표시
산점도:
- x축과 y축에서 각각의 관찰값을 좌표평면에 표시하는 방식
- 두 변수 간의 관계를 점으로 시각화하여 선형이나 비선형의 형태를 확인 가능
히트맵(Heatmap) :
- 색상으로 표현할 수 있는 다양한 정보를 좌표평면이나 이미지 위에 표현하는 형식
- 선형으로 표현할 수 없는 상관관계도 파악 가능하며 변수에 따른 색상을 지정하여 다변량 변수데이터도 표현가능
반응형'Machine Learning > 데이터과학을 위한 통계' 카테고리의 다른 글
데이터과학을 위한 통계 리뷰- 5일차 (QQ plot,긴꼬리분포,t-분포,이항분포,푸아송 분포, 지수분포,고장률 추정,와이블 분포) (0) 2021.03.05 데이터과학을 위한 통계 리뷰 - 4일차 (표본분포,중심극한정리,Z점수,부트스트랩,신뢰구간,정규분포,재표본추출,표준오차) (0) 2021.03.04 데이터과학을 위한 통계 리뷰 - 3일차 (범주형,다변수,랜덤표본추출,편향) (0) 2021.03.03 데이터과학을 위한 통계 리뷰 - 1일차 (탐색적 데이터 분석,분산,편차) (0) 2021.03.01 데이터분석을 위해 공부했던 통계 이론 정리 계획 (0) 2021.02.04