-
데이터과학을 위한 통계 리뷰 - 12일차 (복습과정,예제문제,분포)Machine Learning/데이터과학을 위한 통계 2021. 3. 12. 11:35반응형
실제 p값 구하기
모의 실험 - 1
1개 표본 : 동전을 80번 돌렸을 때 앞면이 나올 확률
-> 125개 표본 추출모의 실험 - 2
F통계량 예제 (ANOVA (ANalysis Of VAriance; 분산 분석)
분산분석 3가지 조건
정규성 : 각각의 그룹에서 변인은 정규분포.
분산의 동질성 : Y의 모집단 분산은 각각의 모집단에서 동일.
관찰의 독립성: 각각의 모집단에서 크기가 각각인 표본들이 독립적으로 표집.
파이썬에서 One-way ANOVA 분석은 scipy.stats이나 statsmodel 라이브러리를 이용해서 할 수 있습니다.
일원분산분석(One-way ANOVA)
종속변인은 1개이며, 독립변인의 집단도 1개인 경우.
한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용됩니다.
22명의 심장 우회 수술을 받은 환자를 다음의 3가지 그룹으로 나누었습니다.
•Group I: 50% 아산화 질소(nitrous oxide)와 50%의 산소(oxygen) 혼합물을 24시간 동안 흡입한 환자
•Group II: 50% 아산화 질소와 50% 산소 혼합물을 수술 받는 동안만 흡입한 환자
•Group III: 아산화 질소 없이 오직 35-50%의 산소만 24시간동안 처리한 환자
그런 다음 적혈구의 엽산 수치를 24시간 이후에 측정하였습니다.
총 40명의 사람들의 성별, IQ, 몸무게, 키 그리고 MRI_count
(total pixel Count from the 18 MRI scans) 값이 측정되어 있습니다.
IQ의 경우 3종류로 세분화
•Full Scale Intelligence Quotient (FSIQ) : VIQ와 PIQ의 종합수치
•Verbal IQ (VIQ) : 언어적인 측면을 측정합니다.
•Performance IQ (PIQ) : 논리, 계산적인 측면을 측정
Q. 여자의 VIQ와 남자의 VIQ의 평균은 통계적으로 차이가 있는지
Q. FSIQ 평균 값과 PIQ 평균이 통계적으로 차이가 있는지
각각의 FSIQ와 PIQ값은 같은 개인에서 측정되었기 때문에,
paried T-test 으로 추가적인 확인이 필요
동일한 집단에서의 반복적인 측정에 의한 차이를 비교하기 위해 사용
성별과 VIQ 수치의 관계
남성과 여성이 VIQ 차이가 있는지를 판단하기 위해서는 뇌의 크기, 키, 몸무게에 의한 영향을 배제 해야 함.
종속변수 VIQ
독립변수 성별 (범주형)
MRI_Count
Height (연속형)
피부진단기로 측정한 데이터
카이제곱분포
- 감마분포의 특수한 형태
표준정규분포를 따르는 확률변수 Z를 제곱한 것을 k개 더하면 새로운 확률변수가 된다.
자유도가 k인 카이제곱분포
카이제곱 특징
•연속형 확률분포 : 항상 양의 값만 가진다.
•오른쪽 꼬리를 가진 비대칭 분포
•기대값 = k, 분산 = 2k
•자유도, 즉 표준정규확률변수 Z 제곱한 것을 몇 개 더했는가에 모양 결정
=> Z^2 를 5개 더하여 X^2 확률변수를 만들었다면 자유도 = 5
•확률변수 X가 자유도 v인 카이제곱 분포를 따를 경우 X~X^2 => X~ X^2(n)일 때 E(X) = n, Var(X) = 2n이다.
카이제곱 분포에 기초한 통계적 방법
•관찰된 빈도가 기대되는 빈도와 “의미있게 다른지” 여부 검증하기 위함
기본 가정
•변수가 범주형일 때, 자료(데이터)의 값은 개수(= 빈도, count)이어야 한다.
Thompson sampling
-베타분포 : 두 매개변수 α, β에 따라 [0, 1] 구간에서 정의되는 연속 확률 분포들의 가족이다.
-베이즈정리 : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다.
Beta(배너를 클릭한 횟수 + 1, 배너를 클릭하지 않은 횟수 + 1)
banner1 : 2번 성공 / 3번 시도 = 66%
banner2 : 1번 성공 / 3번 시도 = 33%
banner3 : 1번 성공 / 2번 시도 = 50%
greedy 알고리즘 : 경험상 가장 성능이 좋은 banner1
e-greedy 알고리즘 : 확률적으로 경험상 가장 성능이 좋은 banner1
•샘플 된 값에서 가장 큰 값을 나타낸 선택지를 선택
•Banner3의 샘플 값이 가장 높음
•이렇게 샘플 된 값에서 가장 큰 값을 선택하는 것을 argmax() 한다고 함.
UBC
•결정론적 알고리즘(예측 그대로 움직인다)
•매 라운드마다 업데이트를 해줘야 한다.
Thompson Sampling
•확률적 알고리즘(확률적으로 움직인다)
•늦게 들어오는 피드백을 수용할 수 있다.(회원가입/ 결제 데이터 등도)
•더 나은 경험적 증거를 보인다.
반응형'Machine Learning > 데이터과학을 위한 통계' 카테고리의 다른 글