-
데이터과학을 위한 통계 리뷰 - 7일차 (p값,t-test,다중검정,자유도,분산분석)Machine Learning/데이터과학을 위한 통계 2021. 3. 7. 22:17반응형
3.4.1 p값
통계적 유의성을 정확히 측정하기 위한 지표
(귀무가설이 맞다는 전제하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률)
p-value가 너무 낮으면, 그렇게 낮은 확률의 사건이
실제로 일어났다고 생각하기 보다는 귀무가설이 틀렸다고 생각하게 된다.
예) 실제로 가능한 m(평균)의 분포가 위와 같을 때, 내가 구한 평균이 m2 라면 p-value가 매우 작다.
동엽님의 예제대로 희박한 일이 실제로 일어났다고 하기 보다는 분포를 가져온 가설(귀무가설)이 잘못됐다 판단.
만약 대립가설이 사실이라면 귀무가설을 기각하고,
대립가설이 거짓이라면 귀무가설을 채택한다 라고 결론을 낸다.
귀무가설이 사실인데 기각시 = 1종 오류
귀무가설이 거짓인데 채택시 = 2종 오류
P값은 정해진 유의수준(5%, 1%) 보다 작을수록 좋다.
= 주장하고 싶은 사실과 반대인 귀무가설이 옳다는 가정하에 계산된 확률이기 때문에 !!
보통 0.05 기준으로 판별한다.
기준에 만족한다고 해서 가설을 만족한다는 확률이 95%라고 확신할 수는 없다.
1. 가설검정에 대한 검정지표로 사용되는 통계량 = p-value = 1종 오류를 범할 확률
2. sample size 가 크다면, p-value 자체는 대체적 유의함 ( C.I 신뢰구간은 좁고 p값 유의함 – 빅데이터의 저주)
정보의 배분을 위해, 전체적인 표본의 분포를 고르게 배분할 필요가 있다 : 표본 수 결정의 중요성
3. p값은 단순하게 “effect는 0이 아니다” 만을 검정한다.
(단순하게 약효가 있다/없다 를 검정하는 것이지, 어느정도 효과가 있는지 모른다, 효과의 유무만 확인!)
3.5 t 검정(t-test)
•유의성 검정 : 통계적 추정값의 신뢰도를 확인하기 위하여 통계적 이론에 근거하여 추론하는 통계검정
두 모집단으로부터 표본들을 독립적으로 추출하여 표본의 평균들을 비교함으로써 모집단의 유사성을 검정한다.
1.관심있는 효과를 측정하기 위한 검정통계량 지정
2.관찰된 효과가 정상적인 랜덤 변이의 범위 내에 있는지 여부 판단에 도움
순열 분포에 대한 좋은 근사 = t 분포에 기초한 t 검정 -> 2표본 비교(A/B 검정)에 주로 사용
척도에 상관없이 t 분포를 사용하려면 표준화된 형태의 검정통계량을 사용해야 한다!
•검정통계량 : 관심의 차이 또는 효과에 대한 측정 지표
•t 통계량 : 표준화된 형태의 검정통계량
•t 분포 :관측된 t 통계량을 비교할 수 있는, (귀무가설에서 파생된) 기준 분포
t-test의 조건
T-test는 중요한 검정이므로 추후에도 anova검정 및 여러 검정 방법을 예시로 들면서 이야기를 할 예정입니다.
3.9 다중검정
제 1종 오류
어떤 효과가 통계적으로 유의미하다고 잘못된 결론을 내린다
(우연인데 사실로)
제 2종 오류
사실인데 우연으로
거짓 발견 비율(FDR)
다중검정에서 1종 오류가 발생하는 비율
P 값 조정
동일한 데이터에 대해 다중검정을 수행하는 경우에 필요
과적합(overfitiing)
잡음까지 피팅
예를 들어 20개의 예측변수와 1개의 결과 변수가 모두 임의로 생성했다고 가정
유의수준 0.05에서 20번의 일련의 유의성 검정을 수행하면
적어도 하나의 예측변수에서 통계적으로 유의미한 결과를 (실수로) 초래할 가능성이 있다.
앞에서 설명한 것처럼 이것을 1종오류라고 한다.
0.05의 유의수준에서 항상 유의미하지 않는다는 올바른 검정 결과가 나올 확률을
먼저 계산해서 1을 빼주면 이 확률을 구할 수 있다.
무의미하다고 정확하게 검정할 확률이 0.95이므로 0.95^20 = 0.36,
1 – 0.36 = 0.64 (모든 것이 무의미하다는 결론이 나올 확률)
거짓 발견 비율(FDR)
★통계분석 방법 종류
책에는 나와있지 않지만 따로 유튜브를 통해서 강의한 교수님의 자료를 최대한 비슷하게 만들었습니다.
이로써, 통계분석 방법의 예제들을 보다 쉽게 찾아서 판별하셨으면 좋겠습니다.
데이터의 분포에 따라서 분석하는 방법이 다르므로, 데이터의 특성을 꼭 확인 하셔야 합니다.
3.8 자유도
•주어진 조건 하에서 자유롭게 변화될수 있는 요소의 수.
•모집단의 분산을 추정하고자 할 때 분모에 n을 사용하면 편향이 생김, n-1로 하면 편향이 생기지 않음
데이터 과학에서 유의성 검정은 중요하지 않다.
-데이터의 크기가 충분히 크기 때문에 거의 차이가 없다.
회귀에서 요인(범주)변수를 사용할 때는 중요하다.
-범주형 변수를 dummy 변수로 바꾸는 경우! 요일별로 더미 변수를 만든다면 자유도는 6이어야 한다.
자유도는 검정통계량을 표준화하는 계산의 일부이며, 이를 통해 기준분포(t 분포, F 분포 등)와 비교 할 수 있다.
자유도 개념은 회귀를 할 때 (다중공선성을 피하기 위해) 범주형 변수들을 n-1 지표 혹은 더미 변수로 요인화하는 것의 이유가 된다.
검정통계량 : 통계적 가설검정을 위하여 확률분포를 결정하는 데 사용되는 통계량, 표집분포가 면적이 1인 확률분포가 되도록 추정치를 전환한 통계량.
다중공선성 : 회귀 분석에서의 일부 예측 변수가 다른 예측 변수와 상관 정도가 높아, 부정적 영향을 미치는 현상
T-test
일원 분산분석 (one-way ANOVA)
이원 분산분석 (two-way ANOVA)
다원 분산분석 (multi-way ANOVA)
다변량 분산분석 (milti-variate ANOVA)
분산 분석의 가정
반응형'Machine Learning > 데이터과학을 위한 통계' 카테고리의 다른 글