-
데이터과학을 위한 통계 리뷰 - 6일차 (A/B 검정,가설검정(유의성 검정),귀무가설,대립가설,재표본추출,순열검정,통계적유의성,1종오류,2종오류Machine Learning/데이터과학을 위한 통계 2021. 3. 6. 10:16반응형
3. 통계적 실험과 유의성 검정
3.1 A/B 검정
디자인에서 A/B 테스트
전체 디자인에서 한가지 요소만 변경 ( UI레이아웃/ 이미지 / 검색결과 /feature 등)
두가지 버전으로 실험해서 더 나는 것을 판별하는 기법
“새로운 디자인 시안 A와 B중 어느 것이 브랜드 이미지 제고에 도움이 될까?”
“홈페이지 메인 이미지를 왼쪽/오른쪽, 어느 쪽에 위치하게 하는 것이 좋을까?”
“구매 버튼의 색은 빨강/파랑? 어느 것이 구매를 촉진시킬까?”
상품을 구매하는 데 결정적인 영향을 끼치는 것으로 광고 No, 상품 No, 바로 지인의추천
페이지는 구매와 상관이 없는 페이지임에도 불구하고 구매, 결제와 연관성 높은 TRUSTe 이미지를 게재함으로서, 신청양식에 온 방문자들은 결제, 대가를 지불해야 하는 느낌이 들어 전환율을 오히려 떨어뜨렸다고 해석하고 있습니다.
3.2 가설검정 (유의성 검정)
•가설을 전통적인 통계분석 방법으로 검정하는 것
•관찰된 효과가 우연에 의한 것인지 여부를 알아내는 것이 목적
Q) 왜 가설을 세워야 할까?
임의성(랜덤성)을 과소평가하려는 인간의 경향 때문임
예외적인 상황 예상 X, 무작위 사건을 중요 의미가 있는 패턴을 갖는 것으로 오해
귀무가설 VS 대립가설
일원/이원 가설검정
3.3 재표본추출
2.4절에서 설명한 재표본추출이랑은 다른 개념
이전 챕터의 부트스트랩은 추정의 신뢰성을 평가하는 데 사용.
순열검정 - 일반적으로 두 개 이상의 그룹과 관련된 가설을 검증하는데 사용
순열검정
두 개 이상의 표본을 함께 결합하여 관측값들을 무작위로(또는 전부를) 재표본으로 추출하는 과정을 만한다. (유의어 : 임의화검정, 임의순열검정, 정확검정)
복원/비복원
표본을 추출할 때, 이미 한번 뽑은 데이터를 다음번 추출을 위해 다시 제자리에 돌려 놓거나/다음 추출에서 제외하는 표집 방법
관찰된 차이가 순열로 보이는 차이의 집합 안에 잘 들어 있다면,
우리는 어떤 것도 증명할 수 없다. 즉, 관찰된 차이가 우연히 일어날 수 있는 범위 안에 있다는 말이다.
하지만 관찰된 차이가 대부분의 순열 분포 바깥에 있다면,
우리는 이것은 우연 때문이 아니라고 결론 내릴 수 있다.
이 차이를 통계적으로 유의미하다고 할 수 있다.
3.3.3 전체 및 부트스트랩 순열검정
1.순열검정(임의순열검정, 임의화 검정)
•순열 검정은 가설 검정에 가장 적합하며 부트스트랩은 신뢰 구간 추정에 가장 적합합니다.
2.전체순열검정 (exhaustive permutation test)
•데이터를 무작위로 섞는 대신 실제로 발생할 수 있는 모든 가능한 조합을 찾는다.
•샘플 크기가 비교적 작을 때만 실용적이다.
•순열검정의 결과는 셔플링을 많이 반복할수록 전체순열검정의 결과와 비슷해진다.
•더 정확한 결론을 보장하기 때문에 정확검정 (exact test) 라고도 한다.
3.부트스트랩 순열검정 (bootstrap permutation test)
•추출하는 과정을 복원추출로 진행 한다.
•순열검정의 장점
1.상대적으로 코딩하고, 해석하고, 설명하기 쉽다
2.데이터의 형태가 다양해도 된다
3.샘플 크기가 다양해도 된다
4.데이터가 정규분포를 따를 필요도 없다
3.4 통계적 유의성
통계적 유의성이란?
어떤 실험 결과 자료에 대해 통계적으로 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻
p값(probability value)
귀무가설이 맞다는 전제 하에 어떤 사건이 우연히 일어날 확률
ex 1) 추정당첨확률 1% 복권에 1명이 3연속 당첨될 경우, “당첨확률이 1%보다 높나?”
ex 2) 모평균(대한민국 평균 발사이즈)를 모르지만 편차는 알 경우
표본 평균을 구해서 대체함
1종 오류 예시
코로나19에 감염 O
감염되지 않았다고 말하는 경우
2종 오류 예시
코로나19에 감염 X감염되었다고 말하는 경우
반응형'Machine Learning > 데이터과학을 위한 통계' 카테고리의 다른 글
데이터과학을 위한 통계 리뷰 - 8일차 (F통계량 & ANOVA, 카이제곱검정,데이터 과학과의 관련성,피셔의 정확검정) (0) 2021.03.08 데이터과학을 위한 통계 리뷰 - 7일차 (p값,t-test,다중검정,자유도,분산분석) (0) 2021.03.07 데이터과학을 위한 통계 리뷰- 5일차 (QQ plot,긴꼬리분포,t-분포,이항분포,푸아송 분포, 지수분포,고장률 추정,와이블 분포) (0) 2021.03.05 데이터과학을 위한 통계 리뷰 - 4일차 (표본분포,중심극한정리,Z점수,부트스트랩,신뢰구간,정규분포,재표본추출,표준오차) (0) 2021.03.04 데이터과학을 위한 통계 리뷰 - 3일차 (범주형,다변수,랜덤표본추출,편향) (0) 2021.03.03