-
데이터과학을 위한 통계 리뷰 - 9일차 (복습포함,F-value,귀무가설,대립가설,멀티암드 밴딧,greedy Algorithm)Machine Learning/데이터과학을 위한 통계 2021. 3. 9. 17:52반응형
복습내용이 많습니다.
ANOVA등
3.10 멀티암드 밴딧 (Multi-Armed Bandit : MAB )
Exploration : 이미 알고 있는 최적의 방안을 얻었음에도
어느 정도 틀릴 수 있다는 여지를 두고 계속해서 실험하는 것
Exploitation : 최적의 방안을 얻고나서 이를 계속 채택하여 최대의 이익(reward)을 창출하는 것
강화학습(Reinforcement Learning)은 머신러닝의 한 분야로 사람처럼 환경과 상호작용하면서 스스로 학습하는 방식을 의미합니다. 강화학습은 자신의 행동 결과인 보상을 많이 얻기 위해 학습을 진행합니다.
Greedy algorithm 예시
greedy = 탐욕적인
알고있는 지식을 총 동원해서 사용하는 기법이라고 생각하면 편합니다.
greedy algorithm은
간단하게 모든 슬롯머신을 한 번씩 플레이 한 후
가장 수익/이익(reward)이 높았던 슬롯머신을 골라서 선택하는 방법
[미래를 생각하지 않고 각 단계에서 가장 최선의 선택]
Greedy algorithm의 문제 :
Exploration(탐색)이 충분히 고려되지 않았다는 단점
탐색 후에 나올 수 있는 더 좋은 결과의 가능성을 무시한다.1. ε (Epsilon) -greedy Algorithm
Greedy algorithm의 문제
이를 보완하기 위해서 사용하는 알고리즘이
ε-greedy algorithm
(1-ε) 확률로 greedy algorithm의 경우
최적의 선택(Exploitation)을 하고
ε 확률로
일정한 확률로 랜덤한 ACTION선택
(다른 경우를 탐색 :Exploration)함으로써
Exploration과 Exploitation을 적절히 활용하는 알고리즘
ε = hyper=parameter 을 통해서 행동을 선택출처:
ε-greedy algorithm 예시
2. UCB(Upper Confidence Bound)
ε-greedy algorithm : 항상 경험적 평균값을 기준으로 1-ε 확률 로 reward가 좋은 action을 고르고
ε 확률로 나머지 action을 랜덤/무작위로 결정하게 되지만,
실제로 매 시간마다 action에서 얻는 reward는 변하지 않는 값이 아닌 특정 분포에서 얻게 되는 랜덤 변수 이기 때문에 순간에 경험적 평균값이 크다고 해서 정말로 해당 선택이 최적의 선택이라고 할 수는 없습니다.
ε-reedy algorithm의 문제 : 관측 횟수가 적을수록 더욱 큰 차이 발생UCB 알고리즘 은 이러한 문제를 해결하기 위해서 경험적 평균값이 높은 action을 결정하는 대신,
시간 t마다 과거의 관측결과와 몇 가지 확률들을 고려하여 최적이 될 수 있을 만한 가능성을 수치로 계산하여 결정
3. Thompson Sampling
구글 Analytics에서도 활용할 만큼 좋은 성능을 보여주고 있는 알고리즘
Value를 직접 추정하는 대신 과거에 관측된 데이터를 이용하여 Value 분포를 추정한 뒤
행동을 선택할 때는 분포로부터 Value를 무작위 추출해서 가장 Value가 높은 행동을 선택,
이후 받은 reward으로부터 베이즈 정리를 활용하여 Value의 분포를 업데이트 하는 방식으로 동작.
해당 분포를 통해 가장 높은 reward를 줄 선택을 높은 확률로 선택해 주는 알고리즘
확률적 알고리즘
업데이트를 통해서 늦게 들어오는
피드백을 수용할 수 있다는 장점
출처:
3.11 검정력과 표본크기
검정력 : 대립가설이 사실일 때, 이를 사실로서 결정할 확률
검정력이 좋아지게 되면, 제 2종 오류 범할 확률은 작아지게 된다.
검정력 = 1-β
If 검정력 = 90% => 제 2종 오류의 확률 = 10%
출처:
https://ko.wikipedia.org/wiki/%EA%B2%80%EC%A0%95%EB%A0%A5
표본크기 : 검정력을 계산하는 주된 용도
* 유의수준(a) : 귀무가설이 참임에도 불구하고, 귀무가설을 기각하는 확률 = 제 1종 오류를 범할 확률의 허용한계
출처:
-이후 복습자료-
이미지 출처 :
https://www.youtube.com/watch?v=vusSCU-gn4A
사용 통계 소프트웨어: JAMOVI 다운로드: https://www.jamovi.org/download.html
Between Variance가 크다는 건 어느 한 그룹이 각 그룹의 평균값과 다르다는 것을 알 수 있다.
python 코드 자료
3.2 가설검정
귀무가설 VS 대립가설
출처 :
https://drhongdatanote.tistory.com/59
반응형'Machine Learning > 데이터과학을 위한 통계' 카테고리의 다른 글