Machine Learning/데이터과학을 위한 통계
-
데이터과학을 위한 통계 리뷰 - 16일차 (가설검정,이분산성,영향값,회귀 진단,이분산성,영향값,다수의 수준을 갖는 요인변수들)Machine Learning/데이터과학을 위한 통계 2021. 3. 16. 13:15
4.5.4 상호작용과 주효과주 효과: 다른 요인(집단구분 변수)과 상관없이, 예측변수의 수준(집단)에 따라 효과가 유의미하게 달라질 때상호작용 효과: 한 요인의 수준에 따른 효과의 차이가또 다른 요인의 수준에 따라 달라질 때 Two-way ANOVA 이원분산분석은 주효과와 상호작용효과 분석 가능 출처:https://heung-bae-lee.github.io/2020/01/15/machine_learning_04/Regression(03) - 회귀진단교호작용 성별, 결혼여부, 혹은 소속 정치단체 등과 같은 질적(qualitative) 또는 범주형(categorical)요인들이 회귀분석에서 종속(반응)변수의 변화를 설명하는 데 매우 유용한 독립(설명) 변수 역할을heung-bae-lee.github.io (..
-
데이터과학을 위한 통계 리뷰 - 15일차 (예측변수,독립변수선택,AIC,BIC,순서가 있는 요인변수,예측변수간 상관,다중공선성)Machine Learning/데이터과학을 위한 통계 2021. 3. 15. 14:48
5.5 예측변수 선택 1. 회귀계수의 영향력다중 회귀분석의 결과로 다음의 y = 10x1 - 3x2 + 12회귀식을 얻었다고 가정합시다. 회귀식에서는 결국 독립변수가 한 단위 증가할 때 변화하는 종속변수를 확인할 수 있는데요. 당연히 회귀계수의 크기가 클수록 종속변수에 많은 영향을 줄 것입니다. 이처럼 우리는 여러 특성 중에서 어떤 특성이(독립변수) 영향력이 있는지 판단할 수 있을 겁니다. 2. Adjusted R2(수정된 결정계수)기존에 결정계수를 하나의 평가지표로 사용할 수 있었습니다. 하지만 다중 선형 회귀분석에서는 일반적인 결정계수가 문제가 될 수 있는데, 결정계수는 SSR(회귀변동)에 따라 값이 변합니다. 하지만 독립변수의 개수가 증가함에 따라 같이 증가하여 결정계수 또한 증가하는 단점이 생..
-
데이터과학을 위한 통계 리뷰 - 14일차 (회귀분석2,교차타당성검사,k-fold,단계적 회귀분석,후진적 제거,전진적 선택,단계적 선택,RidgeMachine Learning/데이터과학을 위한 통계 2021. 3. 14. 20:49
4.2.3 교차타당성검사단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는지 보여주는 것 k-fold 란?- K개의 fold를 만들어서 교차검증을 진행Train set/Test set을 나눠서 학습과 검증을 진행하고, 번갈아가면서 학습셋이 테스트셋이 되면서 과적합을 방지하기 위함 데이터의 갯수가 적어도 정확도를 향상시킬 수 있습니다. Iris 데이터와 최근접 이웃(KNeighbors)을 사용하고,K-fold 를 이용해서 데이터를 학습하는 과정 단일 관측지 제거 방식 LOOCV는 n개의 데이터에서 1개를 Test Set으로 정하고 나머지 n-1개의 데이터로 모델링을 하는 방법을 의미합니다. LOOCV 방법은 데이터 수 즉, n이 크다면, n번의 모델링을 진행해야함시간이 오래 소요됨회귀..
-
데이터과학을 위한 통계 리뷰 - 13일차 (회귀와 예측,적합값과 잔차,최소제곱,다중회귀분석,OLS,RMSE,MSE,MAE,RMSLE)Machine Learning/데이터과학을 위한 통계 2021. 3. 13. 22:42
4. 회귀와 예측단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는 지 보여주는 것 아들의 키와 아버지 키의 점그래프(scatter plot) 두개의 데이터는 선형관계를 알 수 있습니다.아버지의 키가 클수록 아들의 키도 커지는 것으로 확인됩니다. x 변수만으로 Y를 100% 표현 (오차항 없음) x 변수와 오차항이 Y를 표현 (오차항 있음) 우리가 머신러닝을 통해서 회귀식을 알려고 하면 기본적인 회귀식을 알고 있어야 합니다. 기본적인 회귀식은 y = x*w+b 식입니다.(독립변수*가중치)+바이어스 이 식은 추후에 딥러닝으로 넘어가서도 Keras의 Dense class와 동일한 작용을 합니다.물론 행렬식으로 적용되기에 이런 간단한 식하고는 조금 차이가 있습니다. 다변량 데이터 예시 대..
-
데이터과학을 위한 통계 리뷰 - 12일차 (복습과정,예제문제,분포)Machine Learning/데이터과학을 위한 통계 2021. 3. 12. 11:35
실제 p값 구하기 모의 실험 - 1 1개 표본 : 동전을 80번 돌렸을 때 앞면이 나올 확률 -> 125개 표본 추출 모의 실험 - 2 F통계량 예제 (ANOVA (ANalysis Of VAriance; 분산 분석)분산분석 3가지 조건정규성 : 각각의 그룹에서 변인은 정규분포.분산의 동질성 : Y의 모집단 분산은 각각의 모집단에서 동일.관찰의 독립성: 각각의 모집단에서 크기가 각각인 표본들이 독립적으로 표집. 파이썬에서 One-way ANOVA 분석은 scipy.stats이나 statsmodel 라이브러리를 이용해서 할 수 있습니다. 일원분산분석(One-way ANOVA)종속변인은 1개이며, 독립변인의 집단도 1개인 경우. 한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용됩니다. 22명의 ..
-
데이터과학을 위한 통계 리뷰 - 11일차 (복습과정,p값,Paired Sample t-test,ANOVA)Machine Learning/데이터과학을 위한 통계 2021. 3. 11. 12:46
복습과정입니다. 3.4 p값통계적 유의성을 정확히 측정하기 위한 지표(귀무가설이 맞다는 전제하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률) P값(p-value) 이란? 유의 확률의 의미 P값의 오해 Paired Sample t-test 독립표본 그룹을 두개로 나눠서 평균의 차이를 보는 것, Paired는 한사람을 두번 측정해서 뽑는것 각 사람별로 평균의 차이를 보는것 ANOVA (ANalysis Of VAriance; 분산 분석)일원분산분석(One-way ANOVA)종속변인은 1개이며, 독립변인의 집단도 1개인 경우. 한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용됩니다. ANOVA 분석의 문제는 다르다는 것은 알지만, 어떤 집단간의 차이가 있는지는 ..
-
데이터과학을 위한 통계 리뷰 - 10일차 (검정통계량,Z-value,T-value,F-value,chi square,카이제곱검정,분류평가)Machine Learning/데이터과학을 위한 통계 2021. 3. 10. 14:35
검정 통계량(복습) Z-value T-value F-value X^2(chi square) 3.5. T통계량 = T-value 표본 평균 차이의 통계적 지표F-value 와의 차이는 그룹 간 차이 정도와 불확실도를 약간 변형한다.예) 분모 : 두 표본그룹의 평균간 차이의 불확실도 -> F- value : 표본 내에서 퍼진 정도 F-value와 T-value의 차이점 3.5 T검정모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 측정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법 예시) 전통적 교수법과 새 교수법에 의한 학업성취도 차이를 유의수준 0.05에서 검정 3.5 T검정-2 3.9 카이제곱검정•카이제곱 분포에 기초한 통계적 방법•관찰된 빈도가 기대되는 빈도와 “..
-
데이터과학을 위한 통계 리뷰 - 9일차 (복습포함,F-value,귀무가설,대립가설,멀티암드 밴딧,greedy Algorithm)Machine Learning/데이터과학을 위한 통계 2021. 3. 9. 17:52
복습내용이 많습니다.ANOVA등 3.10 멀티암드 밴딧 (Multi-Armed Bandit : MAB ) Exploration : 이미 알고 있는 최적의 방안을 얻었음에도 어느 정도 틀릴 수 있다는 여지를 두고 계속해서 실험하는 것Exploitation : 최적의 방안을 얻고나서 이를 계속 채택하여 최대의 이익(reward)을 창출하는 것 강화학습(Reinforcement Learning)은 머신러닝의 한 분야로 사람처럼 환경과 상호작용하면서 스스로 학습하는 방식을 의미합니다. 강화학습은 자신의 행동 결과인 보상을 많이 얻기 위해 학습을 진행합니다. Greedy algorithm 예시 greedy = 탐욕적인알고있는 지식을 총 동원해서 사용하는 기법이라고 생각하면 편합니다. greedy algorithm..