Machine Learning/데이터과학을 위한 통계
-
데이터과학을 위한 통계 리뷰 - 8일차 (F통계량 & ANOVA, 카이제곱검정,데이터 과학과의 관련성,피셔의 정확검정)Machine Learning/데이터과학을 위한 통계 2021. 3. 8. 18:44
3.8.1 F통계량 & ANOVA 분산분석(Analysis of Variance, ANOVA) 1. One-way-ANOVA 일원배치분산분석 2. F통계량 3. Two-way-ANOVA 이원배치분산분석 3.8.1 F통계량책 : 잔차 오차로 인한 분산과 그룹 평균의 분산에 대한 비율 F통계량 = F-value 차이 / 불확실도 표본 평균 차이의 통계적 지표(즉, 본래적으로 T-value와 완전히 같은 의미) T-value 와의 차이는 그룹 간 차이 정도와 불확실도를 약간 변형한다. 예) 분모 : 두 표본그룹의 평균간 차이의 불확실도 -> 표본 내에서 퍼진 정도F-value는 계산한 ‘분산’ 의 비율을 척도로 이용한다. 표본 집단의 그룹 간 평균의 표준 편차란, 표본 평균의 표준편차, 즉, 표준 오차를 의미..
-
데이터과학을 위한 통계 리뷰 - 7일차 (p값,t-test,다중검정,자유도,분산분석)Machine Learning/데이터과학을 위한 통계 2021. 3. 7. 22:17
3.4.1 p값통계적 유의성을 정확히 측정하기 위한 지표(귀무가설이 맞다는 전제하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률) p-value가 너무 낮으면, 그렇게 낮은 확률의 사건이 실제로 일어났다고 생각하기 보다는 귀무가설이 틀렸다고 생각하게 된다. 예) 실제로 가능한 m(평균)의 분포가 위와 같을 때, 내가 구한 평균이 m2 라면 p-value가 매우 작다.동엽님의 예제대로 희박한 일이 실제로 일어났다고 하기 보다는 분포를 가져온 가설(귀무가설)이 잘못됐다 판단. 만약 대립가설이 사실이라면 귀무가설을 기각하고,대립가설이 거짓이라면 귀무가설을 채택한다 라고 결론을 낸다.귀무가설이 사실인데 기각시 = 1종 오류귀무가설이 거짓인데 채택시 = 2종 오류 P값은 정해진 ..
-
데이터과학을 위한 통계 리뷰 - 6일차 (A/B 검정,가설검정(유의성 검정),귀무가설,대립가설,재표본추출,순열검정,통계적유의성,1종오류,2종오류Machine Learning/데이터과학을 위한 통계 2021. 3. 6. 10:16
3. 통계적 실험과 유의성 검정3.1 A/B 검정 디자인에서 A/B 테스트 전체 디자인에서 한가지 요소만 변경 ( UI레이아웃/ 이미지 / 검색결과 /feature 등)두가지 버전으로 실험해서 더 나는 것을 판별하는 기법 “새로운 디자인 시안 A와 B중 어느 것이 브랜드 이미지 제고에 도움이 될까?”“홈페이지 메인 이미지를 왼쪽/오른쪽, 어느 쪽에 위치하게 하는 것이 좋을까?”“구매 버튼의 색은 빨강/파랑? 어느 것이 구매를 촉진시킬까?” 상품을 구매하는 데 결정적인 영향을 끼치는 것으로 광고 No, 상품 No, 바로 지인의추천페이지는 구매와 상관이 없는 페이지임에도 불구하고 구매, 결제와 연관성 높은 TRUSTe 이미지를 게재함으로서, 신청양식에 온 방문자들은 결제, 대가를 지불해야 하는 느낌이 들어 ..
-
데이터과학을 위한 통계 리뷰- 5일차 (QQ plot,긴꼬리분포,t-분포,이항분포,푸아송 분포, 지수분포,고장률 추정,와이블 분포)Machine Learning/데이터과학을 위한 통계 2021. 3. 5. 16:15
2.6.1 QQ plot (quantile-quantile Plot )x축에는 Theoretical-Quantile 을, y축에는 획득된 샘플 값의 Empirical-Quantile (Z 점수) 을 표시• 이론과 실제가 얼마나 차이나는지를 쉽게 표현하기 위한 Plot Quantile 은 분위수라는 개념인데, 데이터들을 정렬한 뒤에 몇 등분으로 나눌 수 결정하고, 나눠진 등분을 구분하는 구분자를 찾는 개념2.7 긴꼬리분포데이터는 일반적으로 정규분포를 따르지 않는다(적은수의 극단값이 주로 존해하는 tail 을 갖음) 정규분포와 밀접한 관계 (일반적 – 왜도의 기준은 “0”)Data의 평균의 경향 => 왜도, 표준편차의 경향 => 첨도 2.8 스튜던트의 t 분포 1. t 분포 = 연속확률분포이면서 표본분포로,..
-
데이터과학을 위한 통계 리뷰 - 4일차 (표본분포,중심극한정리,Z점수,부트스트랩,신뢰구간,정규분포,재표본추출,표준오차)Machine Learning/데이터과학을 위한 통계 2021. 3. 4. 16:56
2.2.1 평균으로의 회귀주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상(평균 회귀, 회귀 효과) 극단적이거나 이례적인 결과는 많은 자료를 토대로 할 때 결국 평균에 가깝게 되돌아오는 경향을 보인다.키가 큰 부모가 키가 큰 자녀를 낳는 것은 분명하지만 평균보다 키가 큰 아버지의 아들은 아버지보다 키가 작은 경향 (기울기가 더 작음)평균보다 키가 작은 아버지의 아들은 아버지보다 키가 큰 경향 (평균을 중심으로 달라짐)특정 행동을 여러 차례 반복하면 극단적인 결과가 나오더라도 결국 중심으로 회귀한다.2.3 통계학에서의 표본분포표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포 표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포 표본평균의 분포는 ..
-
데이터과학을 위한 통계 리뷰 - 3일차 (범주형,다변수,랜덤표본추출,편향)Machine Learning/데이터과학을 위한 통계 2021. 3. 3. 22:35
시각화 관련 및 표본 추출 관련 내용입니다.1.8.2 범주형 변수 대 범주형 변수분할표란? 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로, 두 변수가 모두 범주형에 속할 때, 도수분포표를 2차원으로 확장한 형태로 요약할 수 있다.엑셀 = 피봇테이블. R = CrossTable()함수 데이터로 예시-상자그림 : 범주형 변수에 따라 분류된 수치형 변수의 분포를 시각화공항 지연 통계 (교통 통계국)arr_del15 : 지연된 비행 횟수 (> = 15 분 늦음).carrier_ct : 항공기로 인해 지연된 항공편 수.weather_ct : 날씨로 인해 지연된 항공편 수.nas_ct : 국가 항공 시스템으로 인해 지연된 항공편 수security_ct : 보안으로 인해 지연된 항공편 수 장점 : 데이터..
-
데이터과학을 위한 통계 리뷰 - 2일차 (변이추정,백분위수,히스토그램,밀도추정,상관관계)Machine Learning/데이터과학을 위한 통계 2021. 3. 2. 19:25
1.4 변이추정•1일차 정리 산포도 dispersion: 정렬된 데이터가 얼마나 퍼져 있는지 보는 것.•변이를 추정하는 또다른 접근법순서통계량(order statistic): 정렬된 데이터를 나타내는 통계량범위(range): 가장 기본이 되는 측도로 가장 큰 값과 가장 작은 값의 차이 (Max - Min)최솟값과 최댓값은 이상점을 분석하는 데 도움, 특잇값에 매우 민감하여 데이터의 산포 측정에 유용하지는 않음 백분위수 사이의 차이를 가지고 추정합니다. 백분위수 (percentile) : 값들로 이루어진 데이터를 순서대로 나열했을 때 위치를 백분율로 나타낸 값일반적으로 크기가 가장 작은 것부터 나열하여 가장 작은 것을 0, 가장 큰 것을 100으로 합니다.데이터에서 P번째 백분위수는 P퍼센트 분위수(qua..
-
데이터과학을 위한 통계 리뷰 - 1일차 (탐색적 데이터 분석,분산,편차)Machine Learning/데이터과학을 위한 통계 2021. 3. 1. 14:52
스터디 했던 내용을 바탕으로 재작성 되었습니다.중요하지 않은 부분은 생략했습니다. Chapter 1. 탐색적 데이터 분석 (Exploratory data analysis)(전)통계학 - 추론 : 적은 표본을 가지고 더 큰 모집단에 대한 결론을 도출하기 위한 일련의 복잡한 과정Tukey, John W. “ The Future Of Data Analysis"(1962) (후)통계학 - 통계를 공학과 컴퓨터 과학분야에 접목시킴탐색적 데이터 분석 분야 정립 :Tukey, John W. “Exploratory data analysis "(1977) Exploratory data analysis is detective work 1.1정형화된 데이터의 요소-통계적 개념들을 활용하기 위해 가공되지 않은 데이터를 활용 ..