데이터과학을 위한 통계
-
데이터과학을 위한 통계 리뷰- 5일차 (QQ plot,긴꼬리분포,t-분포,이항분포,푸아송 분포, 지수분포,고장률 추정,와이블 분포)Machine Learning/데이터과학을 위한 통계 2021. 3. 5. 16:15
2.6.1 QQ plot (quantile-quantile Plot )x축에는 Theoretical-Quantile 을, y축에는 획득된 샘플 값의 Empirical-Quantile (Z 점수) 을 표시• 이론과 실제가 얼마나 차이나는지를 쉽게 표현하기 위한 Plot Quantile 은 분위수라는 개념인데, 데이터들을 정렬한 뒤에 몇 등분으로 나눌 수 결정하고, 나눠진 등분을 구분하는 구분자를 찾는 개념2.7 긴꼬리분포데이터는 일반적으로 정규분포를 따르지 않는다(적은수의 극단값이 주로 존해하는 tail 을 갖음) 정규분포와 밀접한 관계 (일반적 – 왜도의 기준은 “0”)Data의 평균의 경향 => 왜도, 표준편차의 경향 => 첨도 2.8 스튜던트의 t 분포 1. t 분포 = 연속확률분포이면서 표본분포로,..
-
데이터과학을 위한 통계 리뷰 - 4일차 (표본분포,중심극한정리,Z점수,부트스트랩,신뢰구간,정규분포,재표본추출,표준오차)Machine Learning/데이터과학을 위한 통계 2021. 3. 4. 16:56
2.2.1 평균으로의 회귀주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상(평균 회귀, 회귀 효과) 극단적이거나 이례적인 결과는 많은 자료를 토대로 할 때 결국 평균에 가깝게 되돌아오는 경향을 보인다.키가 큰 부모가 키가 큰 자녀를 낳는 것은 분명하지만 평균보다 키가 큰 아버지의 아들은 아버지보다 키가 작은 경향 (기울기가 더 작음)평균보다 키가 작은 아버지의 아들은 아버지보다 키가 큰 경향 (평균을 중심으로 달라짐)특정 행동을 여러 차례 반복하면 극단적인 결과가 나오더라도 결국 중심으로 회귀한다.2.3 통계학에서의 표본분포표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포 표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포 표본평균의 분포는 ..
-
데이터과학을 위한 통계 리뷰 - 3일차 (범주형,다변수,랜덤표본추출,편향)Machine Learning/데이터과학을 위한 통계 2021. 3. 3. 22:35
시각화 관련 및 표본 추출 관련 내용입니다.1.8.2 범주형 변수 대 범주형 변수분할표란? 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로, 두 변수가 모두 범주형에 속할 때, 도수분포표를 2차원으로 확장한 형태로 요약할 수 있다.엑셀 = 피봇테이블. R = CrossTable()함수 데이터로 예시-상자그림 : 범주형 변수에 따라 분류된 수치형 변수의 분포를 시각화공항 지연 통계 (교통 통계국)arr_del15 : 지연된 비행 횟수 (> = 15 분 늦음).carrier_ct : 항공기로 인해 지연된 항공편 수.weather_ct : 날씨로 인해 지연된 항공편 수.nas_ct : 국가 항공 시스템으로 인해 지연된 항공편 수security_ct : 보안으로 인해 지연된 항공편 수 장점 : 데이터..
-
데이터과학을 위한 통계 리뷰 - 2일차 (변이추정,백분위수,히스토그램,밀도추정,상관관계)Machine Learning/데이터과학을 위한 통계 2021. 3. 2. 19:25
1.4 변이추정•1일차 정리 산포도 dispersion: 정렬된 데이터가 얼마나 퍼져 있는지 보는 것.•변이를 추정하는 또다른 접근법순서통계량(order statistic): 정렬된 데이터를 나타내는 통계량범위(range): 가장 기본이 되는 측도로 가장 큰 값과 가장 작은 값의 차이 (Max - Min)최솟값과 최댓값은 이상점을 분석하는 데 도움, 특잇값에 매우 민감하여 데이터의 산포 측정에 유용하지는 않음 백분위수 사이의 차이를 가지고 추정합니다. 백분위수 (percentile) : 값들로 이루어진 데이터를 순서대로 나열했을 때 위치를 백분율로 나타낸 값일반적으로 크기가 가장 작은 것부터 나열하여 가장 작은 것을 0, 가장 큰 것을 100으로 합니다.데이터에서 P번째 백분위수는 P퍼센트 분위수(qua..
-
데이터과학을 위한 통계 리뷰 - 1일차 (탐색적 데이터 분석,분산,편차)Machine Learning/데이터과학을 위한 통계 2021. 3. 1. 14:52
스터디 했던 내용을 바탕으로 재작성 되었습니다.중요하지 않은 부분은 생략했습니다. Chapter 1. 탐색적 데이터 분석 (Exploratory data analysis)(전)통계학 - 추론 : 적은 표본을 가지고 더 큰 모집단에 대한 결론을 도출하기 위한 일련의 복잡한 과정Tukey, John W. “ The Future Of Data Analysis"(1962) (후)통계학 - 통계를 공학과 컴퓨터 과학분야에 접목시킴탐색적 데이터 분석 분야 정립 :Tukey, John W. “Exploratory data analysis "(1977) Exploratory data analysis is detective work 1.1정형화된 데이터의 요소-통계적 개념들을 활용하기 위해 가공되지 않은 데이터를 활용 ..