ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터과학을 위한 통계 리뷰 - 4일차 (표본분포,중심극한정리,Z점수,부트스트랩,신뢰구간,정규분포,재표본추출,표준오차)
    Machine Learning/데이터과학을 위한 통계 2021. 3. 4. 16:56
    반응형

    2.2.1 평균으로의 회귀

    주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상

    (평균 회귀, 회귀 효과)

     

    http://thesciencelife.com/archives/3324 프랜시스 골턴, 위대하고 위험한 분류자

     

    극단적이거나 이례적인 결과는 많은 자료를 토대로 할 때 결국 평균에 가깝게 되돌아오는 경향을 보인다.

    키가 큰 부모가 키가 큰 자녀를 낳는 것은 분명하지만 평균보다 키가 큰 아버지의 아들은 아버지보다 키가 작은 경향 (기울기가 더 작음)

    평균보다 키가 작은 아버지의 아들은 아버지보다 키가 큰 경향 (평균을 중심으로 달라짐)

    특정 행동을 여러 차례 반복하면 극단적인 결과가 나오더라도 결국 중심으로 회귀한다.


    2.3 통계학에서의 표본분포

    표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포

     

     

    표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포

     

     

    표본평균의 분포는 모집단평균 분포에 비해 좁고 종 모양을 보이며정규분포를 따르게 된다.

     

     

     

    python에서 표본 추출

    np.random.permutation()
    Series.sample() / DataFrame.sample(n=추출샘플수, replace=False)

     

     

    N=5  5개의 row를  random하게 return 해준다.

    n 대신 frac을 입력하면 전체 row에서 몇%의 데이터를 return할 것인지 정할 수 있다.

    단, frac을 이용하면 전체 데이터의 shuffling도 해볼 수 있다.


    2.3.1 중심극한정리

    모집단이 [ 평균이 μ이고 표준편차가 ∂인 임의의 분포 ]를 이룬다고 할 때 이 모집단으로부터 추출된 표본의 크기 N이 충분히 크다면,

    표본 평균들이 이루는 분포는 [평균이 μ이고 표준편차가 ∂ / √n  인 정규분포] 에 근접한다.

     

     

    표본의 크기가 커질수록 표본 평균들이 이루는 분포가 모집단의 평균 μ, 표준편차가 ∂ / √n  인 정규분포에 가까워진다는 정리

    * 일반적으로 N >= 30

     

    중요한 이유는 표본 수집을 기반으로 한 추리통계에서 아주 중요한 이론적 근거를 제시하고 있기 때문입니다.

    모집단이 [ 평균이 u이고 표준편차가 시그마인 임의의 분포 ]를 이룬다고 할 때, 이 모집단으로부터 추출된 표본의

    "표본의 크기 n이 충분히 크다"면 표본 평균들이 이루는 분포는 [ 평균이 u이고 표준편차가 a/루트 n인 정규분포 ] 에 근접한다.

    중심극한정리에서의 표본평균분포란, "모집단에서 표본크기가 n인 표본을 여러 번 추출했을 때, 각각의 표본 평균들이 이루는 분포"이다.

    ex) 모집단(n= 30)에서 여러번 추출(200번), 각각의 표본(x1(n=30),x2(n=30),x3(n=30) ...)

    * 표본의 크기가 커질수록 (보통 30 이상), 표본 평균들이 이루는 분포가 모집단의 평균 u, 그리고 표준편차가 시그마/루트 n인 정규분포에 가까워진다는 정리

     

     

     

    그렇다면 왜 중요할까?

    : 표본 수집을 기반으로 한 추리통계에서 아주 중요한 이론적 근거를 제시하고 있기 때문.

    표본의 크기가 충분히 크다면 표본평균들의 분포가 모집단의 모수를 기반으로 한 정규분포를 이룬다는 점을 이용하여, 특정 사건이 일어날 확률값을 계산할 수 있게 된다.

    Þ표본 평균들이 이루는 표본 분포와 모집단 간의 관계를 증명함으로써, 수집한 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 수학적(확률적) 근거를 마련해 줌

    https://drhongdatanote.tistory.com/57



    2.3.2 표준오차 : 표본 분포의 표준 편차

    통계에 대한 표본분포의 변동성을 한 마디로 말해주는 단일 측정 지표

    표본 값들의 표준편차 s와 표본크기 n을 기반으로 한 통계량을 이용하여 추정 가능

     

     

    표본크기(N)가 커지면 표준오차가 줄어든다. 이 관계는 ‘n제곱근의 법칙’이라고 한다.

     

     

    표준오차 측정 시 고려사항

     

     

    * 표준오차 = 표본 간의 변동성을 측정함.

    * 평균의 표준 오차를 사용하여 표본의 평균이 모평균을 얼마나 정확하게 추정하는지 확인할 수 있습니다.

    * 일반적으로, 표준편차가 클수록 평균의 표준 오차가 더 크고 추정치가 덜 정확합니다. 표본크기가 클수록 평균의 표준 오차가 더 작고 추정치가 더 정확하게 됩니다.

    •표준오차가 줄어든다. = 추정치가 더 정확하게 계산된다.

    출처 : https://goodtogreate.tistory.com/entry/%ED%91%9C%EC%A4%80%EC%98%A4%EC%B0%A8-Standard-Error

     

    •표준편차 : (변량-평균)의 제곱의 평균에 루트를 씌운 값 : 개별 데이터 포인트의 변동성 측정

    •표준오차 : (추정값-참값)의 제곱의 평균에 루트를 씌운 값 : 표본 측정 지표의 변동성 측정

     

    * 주의할점

     

     

    새 샘플을 수집하는 접근 방식은 일반적으로 불가능하고, 통계적으로도 낭비가 심하다.

    이런 접근 방식을 사용하지 않아도 된다는 것이 밝혀졌고, 이는 부트스트랩 재표본으로 사용할 수 있다.


    2.4 부트스트랩

    부트스트랩 표본 : 관측 데이터의 집합으로 부터 얻은 샘플을 복원추출하여 표본으로 사용

     

     

    변수는 (모의) 수능 시험 성적입니다.

    그리고 데이터는 실제로 변수에서 관측된 값이지요. (0점 ~ 400점)

    우리는 모의 수능 시험 성적(데이터들)을 토대로 수능 시험 성적(변수)가 얼마가 나올지 예측할 수 있습니다.

    재표본추출 대 스트래핑


    재표집
    (재표본추출리샘플링) : 관측 데이터로부터 반복해서 표본추출하는 과정부트스트랩과 순열 과정을 포함한다.

     

     


    신뢰구간

    •신뢰구간 : 모수가 실제로 포함될 것으로 예측되는 범위

    •신뢰수준 : 신뢰구간에 포함될 확률

     

    Z점수 : 평균값에서 표준편차의 몇배

    정도 떨어져 있다는 것을 평가하는 수치

     

     

    •표준오차 사용 이유 : 표준오차는 추정치의 정확도를 알려주는 값. 표준오차가 작을 수록 추정치가 더욱 정밀하다는 것을 의미한다.

    신뢰구간이란 모수가 실제로 포함될 것으로 예측되는 범위라고 하는데 간단하게 어디부터 어디까지 신뢰구간이라고 할 수 있고, 신뢰수준은 모수가 신뢰구간에 포함될 활률이 신뢰 수준이라고 한다.

    신뢰구간을 구하는 이유 : 모집단의 평균을 추정하는데 표본평균이 어느 정도로 신뢰할 수 있는지 알아보기 위해

    신뢰구간을 구하는 공식은 표본평균 플러스 마이너스 z점수 곱하기 표본오차입니다.

    신뢰수준이 높을 수록 구간이 더 넓어진다.

    표본이 클 수록 구간이 좁아진다(확실성이 커진다.)


    2.6 정규분포

    정규분포(Normal distribution) : 좌우대칭의 종 모양으로 생긴 분포

    정규분포의 특징

    -평균 = 최빈값 = 중앙값

    -평균(μ)를 기준으로 좌우 대칭

    -평균과 표준편차(σ)의 크기에 따라 모양이 달라짐(가우스 분포)

     

     

    평균과 표준편차가 서로 다른 정규분포 비교

    -> 두 정규 분포를 표준화

     

     

    표준 정규분포(Standard normal distribution)

    -정규분포의 평균(μ )을 0, 표준편차(σ )를 1로 만든 분포

    -x축의 단위가 평균의 표준편차

     

    표준 정규분포로 변환하는 척도 : Z-점수(Z-score)

     

     

    -분자 : 개별 데이터가 평균으로부터 얼마나 떨어져 있는가?

    -분모 : 떨어진 정도가 표준편차의 몇 배 정도 인가?

     

     

    Z-점수

    -정규 분포의 확률밀도함수를 통해

    -Z 점수에 따라 전체 데이터 속에서 위치와 확률을 알 수 있음

     

     


    2.6.1 표준정규분포와 QQ그림

    Q-Q 그림(Quantile-Quantile plot)

    -데이터가 정규 분포인지 아닌지 시각적으로 간단하게 확인하는 방법

    -X축은 정규분포의 해당 분위수, y축은 z점수

    -y = x 그래프 위에 위치할 수록 정규분포를 보임

    -파이썬에서 scipy의 probplot을 이용하여 작성

     

     

    반응형
Designed by Tistory.