Machine Learning/데이터과학을 위한 통계

데이터과학을 위한 통계 리뷰- 5일차 (QQ plot,긴꼬리분포,t-분포,이항분포,푸아송 분포, 지수분포,고장률 추정,와이블 분포)

Joon09 2021. 3. 5. 16:15
반응형

2.6.1 QQ plot (quantile-quantile Plot )

x축에는 Theoretical-Quantile 을, y축에는 획득된 샘플 값의 Empirical-Quantile (Z 점수) 을  표시

• 이론과 실제가 얼마나 차이나는지를 쉽게 표현하기 위한 Plot 

 

 

Quantile 은 분위수라는 개념인데, 데이터들을 정렬한 뒤에 몇 등분으로 나눌 수 결정하고, 나눠진 등분을 구분하는 구분자를 찾는 개념


2.7 긴꼬리분포

데이터는 일반적으로 정규분포를 따르지 않는다(적은수의 극단값이 주로 존해하는 tail 을 갖음)

 

 

정규분포와 밀접한 관계 (일반적 – 왜도의 기준은 “0”)

Data의 평균의 경향 => 왜도,  표준편차의 경향 => 첨도

 

 


2.8 스튜던트의 t 분포

 

 

1. t 분포 = 연속확률분포이면서 표본분포로, 정규분포와 유사하게 생긴 t(평균)=0에서 좌우대칭을 이루는 분포

2. x축은 z점수, y축은 값

3. 분포의 모양을 결정하는 건 자유도이며, 자유도가 커질수록 표준정규분포에 가깝게 됨

 

 

t분포는 언제 사용을 할까요?

1.표본평균

2.두 표본평균 간 차이

3.회귀 파라미터

4.그 외 다른 통계량들의 분포를 구할 때

 

정규분포와 비슷하지만, 꼬리 부분이 약간 더 두껍고 길다.

표본의 크기가 크지 않으면 편향될 가능성이 있고, 신뢰도도 떨어진다.

그 대응책으로 예측 범위를 넓히기 위해 꼬리 부분을 조금 더 길고 두껍게 한 것.

표본이 커질수록 더 정규분포를 닮은 t 분포가 형성된다.

 

정리

 

 

표준화된 여러 통계 자료를 t 분포와 비교하여 신뢰구간을 추정할 수 있다.

* t 분포로 신뢰구간을 추정하고 가설검정을 할 때 t 값을 알아야 하는데, t값은 그래프의 x축 좌표

t값은 보통 't분포표'를 사용해서 구함.

a = 유의확률, n = 표본크기

1.T분포 정리 + 식

https://blog.naver.com/PostView.nhn?blogId=antifatekr&logNo=221061029807&proxyReferer=https:%2F%2Fwww.google.com%2F

: t분포 추정 예시

https://blog.naver.com/PostView.nhn?blogId=gdpresent&logNo=221138172138&proxyReferer=https:%2F%2Fwww.google.com%2F

: t분포 보는 법 + 개념

 


이항분포

용어

내용

시행(trial)

독립된 결과를 가져오는 하나의 사건(: 동전던지기)

성공(success)

시행에 대한 관심의 결과 (유의어: 1. 0에 대한 반대)

이항식(binomial)

두 가지 결과를 갖는다.(유의어: /아니오, 0/1, 이진

이항시행(binomial trial)

두 가지 결과를 가져오는 시행 (유의어 : 베르누이 시행)

이항분포

(binomial distribution)

X번 시행에서 성공한 횟수에 대한 분포

(유의어 : 베르누이 분포)

 

 

Ex) 우리의 목표를 학생이 수능 시험을 봤을 때 어떤 성적을 받을지 예측하는 것으로 해봅니다.

변수는 (모의) 수능 시험 성적입니다.

그리고 데이터는 실제로 변수에서 관측된 값입니다. (0점 ~ 400점)

우리는 모의 수능 시험 성적(데이터들)을 토대로 수능 시험 성적(변수)가 얼마가 나올지 예측할 수 있습니다.

 

 


2.10 푸아송 분포, 지수분포

•푸아송 분포 : 단위시간, 단위 공간에 어떤 사건이 몇 번 발생할 것인가를 표현하는 이산확률분포

극히 일어나지 않는 사건들의 일어날 확률을 구할때 사용

 

 

•Ex) 한 주에 고장 나는 횟수의 평균값이 3.4인 팝콘 기계가 있다. 기계가 3번 고장 날 확률?

 

 

#Python code
import numpy as np
np.random.poisson(lam=5, size=10000)

•지수분포 : 사건과 사건사이의 경과된 시간에 대한 분포, 다음 사건이 일어날 때 까지 대기시간

 

 

•Ex) 어느 회사에서 판매하는 전자제품의 평균수명은 3년, 보증기간은 1년이라고 한다. 그럼 이 전자제품이 1년 이내에 고장 나서, 보상받을 확률?

 

 

#Python code
import numpy as np
np.random.exponential(0.5, 10000)


2.10.3 고장률 추정

고장률(Failure rate)

: 공학 시스템이나 소자가 얼마나 자주 고장이 나는지를 측정하는 척도 (λ)

신뢰도 : R(t)

일정 시간 t 시점에서 동작하고 있는 Item의 비율

R(t) = (n(t))/N

n(t) : t 시점에서 동작하고 있는 수

N : 총 Item의 수

불신뢰도 : F(t)

일정 시간 t 시점에서 고장난 Item의 비율(누적고장확률)

F(t) = 1 - R(t) = 1 - (n(t))/N = (N - n(t))/N

R(t) + F(t) = 1

① t = 0 일 때, F(0) = 0, R(0) = 1

② t = ∞ 일 때, F(∞) = 1, R(∞) = 0

 

고장확률밀도함수 : f(t)

수명(고장시간)분포의 확률밀도함수

t시점과 t + ∆t 사이에서 발생한 구간 고장비율을 ∆t로 나눈 단위시간당 고장비율

 

 

고장률함수 : λ(t)

t 시점의 순간고장률

 

 

 

문제 예시

N = 90, 시험시간 = 6시간

동작시간

고장 수

동작 수

0~1

4

86

1~2

21

65

2~3

30

35

3~4

25

10

4~5

8

2

5~6

2

0

t=2에서 고장률은?

 

 


2.10.4 와이블 분포

와이블 분포(Weibull distribution)

: 사건 발생률(λ)가 일정한 지수분포와는 달리, 사건 발생률이 시간에 따라 변화하는 분포

 

 

 

반응형