ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터과학을 위한 통계 리뷰 - 14일차 (회귀분석2,교차타당성검사,k-fold,단계적 회귀분석,후진적 제거,전진적 선택,단계적 선택,Ridge
    Machine Learning/데이터과학을 위한 통계 2021. 3. 14. 20:49
    반응형

     

    4.2.3 교차타당성검사

    단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는지 보여주는 것

     

     

     

    k-fold 란?

    - K개의 fold를 만들어서 교차검증을 진행

    Train set/Test set을 나눠서 학습과 검증을 진행하고, 번갈아가면서 학습셋이 테스트셋이 되면서 과적합을 방지하기 위함

     

    데이터의 갯수가 적어도 정확도를 향상시킬 수 있습니다.

     

     

     

     

    Iris 데이터와 최근접 이웃(KNeighbors)을 사용하고,

    K-fold 를 이용해서 데이터를 학습하는 과정

     

     

     

    단일 관측지 제거 방식

     

     

     

    LOOCV는 n개의 데이터에서 1개를 Test Set으로 정하고 나머지 n-1개의 데이터로 모델링을 하는 방법을 의미합니다.

     

     

     

    • LOOCV 방법은 데이터 수 즉, n이 크다면, n번의 모델링을 진행해야함
    • 시간이 오래 소요됨
    • 회귀,분류모형 등에 전 분야에 적용 가능함(데이터의 유형은 상관없음)

     

     



    예측변수 선택

     

     


    Stepwise Regression

    단계적 회귀분석

     

    최적의 계수 추정

    LSE (least squares estimator:최소제곱추정) = OLS (ordinary least squares) 을 이용해서 각 예측변수의

    계수를 검정하여 의미 있는 예측 변수를 선정

     

    단계별 회귀분석

    예측인자를 모형에 삽입, 제거하는 과정을 반복하여 가장 좋은 예측 변수를 추출

     

     

     

    P값이 유의수준에 들어가는지 확인하여 유의한 예측인자 추출하고,

    유의한 예측인자만으로 회귀분석 실시

     

     

     

     

    후진적 제거(Backward elimination)

    - 모든 변수를 다 선택한 상태에서 시작

    - 유의성 없는 변수를 제거하는 작업을 반복함

     

     

    전진적 선택 (Forward selection)

    - 아무것도 선택하지 않은 상태에서 시작

    - 유의성 있는 변수를 선택하는 작업을 반복

     

     

    단계적 선택 (Stepwise selection)

    - 아무것도 선택하지 않은 상태에서 시작

    - 변수 선택과 변수 제거를 반복적으로 시행

     

     

     


    Penalized Regression

    벌점 회귀분석

    결과 값으로 나온 값에 제약을 주어서 좀 더 타이트하게 값이 나오게끔 하는 방법

     

    일반적으로 사용되는 Ridge와 LASSO가 있습니다.

    두개의 차이점은 Ridge는 Beta 값에 절대 값을 취한 뒤 제곱을 해주면 Ridge가 되고, 제곱을 안 하면 Lasso가 됩니다.

     

     

     

     


    4.2.5 가중회귀

    : 잔차의 분산이 일정하다는 최소제곱법 가정이 어긋나는 경우(이분산성) 사용할 수 있는 방법

    * 생략된 변수에 의해 이분산성이 유발되는 경우 => 가중 회귀 X

     

    선형 회귀 :

     

     

    가중회귀란?

    •일반 선형회귀보다 조금 더 유연하다.

          : 최소제곱법에 기반하지만 잔차에 가중치를 적용한 제곱 값을 최소로 하는 기법

          => 가중치를 어떻게 적용하느냐에 따라서 결과가 다양해질 수 있음

    •가중 최소제곱법 > 일반 최소제곱법 ?  X

         : 단지 특수한 상황에서 이런 가중회귀가 더 정확하기 떄문에 사용하는 것 뿐

     

     

    가중치

    : 이상적인 가중치 = 해당 관측치의 분산의 역수

     

    분산이 큰 잔차 = 잔차제곱합을 결정하는데 많은 역할 X

    분산이 작은 잔차 = 많은 역할 O

     

     

     

    하지만 대부분 이 값은 대부분 계산 불가합니다.

     

    1.분산이 예측 변수에 비례하는 경우, 예측 변수 또는 예측 변수 제곱의 역수 사용

    : 어떤 방법이 가능한지 확인하기 위해 시행착오를 거치고 경험을 활용해야 할 수도 있다.

    2.이론이나 문헌, 이전 연구를 바탕으로 한 값

     

    일반적으로 분산이 작은 관측치 = 상대적으로 큰 가중치 부여

    분산이  큰 관측치 = 상대적으로 작은 가중치 부여


    자유도

    Q) 가중치는 자유도에 영향을 미칠까?

    A) 가중치 열을 지정해도 하나 이상의 관측치에 0의 가중치를 제공하지 않으면 영향을 미치지 않는다.

     

    만약 가중치 0을 부여하면?

    관측치가 분석에서 제거 => 자유도 감소

     

    제곱합과 모수에 미치는 영향

    1. 제곱합 -> 가중제곱합

    2. 가중평균 -> 총 제곱합에 사용됨

    3. 가중최소제곱 기준 -> 모수 추정치 계산에 사용

     

    어떤 가중치가 크다? => 해당 가중치가 제곱합에 많은 기여를 한다!

    분산이 작은 관측치 = 신뢰도 하락

    분산이 관측치  = 신뢰도 상승

     


    4.3 회귀를 이용한 예측

    보간법(interpolation)

    데이터가 매우 정확하게 알려져 있는 경우,

    각 데이터 점들을 직접 통과하는 하나의 곡선 또는 일련의 곡선을 만드는 방법

    잘 알려져 있는 이산점들의 사이의 값을 추정하는 방법

     

    외삽법(Extrapolation)

    주어진 기본 점들의 범위 밖에 있는 함수의 값을 계산하는 과정

     

     

    실제 데이터는 선형이 아니지만, 기존에 관측된 데이터들은 선형을 띄고 있을때, 흔히 발생할 수 있는 오류가 외삽법입니다.

     

    신뢰구간 측정방법

    1. 각 행(결과변수를 포함)을 하나의 티켓이라고 생각하고 개수가 모두 n개인 티켓을 박스에 넣었다고 가정하자.

    2. 무작위로 티켓을 뽑아 값을 기록하고 다시 박스에 넣는다.

    3. 2번 과정을 n번 반복한다. 이를 통해, 부트스트랩 재표본을 하나 만든다.

    4. 이 부트스르탭 표본을 가지고 회귀모형을 구한다. 그리고 추정된 계수들을 기록한다.

    5. 2~4번 과정을 1,000번 반복한다.

    6. 이제 각 계수에대해 1,000개의 부트스트랩 값을 갖게 된다. 각각에 대한 적합한 백분위 수를 구한다.

    (양측 2.5%)

     

     


    회귀에서의 요인 변수

    •회귀 모형에서 범주형 데이터를 가변수(dummy variables)라는 것을 활용하여, 회귀 모형에 범주형 데이터를 추가할 수 있다.

    OLS를 이용하여 확인해 보겠습니다.

     

     

    •Neighborhood 가 A일 때의 평균 집값 $541,000이라는 뜻

    •B일 때 A일 때보다 $529,500 높은 $1,070,500

    •C일 때 A일 때보다 332만큼 작은 $540,668

    •Baseline과의 차이에 대한 가설검정은 p-value

    •가변수끼리의 차이가설검정은 신뢰구간

     

    결론적으로 집값은 B > A > C


    4.4.2 다수의 수준을 갖는 요인변수들

     

     

    82개 우편번호

     

     

    House_lm의 회귀결과 잔차의 중간값 기준으로 5그룹 생성

    그룹에 따라 ZipGroup 매핑

     

     

     

    반응형
Designed by Tistory.