회귀분석
-
데이터과학을 위한 통계 리뷰 - 14일차 (회귀분석2,교차타당성검사,k-fold,단계적 회귀분석,후진적 제거,전진적 선택,단계적 선택,RidgeMachine Learning/데이터과학을 위한 통계 2021. 3. 14. 20:49
4.2.3 교차타당성검사단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는지 보여주는 것 k-fold 란?- K개의 fold를 만들어서 교차검증을 진행Train set/Test set을 나눠서 학습과 검증을 진행하고, 번갈아가면서 학습셋이 테스트셋이 되면서 과적합을 방지하기 위함 데이터의 갯수가 적어도 정확도를 향상시킬 수 있습니다. Iris 데이터와 최근접 이웃(KNeighbors)을 사용하고,K-fold 를 이용해서 데이터를 학습하는 과정 단일 관측지 제거 방식 LOOCV는 n개의 데이터에서 1개를 Test Set으로 정하고 나머지 n-1개의 데이터로 모델링을 하는 방법을 의미합니다. LOOCV 방법은 데이터 수 즉, n이 크다면, n번의 모델링을 진행해야함시간이 오래 소요됨회귀..
-
데이터과학을 위한 통계 리뷰 - 13일차 (회귀와 예측,적합값과 잔차,최소제곱,다중회귀분석,OLS,RMSE,MSE,MAE,RMSLE)Machine Learning/데이터과학을 위한 통계 2021. 3. 13. 22:42
4. 회귀와 예측단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는 지 보여주는 것 아들의 키와 아버지 키의 점그래프(scatter plot) 두개의 데이터는 선형관계를 알 수 있습니다.아버지의 키가 클수록 아들의 키도 커지는 것으로 확인됩니다. x 변수만으로 Y를 100% 표현 (오차항 없음) x 변수와 오차항이 Y를 표현 (오차항 있음) 우리가 머신러닝을 통해서 회귀식을 알려고 하면 기본적인 회귀식을 알고 있어야 합니다. 기본적인 회귀식은 y = x*w+b 식입니다.(독립변수*가중치)+바이어스 이 식은 추후에 딥러닝으로 넘어가서도 Keras의 Dense class와 동일한 작용을 합니다.물론 행렬식으로 적용되기에 이런 간단한 식하고는 조금 차이가 있습니다. 다변량 데이터 예시 대..