Machine Learning
-
데이터과학을 위한 통계 리뷰 - 16일차 (가설검정,이분산성,영향값,회귀 진단,이분산성,영향값,다수의 수준을 갖는 요인변수들)Machine Learning/데이터과학을 위한 통계 2021. 3. 16. 13:15
4.5.4 상호작용과 주효과주 효과: 다른 요인(집단구분 변수)과 상관없이, 예측변수의 수준(집단)에 따라 효과가 유의미하게 달라질 때상호작용 효과: 한 요인의 수준에 따른 효과의 차이가또 다른 요인의 수준에 따라 달라질 때 Two-way ANOVA 이원분산분석은 주효과와 상호작용효과 분석 가능 출처:https://heung-bae-lee.github.io/2020/01/15/machine_learning_04/Regression(03) - 회귀진단교호작용 성별, 결혼여부, 혹은 소속 정치단체 등과 같은 질적(qualitative) 또는 범주형(categorical)요인들이 회귀분석에서 종속(반응)변수의 변화를 설명하는 데 매우 유용한 독립(설명) 변수 역할을heung-bae-lee.github.io (..
-
Tensorflow Keras - 2 (CNN,이미지 학습,mnist,cifar10)Machine Learning/Tensorflow 2021. 3. 15. 17:15
Keras를 이용해서 이미지 data를 학습하고 검증하는 방법을 소개합니다. Mnist Data set %matplotlib inline import matplotlib.pyplot as plt from tensorflow import keras from tensorflow.keras.datasets import mnist from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout, Flatten from tensorflow.keras.layers import Conv2D, MaxPooling2D keras에서 제공하는 데이터셋을 이용할 예정이고, 이전글에서 학습했던 Sequential을 ..
-
데이터과학을 위한 통계 리뷰 - 15일차 (예측변수,독립변수선택,AIC,BIC,순서가 있는 요인변수,예측변수간 상관,다중공선성)Machine Learning/데이터과학을 위한 통계 2021. 3. 15. 14:48
5.5 예측변수 선택 1. 회귀계수의 영향력다중 회귀분석의 결과로 다음의 y = 10x1 - 3x2 + 12회귀식을 얻었다고 가정합시다. 회귀식에서는 결국 독립변수가 한 단위 증가할 때 변화하는 종속변수를 확인할 수 있는데요. 당연히 회귀계수의 크기가 클수록 종속변수에 많은 영향을 줄 것입니다. 이처럼 우리는 여러 특성 중에서 어떤 특성이(독립변수) 영향력이 있는지 판단할 수 있을 겁니다. 2. Adjusted R2(수정된 결정계수)기존에 결정계수를 하나의 평가지표로 사용할 수 있었습니다. 하지만 다중 선형 회귀분석에서는 일반적인 결정계수가 문제가 될 수 있는데, 결정계수는 SSR(회귀변동)에 따라 값이 변합니다. 하지만 독립변수의 개수가 증가함에 따라 같이 증가하여 결정계수 또한 증가하는 단점이 생..
-
Tensorflow Keras 기초 - 1Machine Learning/Tensorflow 2021. 3. 14. 22:35
Tensorflow를 처음 접한건 2년전에 2버전이 처음 나왔을때, 1버전으로 공부했을때 입니다. 1버전때 당시 공부했던 자료를 올리려고 했으나, Tensorflow도 편해지는 쪽으로 변화했고, 저도 더이상은 1버전을 사용하지 않으니 올려도 의미가 없을듯 하네요. 그래서 1버전때 공부했던 tensorflow로 placeholder, constant, varivariable등은 제외하고, 모델 구성 및 Tensorflow로 GridSearchCV를 이용하는 방법을 적으려고 합니다. keras가 tensorflow의 라이브러리에 추가되었습니다. 2버전이 나올때부터.. 그래서 마음편하게 사용이 가능해졌습니다. from tensorflow.keras.models import Sequential from tens..
-
데이터과학을 위한 통계 리뷰 - 14일차 (회귀분석2,교차타당성검사,k-fold,단계적 회귀분석,후진적 제거,전진적 선택,단계적 선택,RidgeMachine Learning/데이터과학을 위한 통계 2021. 3. 14. 20:49
4.2.3 교차타당성검사단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는지 보여주는 것 k-fold 란?- K개의 fold를 만들어서 교차검증을 진행Train set/Test set을 나눠서 학습과 검증을 진행하고, 번갈아가면서 학습셋이 테스트셋이 되면서 과적합을 방지하기 위함 데이터의 갯수가 적어도 정확도를 향상시킬 수 있습니다. Iris 데이터와 최근접 이웃(KNeighbors)을 사용하고,K-fold 를 이용해서 데이터를 학습하는 과정 단일 관측지 제거 방식 LOOCV는 n개의 데이터에서 1개를 Test Set으로 정하고 나머지 n-1개의 데이터로 모델링을 하는 방법을 의미합니다. LOOCV 방법은 데이터 수 즉, n이 크다면, n번의 모델링을 진행해야함시간이 오래 소요됨회귀..
-
사이킷런(sklearn)을 이용한 머신러닝 - 4 (분류)Machine Learning 2021. 3. 13. 23:40
사이킷런의 traintrain_test_split이란? model select 전처리에 편하게 나눠서 처리할수 있게 도와주는것. feature 기본적인 머신러닝의 절차 -preprocessing 전처리 -> learning -> model -> predict service 4차 산업시대 IOT (모든장비를 인터넷으로 묶은것) Bigdata AI AR(증강현실)/VR(가상현실)/MR(증강+가상) fintech BlockChain 가장현실적인 것 AIOT (AI + IOT) 신경망 -Tensorflow -> ANN -> FFNN(feed forword) -> MLP(Multi-layer-Perceptron) XOR문제를 해결을 못해서 -> Multi layer -> 기울기소멸 -> LSTM preproces..
-
데이터과학을 위한 통계 리뷰 - 13일차 (회귀와 예측,적합값과 잔차,최소제곱,다중회귀분석,OLS,RMSE,MSE,MAE,RMSLE)Machine Learning/데이터과학을 위한 통계 2021. 3. 13. 22:42
4. 회귀와 예측단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는 지 보여주는 것 아들의 키와 아버지 키의 점그래프(scatter plot) 두개의 데이터는 선형관계를 알 수 있습니다.아버지의 키가 클수록 아들의 키도 커지는 것으로 확인됩니다. x 변수만으로 Y를 100% 표현 (오차항 없음) x 변수와 오차항이 Y를 표현 (오차항 있음) 우리가 머신러닝을 통해서 회귀식을 알려고 하면 기본적인 회귀식을 알고 있어야 합니다. 기본적인 회귀식은 y = x*w+b 식입니다.(독립변수*가중치)+바이어스 이 식은 추후에 딥러닝으로 넘어가서도 Keras의 Dense class와 동일한 작용을 합니다.물론 행렬식으로 적용되기에 이런 간단한 식하고는 조금 차이가 있습니다. 다변량 데이터 예시 대..
-
사이킷런(sklearn)을 이용한 머신러닝 - 3 (군집,분류)Machine Learning 2021. 3. 12. 12:27
군집을 이해하기 앞서서, 벡터를 이미지를 통해서 이해하시면 편합니다. %matplotlib inline import matplotlib.pyplot as plt import seaborn as sns; sns.set() import numpy as np # 이미지를 파일로 출력하고 로딩한다음 글씨만 추출 def make_hello(N=1000, rseed=42): fig, ax = plt.subplots(figsize=(4, 1)) fig.subplots_adjust(left=0, right=1, bottom=0, top=1) ax.axis('off') ax.text(0.5, 0.4, 'HELLO', va='center', ha='center', weight='bold', size=85) fig.save..