전체 글
-
데이터과학을 위한 통계 리뷰 - 15일차 (예측변수,독립변수선택,AIC,BIC,순서가 있는 요인변수,예측변수간 상관,다중공선성)Machine Learning/데이터과학을 위한 통계 2021. 3. 15. 14:48
5.5 예측변수 선택 1. 회귀계수의 영향력다중 회귀분석의 결과로 다음의 y = 10x1 - 3x2 + 12회귀식을 얻었다고 가정합시다. 회귀식에서는 결국 독립변수가 한 단위 증가할 때 변화하는 종속변수를 확인할 수 있는데요. 당연히 회귀계수의 크기가 클수록 종속변수에 많은 영향을 줄 것입니다. 이처럼 우리는 여러 특성 중에서 어떤 특성이(독립변수) 영향력이 있는지 판단할 수 있을 겁니다. 2. Adjusted R2(수정된 결정계수)기존에 결정계수를 하나의 평가지표로 사용할 수 있었습니다. 하지만 다중 선형 회귀분석에서는 일반적인 결정계수가 문제가 될 수 있는데, 결정계수는 SSR(회귀변동)에 따라 값이 변합니다. 하지만 독립변수의 개수가 증가함에 따라 같이 증가하여 결정계수 또한 증가하는 단점이 생..
-
Tensorflow Keras 기초 - 1Machine Learning/Tensorflow 2021. 3. 14. 22:35
Tensorflow를 처음 접한건 2년전에 2버전이 처음 나왔을때, 1버전으로 공부했을때 입니다. 1버전때 당시 공부했던 자료를 올리려고 했으나, Tensorflow도 편해지는 쪽으로 변화했고, 저도 더이상은 1버전을 사용하지 않으니 올려도 의미가 없을듯 하네요. 그래서 1버전때 공부했던 tensorflow로 placeholder, constant, varivariable등은 제외하고, 모델 구성 및 Tensorflow로 GridSearchCV를 이용하는 방법을 적으려고 합니다. keras가 tensorflow의 라이브러리에 추가되었습니다. 2버전이 나올때부터.. 그래서 마음편하게 사용이 가능해졌습니다. from tensorflow.keras.models import Sequential from tens..
-
데이터과학을 위한 통계 리뷰 - 14일차 (회귀분석2,교차타당성검사,k-fold,단계적 회귀분석,후진적 제거,전진적 선택,단계적 선택,RidgeMachine Learning/데이터과학을 위한 통계 2021. 3. 14. 20:49
4.2.3 교차타당성검사단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는지 보여주는 것 k-fold 란?- K개의 fold를 만들어서 교차검증을 진행Train set/Test set을 나눠서 학습과 검증을 진행하고, 번갈아가면서 학습셋이 테스트셋이 되면서 과적합을 방지하기 위함 데이터의 갯수가 적어도 정확도를 향상시킬 수 있습니다. Iris 데이터와 최근접 이웃(KNeighbors)을 사용하고,K-fold 를 이용해서 데이터를 학습하는 과정 단일 관측지 제거 방식 LOOCV는 n개의 데이터에서 1개를 Test Set으로 정하고 나머지 n-1개의 데이터로 모델링을 하는 방법을 의미합니다. LOOCV 방법은 데이터 수 즉, n이 크다면, n번의 모델링을 진행해야함시간이 오래 소요됨회귀..
-
사이킷런(sklearn)을 이용한 머신러닝 - 4 (분류)Machine Learning 2021. 3. 13. 23:40
사이킷런의 traintrain_test_split이란? model select 전처리에 편하게 나눠서 처리할수 있게 도와주는것. feature 기본적인 머신러닝의 절차 -preprocessing 전처리 -> learning -> model -> predict service 4차 산업시대 IOT (모든장비를 인터넷으로 묶은것) Bigdata AI AR(증강현실)/VR(가상현실)/MR(증강+가상) fintech BlockChain 가장현실적인 것 AIOT (AI + IOT) 신경망 -Tensorflow -> ANN -> FFNN(feed forword) -> MLP(Multi-layer-Perceptron) XOR문제를 해결을 못해서 -> Multi layer -> 기울기소멸 -> LSTM preproces..
-
데이터과학을 위한 통계 리뷰 - 13일차 (회귀와 예측,적합값과 잔차,최소제곱,다중회귀분석,OLS,RMSE,MSE,MAE,RMSLE)Machine Learning/데이터과학을 위한 통계 2021. 3. 13. 22:42
4. 회귀와 예측단순선형회귀란? 한 변수와 또 다른 변수의 크기 사이의 어떤 관계가 있는 지 보여주는 것 아들의 키와 아버지 키의 점그래프(scatter plot) 두개의 데이터는 선형관계를 알 수 있습니다.아버지의 키가 클수록 아들의 키도 커지는 것으로 확인됩니다. x 변수만으로 Y를 100% 표현 (오차항 없음) x 변수와 오차항이 Y를 표현 (오차항 있음) 우리가 머신러닝을 통해서 회귀식을 알려고 하면 기본적인 회귀식을 알고 있어야 합니다. 기본적인 회귀식은 y = x*w+b 식입니다.(독립변수*가중치)+바이어스 이 식은 추후에 딥러닝으로 넘어가서도 Keras의 Dense class와 동일한 작용을 합니다.물론 행렬식으로 적용되기에 이런 간단한 식하고는 조금 차이가 있습니다. 다변량 데이터 예시 대..
-
사이킷런(sklearn)을 이용한 머신러닝 - 3 (군집,분류)Machine Learning 2021. 3. 12. 12:27
군집을 이해하기 앞서서, 벡터를 이미지를 통해서 이해하시면 편합니다. %matplotlib inline import matplotlib.pyplot as plt import seaborn as sns; sns.set() import numpy as np # 이미지를 파일로 출력하고 로딩한다음 글씨만 추출 def make_hello(N=1000, rseed=42): fig, ax = plt.subplots(figsize=(4, 1)) fig.subplots_adjust(left=0, right=1, bottom=0, top=1) ax.axis('off') ax.text(0.5, 0.4, 'HELLO', va='center', ha='center', weight='bold', size=85) fig.save..
-
데이터과학을 위한 통계 리뷰 - 12일차 (복습과정,예제문제,분포)Machine Learning/데이터과학을 위한 통계 2021. 3. 12. 11:35
실제 p값 구하기 모의 실험 - 1 1개 표본 : 동전을 80번 돌렸을 때 앞면이 나올 확률 -> 125개 표본 추출 모의 실험 - 2 F통계량 예제 (ANOVA (ANalysis Of VAriance; 분산 분석)분산분석 3가지 조건정규성 : 각각의 그룹에서 변인은 정규분포.분산의 동질성 : Y의 모집단 분산은 각각의 모집단에서 동일.관찰의 독립성: 각각의 모집단에서 크기가 각각인 표본들이 독립적으로 표집. 파이썬에서 One-way ANOVA 분석은 scipy.stats이나 statsmodel 라이브러리를 이용해서 할 수 있습니다. 일원분산분석(One-way ANOVA)종속변인은 1개이며, 독립변인의 집단도 1개인 경우. 한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용됩니다. 22명의 ..
-
명사 사전 만들기(우리말샘)Programming/Python 2021. 3. 12. 00:05
opendict.korean.go.kr/service/openApiInfo 우리말샘 - 오픈 API 서비스 소개 1. 우리말샘 오픈 API 서비스 소개 우리말샘 오픈 API는 검색 플랫폼을 외부에 공개하여 다양하고 재미있는 서비스 및 애플리케이션을 개발할 수 있도록 외부 개발자와 사용자들이 공유하는 프로 opendict.korean.go.kr 자연어처리를 하다보면 명사 사전이 필요할 때가 있다.. 정말 고맙게도 우리말샘에서 Open API로 여러가지 우리나라말이나 외국말들을 공유해주고 있다. 분명 작년에 사전을 구할때는 API 형식으로 한번에 한번 request만 가능했는데, 지금은 사전형태를 배포하고 있네요. 회원가입 후 내 정보관리 들어가시면 있습니다. 다운받아서 열어보면 대략 이런 형태를 띄고 있습..