분류 전체보기
-
사이킷런(sklearn)을 이용한 머신러닝 - 2 (xgboost)Machine Learning 2021. 3. 11. 13:23
코드 사용전 꼭 설치바랍니다. Anaconda prompt 에서 진행 conda install -c conda-forge graphviz conda install -c conda-forge python-graphviz pip install pydot pip install pydotplus %matplotlib inline from sklearn.datasets import load_iris from sklearn.model_selection import cross_val_score from sklearn import tree clf = tree.DecisionTreeClassifier(random_state=0) iris = load_iris() clf = clf.fit(iris.data, iris.ta..
-
데이터과학을 위한 통계 리뷰 - 11일차 (복습과정,p값,Paired Sample t-test,ANOVA)Machine Learning/데이터과학을 위한 통계 2021. 3. 11. 12:46
복습과정입니다. 3.4 p값통계적 유의성을 정확히 측정하기 위한 지표(귀무가설이 맞다는 전제하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률) P값(p-value) 이란? 유의 확률의 의미 P값의 오해 Paired Sample t-test 독립표본 그룹을 두개로 나눠서 평균의 차이를 보는 것, Paired는 한사람을 두번 측정해서 뽑는것 각 사람별로 평균의 차이를 보는것 ANOVA (ANalysis Of VAriance; 분산 분석)일원분산분석(One-way ANOVA)종속변인은 1개이며, 독립변인의 집단도 1개인 경우. 한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용됩니다. ANOVA 분석의 문제는 다르다는 것은 알지만, 어떤 집단간의 차이가 있는지는 ..
-
사이킷런(sklearn)을 이용한 머신러닝 - 1Machine Learning 2021. 3. 10. 15:06
scikits machine Learning 잔차 :종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다. %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy.optimize import curve_fit # scipy : optimization, interpolation, 미적분, fft : matlab x= np.array([0.0,1.0,2.0,3.0,4.0,5.0]) y= np.array([0.0,0.8,0.9,0.1,-0.8,-1.0]) z = ..
-
데이터과학을 위한 통계 리뷰 - 10일차 (검정통계량,Z-value,T-value,F-value,chi square,카이제곱검정,분류평가)Machine Learning/데이터과학을 위한 통계 2021. 3. 10. 14:35
검정 통계량(복습) Z-value T-value F-value X^2(chi square) 3.5. T통계량 = T-value 표본 평균 차이의 통계적 지표F-value 와의 차이는 그룹 간 차이 정도와 불확실도를 약간 변형한다.예) 분모 : 두 표본그룹의 평균간 차이의 불확실도 -> F- value : 표본 내에서 퍼진 정도 F-value와 T-value의 차이점 3.5 T검정모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 측정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법 예시) 전통적 교수법과 새 교수법에 의한 학업성취도 차이를 유의수준 0.05에서 검정 3.5 T검정-2 3.9 카이제곱검정•카이제곱 분포에 기초한 통계적 방법•관찰된 빈도가 기대되는 빈도와 “..
-
Python 기초 공부 - 7 (numpy)Programming/Python 2021. 3. 9. 18:31
numpy 계산만 진행합니다. # flask : 웹 서버 기능, 5000번 포트로 서비스 import matplotlib # 시각화 패키지 import numpy as np # 클래스로 구성되어 있다. as : 별칭 print(np.__version__) # __는 상위 오브젝트가 가지고 있는 속성이라는 의미 def pprint(arr): print("type : {}".format(type(arr))) print("shape : {}, dimension : {}, dtype : {}".format(arr.shape, arr.ndim, arr.dtype)) # 차수 3개다, 차원 1차원이다, 데이터 타입 숫자의 default는 int32 print("Array's Data : \n",arr) arr = ..
-
Python 기초 공부 - 8 (Pandas,numpy)Programming/Python 2021. 3. 9. 18:19
%matplotlib inline import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_scaling() 정규화 표준편차를 구하는 이유 : 중심으로부터 이격이 얼마나 있는가를 확인하기 위해 분석에서는 분산이 커야 주성분 (분산이 크면 왜 이런 분포인지, 어떻게 줄일 수 있는지 연구대상이 됨) z-score (관측치-평균)/표준편차 표준화 => 표준정규분포 (확률) import pandas as pd import numpy as np df = pd.DataFrame([[1, np.nan, 2],[2,3,5],[np.nan,4,6]]) df df.dropna() df.dropna(axis='columns') df[3] = np.nan df.dr..
-
데이터과학을 위한 통계 리뷰 - 9일차 (복습포함,F-value,귀무가설,대립가설,멀티암드 밴딧,greedy Algorithm)Machine Learning/데이터과학을 위한 통계 2021. 3. 9. 17:52
복습내용이 많습니다.ANOVA등 3.10 멀티암드 밴딧 (Multi-Armed Bandit : MAB ) Exploration : 이미 알고 있는 최적의 방안을 얻었음에도 어느 정도 틀릴 수 있다는 여지를 두고 계속해서 실험하는 것Exploitation : 최적의 방안을 얻고나서 이를 계속 채택하여 최대의 이익(reward)을 창출하는 것 강화학습(Reinforcement Learning)은 머신러닝의 한 분야로 사람처럼 환경과 상호작용하면서 스스로 학습하는 방식을 의미합니다. 강화학습은 자신의 행동 결과인 보상을 많이 얻기 위해 학습을 진행합니다. Greedy algorithm 예시 greedy = 탐욕적인알고있는 지식을 총 동원해서 사용하는 기법이라고 생각하면 편합니다. greedy algorithm..
-
기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 2Data Analysis 2021. 3. 8. 22:48
2021/03/08 - [Programming/Data Analysis] - 기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1 기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1 Data download and python code link Joonyeong97/GS25_weather_data Contribute to Joonyeong97/GS25_weather_data development by creating an account on GitHub. github.com 진행사항 일단위로 진행하기엔 무.. datacook.tistory.com 이전 글에서 이어집니다. 이번 글에서는 데이터의 유의성을 검증하고 통계적으로 접근할 예정입니다. 많은 양의 데이터를 전부 다 확인하기 보..