Machine Learning
-
데이터과학을 위한 통계 리뷰 - 12일차 (복습과정,예제문제,분포)Machine Learning/데이터과학을 위한 통계 2021. 3. 12. 11:35
실제 p값 구하기 모의 실험 - 1 1개 표본 : 동전을 80번 돌렸을 때 앞면이 나올 확률 -> 125개 표본 추출 모의 실험 - 2 F통계량 예제 (ANOVA (ANalysis Of VAriance; 분산 분석)분산분석 3가지 조건정규성 : 각각의 그룹에서 변인은 정규분포.분산의 동질성 : Y의 모집단 분산은 각각의 모집단에서 동일.관찰의 독립성: 각각의 모집단에서 크기가 각각인 표본들이 독립적으로 표집. 파이썬에서 One-way ANOVA 분석은 scipy.stats이나 statsmodel 라이브러리를 이용해서 할 수 있습니다. 일원분산분석(One-way ANOVA)종속변인은 1개이며, 독립변인의 집단도 1개인 경우. 한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용됩니다. 22명의 ..
-
사이킷런(sklearn)을 이용한 머신러닝 - 2 (xgboost)Machine Learning 2021. 3. 11. 13:23
코드 사용전 꼭 설치바랍니다. Anaconda prompt 에서 진행 conda install -c conda-forge graphviz conda install -c conda-forge python-graphviz pip install pydot pip install pydotplus %matplotlib inline from sklearn.datasets import load_iris from sklearn.model_selection import cross_val_score from sklearn import tree clf = tree.DecisionTreeClassifier(random_state=0) iris = load_iris() clf = clf.fit(iris.data, iris.ta..
-
데이터과학을 위한 통계 리뷰 - 11일차 (복습과정,p값,Paired Sample t-test,ANOVA)Machine Learning/데이터과학을 위한 통계 2021. 3. 11. 12:46
복습과정입니다. 3.4 p값통계적 유의성을 정확히 측정하기 위한 지표(귀무가설이 맞다는 전제하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률) P값(p-value) 이란? 유의 확률의 의미 P값의 오해 Paired Sample t-test 독립표본 그룹을 두개로 나눠서 평균의 차이를 보는 것, Paired는 한사람을 두번 측정해서 뽑는것 각 사람별로 평균의 차이를 보는것 ANOVA (ANalysis Of VAriance; 분산 분석)일원분산분석(One-way ANOVA)종속변인은 1개이며, 독립변인의 집단도 1개인 경우. 한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용됩니다. ANOVA 분석의 문제는 다르다는 것은 알지만, 어떤 집단간의 차이가 있는지는 ..
-
사이킷런(sklearn)을 이용한 머신러닝 - 1Machine Learning 2021. 3. 10. 15:06
scikits machine Learning 잔차 :종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다. %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy.optimize import curve_fit # scipy : optimization, interpolation, 미적분, fft : matlab x= np.array([0.0,1.0,2.0,3.0,4.0,5.0]) y= np.array([0.0,0.8,0.9,0.1,-0.8,-1.0]) z = ..
-
데이터과학을 위한 통계 리뷰 - 10일차 (검정통계량,Z-value,T-value,F-value,chi square,카이제곱검정,분류평가)Machine Learning/데이터과학을 위한 통계 2021. 3. 10. 14:35
검정 통계량(복습) Z-value T-value F-value X^2(chi square) 3.5. T통계량 = T-value 표본 평균 차이의 통계적 지표F-value 와의 차이는 그룹 간 차이 정도와 불확실도를 약간 변형한다.예) 분모 : 두 표본그룹의 평균간 차이의 불확실도 -> F- value : 표본 내에서 퍼진 정도 F-value와 T-value의 차이점 3.5 T검정모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 측정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법 예시) 전통적 교수법과 새 교수법에 의한 학업성취도 차이를 유의수준 0.05에서 검정 3.5 T검정-2 3.9 카이제곱검정•카이제곱 분포에 기초한 통계적 방법•관찰된 빈도가 기대되는 빈도와 “..
-
데이터과학을 위한 통계 리뷰 - 9일차 (복습포함,F-value,귀무가설,대립가설,멀티암드 밴딧,greedy Algorithm)Machine Learning/데이터과학을 위한 통계 2021. 3. 9. 17:52
복습내용이 많습니다.ANOVA등 3.10 멀티암드 밴딧 (Multi-Armed Bandit : MAB ) Exploration : 이미 알고 있는 최적의 방안을 얻었음에도 어느 정도 틀릴 수 있다는 여지를 두고 계속해서 실험하는 것Exploitation : 최적의 방안을 얻고나서 이를 계속 채택하여 최대의 이익(reward)을 창출하는 것 강화학습(Reinforcement Learning)은 머신러닝의 한 분야로 사람처럼 환경과 상호작용하면서 스스로 학습하는 방식을 의미합니다. 강화학습은 자신의 행동 결과인 보상을 많이 얻기 위해 학습을 진행합니다. Greedy algorithm 예시 greedy = 탐욕적인알고있는 지식을 총 동원해서 사용하는 기법이라고 생각하면 편합니다. greedy algorithm..
-
데이터과학을 위한 통계 리뷰 - 8일차 (F통계량 & ANOVA, 카이제곱검정,데이터 과학과의 관련성,피셔의 정확검정)Machine Learning/데이터과학을 위한 통계 2021. 3. 8. 18:44
3.8.1 F통계량 & ANOVA 분산분석(Analysis of Variance, ANOVA) 1. One-way-ANOVA 일원배치분산분석 2. F통계량 3. Two-way-ANOVA 이원배치분산분석 3.8.1 F통계량책 : 잔차 오차로 인한 분산과 그룹 평균의 분산에 대한 비율 F통계량 = F-value 차이 / 불확실도 표본 평균 차이의 통계적 지표(즉, 본래적으로 T-value와 완전히 같은 의미) T-value 와의 차이는 그룹 간 차이 정도와 불확실도를 약간 변형한다. 예) 분모 : 두 표본그룹의 평균간 차이의 불확실도 -> 표본 내에서 퍼진 정도F-value는 계산한 ‘분산’ 의 비율을 척도로 이용한다. 표본 집단의 그룹 간 평균의 표준 편차란, 표본 평균의 표준편차, 즉, 표준 오차를 의미..
-
삼성 주식 예측(Lstm)Machine Learning/Tensorflow 2021. 3. 7. 22:55
주식데이터 다운로드 주소 finance.yahoo.com/quote/005930.KS/history?p=005930.KS SamsungElec (005930.KS) Stock Historical Prices & Data - Yahoo Finance Discover historical prices for 005930.KS stock on Yahoo Finance. View daily, weekly or monthly format back to when SamsungElec stock was issued. finance.yahoo.com 기본적인 라이브러리 입니다. import pandas as pd import numpy as np import tensorflow as tf from tensorflow.k..