전체 글
-
사이킷런(sklearn)을 이용한 머신러닝 - 1Machine Learning 2021. 3. 10. 15:06
scikits machine Learning 잔차 :종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다. %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy.optimize import curve_fit # scipy : optimization, interpolation, 미적분, fft : matlab x= np.array([0.0,1.0,2.0,3.0,4.0,5.0]) y= np.array([0.0,0.8,0.9,0.1,-0.8,-1.0]) z = ..
-
데이터과학을 위한 통계 리뷰 - 10일차 (검정통계량,Z-value,T-value,F-value,chi square,카이제곱검정,분류평가)Machine Learning/데이터과학을 위한 통계 2021. 3. 10. 14:35
검정 통계량(복습) Z-value T-value F-value X^2(chi square) 3.5. T통계량 = T-value 표본 평균 차이의 통계적 지표F-value 와의 차이는 그룹 간 차이 정도와 불확실도를 약간 변형한다.예) 분모 : 두 표본그룹의 평균간 차이의 불확실도 -> F- value : 표본 내에서 퍼진 정도 F-value와 T-value의 차이점 3.5 T검정모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 측정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법 예시) 전통적 교수법과 새 교수법에 의한 학업성취도 차이를 유의수준 0.05에서 검정 3.5 T검정-2 3.9 카이제곱검정•카이제곱 분포에 기초한 통계적 방법•관찰된 빈도가 기대되는 빈도와 “..
-
Python 기초 공부 - 7 (numpy)Programming/Python 2021. 3. 9. 18:31
numpy 계산만 진행합니다. # flask : 웹 서버 기능, 5000번 포트로 서비스 import matplotlib # 시각화 패키지 import numpy as np # 클래스로 구성되어 있다. as : 별칭 print(np.__version__) # __는 상위 오브젝트가 가지고 있는 속성이라는 의미 def pprint(arr): print("type : {}".format(type(arr))) print("shape : {}, dimension : {}, dtype : {}".format(arr.shape, arr.ndim, arr.dtype)) # 차수 3개다, 차원 1차원이다, 데이터 타입 숫자의 default는 int32 print("Array's Data : \n",arr) arr = ..
-
Python 기초 공부 - 8 (Pandas,numpy)Programming/Python 2021. 3. 9. 18:19
%matplotlib inline import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_scaling() 정규화 표준편차를 구하는 이유 : 중심으로부터 이격이 얼마나 있는가를 확인하기 위해 분석에서는 분산이 커야 주성분 (분산이 크면 왜 이런 분포인지, 어떻게 줄일 수 있는지 연구대상이 됨) z-score (관측치-평균)/표준편차 표준화 => 표준정규분포 (확률) import pandas as pd import numpy as np df = pd.DataFrame([[1, np.nan, 2],[2,3,5],[np.nan,4,6]]) df df.dropna() df.dropna(axis='columns') df[3] = np.nan df.dr..
-
데이터과학을 위한 통계 리뷰 - 9일차 (복습포함,F-value,귀무가설,대립가설,멀티암드 밴딧,greedy Algorithm)Machine Learning/데이터과학을 위한 통계 2021. 3. 9. 17:52
복습내용이 많습니다.ANOVA등 3.10 멀티암드 밴딧 (Multi-Armed Bandit : MAB ) Exploration : 이미 알고 있는 최적의 방안을 얻었음에도 어느 정도 틀릴 수 있다는 여지를 두고 계속해서 실험하는 것Exploitation : 최적의 방안을 얻고나서 이를 계속 채택하여 최대의 이익(reward)을 창출하는 것 강화학습(Reinforcement Learning)은 머신러닝의 한 분야로 사람처럼 환경과 상호작용하면서 스스로 학습하는 방식을 의미합니다. 강화학습은 자신의 행동 결과인 보상을 많이 얻기 위해 학습을 진행합니다. Greedy algorithm 예시 greedy = 탐욕적인알고있는 지식을 총 동원해서 사용하는 기법이라고 생각하면 편합니다. greedy algorithm..
-
기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 2Data Analysis 2021. 3. 8. 22:48
2021/03/08 - [Programming/Data Analysis] - 기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1 기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1 Data download and python code link Joonyeong97/GS25_weather_data Contribute to Joonyeong97/GS25_weather_data development by creating an account on GitHub. github.com 진행사항 일단위로 진행하기엔 무.. datacook.tistory.com 이전 글에서 이어집니다. 이번 글에서는 데이터의 유의성을 검증하고 통계적으로 접근할 예정입니다. 많은 양의 데이터를 전부 다 확인하기 보..
-
기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1Data Analysis 2021. 3. 8. 22:38
Data download and python code link Joonyeong97/GS25_weather_data Contribute to Joonyeong97/GS25_weather_data development by creating an account on GitHub. github.com 진행사항 일단위로 진행하기엔 무리가 있을듯 하여, 월 단위로 분석을 진행할 예정입니다. 분석 진행 사항 애자일 방식으로 진행 예정, 틀을 정하지 않고서 자유로운 분석을 추구했습니다. 이번 리포트는 도메인 지식을 쌓는 시간으로 정했습니다. 데이터 전처리에 신경을 많이 쓰고, 최대한 데이터를 파악하려고 합니다. 중간고사 리포트는 EDA와 시각화를 통한 추세파악 진행예정 유통 데이터와 기상 데이터를 사용할 예정 세부적..
-
Python 기초 공부 - 6 (Pandas)Programming/Python 2021. 3. 8. 19:42
python : 문자열 처리 - 검색, 분리(split), 추출, 대체, 결합, 공백처리 - 문자열의 기본자료구조는 배열 (1차원 배열) 정규표현식 (regular expression) : re => 모든 언어에서 똑같은 방식으로 처리 - 패턴으로 처리 smiles = "C(=N)(N)N.C(=0)(0)0" # 1차원 배열 print(smiles[0]) print(smiles[1]) print(smiles[-1]) print(smiles[1:5]) print(smiles[10:-4]) C ( 0 (=N) C(=0) # 단어찾기 s = "That that is is that that is" print(s.count('t')) s = s.lower() print(s.count("that")) s.find("..