Python
-
사이킷런(sklearn)을 이용한 머신러닝 - 2 (xgboost)Machine Learning 2021. 3. 11. 13:23
코드 사용전 꼭 설치바랍니다. Anaconda prompt 에서 진행 conda install -c conda-forge graphviz conda install -c conda-forge python-graphviz pip install pydot pip install pydotplus %matplotlib inline from sklearn.datasets import load_iris from sklearn.model_selection import cross_val_score from sklearn import tree clf = tree.DecisionTreeClassifier(random_state=0) iris = load_iris() clf = clf.fit(iris.data, iris.ta..
-
사이킷런(sklearn)을 이용한 머신러닝 - 1Machine Learning 2021. 3. 10. 15:06
scikits machine Learning 잔차 :종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다. %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy.optimize import curve_fit # scipy : optimization, interpolation, 미적분, fft : matlab x= np.array([0.0,1.0,2.0,3.0,4.0,5.0]) y= np.array([0.0,0.8,0.9,0.1,-0.8,-1.0]) z = ..
-
Python 기초 공부 - 7 (numpy)Programming/Python 2021. 3. 9. 18:31
numpy 계산만 진행합니다. # flask : 웹 서버 기능, 5000번 포트로 서비스 import matplotlib # 시각화 패키지 import numpy as np # 클래스로 구성되어 있다. as : 별칭 print(np.__version__) # __는 상위 오브젝트가 가지고 있는 속성이라는 의미 def pprint(arr): print("type : {}".format(type(arr))) print("shape : {}, dimension : {}, dtype : {}".format(arr.shape, arr.ndim, arr.dtype)) # 차수 3개다, 차원 1차원이다, 데이터 타입 숫자의 default는 int32 print("Array's Data : \n",arr) arr = ..
-
Python 기초 공부 - 8 (Pandas,numpy)Programming/Python 2021. 3. 9. 18:19
%matplotlib inline import mglearn import matplotlib.pyplot as plt mglearn.plots.plot_scaling() 정규화 표준편차를 구하는 이유 : 중심으로부터 이격이 얼마나 있는가를 확인하기 위해 분석에서는 분산이 커야 주성분 (분산이 크면 왜 이런 분포인지, 어떻게 줄일 수 있는지 연구대상이 됨) z-score (관측치-평균)/표준편차 표준화 => 표준정규분포 (확률) import pandas as pd import numpy as np df = pd.DataFrame([[1, np.nan, 2],[2,3,5],[np.nan,4,6]]) df df.dropna() df.dropna(axis='columns') df[3] = np.nan df.dr..
-
기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 2Data Analysis 2021. 3. 8. 22:48
2021/03/08 - [Programming/Data Analysis] - 기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1 기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1 Data download and python code link Joonyeong97/GS25_weather_data Contribute to Joonyeong97/GS25_weather_data development by creating an account on GitHub. github.com 진행사항 일단위로 진행하기엔 무.. datacook.tistory.com 이전 글에서 이어집니다. 이번 글에서는 데이터의 유의성을 검증하고 통계적으로 접근할 예정입니다. 많은 양의 데이터를 전부 다 확인하기 보..
-
기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1Data Analysis 2021. 3. 8. 22:38
Data download and python code link Joonyeong97/GS25_weather_data Contribute to Joonyeong97/GS25_weather_data development by creating an account on GitHub. github.com 진행사항 일단위로 진행하기엔 무리가 있을듯 하여, 월 단위로 분석을 진행할 예정입니다. 분석 진행 사항 애자일 방식으로 진행 예정, 틀을 정하지 않고서 자유로운 분석을 추구했습니다. 이번 리포트는 도메인 지식을 쌓는 시간으로 정했습니다. 데이터 전처리에 신경을 많이 쓰고, 최대한 데이터를 파악하려고 합니다. 중간고사 리포트는 EDA와 시각화를 통한 추세파악 진행예정 유통 데이터와 기상 데이터를 사용할 예정 세부적..
-
Python 기초 공부 - 6 (Pandas)Programming/Python 2021. 3. 8. 19:42
python : 문자열 처리 - 검색, 분리(split), 추출, 대체, 결합, 공백처리 - 문자열의 기본자료구조는 배열 (1차원 배열) 정규표현식 (regular expression) : re => 모든 언어에서 똑같은 방식으로 처리 - 패턴으로 처리 smiles = "C(=N)(N)N.C(=0)(0)0" # 1차원 배열 print(smiles[0]) print(smiles[1]) print(smiles[-1]) print(smiles[1:5]) print(smiles[10:-4]) C ( 0 (=N) C(=0) # 단어찾기 s = "That that is is that that is" print(s.count('t')) s = s.lower() print(s.count("that")) s.find("..
-
뉴스데이터를 이용한 문서유사도 확인Data Analysis 2021. 3. 5. 23:46
오늘 날짜부터 -n일차 까지 다음뉴스의 데이터를 긁어 오는 작업으로 시작합니다. 날짜를 거꾸로 수집을 합니다. 오늘로부터 며칠 전까지 이런식으로 다음 랭킹뉴스에서 50개까지 url을 긁어온 뒤 다시 for문을 이용해서 url을 접속해서 content를 긁어서 저장합니다. 이 함수의 역할은 여기까지입니다. import requests from bs4 import BeautifulSoup import time import pandas as pd from datetime import datetime def daum(dates): # 다음뉴스 헤드라인 긁어오기 files = pd.DataFrame() for date in dates: http=[] print(date,'', 'Daum 접속 중') httz = ..