전체 글
-
기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1Data Analysis 2021. 3. 8. 22:38
Data download and python code link Joonyeong97/GS25_weather_data Contribute to Joonyeong97/GS25_weather_data development by creating an account on GitHub. github.com 진행사항 일단위로 진행하기엔 무리가 있을듯 하여, 월 단위로 분석을 진행할 예정입니다. 분석 진행 사항 애자일 방식으로 진행 예정, 틀을 정하지 않고서 자유로운 분석을 추구했습니다. 이번 리포트는 도메인 지식을 쌓는 시간으로 정했습니다. 데이터 전처리에 신경을 많이 쓰고, 최대한 데이터를 파악하려고 합니다. 중간고사 리포트는 EDA와 시각화를 통한 추세파악 진행예정 유통 데이터와 기상 데이터를 사용할 예정 세부적..
-
Python 기초 공부 - 6 (Pandas)Programming/Python 2021. 3. 8. 19:42
python : 문자열 처리 - 검색, 분리(split), 추출, 대체, 결합, 공백처리 - 문자열의 기본자료구조는 배열 (1차원 배열) 정규표현식 (regular expression) : re => 모든 언어에서 똑같은 방식으로 처리 - 패턴으로 처리 smiles = "C(=N)(N)N.C(=0)(0)0" # 1차원 배열 print(smiles[0]) print(smiles[1]) print(smiles[-1]) print(smiles[1:5]) print(smiles[10:-4]) C ( 0 (=N) C(=0) # 단어찾기 s = "That that is is that that is" print(s.count('t')) s = s.lower() print(s.count("that")) s.find("..
-
데이터과학을 위한 통계 리뷰 - 8일차 (F통계량 & ANOVA, 카이제곱검정,데이터 과학과의 관련성,피셔의 정확검정)Machine Learning/데이터과학을 위한 통계 2021. 3. 8. 18:44
3.8.1 F통계량 & ANOVA 분산분석(Analysis of Variance, ANOVA) 1. One-way-ANOVA 일원배치분산분석 2. F통계량 3. Two-way-ANOVA 이원배치분산분석 3.8.1 F통계량책 : 잔차 오차로 인한 분산과 그룹 평균의 분산에 대한 비율 F통계량 = F-value 차이 / 불확실도 표본 평균 차이의 통계적 지표(즉, 본래적으로 T-value와 완전히 같은 의미) T-value 와의 차이는 그룹 간 차이 정도와 불확실도를 약간 변형한다. 예) 분모 : 두 표본그룹의 평균간 차이의 불확실도 -> 표본 내에서 퍼진 정도F-value는 계산한 ‘분산’ 의 비율을 척도로 이용한다. 표본 집단의 그룹 간 평균의 표준 편차란, 표본 평균의 표준편차, 즉, 표준 오차를 의미..
-
삼성 주식 예측(Lstm)Machine Learning/Tensorflow 2021. 3. 7. 22:55
주식데이터 다운로드 주소 finance.yahoo.com/quote/005930.KS/history?p=005930.KS SamsungElec (005930.KS) Stock Historical Prices & Data - Yahoo Finance Discover historical prices for 005930.KS stock on Yahoo Finance. View daily, weekly or monthly format back to when SamsungElec stock was issued. finance.yahoo.com 기본적인 라이브러리 입니다. import pandas as pd import numpy as np import tensorflow as tf from tensorflow.k..
-
데이터과학을 위한 통계 리뷰 - 7일차 (p값,t-test,다중검정,자유도,분산분석)Machine Learning/데이터과학을 위한 통계 2021. 3. 7. 22:17
3.4.1 p값통계적 유의성을 정확히 측정하기 위한 지표(귀무가설이 맞다는 전제하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률) p-value가 너무 낮으면, 그렇게 낮은 확률의 사건이 실제로 일어났다고 생각하기 보다는 귀무가설이 틀렸다고 생각하게 된다. 예) 실제로 가능한 m(평균)의 분포가 위와 같을 때, 내가 구한 평균이 m2 라면 p-value가 매우 작다.동엽님의 예제대로 희박한 일이 실제로 일어났다고 하기 보다는 분포를 가져온 가설(귀무가설)이 잘못됐다 판단. 만약 대립가설이 사실이라면 귀무가설을 기각하고,대립가설이 거짓이라면 귀무가설을 채택한다 라고 결론을 낸다.귀무가설이 사실인데 기각시 = 1종 오류귀무가설이 거짓인데 채택시 = 2종 오류 P값은 정해진 ..
-
Python 기초 공부 - 5 (mariaDB 연동)Programming/Python 2021. 3. 7. 14:30
Maria DB연동 진행 연결 방법 import pymysql def sql_connect(): conn = pymysql.connect(host='localhost', # host 주소 입력 ip주소 user='username', # db에 접근할 user id port=8888, # host의 port번호 password='password', # 비밀번호 db='dbname', # 접속할 DB이름 charset='utf8mb4', use_unicode=True, cursorclass=pymysql.cursors.DictCursor) return conn Select 사용시 def select(date): conn = sql_connect() cur = conn.cursor() sql ="""SELEC..
-
Python 기초 공부 - 4Programming/Python 2021. 3. 6. 15:47
4일차 2019.12.30 객체 지향 프로그래밍 (class -> (instance) Object) Class : 멤버변수(속성) + 멤버함수(공유되어 지어짐) 인스턴스할 때 멤버변수(속성)을 저장하는 공간만 확보 class Triangle: def setData(self, width, height): # 함수를 이용한 초기화 self.width=width self.height=height def area(self): # self는 매개변수 취급을 안함, 넣어야만 함수로 만들수있음. return self.width*self.height/2 tri1 = Triangle() # 인스턴스 한다. () 함수처럼 tri1.setData(10,20) print(tri1.width, tri1.height, tri1...