Data Analysis
-
P-Value, T-Test, Z-Test 설명Data Analysis 2023. 6. 27. 09:40
P-value (p값) P-value는 통계적 가설 검정에서 사용되는 중요한 개념입니다. p값은 귀무가설(null hypothesis)이 참일 경우, 표본 데이터가 관찰된 통계치보다 더 극단적인 값을 얻을 확률을 의미합니다. 예를 들어, p값이 0.05라면, 이는 귀무가설이 참일 경우, 표본 데이터가 관찰된 통계치 이상으로 극단적인 결과를 얻을 확률이 5%라는 것을 의미합니다. 일반적으로 p값이 특정 임계치(예: 0.05)보다 작을 경우, 귀무가설을 기각하고 대립가설(alternative hypothesis)을 수용합니다. T-Test (t 검정) T-Test는 두 집단의 평균이 통계적으로 유의하게 다른지를 판단하는데 사용되는 검정 방법입니다. t검정은 일반적으로 다음과 같은 세 가지 유형으로 나눠집니다..
-
기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 2Data Analysis 2021. 3. 8. 22:48
2021/03/08 - [Programming/Data Analysis] - 기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1 기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1 Data download and python code link Joonyeong97/GS25_weather_data Contribute to Joonyeong97/GS25_weather_data development by creating an account on GitHub. github.com 진행사항 일단위로 진행하기엔 무.. datacook.tistory.com 이전 글에서 이어집니다. 이번 글에서는 데이터의 유의성을 검증하고 통계적으로 접근할 예정입니다. 많은 양의 데이터를 전부 다 확인하기 보..
-
기상데이터와 GS25 판매량 데이터를 이용한 분석 리포트 - 1Data Analysis 2021. 3. 8. 22:38
Data download and python code link Joonyeong97/GS25_weather_data Contribute to Joonyeong97/GS25_weather_data development by creating an account on GitHub. github.com 진행사항 일단위로 진행하기엔 무리가 있을듯 하여, 월 단위로 분석을 진행할 예정입니다. 분석 진행 사항 애자일 방식으로 진행 예정, 틀을 정하지 않고서 자유로운 분석을 추구했습니다. 이번 리포트는 도메인 지식을 쌓는 시간으로 정했습니다. 데이터 전처리에 신경을 많이 쓰고, 최대한 데이터를 파악하려고 합니다. 중간고사 리포트는 EDA와 시각화를 통한 추세파악 진행예정 유통 데이터와 기상 데이터를 사용할 예정 세부적..
-
뉴스데이터를 이용한 문서유사도 확인Data Analysis 2021. 3. 5. 23:46
오늘 날짜부터 -n일차 까지 다음뉴스의 데이터를 긁어 오는 작업으로 시작합니다. 날짜를 거꾸로 수집을 합니다. 오늘로부터 며칠 전까지 이런식으로 다음 랭킹뉴스에서 50개까지 url을 긁어온 뒤 다시 for문을 이용해서 url을 접속해서 content를 긁어서 저장합니다. 이 함수의 역할은 여기까지입니다. import requests from bs4 import BeautifulSoup import time import pandas as pd from datetime import datetime def daum(dates): # 다음뉴스 헤드라인 긁어오기 files = pd.DataFrame() for date in dates: http=[] print(date,'', 'Daum 접속 중') httz = ..