분류 전체보기
-
데이터과학을 위한 통계 리뷰 - 6일차 (A/B 검정,가설검정(유의성 검정),귀무가설,대립가설,재표본추출,순열검정,통계적유의성,1종오류,2종오류Machine Learning/데이터과학을 위한 통계 2021. 3. 6. 10:16
3. 통계적 실험과 유의성 검정3.1 A/B 검정 디자인에서 A/B 테스트 전체 디자인에서 한가지 요소만 변경 ( UI레이아웃/ 이미지 / 검색결과 /feature 등)두가지 버전으로 실험해서 더 나는 것을 판별하는 기법 “새로운 디자인 시안 A와 B중 어느 것이 브랜드 이미지 제고에 도움이 될까?”“홈페이지 메인 이미지를 왼쪽/오른쪽, 어느 쪽에 위치하게 하는 것이 좋을까?”“구매 버튼의 색은 빨강/파랑? 어느 것이 구매를 촉진시킬까?” 상품을 구매하는 데 결정적인 영향을 끼치는 것으로 광고 No, 상품 No, 바로 지인의추천페이지는 구매와 상관이 없는 페이지임에도 불구하고 구매, 결제와 연관성 높은 TRUSTe 이미지를 게재함으로서, 신청양식에 온 방문자들은 결제, 대가를 지불해야 하는 느낌이 들어 ..
-
뉴스데이터를 이용한 문서유사도 확인Data Analysis 2021. 3. 5. 23:46
오늘 날짜부터 -n일차 까지 다음뉴스의 데이터를 긁어 오는 작업으로 시작합니다. 날짜를 거꾸로 수집을 합니다. 오늘로부터 며칠 전까지 이런식으로 다음 랭킹뉴스에서 50개까지 url을 긁어온 뒤 다시 for문을 이용해서 url을 접속해서 content를 긁어서 저장합니다. 이 함수의 역할은 여기까지입니다. import requests from bs4 import BeautifulSoup import time import pandas as pd from datetime import datetime def daum(dates): # 다음뉴스 헤드라인 긁어오기 files = pd.DataFrame() for date in dates: http=[] print(date,'', 'Daum 접속 중') httz = ..
-
Python 기초 공부 - 3Programming/Python 2021. 3. 5. 16:32
# 함수 (function) # - 함수이름은 중복이 되면 안됨 (오버로딩은 default 매개변수로 해결) # - Required auguments(매개변수를 순서적으로 입력) # - keyword auguments(키이 매개변수의 순서 변경이 가능) # - default auguments(오버로딩해결) # - Variable-length auguments(변동매개변수 : * -> list, ** -> dict) a=10 b=20 result = a+b print(result) c=30 d=40 result = c+d print(result) def addvalue(a,b): # ab=10, bd=20 주소값만 전달 call by reference return a+b print(addvalue(10,2..
-
데이터과학을 위한 통계 리뷰- 5일차 (QQ plot,긴꼬리분포,t-분포,이항분포,푸아송 분포, 지수분포,고장률 추정,와이블 분포)Machine Learning/데이터과학을 위한 통계 2021. 3. 5. 16:15
2.6.1 QQ plot (quantile-quantile Plot )x축에는 Theoretical-Quantile 을, y축에는 획득된 샘플 값의 Empirical-Quantile (Z 점수) 을 표시• 이론과 실제가 얼마나 차이나는지를 쉽게 표현하기 위한 Plot Quantile 은 분위수라는 개념인데, 데이터들을 정렬한 뒤에 몇 등분으로 나눌 수 결정하고, 나눠진 등분을 구분하는 구분자를 찾는 개념2.7 긴꼬리분포데이터는 일반적으로 정규분포를 따르지 않는다(적은수의 극단값이 주로 존해하는 tail 을 갖음) 정규분포와 밀접한 관계 (일반적 – 왜도의 기준은 “0”)Data의 평균의 경향 => 왜도, 표준편차의 경향 => 첨도 2.8 스튜던트의 t 분포 1. t 분포 = 연속확률분포이면서 표본분포로,..
-
Python 기초 공부 - 2Programming/Python 2021. 3. 4. 23:53
2일차 반복문 num1 = 6 num1 += 1 # num1 = num1 + 1 num2 = 7 num2 -= 5 # num2 = num2 - 1 num3 = 8 num3 /= 2 # num3 = num3 / 2 print(num1,num2,round(num3)) num1 = 1 num1 *= 3 num2 = 2 num2 **= 3 # ^ , ** print(num1, num2) 7 2 4 3 8 # 3항 연산자 x = 5 ans = 'Non-negative' if x>=10 else 'Negative' print(ans) Negative city = ' '# 문자열 거짓, 공백도 문자열, 숫자:0, list:[], dict:{}, tuple:() 모두 거짓 if city: # 조건이 참인 경우만 실행 ..
-
Python 기초 공부 - 1Programming/Python 2021. 3. 4. 23:42
2년전 처음 시작했던 파이썬 공부내용 작성 1일차 # fullName 문자열 : 기본이 1차원 배열 , 숫자 int :4byte, float : 4byte fullName = input("이름을 입력하세요 : ") n = fullName.rfind(" ") # 리버스파인드 거꾸로부터 찾아라 print(fullName[0]) # 배열과 리스트의 인덱싱은 동일하다. print(fullName[1]) print(fullName[2]) print("이름 : ", fullName[1:]) # : print("성(s): ", fullName[:1]) # 문자열은 '' "single quotation", "korea" ; double quotation # """""" : 3개인 경우는 입력하는대로 저장함 s = "k..
-
데이터과학을 위한 통계 리뷰 - 4일차 (표본분포,중심극한정리,Z점수,부트스트랩,신뢰구간,정규분포,재표본추출,표준오차)Machine Learning/데이터과학을 위한 통계 2021. 3. 4. 16:56
2.2.1 평균으로의 회귀주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상(평균 회귀, 회귀 효과) 극단적이거나 이례적인 결과는 많은 자료를 토대로 할 때 결국 평균에 가깝게 되돌아오는 경향을 보인다.키가 큰 부모가 키가 큰 자녀를 낳는 것은 분명하지만 평균보다 키가 큰 아버지의 아들은 아버지보다 키가 작은 경향 (기울기가 더 작음)평균보다 키가 작은 아버지의 아들은 아버지보다 키가 큰 경향 (평균을 중심으로 달라짐)특정 행동을 여러 차례 반복하면 극단적인 결과가 나오더라도 결국 중심으로 회귀한다.2.3 통계학에서의 표본분포표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포 표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포 표본평균의 분포는 ..
-
데이터과학을 위한 통계 리뷰 - 3일차 (범주형,다변수,랜덤표본추출,편향)Machine Learning/데이터과학을 위한 통계 2021. 3. 3. 22:35
시각화 관련 및 표본 추출 관련 내용입니다.1.8.2 범주형 변수 대 범주형 변수분할표란? 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로, 두 변수가 모두 범주형에 속할 때, 도수분포표를 2차원으로 확장한 형태로 요약할 수 있다.엑셀 = 피봇테이블. R = CrossTable()함수 데이터로 예시-상자그림 : 범주형 변수에 따라 분류된 수치형 변수의 분포를 시각화공항 지연 통계 (교통 통계국)arr_del15 : 지연된 비행 횟수 (> = 15 분 늦음).carrier_ct : 항공기로 인해 지연된 항공편 수.weather_ct : 날씨로 인해 지연된 항공편 수.nas_ct : 국가 항공 시스템으로 인해 지연된 항공편 수security_ct : 보안으로 인해 지연된 항공편 수 장점 : 데이터..