전체 글
-
Python 기초 공부 - 3Programming/Python 2021. 3. 5. 16:32
# 함수 (function) # - 함수이름은 중복이 되면 안됨 (오버로딩은 default 매개변수로 해결) # - Required auguments(매개변수를 순서적으로 입력) # - keyword auguments(키이 매개변수의 순서 변경이 가능) # - default auguments(오버로딩해결) # - Variable-length auguments(변동매개변수 : * -> list, ** -> dict) a=10 b=20 result = a+b print(result) c=30 d=40 result = c+d print(result) def addvalue(a,b): # ab=10, bd=20 주소값만 전달 call by reference return a+b print(addvalue(10,2..
-
데이터과학을 위한 통계 리뷰- 5일차 (QQ plot,긴꼬리분포,t-분포,이항분포,푸아송 분포, 지수분포,고장률 추정,와이블 분포)Machine Learning/데이터과학을 위한 통계 2021. 3. 5. 16:15
2.6.1 QQ plot (quantile-quantile Plot )x축에는 Theoretical-Quantile 을, y축에는 획득된 샘플 값의 Empirical-Quantile (Z 점수) 을 표시• 이론과 실제가 얼마나 차이나는지를 쉽게 표현하기 위한 Plot Quantile 은 분위수라는 개념인데, 데이터들을 정렬한 뒤에 몇 등분으로 나눌 수 결정하고, 나눠진 등분을 구분하는 구분자를 찾는 개념2.7 긴꼬리분포데이터는 일반적으로 정규분포를 따르지 않는다(적은수의 극단값이 주로 존해하는 tail 을 갖음) 정규분포와 밀접한 관계 (일반적 – 왜도의 기준은 “0”)Data의 평균의 경향 => 왜도, 표준편차의 경향 => 첨도 2.8 스튜던트의 t 분포 1. t 분포 = 연속확률분포이면서 표본분포로,..
-
Python 기초 공부 - 2Programming/Python 2021. 3. 4. 23:53
2일차 반복문 num1 = 6 num1 += 1 # num1 = num1 + 1 num2 = 7 num2 -= 5 # num2 = num2 - 1 num3 = 8 num3 /= 2 # num3 = num3 / 2 print(num1,num2,round(num3)) num1 = 1 num1 *= 3 num2 = 2 num2 **= 3 # ^ , ** print(num1, num2) 7 2 4 3 8 # 3항 연산자 x = 5 ans = 'Non-negative' if x>=10 else 'Negative' print(ans) Negative city = ' '# 문자열 거짓, 공백도 문자열, 숫자:0, list:[], dict:{}, tuple:() 모두 거짓 if city: # 조건이 참인 경우만 실행 ..
-
Python 기초 공부 - 1Programming/Python 2021. 3. 4. 23:42
2년전 처음 시작했던 파이썬 공부내용 작성 1일차 # fullName 문자열 : 기본이 1차원 배열 , 숫자 int :4byte, float : 4byte fullName = input("이름을 입력하세요 : ") n = fullName.rfind(" ") # 리버스파인드 거꾸로부터 찾아라 print(fullName[0]) # 배열과 리스트의 인덱싱은 동일하다. print(fullName[1]) print(fullName[2]) print("이름 : ", fullName[1:]) # : print("성(s): ", fullName[:1]) # 문자열은 '' "single quotation", "korea" ; double quotation # """""" : 3개인 경우는 입력하는대로 저장함 s = "k..
-
데이터과학을 위한 통계 리뷰 - 4일차 (표본분포,중심극한정리,Z점수,부트스트랩,신뢰구간,정규분포,재표본추출,표준오차)Machine Learning/데이터과학을 위한 통계 2021. 3. 4. 16:56
2.2.1 평균으로의 회귀주어진 어떤 변수를 연속적으로 측정했을 때 나타나는 현상(평균 회귀, 회귀 효과) 극단적이거나 이례적인 결과는 많은 자료를 토대로 할 때 결국 평균에 가깝게 되돌아오는 경향을 보인다.키가 큰 부모가 키가 큰 자녀를 낳는 것은 분명하지만 평균보다 키가 큰 아버지의 아들은 아버지보다 키가 작은 경향 (기울기가 더 작음)평균보다 키가 작은 아버지의 아들은 아버지보다 키가 큰 경향 (평균을 중심으로 달라짐)특정 행동을 여러 차례 반복하면 극단적인 결과가 나오더라도 결국 중심으로 회귀한다.2.3 통계학에서의 표본분포표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포 표본분포 : 하나의 동일한 모집단에서 얻은 여러 샘플에 대한 표본통계량의 분포 표본평균의 분포는 ..
-
데이터과학을 위한 통계 리뷰 - 3일차 (범주형,다변수,랜덤표본추출,편향)Machine Learning/데이터과학을 위한 통계 2021. 3. 3. 22:35
시각화 관련 및 표본 추출 관련 내용입니다.1.8.2 범주형 변수 대 범주형 변수분할표란? 두 변수에 대한 관측값을 요약하고 해석하는 방법 중 하나로, 두 변수가 모두 범주형에 속할 때, 도수분포표를 2차원으로 확장한 형태로 요약할 수 있다.엑셀 = 피봇테이블. R = CrossTable()함수 데이터로 예시-상자그림 : 범주형 변수에 따라 분류된 수치형 변수의 분포를 시각화공항 지연 통계 (교통 통계국)arr_del15 : 지연된 비행 횟수 (> = 15 분 늦음).carrier_ct : 항공기로 인해 지연된 항공편 수.weather_ct : 날씨로 인해 지연된 항공편 수.nas_ct : 국가 항공 시스템으로 인해 지연된 항공편 수security_ct : 보안으로 인해 지연된 항공편 수 장점 : 데이터..
-
데이터과학을 위한 통계 리뷰 - 2일차 (변이추정,백분위수,히스토그램,밀도추정,상관관계)Machine Learning/데이터과학을 위한 통계 2021. 3. 2. 19:25
1.4 변이추정•1일차 정리 산포도 dispersion: 정렬된 데이터가 얼마나 퍼져 있는지 보는 것.•변이를 추정하는 또다른 접근법순서통계량(order statistic): 정렬된 데이터를 나타내는 통계량범위(range): 가장 기본이 되는 측도로 가장 큰 값과 가장 작은 값의 차이 (Max - Min)최솟값과 최댓값은 이상점을 분석하는 데 도움, 특잇값에 매우 민감하여 데이터의 산포 측정에 유용하지는 않음 백분위수 사이의 차이를 가지고 추정합니다. 백분위수 (percentile) : 값들로 이루어진 데이터를 순서대로 나열했을 때 위치를 백분율로 나타낸 값일반적으로 크기가 가장 작은 것부터 나열하여 가장 작은 것을 0, 가장 큰 것을 100으로 합니다.데이터에서 P번째 백분위수는 P퍼센트 분위수(qua..
-
데이터과학을 위한 통계 리뷰 - 1일차 (탐색적 데이터 분석,분산,편차)Machine Learning/데이터과학을 위한 통계 2021. 3. 1. 14:52
스터디 했던 내용을 바탕으로 재작성 되었습니다.중요하지 않은 부분은 생략했습니다. Chapter 1. 탐색적 데이터 분석 (Exploratory data analysis)(전)통계학 - 추론 : 적은 표본을 가지고 더 큰 모집단에 대한 결론을 도출하기 위한 일련의 복잡한 과정Tukey, John W. “ The Future Of Data Analysis"(1962) (후)통계학 - 통계를 공학과 컴퓨터 과학분야에 접목시킴탐색적 데이터 분석 분야 정립 :Tukey, John W. “Exploratory data analysis "(1977) Exploratory data analysis is detective work 1.1정형화된 데이터의 요소-통계적 개념들을 활용하기 위해 가공되지 않은 데이터를 활용 ..