전체 글
-
데이터과학을 위한 통계 리뷰 - 2일차 (변이추정,백분위수,히스토그램,밀도추정,상관관계)Machine Learning/데이터과학을 위한 통계 2021. 3. 2. 19:25
1.4 변이추정•1일차 정리 산포도 dispersion: 정렬된 데이터가 얼마나 퍼져 있는지 보는 것.•변이를 추정하는 또다른 접근법순서통계량(order statistic): 정렬된 데이터를 나타내는 통계량범위(range): 가장 기본이 되는 측도로 가장 큰 값과 가장 작은 값의 차이 (Max - Min)최솟값과 최댓값은 이상점을 분석하는 데 도움, 특잇값에 매우 민감하여 데이터의 산포 측정에 유용하지는 않음 백분위수 사이의 차이를 가지고 추정합니다. 백분위수 (percentile) : 값들로 이루어진 데이터를 순서대로 나열했을 때 위치를 백분율로 나타낸 값일반적으로 크기가 가장 작은 것부터 나열하여 가장 작은 것을 0, 가장 큰 것을 100으로 합니다.데이터에서 P번째 백분위수는 P퍼센트 분위수(qua..
-
데이터과학을 위한 통계 리뷰 - 1일차 (탐색적 데이터 분석,분산,편차)Machine Learning/데이터과학을 위한 통계 2021. 3. 1. 14:52
스터디 했던 내용을 바탕으로 재작성 되었습니다.중요하지 않은 부분은 생략했습니다. Chapter 1. 탐색적 데이터 분석 (Exploratory data analysis)(전)통계학 - 추론 : 적은 표본을 가지고 더 큰 모집단에 대한 결론을 도출하기 위한 일련의 복잡한 과정Tukey, John W. “ The Future Of Data Analysis"(1962) (후)통계학 - 통계를 공학과 컴퓨터 과학분야에 접목시킴탐색적 데이터 분석 분야 정립 :Tukey, John W. “Exploratory data analysis "(1977) Exploratory data analysis is detective work 1.1정형화된 데이터의 요소-통계적 개념들을 활용하기 위해 가공되지 않은 데이터를 활용 ..
-
Hive sql PartitionData Engineering/Embulk 2021. 2. 27. 15:29
잠깐 근무했던 곳에서 Hive sql를 경험을 했습니다. 당시 사용하면서 지적받았던 문법을 정리할겸 작성합니다. 테이블 생성 CREATE TABLE '데이터베이스이름'.'테이블이름'( column1 STRING COMMENT '컬럼1' ,column2 INT COMMENT '컬럼2' ,colmun3 BIGINT COMMENT '컬럼3' ) PARTITIONED BY( search_col STRING COMMENT '검색컬럼1' ,search_col2 STRING COMMENT '검색컬림2' ) 당시 일할 때는 그냥 선배들이 작성한 코드를 붙여 넣는 형식으로 테이블을 생성하고 삭제했습니다. 생성하는 부분에서는 다른 sql언어와 다를바가 없었는데, 저는 처음 PARTITIONED BY를 봤습니다. 알고보니 ..
-
Ubuntu 16.04/18.04 Qgis 설치방법 (2version/3version)Programming/Geo coding 2021. 2. 6. 19:11
QGIS 설치방법 ●기존 QGIS 2버전을 설치하려면 sudo apt-get update && sudo apt-get install qgis python-qgis qgis-plugin-grass ●총 3개를 같이 설치하면 가능합니다. (위에 코드가 3개 다 설치하는 코드입니다.) QGIS python-qgis qgis-plugin-grass ●3.x 버전 설치방법 sudo nano /etc/apt/sources.list 편집기를 이용하여 apt-get 소스리스트에 입장 후 맨 마지막줄에 입력 deb https://qgis.org/debian bionic main deb-src https://qgis.org/debian bionic main 추가후 ctrl+x 후 Enter ●차례대로 명령어 실행 wget..
-
Ubuntu 16.04를 처음 사용하면서 작성한 가이드OS/Linux 2021. 2. 6. 19:07
기본가이드 ※ 우분투를 처음시작하는 사람을 위해 작성하였습니다. 모든 예제는 Command 기준입니다. 제일 기본이 되는 복사 / 붙여넣기 Ctrl+insert / shift+insert 터미널에 명령어 복붙하실때 사용하시면 됩니다. 그 외 UI를 이용하여 문서를 작성하거나 구글 스프레드시트, docs를 사용할땐 윈도우와 동일하게 ctrl + c / ctrl + v 로 가능합니다. ● 초기루트암호 설정법 ○ sudo passwd root ○ 터미널에 입력후 root 사용자 암호 설정, centos는 설치당시에 입력하지만 ○ 우분투는 설치후에 따로 입력합니다. ● 우분투는 apt 라는 명령어를 이용해서 프로그램을 설치합니다. ○ 처음 설치후 터미널에 입력후 진행하시면 됩니다. ○ 그 외로 특정 프로그램을 ..
-
Python PEP8 요약Programming/Python 2021. 2. 6. 19:02
목 차 1. PEP 8 이란 무엇인가? 2. Whitespace 3. Naming 3 - 1 Naming Style 3 - 2 피해야 할 이름 4. 표현식과 문장 4 - 1 주석 4 - 2 뒤에 오는 콤마(Trailing comma)를 사용할 경우 4 - 3 변수 주석 5. import 8. 상수(constants) 9. 함수선언 10. 빈줄 11. 예외 설정(Error) 1. PEP 8 이란 무엇인가? ● PEP8 전체 가이드 ● PEP8 : 파이썬 개선 제안서 파이썬 코드를 어떻게 구상할 지 알려주는 스타일 가이드 ● 다른 사람과 원활하게 협업하려면 공통된 스타일 공유가 필요 합니다. ● 일관성 있는 스타일은 나중에 수정하기 쉽습니다. 2. Whitespace ● 들여쓰기는 Space 4번을 이용합니..
-
지번주소, 도로명주소의 좌표변환(Open API 사용)Programming/Geo coding 2021. 2. 4. 18:34
(지번주소 및 도로명주소를 공개된 API를 이용하여 좌표로 변환하여 적재하는 방법을 기록합니다. QGIS에 뿌리기 위해서 좌표변환을 했습니다. www.vworld.kr/dev/v4api.do 공간정보 오픈플랫폼 오픈API 오픈 API 누구나 사용할 수 있는 지도 오픈플랫폼의 오픈 API 서비스는 국가 공간정보의 개방, 공유, 참여를 통해 공간정보의 자율적이고 창조적인 다양한 애플리케이션을 개발할 수 있도록 기술 www.vworld.kr 공간정보 오픈API 키를 발급 받고서 진행이 가능합니다. 참고로 하루에 최대 request 받을 수 있는 건수는 25,000건 입니다. 이후는 아이디를 변경하거나, 따로 문의를 하시는 것을 추천합니다. 반환되는 값은 Json 형태로 반환됩니다. 우리는 여기서 x,y만 추출..
-
데이터분석을 위해 공부했던 통계 이론 정리 계획Machine Learning/데이터과학을 위한 통계 2021. 2. 4. 12:36
데이터분석을 공부하면서 느꼈던 경험을 토대로 적어 나갈 예정입니다. 1. 기초통계이론 1.1 평균 1.2 분산 1.3 표준편차 1.4 등분산 이론 1.5 표본추출 1.6 그외 추가예정 2. 통계분석 2.1 차이검정 2.1.1 t-검정 2.1.2 분산분석(Avova) 2.2 관계검정 2.2.1 교차분석(Chi Square) 2.2.2 상관분석(Correlation) 2.2.3 회귀분석(Regression) 3. 실제 데이터로 실습 및 시각화 지인들과 하루 두시간씩 스터디했던 결과물을 조금 수정해서 업로드 예정입니다.