전체 글
-
Web Server와 WAS(Web Application Server)의 차이Programming 2023. 7. 18. 21:23
Web server와 WAS(Web Application Server)는 웹 애플리케이션을 실행하기 위한 서버 소프트웨어입니다. 다음은 각각의 순기능과 주요 차이점을 깔끔하게 정리한 후, 간단한 예시를 제시합니다: Web server: 순기능: 클라이언트로부터 HTTP 요청을 받아 정적인 웹 페이지를 제공합니다. HTML, CSS, JavaScript, 이미지 등 정적인 콘텐츠를 제공합니다. HTTP 프로토콜 기반으로 동작하며, 클라이언트와의 요청 및 응답을 처리합니다. WAS와의 차이점: 주로 정적인 콘텐츠 제공에 특화되어 있습니다. 대표적인 웹 서버: Apache HTTP Server, Nginx 예시: 클라이언트로부터 /index.html 요청을 받으면 서버에서 해당 정적 파일을 반환하여 클라이언트..
-
Google Machine Learning Boot Camp 4기자료공유 2023. 7. 18. 21:11
안녕하세요! 여러분 Machine Learning의 기초부터 새로 배울 수 있는 Project를 소개합니다. Google for Developers에서 Machine Learning BootCamp 4기를 모집한다고 합니다. 저는 Machine Learning BootCamp 1기 참여자로서, 많은 애정을 가지고 참여했던 프로그램입니다. 이 Project를 통해서 부족했던 기초를 처음부터 다시 다지는 계기가 되었으며, 현재 ML Engineer 역할에 매우 큰 도움이 되었습니다! Machine Learning 기본 개념을 Coursera 강의 수강과 함께 배우실 수 있으며, 교육이 끝나면 Kaggle Project 기반으로 새로운 Insight를 얻어가는 기회가 될 것이라고 생각합니다. 이보다 좋게 De..
-
ChatGPT를 활용한 PDF 요약봇 만들기Programming/Python 2023. 7. 14. 15:58
전체 소스: https://github.com/Joonyeong97/langchain-summarize-bot GitHub - Joonyeong97/langchain-summarize-bot: PDF Summarize Bot PDF Summarize Bot. Contribute to Joonyeong97/langchain-summarize-bot development by creating an account on GitHub. github.com langchain과 결합하여, PDF를 한글로 요약하는 봇 입니다. ChatGPT가 나오고 나서, 만들었던 토이 프로젝트였는데, 공개를 까먹고 있다가 지금 공개합니다. 요약이 되면서 텍스트가 나오게끔 만들었습니다. 요약이 된 텍스트는 텍스트가 저장됩니다. 로컬에..
-
Python 3.11.4 Base Docker Image 만들기Programming/Python 2023. 7. 14. 15:27
https://betterdatascience.com/python-310-vs-python-311/ Python is About to Become 64% Faster - Python 3.10 vs. Python 3.11 Benchmark | Better Data Science Let’s compare Python 3.10 vs. Python 3.11 in an extensive benchmark test. Spoiler alert: Python 3.11 is up to 64% faster! betterdatascience.com 변경사항 참고 Python 3.11로 업데이트 되면서 성능 개선이 있다고 하였습니다. 공식 이미지가 있지만, 공식 이미지를 기반으로 만들다보니 에러가 많이 발생해서, Python..
-
Data 저장 및 운용 방식 용어 정리Data Engineering 2023. 7. 7. 09:32
Data Lake: 데이터 레이크는 구조화되지 않은 원시 데이터부터 반구조화 및 구조화된 데이터에 이르기까지 모든 유형의 데이터를 저장할 수 있는 시스템입니다. 데이터 레이크는 대용량의 원시 데이터를 그대로 저장하며, 이는 데이터 웨어하우스와는 대조적으로 필요에 따라 데이터를 쿼리하고 분석할 수 있게 해줍니다. Operational Data Store (ODS): ODS는 다른 데이터베이스에서 추출된 현재의 트랜잭션 데이터를 중간 저장소에 보관하는 시스템입니다. ODS는 일반적으로 실시간의 비즈니스 활동을 분석하는 데 사용됩니다. CDW (Corporate Data Warehouse): CDW는 조직의 전체 데이터를 통합적으로 관리하고 보관하는 중앙 데이터 저장소입니다. 이는 분석, 보고서 작성, 의사결..
-
P-Value, T-Test, Z-Test 설명Data Analysis 2023. 6. 27. 09:40
P-value (p값) P-value는 통계적 가설 검정에서 사용되는 중요한 개념입니다. p값은 귀무가설(null hypothesis)이 참일 경우, 표본 데이터가 관찰된 통계치보다 더 극단적인 값을 얻을 확률을 의미합니다. 예를 들어, p값이 0.05라면, 이는 귀무가설이 참일 경우, 표본 데이터가 관찰된 통계치 이상으로 극단적인 결과를 얻을 확률이 5%라는 것을 의미합니다. 일반적으로 p값이 특정 임계치(예: 0.05)보다 작을 경우, 귀무가설을 기각하고 대립가설(alternative hypothesis)을 수용합니다. T-Test (t 검정) T-Test는 두 집단의 평균이 통계적으로 유의하게 다른지를 판단하는데 사용되는 검정 방법입니다. t검정은 일반적으로 다음과 같은 세 가지 유형으로 나눠집니다..
-
배치 크기(batch size)를 늘리는 방법Machine Learning 2023. 4. 4. 16:20
RoBERTa 모델을 학습할 때 배치 크기(batch size)를 늘리는 방법은 크게 두 가지입니다. 하이퍼파라미터 조정: RoBERTa를 학습할 때 사용하는 코드나 구성 파일에서 batch_size 하이퍼파라미터를 변경하여 배치 크기를 조정할 수 있습니다. 이렇게 변경하면 RoBERTa 모델의 학습 과정에서 한 번에 처리되는 데이터 샘플 수가 증가하게 됩니다. 예를 들어, 배치 크기를 32에서 64로 늘리고자 한다면 batch_size 값을 64로 변경해야 합니다. 그래디언트 축적 (Gradient Accumulation): 모델의 메모리 사용량에 제한이 있거나, 현재 배치 크기를 더 늘릴 수 없는 경우에는 그래디언트 축적 기법을 사용할 수 있습니다. 이 방법은 여러 미니 배치의 그래디언트를 축적한 후..
-
PostgreSQL Tuning 종류Programming/PostgreSQL 2023. 3. 9. 10:05
인덱싱(Indexing) 인덱싱은 데이터베이스의 성능을 최적화하기 위한 가장 기본적인 방법 중 하나입니다. 인덱스는 테이블의 열(column)에 대한 정렬된 데이터 구조입니다. 인덱스를 사용하면 데이터베이스에서 원하는 데이터를 빠르게 검색할 수 있습니다. 특히 WHERE, JOIN, ORDER BY, GROUP BY 등의 작업에서 인덱스를 사용하면 실행 속도를 향상시킬 수 있습니다. 쿼리 최적화(Query Optimization) 쿼리 최적화는 SQL 쿼리를 더 빠르게 실행하기 위한 방법입니다. 이 방법은 쿼리의 실행 계획을 확인하여 최적의 실행 계획을 찾는 것입니다. 쿼리 실행 계획은 데이터베이스 엔진이 쿼리를 실행하기 전에 만들어지며, 이를 확인하여 쿼리 실행 속도를 빠르게 만들 수 있습니다. 정규화..