DataCook

Test-Time Scaling(TTS) Methods for Reasoning LLMs

AI와 함께 2025. 3. 27. 11:16

Test-Time Scaling(TTS)은 훈련된 언어 모델의 구조를 바꾸지 않고도 추론 성능을 향상시키는 기술로, 추론 중 필요한 연산량을 동적으로 조절하여 정확도와 효율성 간의 균형을 맞춥니다. 특히, reasoning이 중요한 수학, 계획, 논리 기반 문제에서 훈련 비용 없이 성능을 극대화할 수 있어 매우 주목받고 있습니다.🔹 TTS의 개요 항목설명항목설명목적추론 성능을 개선하면서도 모델 구조나 파라미터는 유지적용 시점모델 실행 시점 (inference-time)핵심 전략다중 샘플링, 탐색 기반 디코딩, 응답 재정렬 및 수정장점학습 없이 성능 향상 가능, 저비용·고정밀 응용에 적합🔹 Test-Time Scaling (TTS) Methods – 통합 요약표분류대표 기법핵심 아이디어 & 설명특징Sa..

Reinforced LLMs: 강화학습을 통한 LLM 최적화

AI와 함께 2025. 3. 27. 11:14

강화학습(Reinforcement Learning, RL)은 대형 언어 모델(LLM)을 사용자 선호에 맞게 정렬(alignment)시키고, 복잡한 추론 작업에 최적화하는 핵심 방법 중 하나입니다. 특히, 사후 학습(post-training) 단계에서 Supervised Fine-Tuning(SFT) → Reward Modeling → Policy Optimization의 3단계 구조를 기반으로 수행됩니다.🔹 1. 강화 학습 기반 LLM 최적화 개요 단계설명SFT고품질 라벨 데이터를 기반으로 기본 응답 형식, 스타일 등을 학습Reward Model 학습사람 또는 AI가 평가한 선호도 기반으로 응답 품질을 수치화RL 정책 최적화PPO, DPO, GRPO 등 알고리즘으로 보상 모델에 따라 응답 정책 조정🔹..

Supervised Finetuning in Large Language Models (LLMs)

AI와 함께 2025. 3. 27. 11:13

Supervised Finetuning(SFT)은 대형 언어 모델(LLM)의 사후 학습(post-training) 과정에서 가장 기본이 되는 구성 요소로, 사람이 라벨링한 데이터를 이용하여 모델을 특정 목적에 맞게 조정하는 기법입니다. 아래는 SFT의 주요 형태와 기술별 설명입니다.🔹 1. Instruction Finetuning개념: 프롬프트(지시)와 응답(완성)의 쌍으로 구성된 대규모 데이터셋을 기반으로, 사용자의 명령을 정확하고 유용하게 따르도록 훈련.주요 효과: 다양한 작업에 대해 zero-shot 또는 few-shot 설정에서도 높은 성능 발휘사례 모델: T0, FLAN, Alpaca, Vicuna, Dolly🔹 2. Dialogue (Multi-turn) Finetuning개념: 연속적인 ..

Introduction: Why Post-training for LLMs Matters

AI와 함께 2025. 3. 27. 11:12

현대의 대형 언어 모델(LLMs)은 단순한 텍스트 생성 능력을 넘어, 복잡한 다단계 추론(multi-step reasoning), 자동화된 콘텐츠 생성, 멀티모달 상호작용에 이르기까지 다양한 영역에서 탁월한 성능을 보이고 있습니다. 그러나, 사실 왜곡(hallucination), 비논리적인 응답, 사용자 가치 부정합(alignment mismatch) 등의 한계를 내포하고 있어, 사후 학습(post-training) 전략이 필수적입니다.이 논문은 이러한 배경에서 LLM의 사후 학습(Post-training)을 Fine-Tuning, Reinforcement Learning, Test-Time Scaling이라는 세 축으로 구조화하여 고찰합니다.🔹 1. Post-training의 필요성과 정의 항목설명문..

대규모 언어 모델(LLM) 사후학습(Post-Training) 전략 개요

AI와 함께 2025. 3. 27. 11:11

AI 논문 리뷰https://arxiv.org/html/2502.21321 LLM Post-Training: A Deep Dive into Reasoning Large Language ModelsLLM Post-Training: A Deep Dive into Reasoning Large Language Models Komal Kumar∗, Tajamul Ashraf∗, Omkar Thawakar, Rao Muhammad Anwer, Hisham Cholakkal, Mubarak Shah, Ming-Hsuan Yang, Phillip H.S. Torr, Fahad Shahbaz Khan, Salman Khan ∗Equal contribuarxiv.org 총 5가지로 파트로 나눠서 AI로 정리한 글임 1. ..

LLM 개발 및 활용을 위한 대표 기술 및 프레임워크 개요

AI와 함께 2025. 3. 27. 11:05

1. Parameter-Efficient Fine-Tuning & Model Compression LoRA저차원 어댑터(LoRA)를 삽입하여 효율적인 미세조정 수행QLoRA4비트 정밀도 양자화와 LoRA를 결합하여 소비자 GPU에서도 튜닝 가능GPTQGPT 모델에 적합한 양자화 기법으로 성능 저하 없이 경량화SparseGPT중요하지 않은 파라미터를 제거하여 모델 크기 축소PEFT (HF)다양한 파라미터 효율적 튜닝 기법을 통합한 HuggingFace 프레임워크BitsAndBytes8비트 옵티마이저 및 4비트 양자화를 지원하여 메모리 절약AdaLoRA네트워크 층마다 LoRA 적용 범위를 동적으로 조절P-Tuning v2지속적으로 학습 가능한 프롬프트를 통해 미세조정 수행2. Data Management &..

✅ Sentence Transformers의 Bi-Encoder vs Cross-Encoder 비교 분석

AI와 함께 2025. 3. 27. 11:01

1. 서론Sentence Transformers는 텍스트 의미를 벡터로 표현하여 다양한 자연어 처리(NLP) 응용에 활용되는 대표적인 문장 임베딩 프레임워크입니다. 이 프레임워크는 두 가지 주요 아키텍처인 Bi-Encoder와 Cross-Encoder를 제공하며, 두 모델은 정확도, 처리 속도, 확장성 측면에서 상호보완적인 특성을 갖습니다. 본 보고서는 각 모델의 작동 원리, 장단점, 데이터셋 구조, 실제 활용 사례를 종합적으로 비교합니다.2. 작동 방식 및 구조 비교Bi-Encoder: 두 문장을 독립적으로 임베딩한 후, 코사인 유사도 등의 거리 메트릭으로 유사도를 계산함. (Embedding Model)✔ 빠른 유사도 계산✔ 벡터 사전 계산 및 재사용 가능❌ 문맥 이해력 상대적으로 낮음Cross-En..

효율적인 AI 에이전트 개발을 위한 4단계 체크리스트

Machine Learning 2024. 12. 9. 16:50

1단계: 문제 정의 및 데이터 준비AI 에이전트의 목적에 맞는 문제를 명확히 정의하고, 관련 데이터를 수집 및 준비하는 단계입니다.목적 정의AI 에이전트가 수행해야 할 특정 목적, 과제, 목표를 명확히 설정합니다.데이터 수집학습 및 평가를 위해 과제에 적합한 다양하고 대표적인 데이터를 수집합니다.데이터 정제모델 학습의 정확도를 높이기 위해 불필요하거나 품질이 낮은 데이터를 제거합니다.특징 엔지니어링에이전트의 도메인에 적합한 핵심 특징을 식별하고 이를 학습 가능하도록 전처리합니다.지식 베이스 설정에이전트가 활용할 수 있는 태스크 관련 지식(예: 시맨틱 검색 데이터베이스 또는 그래프 기반 지식)을 체계적으로 구축합니다.2단계: 모델 미세 조정 및 통합AI 모델을 선택하고 과제에 맞게 조정한 후, 시스템 환경..

ABOUT ME

DataCook DataCook

티스토리툴바

ABOUT ME

전체 글

티스토리툴바