대규모 언어 모델(LLM) 사후학습(Post-Training) 전략 개요

AI와 함께 2025. 3. 27. 11:11

AI 논문 리뷰

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

LLM Post-Training: A Deep Dive into Reasoning Large Language Models Komal Kumar∗, Tajamul Ashraf∗, Omkar Thawakar, Rao Muhammad Anwer, Hisham Cholakkal, Mubarak Shah, Ming-Hsuan Yang, Phillip H.S. Torr, Fahad Shahbaz Khan, Salman Khan ∗Equal contribu

arxiv.org

총 5가지로 파트로 나눠서 AI로 정리한 글임

1. 왜 사후학습이 중요한가? (도입 목적)

대규모 언어 모델(LLMs)은 사전학습(pretraining)만으로도 다양한 언어 과제를 수행할 수 있으나, 다음과 같은 중요한 한계점이 존재합니다:

논리적 일관성 부족: CoT 없이 단답형 응답에 그침
사실 오류(hallucination) 발생 가능성
사용자 의도와 불일치하거나 유해한 응답 가능성

이에 따라, LLM의 능력을 실제 응용 환경에 맞게 조정하기 위해 사후학습(Post-Training) 전략이 도입됩니다. 이는 아래 세 가지 축으로 구성됩니다:

🎯 Fine-Tuning (지도 미세조정)
🎯 Reinforcement Learning (강화학습 기반 정렬)
🎯 Test-Time Scaling (추론 단계 스케일링)

2. 사후학습의 핵심 구성요소 요약

구분	방법	목적	특징
지도 미세조정 (SFT)	Instruction/Dialogue/Domain-Specific/CoT/Distillation 기반	사용자 지시 이해, 도메인 적응	고정된 데이터 기반, 전통적 접근
강화학습 기반 정렬 (RL)	RLHF, DPO, GRPO, RLAIF, PPO, ORPO 등	사람 선호 반영, 안전성 확보	피드백 루프, 보상모델 기반 업데이트
추론단계 최적화 (TTS)	Beam Search, CoT, Self-Refinement, MCTS 등	추론 단계에서 정확도 향상	학습 불필요, 연산 효율성 조정 가능

3. 지도 미세조정 (Fine-Tuning)

지도 미세조정은 다음과 같이 다양하게 적용됩니다:

Instruction Tuning: 명령-응답 쌍 학습 (예: FLAN, Alpaca)
Dialogue Tuning: 다중턴 대화 유지 (예: ChatGPT)
CoT Tuning: 논리 추론 과정을 명시적 학습
Domain-Specific Tuning: 바이오/금융/법률 등 전문 데이터로 특화
Distillation: 큰 모델의 추론 출력을 작은 모델로 전이학습
PEFT: LoRA, QLoRA 등 파라미터 효율화 기법 활용

✔️ 소규모 GPU에서도 미세조정 가능 (e.g. QLoRA + BitsAndBytes)

4. 강화학습 기반 정렬 (Reinforced LLMs)

LLM을 인간 선호나 평가 기준에 맞추기 위한 대표적인 접근법은 다음과 같습니다:

SFT (지도학습): 고품질 응답 예제로 초기화
보상모델(RM) 학습: 인간 선호/순위 기반 예측 모델
정책 최적화 (PPO/DPO 등): 보상을 최대화하는 방향으로 정책(모델) 업데이트

주요 알고리즘

RLHF: Human Feedback 기반 보상 최적화
RLAIF: AI Feedback으로 대체 (비용 절감)
DPO/GRPO: 보상모델 없이 로그우도 차이 기반 직접 최적화
OREO: Soft Bellman 방정식 기반 오프라인 RL

보상모델 종류

Outcome Reward Model: 정답 여부 기반
Process Reward Model: 추론 경로의 논리성 평가

🧠 보상 기반 학습은 reasoning 품질 향상, 안전성, 일관성을 확보할 수 있음

5. Test-Time Scaling (TTS): 추론단계에서의 최적화

TTS는 모델 파라미터를 변경하지 않고, 추론 단계에서 연산 자원을 조절하거나 다양한 전략을 적용하여 추론 능력을 향상시키는 방식입니다.

분류	대표	기법설명	특징
Sampling	Best-of-N, Confidence Sampling	여러 응답 중 확률/보상 기반으로 최상 선택	간단, 다양한 응답 확보
Decoding	Beam Search, Self-Consistency	여러 경로 탐색 후 일관된 응답 선택	구조화된 탐색에 강함
Reasoning	CoT, ToT, GoT	생각 흐름을 유도, 트리/그래프 기반 확장	복잡한 문제에 효과적
Search/Verifier	MCTS, Verifier Search	다양한 경로 시도 후 보상모델로 평가	고정확도, compute cost ↑
Self-Improvement	Self-Refinement, Sequential Revision	모델이 응답을 스스로 개선	반복적 개선, 직관적
Compute 최적화	COS (Compute Optimal Scaling)	문제 난이도에 따라 compute 전략 선택	효율성 극대화, 성능 유지

TTS는 특히 수학 문제, 논리 추론, 코드 생성 등에서 큰 성능 향상을 유도하며, 14배 큰 모델을 뛰어넘는 결과를 보이기도 함

6. 기존 학습법과의 차이점 비교

항목	기존 학습 방법 (SFT/RLHF)	Test-Time Scaling (TTS)
연산 시점	학습 시 고비용	추론 시 동적 비용
유연성	재학습 필요	상황별 전략 조정 가능
확장성	도메인 전이 어려움	입력 난이도 기반 확장 가능
성능/비용비	높음	우수 (최적화 가능)

7. 실제 사례 및 성능 개선

GPT-4 / GPT-4 Turbo: Self-consistency, verifier 기반 최종 응답 결정
WebGPT: Best-of-N + 보상모델 = QA 정확도 향상
DeepSeek-R1: GRPO + DPO + TTS 조합으로 reasoning 성능 극대화
CoT + ToT + MCTS 조합: 수학, 논리 문제 정답률 급상승

COS는 Best-of-N 대비 4배 적은 연산으로 동일 정확도 달성

8. 결론 및 요약

사후학습 전략은 다음과 같은 이유로 현대 LLM 시스템에서 필수적입니다:

Fine-Tuning: 기본 능력을 태스크에 맞춰 정렬
Reinforcement Learning: 사용자 가치/선호에 정합되도록 정렬
Test-Time Scaling: 추론 과정에서 능동적 최적화 가능

이 세 축은 상호보완적이며, 현대 모델(GPT-4, Gemini, DeepSeek 등)은 이를 통합적으로 활용하여 성능, 효율성, 안정성을 동시에 확보하고 있습니다.

✅ 미래 LLM 시스템은 학습 + 추론 최적화를 동시에 활용하는 하이브리드 전략으로 진화할 것

2025.03.27 - [AI와 함께] - LLM 개발 및 활용을 위한 대표 기술 및 프레임워크 개요

LLM 개발 및 활용을 위한 대표 기술 및 프레임워크 개요

1. Parameter-Efficient Fine-Tuning & Model Compression LoRA저차원 어댑터(LoRA)를 삽입하여 효율적인 미세조정 수행QLoRA4비트 정밀도 양자화와 LoRA를 결합하여 소비자 GPU에서도 튜닝 가능GPTQGPT 모델에 적합한

datacook.tistory.com

2025.03.27 - [분류 전체보기] - Introduction: Why Post-training for LLMs Matters

Introduction: Why Post-training for LLMs Matters

현대의 대형 언어 모델(LLMs)은 단순한 텍스트 생성 능력을 넘어, 복잡한 다단계 추론(multi-step reasoning), 자동화된 콘텐츠 생성, 멀티모달 상호작용에 이르기까지 다양한 영역에서 탁월한 성능을

datacook.tistory.com

저작자표시 (새창열림)

'AI와 함께' 카테고리의 다른 글

Reinforced LLMs: 강화학습을 통한 LLM 최적화 (1)	2025.03.27
Supervised Finetuning in Large Language Models (LLMs) (0)	2025.03.27
Introduction: Why Post-training for LLMs Matters (0)	2025.03.27
LLM 개발 및 활용을 위한 대표 기술 및 프레임워크 개요 (1)	2025.03.27
✅ Sentence Transformers의 Bi-Encoder vs Cross-Encoder 비교 분석 (0)	2025.03.27

ABOUT ME

DataCook DataCook

AI 논문 리뷰

1. 왜 사후학습이 중요한가? (도입 목적)

2. 사후학습의 핵심 구성요소 요약

3. 지도 미세조정 (Fine-Tuning)

4. 강화학습 기반 정렬 (Reinforced LLMs)

주요 알고리즘

보상모델 종류

5. Test-Time Scaling (TTS): 추론단계에서의 최적화

6. 기존 학습법과의 차이점 비교

7. 실제 사례 및 성능 개선

8. 결론 및 요약

'AI와 함께' 카테고리의 다른 글

티스토리툴바

ABOUT ME

AI 논문 리뷰

1. 왜 사후학습이 중요한가? (도입 목적)

2. 사후학습의 핵심 구성요소 요약

3. 지도 미세조정 (Fine-Tuning)

4. 강화학습 기반 정렬 (Reinforced LLMs)

주요 알고리즘

보상모델 종류

5. Test-Time Scaling (TTS): 추론단계에서의 최적화

6. 기존 학습법과의 차이점 비교

7. 실제 사례 및 성능 개선

8. 결론 및 요약

'AI와 함께' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바