반응형
llm 강화학습
-
Reinforced LLMs: 강화학습을 통한 LLM 최적화AI와 함께 2025. 3. 27. 11:14
강화학습(Reinforcement Learning, RL)은 대형 언어 모델(LLM)을 사용자 선호에 맞게 정렬(alignment)시키고, 복잡한 추론 작업에 최적화하는 핵심 방법 중 하나입니다. 특히, 사후 학습(post-training) 단계에서 Supervised Fine-Tuning(SFT) → Reward Modeling → Policy Optimization의 3단계 구조를 기반으로 수행됩니다.🔹 1. 강화 학습 기반 LLM 최적화 개요 단계설명SFT고품질 라벨 데이터를 기반으로 기본 응답 형식, 스타일 등을 학습Reward Model 학습사람 또는 AI가 평가한 선호도 기반으로 응답 품질을 수치화RL 정책 최적화PPO, DPO, GRPO 등 알고리즘으로 보상 모델에 따라 응답 정책 조정🔹..