Supervised Finetuning in Large Language Models (LLMs)

AI와 함께 2025. 3. 27. 11:13

Supervised Finetuning(SFT)은 대형 언어 모델(LLM)의 사후 학습(post-training) 과정에서 가장 기본이 되는 구성 요소로, 사람이 라벨링한 데이터를 이용하여 모델을 특정 목적에 맞게 조정하는 기법입니다. 아래는 SFT의 주요 형태와 기술별 설명입니다.

🔹 1. Instruction Finetuning

개념: 프롬프트(지시)와 응답(완성)의 쌍으로 구성된 대규모 데이터셋을 기반으로, 사용자의 명령을 정확하고 유용하게 따르도록 훈련.
주요 효과: 다양한 작업에 대해 zero-shot 또는 few-shot 설정에서도 높은 성능 발휘
사례 모델: T0, FLAN, Alpaca, Vicuna, Dolly

🔹 2. Dialogue (Multi-turn) Finetuning

개념: 연속적인 대화 형태(사용자 ↔ 시스템)를 학습하여, 문맥 유지 능력과 대화 자연스러움 향상
차이점: Instruction tuning이 단일 프롬프트-응답인 반면, 다이얼로그 튜닝은 다중 턴의 흐름을 학습
사례 모델: ChatGPT, LaMDA

🔹 3. Chain-of-Thought (CoT) Reasoning Finetuning

개념: 모델이 단순 결과가 아닌 사고의 중간 단계를 생성하도록 지도 → 해석 가능성과 정확도 개선
데이터: 수작업 또는 모델 기반으로 생성된 step-by-step reasoning 데이터 사용
사례 모델/기법: Chain-of-Thought Prompting, Self-Consistency, CoT Distillation, LlaVA-CoT, LlamaV-o1 (멀티모달)

🔹 4. Domain-Specific Finetuning

개념: 특정 전문 분야(예: 의학, 금융, 법률)에 특화된 텍스트와 태깅 데이터를 활용하여 도메인 전문성 강화
응용 분야: 분류, 검색, QA 등
사례 모델: BioGPT, BiMediX (의료), FinBERT (금융), ClimatGPT (기후), CodeT5 (코딩)

🔹 5. Distillation-Based Finetuning

개념: 큰 teacher 모델이 생성한 응답/추론 경로를 작은 student 모델이 학습하는 방식
장점: 경량화된 모델을 빠르고 효율적으로 학습 가능, 성능 유지하며 비용 절감
사례 기법: CoT Distillation, Step-by-Step Distillation

🔹 6. Preference & Alignment Finetuning

개념: 인간이 바람직한 응답/바람직하지 않은 응답을 라벨링한 데이터로 훈련 → 안전성, 유해성 제거
RLHF와의 관계: RL 이전 단계로, 선호 데이터 기반의 supervised 학습부터 수행
사례: InstructGPT, OpenAI Alignment Process

🔹 7. Efficient Finetuning (Parameter-Efficient Fine-Tuning, PEFT)

문제: 대규모 모델 전체를 미세 조정하면 비용이 과도하게 발생
해결: 일부 파라미터(LoRA, Prefix, Adapters 등)만 조정하고 나머지는 고정
조합 전략: PEFT + 양자화(QLoRA) + 프루닝(SparseGPT) → 저가형 GPU에서도 학습 가능
프레임워크: PEFT (HuggingFace), QLoRA, BitsAndBytes 등

✅ SFT 방식 비교 요약

유형	목적	대표 기술/사례
Instruction	일반적인 작업 수행 능력	FLAN, Alpaca
Dialogue	다중 대화 턴 처리	ChatGPT, LaMDA
CoT Reasoning	단계적 추론 강화	CoT, Self-Consistency
도메인 특화	전문 지식 내재화	BioGPT, FinBERT
Distillation	경량 모델 지식 전이	CoT Distillation
Preference Alignment	안전하고 유익한 응답 유도	InstructGPT, RLHF 초기 단계
Efficient Finetuning	저비용 튜닝	LoRA, QLoRA, PEFT

📌 결론

Supervised Finetuning은 LLM이 현실 문제에 맞게 정렬되고 적용될 수 있도록 만드는 핵심 기법이다. 최근에는 완전한 파라미터 재학습이 아닌, 효율적인 사후 조정(PEFT) 전략과 함께 활용되어 성능과 비용의 균형을 맞추는 방향으로 발전하고 있다. Instruction 및 Preference 기반 학습은 LLM의 안전성과 사용자 정렬성(alignment)을 높이는 데에도 필수적이다.

2025.03.27 - [AI와 함께] - Reinforced LLMs: 강화학습을 통한 LLM 최적화

저작자표시

'AI와 함께' 카테고리의 다른 글

Test-Time Scaling(TTS) Methods for Reasoning LLMs (0)	2025.03.27
Reinforced LLMs: 강화학습을 통한 LLM 최적화 (1)	2025.03.27
Introduction: Why Post-training for LLMs Matters (0)	2025.03.27
대규모 언어 모델(LLM) 사후학습(Post-Training) 전략 개요 (0)	2025.03.27
LLM 개발 및 활용을 위한 대표 기술 및 프레임워크 개요 (1)	2025.03.27

ABOUT ME

DataCook DataCook

🔹 1. Instruction Finetuning

🔹 2. Dialogue (Multi-turn) Finetuning

🔹 3. Chain-of-Thought (CoT) Reasoning Finetuning

🔹 4. Domain-Specific Finetuning

🔹 5. Distillation-Based Finetuning

🔹 6. Preference & Alignment Finetuning

🔹 7. Efficient Finetuning (Parameter-Efficient Fine-Tuning, PEFT)

✅ SFT 방식 비교 요약

📌 결론

'AI와 함께' 카테고리의 다른 글

티스토리툴바

ABOUT ME

🔹 1. Instruction Finetuning

🔹 2. Dialogue (Multi-turn) Finetuning

🔹 3. Chain-of-Thought (CoT) Reasoning Finetuning

🔹 4. Domain-Specific Finetuning

🔹 5. Distillation-Based Finetuning

🔹 6. Preference & Alignment Finetuning

🔹 7. Efficient Finetuning (Parameter-Efficient Fine-Tuning, PEFT)

✅ SFT 방식 비교 요약

📌 결론

'AI와 함께' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바