ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Supervised Finetuning in Large Language Models (LLMs)
    AI와 함께 2025. 3. 27. 11:13
    반응형

    Supervised Finetuning(SFT)은 대형 언어 모델(LLM)의 사후 학습(post-training) 과정에서 가장 기본이 되는 구성 요소로, 사람이 라벨링한 데이터를 이용하여 모델을 특정 목적에 맞게 조정하는 기법입니다. 아래는 SFT의 주요 형태와 기술별 설명입니다.


    🔹 1. Instruction Finetuning

    • 개념: 프롬프트(지시)와 응답(완성)의 쌍으로 구성된 대규모 데이터셋을 기반으로, 사용자의 명령을 정확하고 유용하게 따르도록 훈련.
    • 주요 효과: 다양한 작업에 대해 zero-shot 또는 few-shot 설정에서도 높은 성능 발휘
    • 사례 모델: T0, FLAN, Alpaca, Vicuna, Dolly

    🔹 2. Dialogue (Multi-turn) Finetuning

    • 개념: 연속적인 대화 형태(사용자 ↔ 시스템)를 학습하여, 문맥 유지 능력 대화 자연스러움 향상
    • 차이점: Instruction tuning이 단일 프롬프트-응답인 반면, 다이얼로그 튜닝은 다중 턴의 흐름을 학습
    • 사례 모델: ChatGPT, LaMDA

    🔹 3. Chain-of-Thought (CoT) Reasoning Finetuning

    • 개념: 모델이 단순 결과가 아닌 사고의 중간 단계를 생성하도록 지도 → 해석 가능성과 정확도 개선
    • 데이터: 수작업 또는 모델 기반으로 생성된 step-by-step reasoning 데이터 사용
    • 사례 모델/기법: Chain-of-Thought Prompting, Self-Consistency, CoT Distillation, LlaVA-CoT, LlamaV-o1 (멀티모달)

    🔹 4. Domain-Specific Finetuning

    • 개념: 특정 전문 분야(예: 의학, 금융, 법률)에 특화된 텍스트와 태깅 데이터를 활용하여 도메인 전문성 강화
    • 응용 분야: 분류, 검색, QA 등
    • 사례 모델: BioGPT, BiMediX (의료), FinBERT (금융), ClimatGPT (기후), CodeT5 (코딩)

    🔹 5. Distillation-Based Finetuning

    • 개념: 큰 teacher 모델이 생성한 응답/추론 경로를 작은 student 모델이 학습하는 방식
    • 장점: 경량화된 모델을 빠르고 효율적으로 학습 가능, 성능 유지하며 비용 절감
    • 사례 기법: CoT Distillation, Step-by-Step Distillation

    🔹 6. Preference & Alignment Finetuning

    • 개념: 인간이 바람직한 응답/바람직하지 않은 응답을 라벨링한 데이터로 훈련 → 안전성, 유해성 제거
    • RLHF와의 관계: RL 이전 단계로, 선호 데이터 기반의 supervised 학습부터 수행
    • 사례: InstructGPT, OpenAI Alignment Process

    🔹 7. Efficient Finetuning (Parameter-Efficient Fine-Tuning, PEFT)

    • 문제: 대규모 모델 전체를 미세 조정하면 비용이 과도하게 발생
    • 해결: 일부 파라미터(LoRA, Prefix, Adapters 등)만 조정하고 나머지는 고정
    • 조합 전략: PEFT + 양자화(QLoRA) + 프루닝(SparseGPT) → 저가형 GPU에서도 학습 가능
    • 프레임워크: PEFT (HuggingFace), QLoRA, BitsAndBytes 등

    ✅ SFT 방식 비교 요약


     

    유형 목적 대표 기술/사례
    Instruction 일반적인 작업 수행 능력 FLAN, Alpaca
    Dialogue 다중 대화 턴 처리 ChatGPT, LaMDA
    CoT Reasoning 단계적 추론 강화 CoT, Self-Consistency
    도메인 특화 전문 지식 내재화 BioGPT, FinBERT
    Distillation 경량 모델 지식 전이 CoT Distillation
    Preference Alignment 안전하고 유익한 응답 유도 InstructGPT, RLHF 초기 단계
    Efficient Finetuning 저비용 튜닝 LoRA, QLoRA, PEFT

    📌 결론

    Supervised Finetuning은 LLM이 현실 문제에 맞게 정렬되고 적용될 수 있도록 만드는 핵심 기법이다. 최근에는 완전한 파라미터 재학습이 아닌, 효율적인 사후 조정(PEFT) 전략과 함께 활용되어 성능과 비용의 균형을 맞추는 방향으로 발전하고 있다. Instruction 및 Preference 기반 학습은 LLM의 안전성과 사용자 정렬성(alignment)을 높이는 데에도 필수적이다.

     

    다음 글

    2025.03.27 - [AI와 함께] - Reinforced LLMs: 강화학습을 통한 LLM 최적화

     

    반응형
Designed by Tistory.