AI와 함께
Test-Time Scaling(TTS) Methods for Reasoning LLMs
Joon09
2025. 3. 27. 11:16
반응형
Test-Time Scaling(TTS)은 훈련된 언어 모델의 구조를 바꾸지 않고도 추론 성능을 향상시키는 기술로, 추론 중 필요한 연산량을 동적으로 조절하여 정확도와 효율성 간의 균형을 맞춥니다. 특히, reasoning이 중요한 수학, 계획, 논리 기반 문제에서 훈련 비용 없이 성능을 극대화할 수 있어 매우 주목받고 있습니다.
🔹 TTS의 개요
항목설명
항목 | 설명 |
목적 | 추론 성능을 개선하면서도 모델 구조나 파라미터는 유지 |
적용 시점 | 모델 실행 시점 (inference-time) |
핵심 전략 | 다중 샘플링, 탐색 기반 디코딩, 응답 재정렬 및 수정 |
장점 | 학습 없이 성능 향상 가능, 저비용·고정밀 응용에 적합 |
🔹 Test-Time Scaling (TTS) Methods – 통합 요약표
분류 | 대표 기법 | 핵심 아이디어 & 설명 | 특징 |
Sampling 기반 | Best-of-N SamplingConfidence-based Sampling |
|
|
Decoding 기반 | Beam SearchSelf-Consistency Decoding |
|
|
Reasoning 기반 | Chain-of-Thought (CoT)Tree-of-Thought (ToT)Graph-of-Thought (GoT) |
|
|
Search & Verification 기반 | Search Against VerifiersMonte Carlo Tree Search (MCTS) |
|
|
Self-Improvement 기반 | Sequential RevisionSelf-RefinementChain-of-Action-Thought |
|
|
Compute 최적화 기반 | Compute-Optimal Scaling (COS) |
|
|
🧠 보충 설명
- Best-of-N vs. Beam Search
- Best-of-N은 diversity 중심, Beam Search는 확률 중심
- Easy tasks → Best-of-N, Hard tasks → Beam Search가 효과적
- ToT와 GoT의 차이
- ToT: 트리 기반, 순차적 탐색
- GoT: 그래프 기반, 이전 응답 간 연결과 통합 가능 (self-refinement 용이)
- Self-Refinement
- 모델이 직접 "비판 + 개선"하는 과정 → CoT를 정제하는 방식
- 수학, 코드, 고난도 QA에서 탁월한 효과
- COS (Compute-Optimal Scaling)
- 테스트 시점에서 문제 난이도에 따라 리소스를 "스마트하게" 조절
- GPT 계열의 실제 적용 사례 존재 (성능 대비 연산량 4배 절감)
🧮 3. Pretraining vs. Test-Time Scaling
구분 | 사전학습(Pretraining) | TTS(Test-Time Scaling) |
목적 | 모델 자체의 능력 확장 | 추론 시점의 성능 향상 |
비용 구조 | 초기 비용 높음 | 유연한 추론 비용 할당 |
변경 여부 | 모델 파라미터 수정 | 파라미터 유지 |
강점 | 새로운 능력 획득 | 응답의 품질 및 정확도 향상 |
단점 | 재훈련 필요, 비용 큼 | 느릴 수 있음, 실시간 최적화 필요 |
대표 사례 | GPT-4, LLaMA 학습 | CoT, Beam Search, MCTS 등 |
🔹 TTS의 전략적 가치
관점 | 설명 |
성능 대비 비용 | 소형 모델도 TTS 적용 시, 대형 모델에 맞먹는 성능 가능 (최대 14배 모델 크기 상쇄) |
추론 최적화 | 문제 난이도에 따라 연산량을 조절 (Compute-Optimal Scaling) |
기존 방식과의 차이 | 학습 기반 강화(RL, SFT) 없이도 inference 중 최적 경로를 동적으로 선택 |
응용 예시 | 고정된 compute 환경, 모바일 기기, 다중 시도 제한 환경 |
✅ 결론 및 활용 관점
- TTS는 사전학습 모델을 활용하여 “지금 이 순간”에 더 잘 추론하게 만드는 기술입니다.
- 특히 작은 모델로 큰 성능을 구현하고 싶을 때, 혹은 재훈련 없이 특정 문제에 특화된 응답을 이끌고 싶을 때 매우 유용합니다.
반응형