Test-Time Scaling(TTS) Methods for Reasoning LLMs

AI와 함께

Test-Time Scaling(TTS) Methods for Reasoning LLMs

Joon09 2025. 3. 27. 11:16

Test-Time Scaling(TTS)은 훈련된 언어 모델의 구조를 바꾸지 않고도 추론 성능을 향상시키는 기술로, 추론 중 필요한 연산량을 동적으로 조절하여 정확도와 효율성 간의 균형을 맞춥니다. 특히, reasoning이 중요한 수학, 계획, 논리 기반 문제에서 훈련 비용 없이 성능을 극대화할 수 있어 매우 주목받고 있습니다.

🔹 TTS의 개요

항목설명

항목	설명
목적	추론 성능을 개선하면서도 모델 구조나 파라미터는 유지
적용 시점	모델 실행 시점 (inference-time)
핵심 전략	다중 샘플링, 탐색 기반 디코딩, 응답 재정렬 및 수정
장점	학습 없이 성능 향상 가능, 저비용·고정밀 응용에 적합

🔹 Test-Time Scaling (TTS) Methods – 통합 요약표

분류	대표 기법	핵심 아이디어 & 설명	특징
Sampling 기반	Best-of-N SamplingConfidence-based Sampling	N개의 응답을 생성한 뒤, reward 모델이나 log-prob 기반으로 가장 좋은 결과 선택- Confidence 기반은 확률값을 활용해 높은 신뢰도의 응답을 우선 선택	다양성 확보- 구현이 간단- compute cost는 N에 비례
Decoding 기반	Beam SearchSelf-Consistency Decoding	Beam Search는 상위 확률 응답 N개를 유지하며 확장- Self-Consistency는 여러 CoT 응답을 생성 후 다수결 또는 평균으로 최종 응답 결정	고정된 탐색 전략- 복잡한 문제에서 일관성 향상
Reasoning 기반	Chain-of-Thought (CoT)Tree-of-Thought (ToT)Graph-of-Thought (GoT)	CoT는 “생각의 흐름”을 명시적으로 유도- ToT는 추론을 트리로 구성해 다양한 분기 탐색- GoT는 그래프 구조로 유연하게 추론 연결	복잡한 문제 해결에 강함- CoT는 간단, ToT/GoT는 탐색력 ↑
Search & Verification 기반	Search Against VerifiersMonte Carlo Tree Search (MCTS)	다수 응답을 생성한 후 verifier(보상모델)로 평가- MCTS는 rollout을 통해 탐색 경로를 확장 및 평가	정답 검증에 유리- compute cost ↑, 정확도도 ↑
Self-Improvement 기반	Sequential RevisionSelf-RefinementChain-of-Action-Thought	모델이 응답 → 비판 → 수정의 반복적 과정을 수행- CoT 기반 추론을 자체 feedback loop로 개선	학습 없이도 iterative 개선- 복잡한 reasoning에서 강력
Compute 최적화 기반	Compute-Optimal Scaling (COS)	입력의 난이도를 자동 예측하여 compute 전략(샘플링, beam, revision)을 다르게 적용- 쉬운 문제는 sequential, 어려운 문제는 병렬 탐색	compute 효율 극대화- 성능은 유지하면서 4× 연산 절감

🧠 보충 설명

Best-of-N vs. Beam Search
- Best-of-N은 diversity 중심, Beam Search는 확률 중심
- Easy tasks → Best-of-N, Hard tasks → Beam Search가 효과적
ToT와 GoT의 차이
- ToT: 트리 기반, 순차적 탐색
- GoT: 그래프 기반, 이전 응답 간 연결과 통합 가능 (self-refinement 용이)
Self-Refinement
- 모델이 직접 "비판 + 개선"하는 과정 → CoT를 정제하는 방식
- 수학, 코드, 고난도 QA에서 탁월한 효과
COS (Compute-Optimal Scaling)
- 테스트 시점에서 문제 난이도에 따라 리소스를 "스마트하게" 조절
- GPT 계열의 실제 적용 사례 존재 (성능 대비 연산량 4배 절감)

🧮 3. Pretraining vs. Test-Time Scaling

구분	사전학습(Pretraining)	TTS(Test-Time Scaling)
목적	모델 자체의 능력 확장	추론 시점의 성능 향상
비용 구조	초기 비용 높음	유연한 추론 비용 할당
변경 여부	모델 파라미터 수정	파라미터 유지
강점	새로운 능력 획득	응답의 품질 및 정확도 향상
단점	재훈련 필요, 비용 큼	느릴 수 있음, 실시간 최적화 필요
대표 사례	GPT-4, LLaMA 학습	CoT, Beam Search, MCTS 등

🔹 TTS의 전략적 가치

관점	설명
성능 대비 비용	소형 모델도 TTS 적용 시, 대형 모델에 맞먹는 성능 가능 (최대 14배 모델 크기 상쇄)
추론 최적화	문제 난이도에 따라 연산량을 조절 (Compute-Optimal Scaling)
기존 방식과의 차이	학습 기반 강화(RL, SFT) 없이도 inference 중 최적 경로를 동적으로 선택
응용 예시	고정된 compute 환경, 모바일 기기, 다중 시도 제한 환경

✅ 결론 및 활용 관점

TTS는 사전학습 모델을 활용하여 “지금 이 순간”에 더 잘 추론하게 만드는 기술입니다.
특히 작은 모델로 큰 성능을 구현하고 싶을 때, 혹은 재훈련 없이 특정 문제에 특화된 응답을 이끌고 싶을 때 매우 유용합니다.

저작자표시 (새창열림)