LLM Post-Training Scaling 완전 정복: SFT, RLHF, Test-time Compute 총정리
A Survey of Post-Training Scaling in Large Language Models
TL;DR Highlight
Post-Training Scaling 서베이가 프리트레이닝 데이터 고갈에 대응하는 3가지 확장 방법론을 한 번에 정리함.
Who Should Read
LLM 파인튜닝이나 추론 비용 최적화를 고민하는 ML 엔지니어 및 LLM 기반 서비스 아키텍처를 설계하는 개발자. 특히 o1/o3 같은 추론 특화 모델이 왜 다른지 궁금한 사람.
Core Mechanics
- 고품질 인터넷 텍스트가 바닥나고 GPU 비용이 한계에 달하면서, 프리트레이닝 대신 '이미 학습된 모델을 더 잘 쓰는 법'이 주류 연구 방향이 됨
- Post-Training Scaling은 SFT(모범답안 따라하기), RLxF(보상 피드백으로 강화학습), TTC(추론 시점에 계산 더 쏟기) 3가지로 나뉨
- SFT는 소량의 고품질 데이터로도 효과가 크지만, 데이터 품질과 다양성이 스케일링의 핵심 병목
- RLxF(RLHF/RLAIF 포함)는 인간 선호도나 AI 피드백으로 모델을 정렬시키는데, 보상 모델 품질이 성능 상한선을 결정
- TTC(Test-time Compute)는 추론할 때 더 오래 생각하게 만드는 방식으로, o1 스타일의 Chain-of-Thought 확장이 대표 사례
- Post-Training은 전체 학습 비용의 극히 일부만 차지하지만, 같은 베이스 모델에서 성능 격차를 크게 벌릴 수 있음
Evidence
- 서베이 논문 특성상 구체적 단일 실험 수치는 없으나, 인용된 연구들에서 SFT만으로도 RLHF 대비 경쟁력 있는 성능을 소수 데이터로 달성한 사례 다수 정리
- TTC 관련 연구에서 추론 시 계산량을 늘릴수록 수학·코딩 벤치마크 성능이 log-linear하게 향상되는 스케일링 법칙 확인
- Post-Training에 투입되는 계산량은 프리트레이닝 대비 수십~수백 분의 1 수준이지만, 모델 실사용 성능(MMLU, HumanEval 등)에서 의미 있는 개선을 이끌어냄
How to Apply
- 작은 모델(예: Llama-3.1-8B)을 도메인 특화 SFT 데이터로 파인튜닝할 때, 데이터 양보다 품질(다양성+정확성)에 집중하면 큰 모델 부럽지 않은 결과를 낼 수 있음
- 복잡한 추론이 필요한 태스크(수학, 코딩, 법률 분석)라면 TTC 방식 적용 고려 — 단순히 temperature 올리는 게 아니라 Chain-of-Thought + 다수 샘플링 후 검증하는 파이프라인 구성
- RLHF 구축이 부담스러우면 RLAIF(AI가 피드백 주는 방식)로 대체 가능 — 인간 레이블러 없이도 Claude나 GPT-4를 judge로 써서 선호도 데이터 자동 생성
Code Example
# TTC 스타일: Best-of-N 샘플링으로 추론 품질 올리기
import anthropic
client = anthropic.Anthropic()
def best_of_n_inference(prompt: str, n: int = 8) -> str:
"""N개 응답 생성 후 가장 자신감 있는 답 선택 (간단한 TTC 구현)"""
responses = []
for _ in range(n):
msg = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": prompt}]
)
responses.append(msg.content[0].text)
# 다수결 또는 별도 judge 모델로 최선 선택
judge_prompt = f"""
다음 {n}개의 응답 중 가장 정확하고 논리적인 것을 선택해 그 내용만 출력하세요.
응답들:
" + "\n---\n".join(f"{i+1}. {r}" for i, r in enumerate(responses))
judge = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": judge_prompt}]
)
return judge.content[0].text
# 사용 예
result = best_of_n_inference("피보나치 수열의 10번째 항을 구하는 파이썬 코드를 작성하고 설명하세요.", n=4)
print(result)Terminology
관련 논문
Neural Particle Automata: 자기조직화 파티클 시스템을 학습하는 신경망 모델
고정된 격자 대신 움직이는 파티클 위에서 동작하는 Neural Cellular Automata의 확장 버전으로, 형태 생성·포인트 클라우드 분류·텍스처 합성 등 다양한 작업에서 자기조직화 동작을 학습할 수 있다.
PyTorch Training Loop 완전 해부: 각 줄이 하는 일과 순서를 바꾸면 생기는 문제
PyTorch 학습 루프의 각 코드 줄이 왜 그 위치에 있어야 하는지, 순서를 바꾸거나 빠뜨렸을 때 어떤 문제가 생기는지를 단계별로 설명한 심층 가이드다.
좋은 Verifier도 망가질 수 있다: Self-Improving VLM이 새로운 태스크에서 오히려 퇴보하는 현상
VLM 자가학습 루프에서 verifier가 특정 태스크에 맞지 않으면 학습할수록 오히려 성능이 떨어지는데, DPO 손실값은 멀쩡히 내려가서 눈치채기도 어렵다.
Self-Distillation에서 Feedback Alignment의 역할
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.
작고 수정 가능한 CUDA 기반 Language Model 직접 구현체
CUDA로 작성된 GPT(Generative Pretrained Transformer) 미니멀 구현체로, 텍스트뿐 아니라 모든 바이트 스트림을 학습할 수 있어 LLM 내부 구조를 직접 뜯어보고 싶은 개발자에게 유용하다.
Stanford CS336: Language Modeling from Scratch - LLM을 처음부터 직접 만드는 강의
Stanford에서 운영하는 LLM 전 과정 구현 강의로, 토크나이저부터 데이터 수집, 트랜스포머 구현, 분산 학습, RL 기반 정렬까지 직접 코딩하며 배운다. 이론이 아닌 구현 중심이라 실제로 LLM이 어떻게 작동하는지 깊이 이해하고 싶은 개발자에게 가장 체계적인 커리큘럼 중 하나다.
Original Abstract (Expand)
Large language models (LLMs) have achieved remarkable proficiency in understanding and generating human natural languages, mainly owing to the "scaling law" that optimizes relationships among language modeling loss, model parameters, and pre-trained tokens. However, with the exhaustion of high-quality internet corpora and increasing computational demands, the sustainability of pre-training scaling needs to be addressed. This paper presents a comprehensive survey of post-training scaling, an emergent paradigm aiming to relieve the limitations of traditional pre-training by focusing on the alignment phase, which traditionally accounts for a minor fraction of the total training computation. Our survey categorizes post-training scaling into three key methodologies: Supervised Fine-tuning (SFT), Reinforcement Learning from Feedback (RLxF), and Test-time Compute (TTC). We provide an in-depth analysis of the motivation behind post-training scaling, the scalable variants of these methodologies, and a comparative discussion against traditional approaches. By examining the latest advancements, identifying promising application scenarios, and highlighting unresolved issues, we seek a coherent understanding and map future research trajectories in the landscape of post-training scaling for LLMs.