Knowledge Distillation of Black-Box Large Language Models (2024)
TL;DR Highlight
GPT-4 같은 내부 구조에 접근할 수 없는 독점 LLM에서 작은 모델로 지식을 효과적으로 전달하는 Proxy-KD 기법을 소개하는 논문으로, 전통적인 White-Box 방식보다 성능이 높다는 점에서 주목할 만하다.
Who Should Read
GPT-4, Claude 같은 상용 LLM API를 쓰고 있지만 추론 비용을 줄이기 위해 작은 모델을 파인튜닝하고 싶은 ML 엔지니어나 연구자.
Core Mechanics
- 지식 증류(Knowledge Distillation, KD)는 큰 '교사' 모델의 능력을 작은 '학생' 모델에게 전달하는 기법인데, GPT-4처럼 내부 가중치나 확률 분포를 볼 수 없는 Black-Box 모델은 기존 KD 방식을 그대로 적용하기 어렵다.
- 기존 White-Box KD는 교사 모델의 내부 상태(레이어별 출력, softmax 확률 등)에 접근해서 학생 모델을 학습시키는데, API로만 제공되는 독점 LLM은 이런 접근이 불가능하다.
- 이 논문에서 제안하는 Proxy-KD는 중간에 '프록시 모델'을 두는 방식이다. 프록시 모델이 Black-Box 교사 모델의 출력을 흉내 내도록 먼저 학습하고, 이 프록시를 통해 학생 모델을 훈련시키는 구조다.
- 프록시 모델을 활용하면 Black-Box 교사의 내부 상태에 직접 접근하지 못해도, 프록시를 통해 soft label이나 확률 분포 형태의 추가 지식을 학생 모델에게 전달할 수 있다.
- 실험 결과, Proxy-KD는 Black-Box 교사로부터의 일반 KD 성능을 높일 뿐 아니라, 내부 접근이 가능한 White-Box KD 기법들도 성능 면에서 넘어섰다고 보고했다.
- 논문은 2024년 1월에 처음 제출됐고, 2024년 11월에 v2로 개정됐다(파일 크기가 359KB에서 8,288KB로 크게 증가한 것으로 보아 실험 결과와 내용이 상당히 보강된 것으로 보인다).
Evidence
- SFT(지도 학습 파인튜닝)와 DPO(선호도 기반 최적화 기법)를 프록시에 적용하는 것과 그냥 학생 모델에 SFT만 하는 것의 성능 차이가 크지 않다는 점에서, 차라리 SFT 데이터셋 품질을 높이는 데 집중하는 게 낫지 않냐는 현실적인 의문이 제기됐다.
- 이 논문보다 더 흥미롭다는 2025년 1월 논문이 소개됐다. 'Black-Box On-Policy Distillation of Large Language Models'(arXiv:2511.10643)에서는 'Generative Adversarial Distillation(GAD)'이라는 기법으로 Qwen 2.5 14B 모델을 GPT-5 수준으로 끌어올렸다고 주장했다.
- 'Well-Read Students Learn Better: On the Importance of Pre-training Compact Models'(arXiv:1908.08962)라는 관련 논문이 같이 소개됐는데, 학생 모델의 사전 학습이 KD 성능에 얼마나 중요한지를 다루는 논문이라 함께 읽으면 도움이 된다는 의견이 있었다.
- 이 논문이 왜 지금 다시 화제가 됐는지 묻는 댓글이 있었고, 제목에 2024년 논문임을 명시해달라는 요청도 있었다. 최신 연구로 오해할 수 있다는 점에서 나온 반응으로 보인다.
- 에이전트 파이프라인에서 실패 원인을 추적하는 시스템을 만들 때, 이 Black-Box 증류 기법이 모델 내부에 접근하지 않고도 인과 관계 추적 모델을 만드는 데 활용될 수 있다는 실용적 관점의 의견도 있었다.
How to Apply
- GPT-4 API 호출 비용이 너무 높아서 작은 모델로 대체하고 싶은 경우, GPT-4 출력으로 SFT 데이터셋을 만들기 전에 Proxy-KD 방식을 검토해볼 수 있다. 프록시 모델을 먼저 GPT-4 출력에 맞게 학습시키고, 이 프록시에서 soft label을 추출해 학생 모델을 훈련하면 단순 SFT보다 더 나은 성능을 기대할 수 있다.
- Black-Box 교사 모델의 API 비용을 최소화하고 싶다면, 먼저 소량의 GPT-4 출력으로 프록시 모델을 학습시킨 뒤, 대량의 증류 데이터는 프록시 모델로 생성하는 방식으로 API 호출 수를 크게 줄일 수 있다.
- 댓글에서 언급된 GAD(Generative Adversarial Distillation, arXiv:2511.10643) 기법도 함께 확인해볼 것을 권장한다. Qwen 2.5 14B 수준의 모델을 대상으로 실험했다고 하니, 비슷한 규모의 모델을 운용 중이라면 비교 검토 가치가 있다.
- 단순히 SFT 데이터 품질을 극한으로 높이는 접근과 Proxy-KD를 비교 실험해보는 것도 유효하다. 커뮤니티 댓글에서 지적됐듯이 성능 차이가 크지 않을 수 있으므로, 실제 태스크에서 A/B 테스트로 검증하고 복잡도 대비 이득이 있는지 확인하는 것이 현실적이다.
Terminology
Related Papers
Show HN: NanoEuler – GPT-2 scale model in pure C/CUDA from scratch
PyTorch나 autograd 없이 C와 CUDA만으로 GPT-2 수준의 LLM을 처음부터 구현한 교육용 프로젝트로, 역전파·BPE 토크나이저·FlashAttention까지 직접 손으로 작성했다.
Show HN: Neural Particle Automata
고정된 격자 대신 움직이는 파티클 위에서 동작하는 Neural Cellular Automata의 확장 버전으로, 형태 생성·포인트 클라우드 분류·텍스처 합성 등 다양한 작업에서 자기조직화 동작을 학습할 수 있다.
The annotated PyTorch training loop
PyTorch 학습 루프의 각 코드 줄이 왜 그 위치에 있어야 하는지, 순서를 바꾸거나 빠뜨렸을 때 어떤 문제가 생기는지를 단계별로 설명한 심층 가이드다.
When Good Verifiers Go Bad: Self-Improving VLMs Can Regress on New Tasks
VLM 자가학습 루프에서 verifier가 특정 태스크에 맞지 않으면 학습할수록 오히려 성능이 떨어지는데, DPO 손실값은 멀쩡히 내려가서 눈치채기도 어렵다.
The Role of Feedback Alignment in Self-Distillation
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.
Tiny hackable CUDA language model implementation
CUDA로 작성된 GPT(Generative Pretrained Transformer) 미니멀 구현체로, 텍스트뿐 아니라 모든 바이트 스트림을 학습할 수 있어 LLM 내부 구조를 직접 뜯어보고 싶은 개발자에게 유용하다.