Knowledge Distillation of Black-Box Large Language Models (2024)

GPT-4 같은 내부 구조에 접근할 수 없는 독점 LLM에서 작은 모델로 지식을 효과적으로 전달하는 Proxy-KD 기법을 소개하는 논문으로, 전통적인 White-Box 방식보다 성능이 높다는 점에서 주목할 만하다.

GPT-4, Claude 같은 상용 LLM API를 쓰고 있지만 추론 비용을 줄이기 위해 작은 모델을 파인튜닝하고 싶은 ML 엔지니어나 연구자.

지식 증류(Knowledge Distillation, KD)는 큰 '교사' 모델의 능력을 작은 '학생' 모델에게 전달하는 기법인데, GPT-4처럼 내부 가중치나 확률 분포를 볼 수 없는 Black-Box 모델은 기존 KD 방식을 그대로 적용하기 어렵다.
기존 White-Box KD는 교사 모델의 내부 상태(레이어별 출력, softmax 확률 등)에 접근해서 학생 모델을 학습시키는데, API로만 제공되는 독점 LLM은 이런 접근이 불가능하다.
이 논문에서 제안하는 Proxy-KD는 중간에 '프록시 모델'을 두는 방식이다. 프록시 모델이 Black-Box 교사 모델의 출력을 흉내 내도록 먼저 학습하고, 이 프록시를 통해 학생 모델을 훈련시키는 구조다.
프록시 모델을 활용하면 Black-Box 교사의 내부 상태에 직접 접근하지 못해도, 프록시를 통해 soft label이나 확률 분포 형태의 추가 지식을 학생 모델에게 전달할 수 있다.
실험 결과, Proxy-KD는 Black-Box 교사로부터의 일반 KD 성능을 높일 뿐 아니라, 내부 접근이 가능한 White-Box KD 기법들도 성능 면에서 넘어섰다고 보고했다.
논문은 2024년 1월에 처음 제출됐고, 2024년 11월에 v2로 개정됐다(파일 크기가 359KB에서 8,288KB로 크게 증가한 것으로 보아 실험 결과와 내용이 상당히 보강된 것으로 보인다).

SFT(지도 학습 파인튜닝)와 DPO(선호도 기반 최적화 기법)를 프록시에 적용하는 것과 그냥 학생 모델에 SFT만 하는 것의 성능 차이가 크지 않다는 점에서, 차라리 SFT 데이터셋 품질을 높이는 데 집중하는 게 낫지 않냐는 현실적인 의문이 제기됐다.
이 논문보다 더 흥미롭다는 2025년 1월 논문이 소개됐다. 'Black-Box On-Policy Distillation of Large Language Models'(arXiv:2511.10643)에서는 'Generative Adversarial Distillation(GAD)'이라는 기법으로 Qwen 2.5 14B 모델을 GPT-5 수준으로 끌어올렸다고 주장했다.
'Well-Read Students Learn Better: On the Importance of Pre-training Compact Models'(arXiv:1908.08962)라는 관련 논문이 같이 소개됐는데, 학생 모델의 사전 학습이 KD 성능에 얼마나 중요한지를 다루는 논문이라 함께 읽으면 도움이 된다는 의견이 있었다.
이 논문이 왜 지금 다시 화제가 됐는지 묻는 댓글이 있었고, 제목에 2024년 논문임을 명시해달라는 요청도 있었다. 최신 연구로 오해할 수 있다는 점에서 나온 반응으로 보인다.
에이전트 파이프라인에서 실패 원인을 추적하는 시스템을 만들 때, 이 Black-Box 증류 기법이 모델 내부에 접근하지 않고도 인과 관계 추적 모델을 만드는 데 활용될 수 있다는 실용적 관점의 의견도 있었다.

GPT-4 API 호출 비용이 너무 높아서 작은 모델로 대체하고 싶은 경우, GPT-4 출력으로 SFT 데이터셋을 만들기 전에 Proxy-KD 방식을 검토해볼 수 있다. 프록시 모델을 먼저 GPT-4 출력에 맞게 학습시키고, 이 프록시에서 soft label을 추출해 학생 모델을 훈련하면 단순 SFT보다 더 나은 성능을 기대할 수 있다.
Black-Box 교사 모델의 API 비용을 최소화하고 싶다면, 먼저 소량의 GPT-4 출력으로 프록시 모델을 학습시킨 뒤, 대량의 증류 데이터는 프록시 모델로 생성하는 방식으로 API 호출 수를 크게 줄일 수 있다.
댓글에서 언급된 GAD(Generative Adversarial Distillation, arXiv:2511.10643) 기법도 함께 확인해볼 것을 권장한다. Qwen 2.5 14B 수준의 모델을 대상으로 실험했다고 하니, 비슷한 규모의 모델을 운용 중이라면 비교 검토 가치가 있다.
단순히 SFT 데이터 품질을 극한으로 높이는 접근과 Proxy-KD를 비교 실험해보는 것도 유효하다. 커뮤니티 댓글에서 지적됐듯이 성능 차이가 크지 않을 수 있으므로, 실제 태스크에서 A/B 테스트로 검증하고 복잡도 대비 이득이 있는지 확인하는 것이 현실적이다.

Knowledge Distillation큰 모델(교사)이 아는 걸 작은 모델(학생)에게 가르치는 기법. 단순히 정답 레이블만 주는 게 아니라 교사 모델의 '자신감 분포'까지 전달해서 더 풍부하게 학습시킨다.

Black-Box LLMGPT-4처럼 API로만 사용할 수 있고 내부 가중치나 확률 분포에는 접근할 수 없는 모델. 출력 텍스트만 볼 수 있다.

White-Box KD교사 모델의 내부 레이어 출력이나 확률 분포까지 직접 접근해서 학생 모델을 훈련시키는 방식. 오픈소스 모델처럼 가중치가 공개된 경우에만 가능하다.

Soft Label모델이 각 토큰/클래스에 대해 출력하는 확률 분포. '정답은 A'라는 Hard Label과 달리 'A일 확률 70%, B일 확률 20%...' 식으로 모델의 불확실성까지 담고 있어서 학습 신호가 더 풍부하다.

SFTSupervised Fine-Tuning의 약자. 레이블이 달린 데이터를 이용해 사전 학습된 모델을 특정 태스크에 맞게 추가 학습시키는 가장 기본적인 파인튜닝 방법.

DPODirect Preference Optimization의 약자. 사람이 선호하는 응답과 덜 선호하는 응답 쌍을 이용해 모델을 더 좋은 방향으로 학습시키는 기법. RLHF의 복잡성을 줄인 방식이다.