Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train
TL;DR Highlight
LLM의 RL 후처리 학습(post-training)에서 성능 향상의 대부분이 중간 레이어 소수에 집중되며, 단 하나의 레이어만 학습해도 전체 파라미터 학습과 비슷하거나 더 나은 결과를 낼 수 있다는 연구 결과. 이는 RL 학습 비용을 대폭 줄일 수 있는 가능성을 시사한다.
Who Should Read
LLM을 RL(강화학습)로 파인튜닝하거나 후처리 학습을 진행 중인 ML 엔지니어 및 연구자. 특히 GRPO 등 RL 알고리즘을 적용하면서 컴퓨팅 비용과 메모리 부담을 줄이고 싶은 개발자.
Core Mechanics
- 기존 RL 기반 LLM 후처리 학습은 모든 레이어를 동등하게 업데이트하는 방식인데, 이 논문은 그 가정에 정면으로 도전한다. 실제로는 레이어마다 RL 학습에 기여하는 정도가 크게 다르다.
- 'layer contribution(레이어 기여도)'이라는 새로운 지표를 도입했다. 이는 특정 레이어만 단독으로 학습했을 때 전체 파라미터 RL 학습 대비 얼마나 성능을 회복하는지를 수치로 나타낸 것이다.
- 실험 결과, 단 하나의 Transformer 레이어만 학습해도 전체 파라미터 학습으로 얻는 성능 향상의 대부분을 회복할 수 있었고, 경우에 따라서는 전체 학습을 오히려 능가하기도 했다.
- Qwen3, Qwen2.5 두 모델 계열의 7개 모델에 걸쳐, GRPO, GiGPO, Dr. GRPO 세 가지 RL 알고리즘을 적용해 수학 추론, 코드 생성, 에이전트 의사결정 등 다양한 태스크에서 실험했다.
- 성능 기여도가 높은 레이어는 일관되게 Transformer 스택의 '중간 부분'에 집중됐다. 입력에 가까운 초반 레이어와 출력에 가까운 후반 레이어는 RL 학습 기여도가 현저히 낮았다.
- 레이어 기여도 순위는 데이터셋, 태스크 종류, 모델 계열, RL 알고리즘이 달라져도 매우 안정적으로 유지됐다. 즉 어떤 레이어가 중요한지는 설정에 크게 좌우되지 않는 구조적 패턴이다.
- 이 발견은 RL 학습 시 대부분의 레이어를 동결(freeze)하고 핵심 중간 레이어만 업데이트하면 컴퓨팅 자원을 대폭 아낄 수 있다는 실용적 가능성을 열어준다.
Evidence
- 중간 레이어가 중요한 이유에 대해 직관적인 설명이 나왔다. 초반 레이어는 토큰의 문법/구문 파악 같은 저수준 처리를 하고, 후반 레이어는 추상적 표현을 실제 단어 시퀀스로 변환하는 역할이라, 개념을 조작하고 고수준 플래닝을 하는 중간 레이어가 RL로 가장 많이 조정된다는 분석이다.
- 다만 RL이 개념 조작이 아닌 지시 따르기(instruct tuning) 등 텍스트 흐름/표현 스타일 조정에 쓰이는 경우엔 이 결과가 성립하지 않을 수 있다는 반론도 있었다. 그 경우엔 오히려 후반 레이어의 기여도가 클 것이라는 예측이다.
- 실용적 적용의 어려움을 지적하는 의견도 있었다. RL 학습 자체가 이미 보상 모델 해킹, KL 붕괴, GRPO의 advantage 미생성 등 여러 실패 포인트가 있는데, 여기에 '어느 레이어를 선택하느냐'는 변수까지 추가되면 디버깅이 더 복잡해진다는 지적이다. 이미 LoRA(적은 파라미터만 학습하는 기법)라는 검증된 대안이 있다는 점도 언급됐다.
- 논문의 실험 설계에 대한 문제 제기도 있었다. 학습 토큰 길이 설정이 일관되지 않아서, 3K 토큰 제한 내에서 응답을 완성하도록 모델이 학습되는 효과가 섞여 있을 수 있다는 지적이다.
- Kaggle 리더보드에서 중간 레이어를 복제해 붙이고 파인튜닝하는 방식으로 높은 성적을 냈던 사례를 상기시키는 댓글도 있었다. 이번 논문과 유사한 직관이 이미 실전에서 통했던 사례라는 맥락이다.
How to Apply
- RL 기반 LLM 파인튜닝(예: GRPO 적용)을 계획 중이고 GPU 메모리나 학습 시간이 부족한 경우, 전체 파라미터를 업데이트하는 대신 모델 레이어 수의 40~60% 구간에 해당하는 중간 레이어 1~3개만 학습 대상으로 설정해볼 수 있다. 논문 결과에 따르면 동등하거나 더 나은 성능을 더 적은 비용으로 얻을 가능성이 있다.
- Qwen2.5 또는 Qwen3 계열 모델로 수학 추론이나 코드 생성 태스크를 위한 RL 학습을 진행하는 경우, 이 논문에서 제시한 layer contribution 측정 방식을 먼저 소규모로 실험해 기여도 높은 레이어를 특정한 뒤 해당 레이어만 학습하는 방식으로 전체 실험 비용을 줄일 수 있다.
- LoRA와 이 단일 레이어 학습 방식을 비교 실험해볼 수 있다. LoRA는 모든 레이어에 저랭크(low-rank) 업데이트를 적용하는 반면, 이 방법은 특정 레이어를 전체 업데이트한다. 태스크 특성에 따라 어느 쪽이 더 효율적인지 작은 실험으로 검증하고 선택하는 것이 현실적인 접근이다.
Terminology
Related Papers
Knowledge Distillation of Black-Box Large Language Models (2024)
GPT-4 같은 내부 구조에 접근할 수 없는 독점 LLM에서 작은 모델로 지식을 효과적으로 전달하는 Proxy-KD 기법을 소개하는 논문으로, 전통적인 White-Box 방식보다 성능이 높다는 점에서 주목할 만하다.
Show HN: NanoEuler – GPT-2 scale model in pure C/CUDA from scratch
PyTorch나 autograd 없이 C와 CUDA만으로 GPT-2 수준의 LLM을 처음부터 구현한 교육용 프로젝트로, 역전파·BPE 토크나이저·FlashAttention까지 직접 손으로 작성했다.
Show HN: Neural Particle Automata
고정된 격자 대신 움직이는 파티클 위에서 동작하는 Neural Cellular Automata의 확장 버전으로, 형태 생성·포인트 클라우드 분류·텍스처 합성 등 다양한 작업에서 자기조직화 동작을 학습할 수 있다.
The annotated PyTorch training loop
PyTorch 학습 루프의 각 코드 줄이 왜 그 위치에 있어야 하는지, 순서를 바꾸거나 빠뜨렸을 때 어떤 문제가 생기는지를 단계별로 설명한 심층 가이드다.
When Good Verifiers Go Bad: Self-Improving VLMs Can Regress on New Tasks
VLM 자가학습 루프에서 verifier가 특정 태스크에 맞지 않으면 학습할수록 오히려 성능이 떨어지는데, DPO 손실값은 멀쩡히 내려가서 눈치채기도 어렵다.
The Role of Feedback Alignment in Self-Distillation
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.