레이어 하나면 충분한가? 단일 Transformer 레이어 학습이 전체 파라미터 RL 학습과 동등한 성능
Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train
TL;DR Highlight
LLM의 RL 후처리 학습(post-training)에서 성능 향상의 대부분이 중간 레이어 소수에 집중되며, 단 하나의 레이어만 학습해도 전체 파라미터 학습과 비슷하거나 더 나은 결과를 낼 수 있다는 연구 결과. 이는 RL 학습 비용을 대폭 줄일 수 있는 가능성을 시사한다.
Who Should Read
LLM을 RL(강화학습)로 파인튜닝하거나 후처리 학습을 진행 중인 ML 엔지니어 및 연구자. 특히 GRPO 등 RL 알고리즘을 적용하면서 컴퓨팅 비용과 메모리 부담을 줄이고 싶은 개발자.
Core Mechanics
- 기존 RL 기반 LLM 후처리 학습은 모든 레이어를 동등하게 업데이트하는 방식인데, 이 논문은 그 가정에 정면으로 도전한다. 실제로는 레이어마다 RL 학습에 기여하는 정도가 크게 다르다.
- 'layer contribution(레이어 기여도)'이라는 새로운 지표를 도입했다. 이는 특정 레이어만 단독으로 학습했을 때 전체 파라미터 RL 학습 대비 얼마나 성능을 회복하는지를 수치로 나타낸 것이다.
- 실험 결과, 단 하나의 Transformer 레이어만 학습해도 전체 파라미터 학습으로 얻는 성능 향상의 대부분을 회복할 수 있었고, 경우에 따라서는 전체 학습을 오히려 능가하기도 했다.
- Qwen3, Qwen2.5 두 모델 계열의 7개 모델에 걸쳐, GRPO, GiGPO, Dr. GRPO 세 가지 RL 알고리즘을 적용해 수학 추론, 코드 생성, 에이전트 의사결정 등 다양한 태스크에서 실험했다.
- 성능 기여도가 높은 레이어는 일관되게 Transformer 스택의 '중간 부분'에 집중됐다. 입력에 가까운 초반 레이어와 출력에 가까운 후반 레이어는 RL 학습 기여도가 현저히 낮았다.
- 레이어 기여도 순위는 데이터셋, 태스크 종류, 모델 계열, RL 알고리즘이 달라져도 매우 안정적으로 유지됐다. 즉 어떤 레이어가 중요한지는 설정에 크게 좌우되지 않는 구조적 패턴이다.
- 이 발견은 RL 학습 시 대부분의 레이어를 동결(freeze)하고 핵심 중간 레이어만 업데이트하면 컴퓨팅 자원을 대폭 아낄 수 있다는 실용적 가능성을 열어준다.
Evidence
- 중간 레이어가 중요한 이유에 대해 직관적인 설명이 나왔다. 초반 레이어는 토큰의 문법/구문 파악 같은 저수준 처리를 하고, 후반 레이어는 추상적 표현을 실제 단어 시퀀스로 변환하는 역할이라, 개념을 조작하고 고수준 플래닝을 하는 중간 레이어가 RL로 가장 많이 조정된다는 분석이다.
- 다만 RL이 개념 조작이 아닌 지시 따르기(instruct tuning) 등 텍스트 흐름/표현 스타일 조정에 쓰이는 경우엔 이 결과가 성립하지 않을 수 있다는 반론도 있었다. 그 경우엔 오히려 후반 레이어의 기여도가 클 것이라는 예측이다.
- 실용적 적용의 어려움을 지적하는 의견도 있었다. RL 학습 자체가 이미 보상 모델 해킹, KL 붕괴, GRPO의 advantage 미생성 등 여러 실패 포인트가 있는데, 여기에 '어느 레이어를 선택하느냐'는 변수까지 추가되면 디버깅이 더 복잡해진다는 지적이다. 이미 LoRA(적은 파라미터만 학습하는 기법)라는 검증된 대안이 있다는 점도 언급됐다.
- 논문의 실험 설계에 대한 문제 제기도 있었다. 학습 토큰 길이 설정이 일관되지 않아서, 3K 토큰 제한 내에서 응답을 완성하도록 모델이 학습되는 효과가 섞여 있을 수 있다는 지적이다.
- Kaggle 리더보드에서 중간 레이어를 복제해 붙이고 파인튜닝하는 방식으로 높은 성적을 냈던 사례를 상기시키는 댓글도 있었다. 이번 논문과 유사한 직관이 이미 실전에서 통했던 사례라는 맥락이다.
How to Apply
- RL 기반 LLM 파인튜닝(예: GRPO 적용)을 계획 중이고 GPU 메모리나 학습 시간이 부족한 경우, 전체 파라미터를 업데이트하는 대신 모델 레이어 수의 40~60% 구간에 해당하는 중간 레이어 1~3개만 학습 대상으로 설정해볼 수 있다. 논문 결과에 따르면 동등하거나 더 나은 성능을 더 적은 비용으로 얻을 가능성이 있다.
- Qwen2.5 또는 Qwen3 계열 모델로 수학 추론이나 코드 생성 태스크를 위한 RL 학습을 진행하는 경우, 이 논문에서 제시한 layer contribution 측정 방식을 먼저 소규모로 실험해 기여도 높은 레이어를 특정한 뒤 해당 레이어만 학습하는 방식으로 전체 실험 비용을 줄일 수 있다.
- LoRA와 이 단일 레이어 학습 방식을 비교 실험해볼 수 있다. LoRA는 모든 레이어에 저랭크(low-rank) 업데이트를 적용하는 반면, 이 방법은 특정 레이어를 전체 업데이트한다. 태스크 특성에 따라 어느 쪽이 더 효율적인지 작은 실험으로 검증하고 선택하는 것이 현실적인 접근이다.
Terminology
관련 논문
Black-Box LLM에서 지식 증류하기: Proxy-KD 기법 (2024)
GPT-4 같은 내부 구조에 접근할 수 없는 독점 LLM에서 작은 모델로 지식을 효과적으로 전달하는 Proxy-KD 기법을 소개하는 논문으로, 전통적인 White-Box 방식보다 성능이 높다는 점에서 주목할 만하다.
NanoEuler – 순수 C/CUDA로 처음부터 만든 GPT-2 규모 언어 모델
PyTorch나 autograd 없이 C와 CUDA만으로 GPT-2 수준의 LLM을 처음부터 구현한 교육용 프로젝트로, 역전파·BPE 토크나이저·FlashAttention까지 직접 손으로 작성했다.
Neural Particle Automata: 자기조직화 파티클 시스템을 학습하는 신경망 모델
고정된 격자 대신 움직이는 파티클 위에서 동작하는 Neural Cellular Automata의 확장 버전으로, 형태 생성·포인트 클라우드 분류·텍스처 합성 등 다양한 작업에서 자기조직화 동작을 학습할 수 있다.
PyTorch Training Loop 완전 해부: 각 줄이 하는 일과 순서를 바꾸면 생기는 문제
PyTorch 학습 루프의 각 코드 줄이 왜 그 위치에 있어야 하는지, 순서를 바꾸거나 빠뜨렸을 때 어떤 문제가 생기는지를 단계별로 설명한 심층 가이드다.
좋은 Verifier도 망가질 수 있다: Self-Improving VLM이 새로운 태스크에서 오히려 퇴보하는 현상
VLM 자가학습 루프에서 verifier가 특정 태스크에 맞지 않으면 학습할수록 오히려 성능이 떨어지는데, DPO 손실값은 멀쩡히 내려가서 눈치채기도 어렵다.
Self-Distillation에서 Feedback Alignment의 역할
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.
작고 수정 가능한 CUDA 기반 Language Model 직접 구현체