Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train

TL;DR Highlight

LLM의 RL 후처리 학습(post-training)에서 성능 향상의 대부분이 중간 레이어 소수에 집중되며, 단 하나의 레이어만 학습해도 전체 파라미터 학습과 비슷하거나 더 나은 결과를 낼 수 있다는 연구 결과. 이는 RL 학습 비용을 대폭 줄일 수 있는 가능성을 시사한다.

Who Should Read

LLM을 RL(강화학습)로 파인튜닝하거나 후처리 학습을 진행 중인 ML 엔지니어 및 연구자. 특히 GRPO 등 RL 알고리즘을 적용하면서 컴퓨팅 비용과 메모리 부담을 줄이고 싶은 개발자.

Core Mechanics

기존 RL 기반 LLM 후처리 학습은 모든 레이어를 동등하게 업데이트하는 방식인데, 이 논문은 그 가정에 정면으로 도전한다. 실제로는 레이어마다 RL 학습에 기여하는 정도가 크게 다르다.
'layer contribution(레이어 기여도)'이라는 새로운 지표를 도입했다. 이는 특정 레이어만 단독으로 학습했을 때 전체 파라미터 RL 학습 대비 얼마나 성능을 회복하는지를 수치로 나타낸 것이다.
실험 결과, 단 하나의 Transformer 레이어만 학습해도 전체 파라미터 학습으로 얻는 성능 향상의 대부분을 회복할 수 있었고, 경우에 따라서는 전체 학습을 오히려 능가하기도 했다.
Qwen3, Qwen2.5 두 모델 계열의 7개 모델에 걸쳐, GRPO, GiGPO, Dr. GRPO 세 가지 RL 알고리즘을 적용해 수학 추론, 코드 생성, 에이전트 의사결정 등 다양한 태스크에서 실험했다.
성능 기여도가 높은 레이어는 일관되게 Transformer 스택의 '중간 부분'에 집중됐다. 입력에 가까운 초반 레이어와 출력에 가까운 후반 레이어는 RL 학습 기여도가 현저히 낮았다.
레이어 기여도 순위는 데이터셋, 태스크 종류, 모델 계열, RL 알고리즘이 달라져도 매우 안정적으로 유지됐다. 즉 어떤 레이어가 중요한지는 설정에 크게 좌우되지 않는 구조적 패턴이다.
이 발견은 RL 학습 시 대부분의 레이어를 동결(freeze)하고 핵심 중간 레이어만 업데이트하면 컴퓨팅 자원을 대폭 아낄 수 있다는 실용적 가능성을 열어준다.

Evidence

중간 레이어가 중요한 이유에 대해 직관적인 설명이 나왔다. 초반 레이어는 토큰의 문법/구문 파악 같은 저수준 처리를 하고, 후반 레이어는 추상적 표현을 실제 단어 시퀀스로 변환하는 역할이라, 개념을 조작하고 고수준 플래닝을 하는 중간 레이어가 RL로 가장 많이 조정된다는 분석이다.
다만 RL이 개념 조작이 아닌 지시 따르기(instruct tuning) 등 텍스트 흐름/표현 스타일 조정에 쓰이는 경우엔 이 결과가 성립하지 않을 수 있다는 반론도 있었다. 그 경우엔 오히려 후반 레이어의 기여도가 클 것이라는 예측이다.
실용적 적용의 어려움을 지적하는 의견도 있었다. RL 학습 자체가 이미 보상 모델 해킹, KL 붕괴, GRPO의 advantage 미생성 등 여러 실패 포인트가 있는데, 여기에 '어느 레이어를 선택하느냐'는 변수까지 추가되면 디버깅이 더 복잡해진다는 지적이다. 이미 LoRA(적은 파라미터만 학습하는 기법)라는 검증된 대안이 있다는 점도 언급됐다.
논문의 실험 설계에 대한 문제 제기도 있었다. 학습 토큰 길이 설정이 일관되지 않아서, 3K 토큰 제한 내에서 응답을 완성하도록 모델이 학습되는 효과가 섞여 있을 수 있다는 지적이다.
Kaggle 리더보드에서 중간 레이어를 복제해 붙이고 파인튜닝하는 방식으로 높은 성적을 냈던 사례를 상기시키는 댓글도 있었다. 이번 논문과 유사한 직관이 이미 실전에서 통했던 사례라는 맥락이다.

How to Apply

RL 기반 LLM 파인튜닝(예: GRPO 적용)을 계획 중이고 GPU 메모리나 학습 시간이 부족한 경우, 전체 파라미터를 업데이트하는 대신 모델 레이어 수의 40~60% 구간에 해당하는 중간 레이어 1~3개만 학습 대상으로 설정해볼 수 있다. 논문 결과에 따르면 동등하거나 더 나은 성능을 더 적은 비용으로 얻을 가능성이 있다.
Qwen2.5 또는 Qwen3 계열 모델로 수학 추론이나 코드 생성 태스크를 위한 RL 학습을 진행하는 경우, 이 논문에서 제시한 layer contribution 측정 방식을 먼저 소규모로 실험해 기여도 높은 레이어를 특정한 뒤 해당 레이어만 학습하는 방식으로 전체 실험 비용을 줄일 수 있다.
LoRA와 이 단일 레이어 학습 방식을 비교 실험해볼 수 있다. LoRA는 모든 레이어에 저랭크(low-rank) 업데이트를 적용하는 반면, 이 방법은 특정 레이어를 전체 업데이트한다. 태스크 특성에 따라 어느 쪽이 더 효율적인지 작은 실험으로 검증하고 선택하는 것이 현실적인 접근이다.

Terminology

RL post-training사전학습된 LLM을 강화학습으로 추가 조정하는 단계. 모델이 더 좋은 답변을 선택하도록 보상 신호로 학습시키는 방식이다.

GRPOGroup Relative Policy Optimization의 약자. 여러 응답을 그룹으로 생성해 상대적 품질 차이를 이용해 학습하는 RL 알고리즘으로, DeepSeek 등에서 활용됐다.

layer contribution이 논문이 새로 도입한 지표. 특정 레이어 하나만 학습했을 때, 전체 파라미터 RL 학습으로 얻는 성능 향상 대비 몇 %를 회복하는지를 나타낸다.

KL collapseRL 학습 중 모델이 보상을 극대화하려다 기존 분포에서 너무 멀어지거나 반복적 출력만 생성하는 현상. KL divergence(분포 간 거리)가 허용치를 넘어 학습이 망가지는 상황이다.

full-parameter RL training모델의 모든 레이어와 파라미터를 업데이트하는 표준적인 RL 학습 방식. 메모리와 컴퓨팅 비용이 가장 많이 든다.

LoRALow-Rank Adaptation의 약자. 전체 가중치를 수정하지 않고 각 레이어에 작은 저랭크 행렬만 추가로 학습해 파라미터 수와 메모리를 줄이는 파인튜닝 기법이다.