LLM Neuroanatomy II: Modern LLM Hacking and Hints of a Universal Language?
TL;DR Highlight
Transformer 레이어를 복제하는 훈련 없는 기법(RYS)이 모든 최신 LLM에서 작동하고, 내부 표현이 언어 무관한 "범용 언어"로 수렴한다는 증거를 발견했다.
Who Should Read
LLM 추론 성능을 비용 없이 높이고 싶은 ML 엔지니어. Transformer 내부 구조와 다국어 표현 방식에 관심 있는 연구자.
Core Mechanics
- RYS(Repeat Your Self) 기법 — 중간 레이어를 weight 변경 없이 복제만 해도 수학 추론과 감성 지능 벤치마크에서 측정 가능한 성능 향상이 발생. Qwen3.5-27B에서 검증.
- Transformer 내부는 3단계로 분리됨: 인코딩(0~5 레이어, 표면 형식 정규화) → 추론(~45 레이어, 언어 무관 추상 공간) → 디코딩(~64 레이어, 언어별 토큰으로 변환)
- 다국어 hidden state 분석 결과, 추론 구간에서 콘텐츠 정체성이 언어 정체성보다 훨씬 더 중요하게 작용함 — 언어가 달라도 같은 개념은 같은 표현 공간에 모임
- 200만 개의 레이어 복제 구성을 서로게이트 모델링과 빔 서치로 탐색한 결과, 복잡한 멀티 블록 조합보다 연속된 중간 레이어 블록이 효율적으로 우월함
- (33, 34) 레이어 쌍이 Pareto 최적 — EQ 점수 +0.0945, 오버헤드 +1.56%
Evidence
- Qwen3.5-27B에서 레이어 (33,34) 복제 시 EQ 벤치마크 +0.0945 향상, 파라미터 오버헤드 +1.56% 수준
- 200만 개 구성 탐색에서 contiguous mid-stack 블록이 Pareto 프론티어를 형성. 복잡한 멀티 블록 조합은 효율 면에서 열등
- 다국어 hidden state 분석에서 추론 레이어 구간의 언어 간 표현 수렴 패턴이 다양한 LLM에서 일관되게 관찰됨
How to Apply
- 오픈소스 Transformer 모델(Qwen, Llama 등)에서 중간 레이어 범위를 특정하고, 해당 레이어를 forward pass에서 두 번 통과하도록 inference 코드를 수정 — 별도 학습 불필요
- 어떤 레이어 쌍이 최적인지 모를 때: 서로게이트 모델(surrogate modeling)과 빔 서치로 효율적인 탐색 가능. 전체 그리드 서치보다 훨씬 적은 비용
- 양자화(quantization)와 직교(orthogonal)하므로 RYS와 INT4/INT8 양자화를 함께 적용해 비용 절감과 성능 향상을 동시에 추구할 수 있음