A sleep-like consolidation mechanism for LLMs

TL;DR Highlight

LLM이 긴 컨텍스트를 처리할 때 발생하는 Attention 비용 문제를 해결하기 위해, 사람의 수면처럼 주기적으로 컨텍스트를 fast weight에 압축·저장하는 새로운 메커니즘을 제안한 논문이다.

Who Should Read

LLM을 활용한 장기 작업(long-horizon task) 또는 긴 컨텍스트 처리가 필요한 서비스를 개발하는 ML 엔지니어나 연구자 중 추론 비용과 KV 캐시 메모리 문제를 고민하고 있는 분들.

Core Mechanics

Transformer 기반 LLM의 Attention 메커니즘은 컨텍스트 길이에 따라 연산량이 제곱(quadratic)으로 늘어나는 근본적인 문제가 있다. 이 논문은 그 문제를 '수면'이라는 개념으로 해결하려 한다.
핵심 아이디어는 모델이 주기적으로 최근 컨텍스트를 fast weight(빠르게 접근 가능한 소형 가중치)로 변환하고, KV 캐시(Attention 계산 중간 결과를 저장해두는 메모리)를 비우는 것이다. 사람이 잠을 자면서 하루 동안의 기억을 장기 기억으로 정리하는 것과 유사한 개념이다.
'수면(sleep)' 단계에서는 모델이 쌓인 컨텍스트를 N번 반복해서 오프라인으로 처리하고, SSM(State Space Model, 상태 공간 모델) 블록의 fast weight를 학습된 로컬 규칙(local rule)에 따라 업데이트한다.
'깨어있는(wake)' 추론 시간에는 이미 압축된 fast weight를 활용하기 때문에 레이턴시가 유지된다. 즉, 무거운 계산을 수면 단계로 미루고 실제 응답 속도는 보존하는 구조다.
수면 횟수 N을 늘릴수록 성능이 향상되는 것을 확인했으며, 특히 깊은 추론이 필요한 문제에서 성능 향상 폭이 더 컸다.
실험은 세포 자동자(cellular automata), 멀티-홉 그래프 탐색(multi-hop graph retrieval), 수학 추론 태스크에서 진행됐다. 일반 Transformer와 SSM-Attention 하이브리드 모델이 실패하는 수학 추론 태스크에서 이 방식이 작동하는 것을 보였다.
이 구조는 SSM 블록을 포함한 하이브리드 아키텍처에서 동작하며, 순수 Transformer 모델에 그대로 적용 가능한 방식은 아니다.

Evidence

비슷한 아이디어인 E2E-TTT(End-to-End Test Time Training) 논문이 더 우아한 접근이라는 의견이 있었다. E2E-TTT는 최근 컨텍스트를 추가 학습 데이터처럼 다뤄 가중치를 업데이트하는 방식으로, 새로운 분포(unseen distribution)에도 잘 적응한다는 점에서 더 범용적이라는 평가다.
Letta 팀의 관련 preprint가 언급됐는데, 해당 연구에서는 '수면 시간 컴퓨트(sleep-time compute)'로 쿼리 응답 전에 미리 생각해두는 방식을 써서 Stateful GSM-Symbolic, Stateful AIME 태스크에서 테스트 타임 컴퓨트를 약 5배 절감하고, 정확도를 각각 최대 13%, 18% 향상시켰다는 결과를 공유했다.
한 댓글 작성자는 3계층 메모리 시스템 아이디어를 공유했다: 기본 가중치(장기 기억) + KV 캐시 압축 결과로 만든 LoRA(중기 기억) + KV 캐시(단기 기억). 오프라인 시간에 KV 캐시 compaction 결과를 LoRA로 파인튜닝하는 것이 '수면' 개념과 정확히 맞아떨어진다며 흥미로운 구현 아이디어로 주목받았다.
Quadratic attention 비용 문제를 해결할 수 있다면 장기 컨텍스트가 필요한 워크플로우가 훨씬 저렴해질 것이라는 실용적 기대감이 표현됐다. 반면 '이게 단순히 컨텍스트 pruning/최적화 아닌가'라는 회의적 시각도 있었다.
인간 뇌는 새로운 입력을 실시간으로 모델에 통합하는 선택적 가소성(plasticity)을 갖고 있는데, LLM은 현재 '작업 기억(working memory)'만 있고 에피소드 기억과 선택적 가소성이 없다는 지적이 있었다. 이 메커니즘이 그 방향으로 가는 한 걸음이 될 수 있다는 기대와 함께, 하드웨어 비용이 아직 이를 실시간으로 지원하기엔 부족하다는 현실적 언급도 있었다.

How to Apply

긴 대화 이력이나 문서를 처리하는 에이전트를 개발 중이라면, KV 캐시가 가득 찰 때마다 오프라인 패스를 통해 fast weight로 압축하는 패턴을 아키텍처 설계에 반영할 수 있다. 이렇게 하면 무한정 늘어나는 메모리 없이도 장기 컨텍스트 처리가 가능해진다.
수면 시간 동안의 오프라인 연산을 활용하고 싶다면, Letta 팀의 sleep-time compute 접근법(arxiv 2504.13171)을 참고해서 사용자 쿼리가 들어오기 전에 미리 컨텍스트를 처리해두는 구조를 구현해볼 수 있다. 유사한 쿼리가 반복되는 서비스에서는 쿼리당 비용을 최대 2.5배까지 줄일 수 있다는 실험 결과가 있다.
개인 어시스턴트나 장기 기억이 필요한 챗봇 서비스를 만들고 있다면, 댓글에서 제안된 3계층 메모리 시스템(base weight + LoRA compaction + KV cache)을 참고해서 오프라인 시간에 KV 캐시를 LoRA로 파인튜닝하는 파이프라인 설계를 검토해볼 수 있다.
SSM 계열 모델(Mamba 등)과 Attention을 혼합한 하이브리드 모델을 사용 중이라면, 이 논문의 sleep 메커니즘이 SSM 블록에서 동작하도록 설계되어 있으므로 해당 아키텍처에서의 적용 가능성을 직접 실험해볼 수 있다.

Terminology

KV cacheTransformer가 Attention 계산 시 이전 토큰의 Key, Value 벡터를 저장해두는 메모리. 캐시가 클수록 빠르지만 메모리를 많이 쓰고, 길이가 길어질수록 연산 비용이 제곱으로 증가한다.

fast weight모델의 메인 가중치와 별도로, 빠르게 업데이트하고 읽을 수 있도록 설계된 소형 가중치. 일종의 단기~중기 메모리 역할을 한다.

SSMState Space Model(상태 공간 모델). Transformer의 Attention 대신 순환적 구조로 시퀀스를 처리하는 모델 계열로, Mamba가 대표적이다. 긴 시퀀스에서 Attention보다 효율적이다.

long-horizon task수십~수백 단계에 걸쳐 진행되는 복잡한 작업. 예를 들어 긴 코드베이스를 분석하거나 여러 문서를 참조해 답하는 에이전트 태스크가 해당된다.

test-time compute모델을 추가로 학습하지 않고, 추론(inference) 시점에 더 많은 계산을 써서 성능을 높이는 기법. Chain-of-Thought, Self-consistency 등이 여기에 해당한다.

local rule신경망에서 각 뉴런이 주변 정보만 보고 가중치를 업데이트하는 규칙. 전역 오차 역전파(backprop) 없이도 학습할 수 있어 온라인 업데이트에 적합하다.