Claude Code 사용량 한도가 줄어든 게 아니라, 1M Context Window가 토큰을 잡아먹고 있는 거다
Your Claude Code Limits Didn't Shrink — I Think the 1M Context Window Is Eating Them Alive
TL;DR Highlight
Opus 4.6의 1M 컨텍스트 창은 context compression 문제로 Claude Code의 rate limit을 빠르게 차게 하며, 1M 모델을 비활성화하면 안정성이 개선된다.
Who Should Read
Claude Code를 일상적으로 사용하는 개발자 중 최근 rate limit 초과나 응답 불안정을 겪고 있는 사람. 특히 긴 작업 세션을 자주 돌리는 경우.
Core Mechanics
- Anthropic이 Opus 4.6에 1M 토큰 컨텍스트 창을 전체 사용자에게 롤아웃한 이후, rate limit 소진이 빨라지고 서버 불안정이 심해졌다는 보고가 급증했다.
- Claude Code에는 오래된 대화 히스토리를 요약해서 토큰을 아끼는 context compression 시스템이 있는데, 이게 1M 컨텍스트 창에 맞게 충분히 공격적으로 작동하지 않는 것으로 보인다.
- 결과적으로 각 Claude Code 세션이 실제로 필요한 것보다 훨씬 많은 토큰을 요청에 포함시키게 되고, 전체 사용자가 모여서 Anthropic 서버를 의도치 않게 과부하시키는 형태가 됐다.
- 작성자의 가설에 따르면, Anthropic은 이 과부하에 대한 임시방편으로 사용자별 사용량 한도를 낮춘 것으로 보인다 — 실제로 한도가 줄어든 게 아니라, 작업당 소모되는 토큰이 늘어난 것.
- Anthropic이 조용히 기존 non-1M 컨텍스트 모델을 다시 옵션으로 복구했고, 해당 모델로 전환하자 안정성이 눈에 띄게 개선되고 한도 소진 속도도 줄었다.
Evidence
- 작성자 직접 검증: non-1M 모델로 전환하자 rate limit 소진 속도가 줄어들었고 세션이 더 안정적이었다고 보고
- 댓글 다수 공감: 1M 윈도우 출시 이후 긴 세션에서 컨텍스트 소모가 체감상 훨씬 빨라졌다는 경험 공유 — /compact 명령이 그나마 도움된다는 팁도
- claude-lens(github.com/Astro-Han/claude-lens) 도구로 컨텍스트 % 추적한 유저: 1M 모델에서 동일 작업 대비 burn rate가 더 높음을 실측으로 확인
- 반론: Pro 플랜은 1M 한도 없는데도 동일한 rate limit 현상이 발생 — 이론이 완전히 맞지 않을 수 있다는 지적 / off-peak 시간대에 사용량 카운팅이 안 된다는 프로모션 관련 변수도 언급됨
How to Apply
- Claude Code 설정에서 모델을 1M 컨텍스트 버전이 아닌 기존 모델로 전환해보고, rate limit 소진 속도와 응답 안정성이 개선되는지 확인한다.
- 긴 세션을 사용하는 경우, 주기적으로 `/clear` 또는 `/compact`로 컨텍스트를 직접 정리해서 누적 토큰을 줄인다.
- rate limit이 자주 걸린다면 실제 한도가 줄었는지보다, 작업당 소모 토큰이 늘었는지 먼저 의심해보고 컨텍스트 크기를 모니터링한다.
Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.