Claude Code 사용량 한도가 줄어든 게 아니라, 1M Context Window가 토큰을 잡아먹고 있는 거다
Your Claude Code Limits Didn't Shrink — I Think the 1M Context Window Is Eating Them Alive
TL;DR Highlight
Opus 4.6의 1M 컨텍스트 창은 context compression 문제로 Claude Code의 rate limit을 빠르게 차게 하며, 1M 모델을 비활성화하면 안정성이 개선된다.
Who Should Read
Claude Code를 일상적으로 사용하는 개발자 중 최근 rate limit 초과나 응답 불안정을 겪고 있는 사람. 특히 긴 작업 세션을 자주 돌리는 경우.
Core Mechanics
- Anthropic이 Opus 4.6에 1M 토큰 컨텍스트 창을 전체 사용자에게 롤아웃한 이후, rate limit 소진이 빨라지고 서버 불안정이 심해졌다는 보고가 급증했다.
- Claude Code에는 오래된 대화 히스토리를 요약해서 토큰을 아끼는 context compression 시스템이 있는데, 이게 1M 컨텍스트 창에 맞게 충분히 공격적으로 작동하지 않는 것으로 보인다.
- 결과적으로 각 Claude Code 세션이 실제로 필요한 것보다 훨씬 많은 토큰을 요청에 포함시키게 되고, 전체 사용자가 모여서 Anthropic 서버를 의도치 않게 과부하시키는 형태가 됐다.
- 작성자의 가설에 따르면, Anthropic은 이 과부하에 대한 임시방편으로 사용자별 사용량 한도를 낮춘 것으로 보인다 — 실제로 한도가 줄어든 게 아니라, 작업당 소모되는 토큰이 늘어난 것.
- Anthropic이 조용히 기존 non-1M 컨텍스트 모델을 다시 옵션으로 복구했고, 해당 모델로 전환하자 안정성이 눈에 띄게 개선되고 한도 소진 속도도 줄었다.
Evidence
- 작성자 직접 검증: non-1M 모델로 전환하자 rate limit 소진 속도가 줄어들었고 세션이 더 안정적이었다고 보고
- 댓글 다수 공감: 1M 윈도우 출시 이후 긴 세션에서 컨텍스트 소모가 체감상 훨씬 빨라졌다는 경험 공유 — /compact 명령이 그나마 도움된다는 팁도
- claude-lens(github.com/Astro-Han/claude-lens) 도구로 컨텍스트 % 추적한 유저: 1M 모델에서 동일 작업 대비 burn rate가 더 높음을 실측으로 확인
- 반론: Pro 플랜은 1M 한도 없는데도 동일한 rate limit 현상이 발생 — 이론이 완전히 맞지 않을 수 있다는 지적 / off-peak 시간대에 사용량 카운팅이 안 된다는 프로모션 관련 변수도 언급됨
How to Apply
- Claude Code 설정에서 모델을 1M 컨텍스트 버전이 아닌 기존 모델로 전환해보고, rate limit 소진 속도와 응답 안정성이 개선되는지 확인한다.
- 긴 세션을 사용하는 경우, 주기적으로 `/clear` 또는 `/compact`로 컨텍스트를 직접 정리해서 누적 토큰을 줄인다.
- rate limit이 자주 걸린다면 실제 한도가 줄었는지보다, 작업당 소모 토큰이 늘었는지 먼저 의심해보고 컨텍스트 크기를 모니터링한다.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.