Claude Code 사용자들, 예상보다 훨씬 빠른 사용량 한도 소진 문제 겪는 중
Claude Code users hitting usage limits 'way faster than expected'
TL;DR Highlight
Claude Code의 prompt cache 버그가 토큰을 10~20배 과소비하여 사용자들의 월 $100~$200 플랜을 몇 시간 만에 소진하게 한다.
Who Should Read
Claude Code나 Claude Pro/Max 플랜을 구독하며 일상적인 개발 작업이나 자동화 워크플로우에 활용하고 있는 개발자. 특히 Claude Code를 CI/CD 파이프라인이나 반복 작업에 연동해서 쓰는 경우 반드시 읽어야 한다.
Core Mechanics
- Anthropic이 공식적으로 문제를 인정했다. 'Claude Code에서 사용자들이 예상보다 훨씬 빠르게 사용량 한도에 도달하고 있으며, 현재 팀의 최우선 과제로 조사 중'이라고 밝혔다.
- 한 사용자가 Claude Code 바이너리를 리버스 엔지니어링해서 핵심 원인을 찾아냈다. 대화 내용에 '청구(billing)'나 '토큰(tokens)' 관련 키워드가 등장하면 Claude Code가 내부적으로 텍스트를 교체하는데, 이 과정에서 prompt cache(반복 요청 시 이전 처리 결과를 재사용해 비용을 줄이는 기능)가 무효화된다. 결과적으로 매 요청마다 캐시를 처음부터 다시 빌드해서 비용이 10~20배까지 부풀어 오른다.
- 구버전으로 다운그레이드하면 차이가 확연하다는 사용자 보고가 있었다. '2.1.34 버전으로 다운그레이드했더니 눈에 띄게 달라졌다'는 구체적인 사례가 공유됐고, 일부 사용자들이 이를 확인했다.
- 버그 외에도 quota 정책 변경이 겹쳤다. Anthropic은 3월 28일에 피크 시간대 할당량 축소를 적용했고, 같은 날 피크 외 시간대 사용량을 2배로 늘려주던 프로모션도 종료됐다. 이 두 가지 변경이 버그와 맞물리면서 체감 소진 속도가 더 극적으로 느껴진 것으로 보인다.
- Prompt cache의 기본 유지 시간이 5분에 불과하다는 것도 숨겨진 비용 요인이다. 잠깐 자리를 비우거나 5분 이상 작업을 멈추면 캐시가 만료되어 재시작 시 비용이 급증한다. 1시간짜리 캐시 업그레이드 옵션도 있지만, 쓰기 비용이 기본 입력 토큰의 2배라서 트레이드오프가 있다.
- 자동화 워크플로우에서 특히 위험하다는 경고가 나왔다. Rate limit 오류가 일반 실패처럼 보여서 자동으로 재시도가 발생하고, 루프 안에서 세션 하나가 일일 예산을 수 분 만에 소진할 수 있다는 사용자 경험이 공유됐다.
- Anthropic의 요금제 한도 정보가 불투명하다는 점이 문제를 더 심각하게 만든다. Pro 플랜은 '무료 대비 최소 5배 사용량'이라고만 명시하고, Standard Team은 'Pro보다 1.25배'라고만 한다. 실제 토큰 수나 요청 수를 사전에 알 수 없어 사용자들이 대시보드를 실시간으로 확인하는 것 외에는 방법이 없다.
Evidence
- 버그가 공식 확인됐음에도 환불이나 보상에 대한 언급이 없다는 불만이 나왔다. '버그로 검증됐으니 환불이나 할인이 있어야 마땅한데, 적극적으로 항의하지 않으면 아무것도 없을 것'이라는 의견이 공유됐고 많은 공감을 받았다.
- 의도적 A/B 테스트 의혹도 제기됐지만 버그로 결론났다. 일부 사용자는 '이것이 한도 축소에 대한 사용자 내성을 테스트하는 의도적 실험 아니냐'고 의심했으나, 리버스 엔지니어링을 통해 cache 무효화 버그로 확인됐다. 다만 Anthropic의 불투명한 소통 방식에 대한 불신은 계속됐다.
- Claude에 대한 맹목적 충성심을 비판하는 의견도 눈에 띄었다. 'Sonnet과 Opus를 바꿔도 사용자가 구분 못 할 것이고, 이는 $10짜리 와인과 $100짜리 와인을 구분 못하면서 비싼 걸 선호하는 심리와 같다'는 댓글이 있었다. 실제로 대안 모델(kimi, qwen3-coder-next 등)을 시도해보겠다는 반응도 있었다.
- 구독을 취소했다는 사용자들의 경험담이 잇따랐다. 한 사용자는 'Pro 플랜과 API 플랜을 합쳐 월 $40을 쓰다가 지난달 취소했다. 작년 12월부터 점점 세션이 짧아져서 이제는 프롬프트 몇 번에 한도가 찬다'고 했다. 또 다른 사용자는 '하루에 딱 두 번 질문했는데 한도가 다 찼다'는 황당한 경험을 공유했다.
- 컨텍스트 관리가 토큰 효율성에 중요하다는 실용적 팁도 공유됐다. '논문에서는 context rot(긴 대화에서 품질이 저하되는 현상)이 문제없다고 하지만, 실제로는 컨텍스트를 직접 관리하면 품질과 비용 모두 나아진다'는 경험담이 있었다. Claude Code보다 Web UI에서 수동으로 컨텍스트를 조절하는 방식이 더 효율적이었다는 사례도 있었다.
How to Apply
- Claude Code를 CI/CD나 자동화 스크립트에 연동해서 쓰고 있다면, rate limit 오류를 반드시 별도로 잡아야 한다. 현재 rate limit 오류가 일반 실패와 동일하게 보여서 무한 재시도가 발생할 수 있으므로, 에러 응답의 타입을 명시적으로 체크하고 재시도 로직에 backoff와 일일 예산 초과 시 중단 조건을 추가해야 한다.
- Claude Code 버전 2.1.34로 다운그레이드하면 당장의 과소비 문제를 줄일 수 있다. 버그가 수정된 버전이 배포되기 전까지 임시 조치로 활용할 수 있으며, 실제 사용자들이 다운그레이드 후 체감 차이가 컸다고 보고하고 있다.
- 대화 중에 'billing', 'token', '비용', '사용량' 관련 키워드가 등장하지 않도록 주의해야 한다. 버그의 원인이 이 키워드 등장 시 내부 텍스트 교체로 인한 cache 무효화이므로, 특히 긴 자동화 대화에서 이런 단어가 시스템 프롬프트나 대화 히스토리에 포함되지 않도록 관리해야 한다.
- Claude 대안 모델을 지금 병행 테스트해두는 것이 리스크 분산에 도움이 된다. 댓글에서 언급된 kimi, qwen3-coder-next(로컬 실행 가능) 등을 소규모 작업에 적용해보고 품질과 비용을 직접 비교해두면, Anthropic 정책 변경에 덜 종속된 개발 환경을 만들 수 있다.
Terminology
관련 논문
Bash4LLM+ – 의존성 없는 경량 Bash LLM API 래퍼
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: 로컬과 hosted LLM 간 deterministic 쿼리 라우팅 도구
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: 아키텍처, 프로그래밍, 성능 (리버스 엔지니어링 가이드)
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.
DSpark: Speculative Decoding으로 LLM 추론 속도를 획기적으로 높인 DeepSeek의 새 논문
DeepSeek이 Speculative Decoding을 개선한 DSpark 기법을 공개했는데, 같은 시스템 용량 기준으로 사용자당 생성 속도가 57~78% 빨라졌다고 한다. 이게 DeepSeek이 경쟁사 대비 훨씬 싼 가격으로 Pro 모델을 제공할 수 있는 핵심 기술 중 하나일 가능성이 높다.
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.