Claude Code의 캐시 버그로 API 비용이 조용히 10~20배 폭증할 수 있다
Claude Code bug can silently 10-20x API costs
TL;DR Highlight
Claude Code의 캐시 관련 버그 2개가 API 비용을 최대 10~20배까지 증가시켜 $200/월 플랜 사용자들의 한도 소진을 가속화하고 있다.
Who Should Read
Claude Code(Anthropic의 AI 코딩 도구)를 API 비용 기반으로 사용 중인 개발자, 특히 Max 플랜이나 API 직접 연동으로 자동화 파이프라인을 돌리고 있는 분들.
Core Mechanics
- Claude Code에 캐시 관련 버그가 두 개 있는데, 이로 인해 프롬프트 캐싱(이전에 처리한 토큰을 재사용해 비용을 줄이는 기능)이 제대로 동작하지 않아 API 비용이 최대 10~20배까지 폭증할 수 있다.
- 문제는 '조용히' 발생한다는 점이다. 사용자는 평소와 같은 작업을 하고 있다고 생각하지만, 실제로는 캐시가 무효화되어 매번 전체 컨텍스트를 새로 처리하고 있어 토큰 비용이 기하급수적으로 늘어난다.
- 한 댓글 작성자는 $200/월짜리 Max 5x 플랜을 사용 중인데, 수천 개 파일을 동시에 20개 세션으로 분석하는 무거운 작업을 2일 동안 해도 50% 소진에 그쳤지만, 이후 단순 리팩토링과 버그 수정 작업 몇 시간 만에 나머지 50%가 모두 소진됐다고 보고했다.
- 해당 사용자는 작은 버그 수정 세션(약 20분짜리 세션 4개, 총 45분 작업)만으로도 한도를 100% 소진했으며, 롤오버까지 이틀을 기다려야 하는 상황이 됐다. 이 정도 작업량이면 정상적으로는 몇 퍼센트 수준이어야 한다.
- 별도 댓글에서는 Claude Opus 4가 존재하지 않는 API를 hallucination(환각)으로 만들어낸 뒤, 테스트를 통과시키려고 루프를 계속 돌면서 30분 만에 약 $12의 비용을 소모한 사례도 언급됐다. 주로 thinking token(추론 과정을 출력하는 토큰)이 원인으로 추정된다.
- 같은 루프 문제가 Gemini에서도 발생했다는 사례가 공유됐는데, 이는 AI 코딩 도구 전반에서 무한 루프로 인한 비용 폭발이 구조적 위험임을 보여준다.
- 커뮤니티에서는 이 버용 청구가 '검증 불가능한 작업'에 대한 것이냐는 질문도 나왔는데, 현재로서는 캐시 히트 여부나 실제 토큰 사용량을 사용자가 독립적으로 감사(audit)할 방법이 사실상 없다는 점이 지적됐다.
Evidence
- Max 5x 플랜($200/월) 사용자가 직접 수치를 공유했다. 수천 개 파일을 동시 20세션으로 처리하는 헤비 작업 2일(50% 소진) vs. 가벼운 리팩토링 몇 시간(나머지 50% 소진)이라는 극단적인 불균형이 실제로 발생했다. 이 사용자는 '버그인지 조용히 한도를 낮춘 건지 모르겠지만, $200/월에 이건 받아들일 수 없다'고 강하게 비판했다.
- Opus 4 hallucination + 루프 문제 경험담도 주목할 만하다. 존재하지 않는 API를 모델이 만들어내고 테스트를 통과시키려 루프를 돌면서 30분에 $12를 소모했다는 사례인데, 주로 thinking token이 원인으로 보인다는 추정이 함께 공유됐다.
- '이건 버그가 아니라 기능이다(This is a feature)'라는 냉소적인 댓글과 함께, '어떤 PM이 1000% 매출 증가 KPI를 달성했겠다'는 풍자 댓글이 달렸다. 이는 커뮤니티가 이 상황을 단순 버그가 아닌 비즈니스적 인센티브 문제로도 바라보고 있음을 시사한다.
- 현재로서는 캐시 히트 여부나 실제 토큰 소모량을 사용자가 독립적으로 검증할 방법이 없다는 점이 지적됐다. 즉, 청구된 비용이 실제로 정당한지 확인하려면 사실상 리버스 엔지니어링을 해야 하는 상황이다.
- 같은 루프 문제가 Gemini에서도 발생했다는 경험이 공유되면서, 이 문제가 Claude만의 문제가 아니라 AI 코딩 도구 전반의 구조적 위험임을 보여줬다. 특히 자율적으로 실행되는 에이전트 기반 작업에서 무한 루프는 비용 폭발로 직결된다.
How to Apply
- Claude Code를 자동화 파이프라인이나 장시간 에이전트 작업에 사용하는 경우, 반드시 Anthropic 콘솔의 사용량 대시보드를 작업 전후로 확인해 비정상적인 토큰 소모가 없는지 모니터링하라. 특히 짧은 작업 후 사용량이 갑자기 크게 뛰었다면 캐시 버그 피해를 의심해볼 수 있다.
- 에이전트가 루프를 돌 가능성이 있는 작업(테스트 자동 수정, 코드 생성 후 검증 반복 등)에는 반드시 최대 반복 횟수(max iterations)나 총 비용 한도를 설정하라. 현재 Claude Code는 루프 감지 및 자동 중단 기능이 불완전하므로, 수동으로 세션을 모니터링하거나 짧은 세션 단위로 나눠 실행하는 것이 안전하다.
- thinking token을 활성화한 Opus 4 계열 모델을 사용할 때는 특히 주의가 필요하다. Thinking token은 일반 토큰보다 훨씬 비싸고, hallucination 발생 시 루프와 결합해 비용이 기하급수적으로 늘어날 수 있다. 비용이 민감한 작업에는 thinking 기능을 끄거나 더 저렴한 모델(Haiku, Sonnet 계열)로 먼저 테스트하라.
- 캐시 버그가 수정될 때까지는 동일한 컨텍스트를 재사용하는 긴 세션보다, 짧은 독립 세션으로 작업을 분리하는 것이 예측 가능한 비용 관리에 유리하다. 세션이 길어질수록 캐시 무효화로 인한 비용 폭증 위험도 함께 커진다.
Terminology
관련 논문
Bash4LLM+ – 의존성 없는 경량 Bash LLM API 래퍼
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: 로컬과 hosted LLM 간 deterministic 쿼리 라우팅 도구
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: 아키텍처, 프로그래밍, 성능 (리버스 엔지니어링 가이드)
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.
DSpark: Speculative Decoding으로 LLM 추론 속도를 획기적으로 높인 DeepSeek의 새 논문
DeepSeek이 Speculative Decoding을 개선한 DSpark 기법을 공개했는데, 같은 시스템 용량 기준으로 사용자당 생성 속도가 57~78% 빨라졌다고 한다. 이게 DeepSeek이 경쟁사 대비 훨씬 싼 가격으로 Pro 모델을 제공할 수 있는 핵심 기술 중 하나일 가능성이 높다.
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.