Claude Code의 캐시 버그로 API 비용이 조용히 10~20배 폭증할 수 있다
Claude Code bug can silently 10-20x API costs
TL;DR Highlight
Claude Code에 캐시 관련 버그가 두 가지 존재해서 사용자가 모르는 사이에 API 비용이 최대 10~20배까지 뛸 수 있다는 경고 글이다. $200/월 플랜 사용자들도 예상보다 훨씬 빠르게 한도를 소진하는 피해가 실제로 발생하고 있다.
Who Should Read
Claude Code(Anthropic의 AI 코딩 도구)를 API 비용 기반으로 사용 중인 개발자, 특히 Max 플랜이나 API 직접 연동으로 자동화 파이프라인을 돌리고 있는 분들.
Core Mechanics
- Claude Code에 캐시 관련 버그가 두 개 있는데, 이로 인해 프롬프트 캐싱(이전에 처리한 토큰을 재사용해 비용을 줄이는 기능)이 제대로 동작하지 않아 API 비용이 최대 10~20배까지 폭증할 수 있다.
- 문제는 '조용히' 발생한다는 점이다. 사용자는 평소와 같은 작업을 하고 있다고 생각하지만, 실제로는 캐시가 무효화되어 매번 전체 컨텍스트를 새로 처리하고 있어 토큰 비용이 기하급수적으로 늘어난다.
- 한 댓글 작성자는 $200/월짜리 Max 5x 플랜을 사용 중인데, 수천 개 파일을 동시에 20개 세션으로 분석하는 무거운 작업을 2일 동안 해도 50% 소진에 그쳤지만, 이후 단순 리팩토링과 버그 수정 작업 몇 시간 만에 나머지 50%가 모두 소진됐다고 보고했다.
- 해당 사용자는 작은 버그 수정 세션(약 20분짜리 세션 4개, 총 45분 작업)만으로도 한도를 100% 소진했으며, 롤오버까지 이틀을 기다려야 하는 상황이 됐다. 이 정도 작업량이면 정상적으로는 몇 퍼센트 수준이어야 한다.
- 별도 댓글에서는 Claude Opus 4가 존재하지 않는 API를 hallucination(환각)으로 만들어낸 뒤, 테스트를 통과시키려고 루프를 계속 돌면서 30분 만에 약 $12의 비용을 소모한 사례도 언급됐다. 주로 thinking token(추론 과정을 출력하는 토큰)이 원인으로 추정된다.
- 같은 루프 문제가 Gemini에서도 발생했다는 사례가 공유됐는데, 이는 AI 코딩 도구 전반에서 무한 루프로 인한 비용 폭발이 구조적 위험임을 보여준다.
- 커뮤니티에서는 이 버용 청구가 '검증 불가능한 작업'에 대한 것이냐는 질문도 나왔는데, 현재로서는 캐시 히트 여부나 실제 토큰 사용량을 사용자가 독립적으로 감사(audit)할 방법이 사실상 없다는 점이 지적됐다.
Evidence
- Max 5x 플랜($200/월) 사용자가 직접 수치를 공유했다. 수천 개 파일을 동시 20세션으로 처리하는 헤비 작업 2일(50% 소진) vs. 가벼운 리팩토링 몇 시간(나머지 50% 소진)이라는 극단적인 불균형이 실제로 발생했다. 이 사용자는 '버그인지 조용히 한도를 낮춘 건지 모르겠지만, $200/월에 이건 받아들일 수 없다'고 강하게 비판했다.
- Opus 4 hallucination + 루프 문제 경험담도 주목할 만하다. 존재하지 않는 API를 모델이 만들어내고 테스트를 통과시키려 루프를 돌면서 30분에 $12를 소모했다는 사례인데, 주로 thinking token이 원인으로 보인다는 추정이 함께 공유됐다.
- '이건 버그가 아니라 기능이다(This is a feature)'라는 냉소적인 댓글과 함께, '어떤 PM이 1000% 매출 증가 KPI를 달성했겠다'는 풍자 댓글이 달렸다. 이는 커뮤니티가 이 상황을 단순 버그가 아닌 비즈니스적 인센티브 문제로도 바라보고 있음을 시사한다.
- 현재로서는 캐시 히트 여부나 실제 토큰 소모량을 사용자가 독립적으로 검증할 방법이 없다는 점이 지적됐다. 즉, 청구된 비용이 실제로 정당한지 확인하려면 사실상 리버스 엔지니어링을 해야 하는 상황이다.
- 같은 루프 문제가 Gemini에서도 발생했다는 경험이 공유되면서, 이 문제가 Claude만의 문제가 아니라 AI 코딩 도구 전반의 구조적 위험임을 보여줬다. 특히 자율적으로 실행되는 에이전트 기반 작업에서 무한 루프는 비용 폭발로 직결된다.
How to Apply
- Claude Code를 자동화 파이프라인이나 장시간 에이전트 작업에 사용하는 경우, 반드시 Anthropic 콘솔의 사용량 대시보드를 작업 전후로 확인해 비정상적인 토큰 소모가 없는지 모니터링하라. 특히 짧은 작업 후 사용량이 갑자기 크게 뛰었다면 캐시 버그 피해를 의심해볼 수 있다.
- 에이전트가 루프를 돌 가능성이 있는 작업(테스트 자동 수정, 코드 생성 후 검증 반복 등)에는 반드시 최대 반복 횟수(max iterations)나 총 비용 한도를 설정하라. 현재 Claude Code는 루프 감지 및 자동 중단 기능이 불완전하므로, 수동으로 세션을 모니터링하거나 짧은 세션 단위로 나눠 실행하는 것이 안전하다.
- thinking token을 활성화한 Opus 4 계열 모델을 사용할 때는 특히 주의가 필요하다. Thinking token은 일반 토큰보다 훨씬 비싸고, hallucination 발생 시 루프와 결합해 비용이 기하급수적으로 늘어날 수 있다. 비용이 민감한 작업에는 thinking 기능을 끄거나 더 저렴한 모델(Haiku, Sonnet 계열)로 먼저 테스트하라.
- 캐시 버그가 수정될 때까지는 동일한 컨텍스트를 재사용하는 긴 세션보다, 짧은 독립 세션으로 작업을 분리하는 것이 예측 가능한 비용 관리에 유리하다. 세션이 길어질수록 캐시 무효화로 인한 비용 폭증 위험도 함께 커진다.
Terminology
프롬프트 캐싱(Prompt Caching)이미 처리한 적 있는 긴 프롬프트(시스템 프롬프트, 이전 대화 내용 등)를 다시 처리하지 않고 재사용하는 기능. 이게 잘 작동하면 반복 작업 비용을 크게 줄일 수 있는데, 이번 버그로 이 기능이 제대로 안 됐다는 게 핵심 문제다.
Thinking TokenClaude가 최종 답변을 내놓기 전에 내부적으로 추론하는 과정을 텍스트로 출력하는 토큰. 더 정확한 답변을 위한 기능이지만 일반 토큰보다 훨씬 비싸고, 루프와 결합하면 비용이 폭발적으로 늘어날 수 있다.
HallucinationAI 모델이 사실이 아닌 내용을 사실인 것처럼 자신 있게 출력하는 현상. 이번 사례에서는 존재하지 않는 API를 모델이 만들어내서 계속 그 API를 사용하려고 시도한 것이 여기에 해당한다.
Max PlanAnthropic이 제공하는 Claude 구독 플랜 중 하나로, API 종량제가 아닌 월정액으로 일정한 사용량을 제공하는 방식. 여기서 'Max 5x'는 기본 한도의 5배를 쓸 수 있는 플랜($200/월)을 의미한다.
컨텍스트(Context)AI가 현재 대화에서 참고할 수 있는 전체 텍스트 범위. 대화가 길어질수록 컨텍스트가 커지고, 이를 처리하는 비용도 늘어난다. 캐싱이 제대로 안 되면 매 요청마다 이 전체 컨텍스트를 처음부터 다시 처리해야 한다.
에이전트(Agent)사용자가 하나씩 지시하지 않아도 AI가 스스로 여러 단계의 작업을 계획하고 실행하는 방식. 편리하지만 루프에 빠지거나 잘못된 방향으로 실행되면 사람이 개입하기 전까지 비용이 계속 쌓인다.