PSA: Claude Code has two cache bugs that can silently 10-20x your API costs — here's the root cause and workarounds
TL;DR Highlight
A warning post was shared about two bugs in Claude Code that could increase API costs by up to 10-20x due to a malfunctioning cache, but access to the original post is blocked, making it impossible to confirm the details.
Who Should Read
Developers who are actively using Claude Code, especially those applying Claude Code to team or personal projects in environments where API costs are billed.
Core Mechanics
- It is reported that there are two cache-related bugs in Claude Code, which could silently increase API costs by up to 10-20x.
- The key risk factor is that the bugs occur 'silently' – costs can accumulate without the user being aware.
- The original post has been blocked by Reddit network security, so specific bug details, reproduction conditions, and workarounds are currently unavailable.
- The title mentions 'root cause and workarounds', suggesting that the original post likely contained an analysis of the root cause of the bugs and possible workarounds.
Evidence
- "(No comment information)"
How to Apply
- If you are using Claude Code, immediately check the recent token usage trends in your API dashboard – a sudden surge in input tokens may indicate repeated cache misses.
- It is recommended to directly access the original URL (https://www.reddit.com/r/ClaudeAI/comments/1s7mkn3/) or log in with a Reddit account to check the actual bug details and workarounds.
- If you suspect a cost issue related to Claude Code, it is also a good idea to search for additional discussions about the same bug on the Anthropic official Discord or GitHub Issues.
Code Example
# 버그 1 우회: 스탠드얼론 바이너리 대신 npx 사용
# Before (캐시 버그 있음)
claude "your prompt here"
# After (캐시 정상 동작)
npx @anthropic-ai/claude-code "your prompt here"
# 버그 2 확인: 현재 설치된 버전 체크
claude --version
# v2.1.69 이상이면 --resume 사용 시 캐시 미스 발생
# 임시 우회: resume 대신 새 세션 시작
# claude --resume <session-id> <- 비용 폭탄 가능
claude # 새 세션으로 시작Terminology
Related Papers
Jamesob's guide to running SOTA LLMs locally
2천 달러짜리 RTX 3090 한 장부터 4만 달러짜리 RTX PRO 6000 4장 셋업까지, 로컬에서 최신 LLM을 직접 돌리는 방법을 하드웨어 선택·구성·실행 설정까지 통째로 정리한 실전 가이드다.
Faster embeddings: how we rebuilt the ONNX path in Manticore
Manticore Search가 기존 SentenceTransformers/Candle 백엔드를 ONNX Runtime으로 교체해 텍스트 임베딩 생성 속도를 평균 14배 향상시켰다. 별도 모델 서비스 없이 DB 내부에서 직접 임베딩을 처리하는 구조에서 INSERT 속도가 곧 임베딩 속도이기 때문에 이 개선은 실질적인 ingest 처리량 향상으로 직결된다.
Asymmetric Quantization: Near-Lossless Retrieval with 97% Storage Reduction
멀티벡터 검색 모델의 문서 벡터를 1비트 이진값으로 압축하고 쿼리 벡터만 int8로 유지하는 비대칭 양자화 기법으로, 스토리지를 97% 줄이면서 검색 품질 손실을 0.61점(NDCG@10 기준)에 그치게 만든 실제 프로덕션 적용 사례다.
Show HN: Bash4LLM+ – A lightweight, dependency-free Bash wrapper for LLM APIs
Python이나 Node.js 없이 순수 Bash만으로 Groq 등 OpenAI 호환 LLM API를 호출할 수 있는 단일 스크립트 도구로, Termux(Android)를 포함한 모든 Unix 환경에서 동작한다.
Wayfinder Router: deterministic routing of queries between local and hosted LLM
프롬프트의 복잡도를 모델 호출 없이 오프라인으로 점수화해서 간단한 쿼리는 로컬 모델로, 어려운 쿼리는 유료 모델로 자동 라우팅하는 CLI 도구다. LLM 비용을 줄이면서도 응답 품질을 유지하고 싶은 개발자에게 유용하다.
Apple Neural Engine: Architecture, Programming, and Performance
Apple 기기에 내장된 AI 전용 칩인 ANE(Apple Neural Engine)를 리버스 엔지니어링으로 분석한 302페이지짜리 기술 문서로, Core ML 아래 숨겨진 내부 구조와 직접 접근 경로를 처음으로 공개한다.