Claude Token Counter 업그레이드: 모델 간 토크나이저 비교 기능 추가
Claude Token Counter, now with model comparisons
TL;DR Highlight
Claude Opus 4.7이 새 토크나이저를 도입하면서 같은 입력에 대해 최대 1.46배 더 많은 토큰을 소비한다는 사실이 확인됐고, 이는 사실상 40% 이상의 비용 인상 효과다.
Who Should Read
Claude API를 사용해 서비스를 운영 중인 개발자, 특히 Opus 4.7로 업그레이드를 고려하거나 이미 사용 중인데 비용 변화를 정확히 파악하고 싶은 백엔드/AI 개발자.
Core Mechanics
- Simon Willison이 만든 Claude Token Counter 툴에 모델 간 토큰 수 비교 기능이 추가됐다. Opus 4.7, Opus 4.6, Sonnet 4.6, Haiku 4.5 등 주요 모델 4개를 동시에 비교할 수 있다.
- Claude Opus 4.7은 Anthropic이 처음으로 토크나이저를 변경한 모델이다. Anthropic 공식 발표에 따르면 같은 입력이 1.0~1.35배 더 많은 토큰으로 변환될 수 있다고 했다.
- 실제 테스트에서 Opus 4.7 시스템 프롬프트를 넣어봤더니 Opus 4.6 대비 1.46배 더 많은 토큰이 나왔다. 공식 발표 범위(1.35배)를 초과하는 수치다.
- 가격은 Opus 4.6과 동일하게 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $25이지만, 토큰 수 자체가 약 46% 늘기 때문에 실질 비용은 약 40% 이상 더 나온다.
- 고해상도 이미지(3456x2234 픽셀, 3.7MB PNG)를 테스트했을 때는 Opus 4.6 대비 3.01배나 되는 토큰이 나왔다. 이는 Opus 4.7이 최대 2,576픽셀(약 3.75메가픽셀)까지 고해상도 이미지를 처리할 수 있도록 Vision 기능이 강화됐기 때문이다.
- 반면 682x318처럼 작은 이미지는 Opus 4.7이 314토큰, 4.6이 310토큰으로 거의 차이가 없었다. 이미지 토큰 증가는 고해상도 처리 지원 때문이지 토크나이저 자체 변화가 아니다.
- 15MB, 30페이지짜리 텍스트 중심 PDF를 테스트했을 때는 Opus 4.7이 60,934토큰, 4.6이 56,482토큰으로 1.08배 차이였다. 순수 텍스트보다 PDF는 토큰 증가폭이 훨씬 작다.
- 토큰 카운팅 API는 Claude API 키가 있어야 사용 가능하며, 모델 ID를 지정해 각 모델별 예상 토큰 수를 미리 확인할 수 있다.
Evidence
- 토크나이저 변경이 '돈 빼가기'라는 비판이 있었다. Anthropic이 변경 이유나 방식을 공식적으로 전혀 설명하지 않았다는 점에서, 실제로 모델 품질이 올랐는지 아니면 단순히 수익을 높이기 위한 것인지 외부에서는 확인할 방법이 없다는 의견이 제기됐다.
- 토크나이저 변경이 모델 성능 향상을 위한 의도적 설계일 수 있다는 기술적 반론도 있었다. 기존 BPE 방식은 대소문자, 공백, 어미 변화마다 별도 토큰을 써서 모델이 관계를 암기해야 하는데, 더 의미 단위에 맞게 쪼개면 토큰 수는 늘지만 추론 품질이 오를 수 있다는 설명이다. 또는 Byte Latent Transformer처럼 토크나이저 자체를 작은 학습 모델로 대체했을 가능성도 있다는 추측도 나왔다.
- tokens.billchambers.me/leaderboard에서 4.6과 4.7의 대규모 비교 데이터를 공개하고 있다는 정보가 공유됐다. 한 사용자는 자신의 프롬프트에서 40% 더 많은 토큰이 나왔다고 직접 측정 결과를 공유했다.
- 에이전트(자동화된 AI 작업 실행 시스템)를 운영하는 환경에서는 토큰 비용이 더 크게 불어난다는 실무 경험이 공유됐다. 액션 하나가 타임아웃되어 재시도할 때 전체 컨텍스트(이전 도구 호출 결과 포함)를 다시 전송하므로, 실패한 API 호출 하나가 성공 케이스의 3배 토큰을 소비하는 경우도 있다는 것이다.
- 비용 증가에 대한 대응으로 Claude CLI에서 기본 모델을 4.6으로 유지하고 필요할 때만 `--model claude-opus-4-7` 플래그를 붙여 쓰는 방식을 택하겠다는 실용적인 대응 방법이 공유됐다. 또한 고해상도 이미지를 업로드 전에 다운샘플링해서 토큰을 줄이자는 팁도 언급됐다.
How to Apply
- Opus 4.7로 마이그레이션을 고려 중이라면, 먼저 Simon Willison의 Claude Token Counter 툴(https://tools.simonwillison.net/claude-token-counter)에 실제 운영 중인 시스템 프롬프트와 대표 입력값을 넣어서 4.6 대비 토큰 비용이 얼마나 증가하는지 사전에 측정해보면 좋다.
- 이미지 처리 파이프라인을 Opus 4.7로 올린다면, 고해상도 이미지가 필수가 아닌 경우에는 업로드 전에 이미지를 682x318 수준으로 리사이즈하는 전처리를 추가하면 토큰 비용을 Opus 4.6 수준으로 유지할 수 있다.
- Claude CLI나 API를 사용하는 경우, 모든 요청에 Opus 4.7을 쓰는 대신 태스크 복잡도에 따라 모델을 분리하면 비용을 관리할 수 있다. 간단한 작업은 Sonnet 4.6이나 Haiku 4.5를 기본으로 쓰고 `--model claude-opus-4-7`은 꼭 필요한 복잡한 작업에만 지정하는 방식이다.
- 에이전트 시스템을 운영 중이라면 토큰 레벨 모니터링뿐 아니라 액션 레벨 관찰도 필요하다. 도구 호출 실패 시 컨텍스트 전체가 재전송되므로, 사이드 이펙트가 실제로 실행됐는지 여부를 추적해 불필요한 재시도를 줄이면 토큰 낭비를 크게 줄일 수 있다.
Terminology
관련 논문
Lowfat – CLI 출력을 필터링해서 LLM 토큰을 91.8% 절약한 도구
AI 에이전트가 CLI 명령어 출력을 읽을 때 불필요한 노이즈를 제거해 토큰 사용량을 줄여주는 Rust 기반 CLI 필터 도구. Claude Code, OpenCode 등 주요 AI 코딩 에이전트와 통합 가능하다.
1-bit/Ternary Bonsai Image 4B: 로컬 디바이스용 이미지 생성 모델
4B 파라미터 이미지 생성 모델의 가중치를 1비트/3값으로 극단적으로 압축해서 iPhone에서도 돌아가게 만든 모델. 7.75GB짜리 diffusion transformer를 0.93GB까지 줄였다.
Tiny-vLLM: C++와 CUDA로 만드는 고성능 LLM 추론 엔진
vLLM의 핵심 기능을 C++와 CUDA로 직접 구현하며 배울 수 있는 교육용 LLM 추론 엔진 프로젝트로, 소스코드와 단계별 강의가 함께 제공된다.
일반 데이터센터 GPU에서 요청당 3,000 tokens/s 실시간 LLM 추론
Kog AI가 8× AMD MI300X에서 요청당 3,000 tokens/s를 달성하는 LLM 추론 엔진을 공개했고, 기존 소프트웨어 스택의 병목을 GPU 메모리 대역폭 최대화로 풀어냈다는 내용이다.
LLM을 위한 수면과 유사한 컨텍스트 통합 메커니즘
LLM이 긴 컨텍스트를 처리할 때 발생하는 Attention 비용 문제를 해결하기 위해, 사람의 수면처럼 주기적으로 컨텍스트를 fast weight에 압축·저장하는 새로운 메커니즘을 제안한 논문이다.
CODA: Transformer 블록을 GEMM-Epilogue 프로그램으로 재작성하기
GPU에서 Transformer 학습 시 발생하는 메모리 병목을 해결하기 위해, 정규화·활성화 등 소규모 연산들을 GEMM 출력이 칩 위에 있는 동안 함께 실행하는 커널 추상화 CODA를 소개한다. LLM이 이 추상화를 활용해 고성능 커널을 자동 생성할 수 있다는 점이 특히 주목받고 있다.