Claude Token Counter 업그레이드: 모델 간 토크나이저 비교 기능 추가

TL;DR Highlight

Claude Opus 4.7이 새 토크나이저를 도입하면서 같은 입력에 대해 최대 1.46배 더 많은 토큰을 소비한다는 사실이 확인됐고, 이는 사실상 40% 이상의 비용 인상 효과다.

Who Should Read

Claude API를 사용해 서비스를 운영 중인 개발자, 특히 Opus 4.7로 업그레이드를 고려하거나 이미 사용 중인데 비용 변화를 정확히 파악하고 싶은 백엔드/AI 개발자.

Core Mechanics

Simon Willison이 만든 Claude Token Counter 툴에 모델 간 토큰 수 비교 기능이 추가됐다. Opus 4.7, Opus 4.6, Sonnet 4.6, Haiku 4.5 등 주요 모델 4개를 동시에 비교할 수 있다.
Claude Opus 4.7은 Anthropic이 처음으로 토크나이저를 변경한 모델이다. Anthropic 공식 발표에 따르면 같은 입력이 1.0~1.35배 더 많은 토큰으로 변환될 수 있다고 했다.
실제 테스트에서 Opus 4.7 시스템 프롬프트를 넣어봤더니 Opus 4.6 대비 1.46배 더 많은 토큰이 나왔다. 공식 발표 범위(1.35배)를 초과하는 수치다.
가격은 Opus 4.6과 동일하게 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $25이지만, 토큰 수 자체가 약 46% 늘기 때문에 실질 비용은 약 40% 이상 더 나온다.
고해상도 이미지(3456x2234 픽셀, 3.7MB PNG)를 테스트했을 때는 Opus 4.6 대비 3.01배나 되는 토큰이 나왔다. 이는 Opus 4.7이 최대 2,576픽셀(약 3.75메가픽셀)까지 고해상도 이미지를 처리할 수 있도록 Vision 기능이 강화됐기 때문이다.
반면 682x318처럼 작은 이미지는 Opus 4.7이 314토큰, 4.6이 310토큰으로 거의 차이가 없었다. 이미지 토큰 증가는 고해상도 처리 지원 때문이지 토크나이저 자체 변화가 아니다.
15MB, 30페이지짜리 텍스트 중심 PDF를 테스트했을 때는 Opus 4.7이 60,934토큰, 4.6이 56,482토큰으로 1.08배 차이였다. 순수 텍스트보다 PDF는 토큰 증가폭이 훨씬 작다.
토큰 카운팅 API는 Claude API 키가 있어야 사용 가능하며, 모델 ID를 지정해 각 모델별 예상 토큰 수를 미리 확인할 수 있다.

Evidence

토크나이저 변경이 '돈 빼가기'라는 비판이 있었다. Anthropic이 변경 이유나 방식을 공식적으로 전혀 설명하지 않았다는 점에서, 실제로 모델 품질이 올랐는지 아니면 단순히 수익을 높이기 위한 것인지 외부에서는 확인할 방법이 없다는 의견이 제기됐다.
토크나이저 변경이 모델 성능 향상을 위한 의도적 설계일 수 있다는 기술적 반론도 있었다. 기존 BPE 방식은 대소문자, 공백, 어미 변화마다 별도 토큰을 써서 모델이 관계를 암기해야 하는데, 더 의미 단위에 맞게 쪼개면 토큰 수는 늘지만 추론 품질이 오를 수 있다는 설명이다. 또는 Byte Latent Transformer처럼 토크나이저 자체를 작은 학습 모델로 대체했을 가능성도 있다는 추측도 나왔다.
tokens.billchambers.me/leaderboard에서 4.6과 4.7의 대규모 비교 데이터를 공개하고 있다는 정보가 공유됐다. 한 사용자는 자신의 프롬프트에서 40% 더 많은 토큰이 나왔다고 직접 측정 결과를 공유했다.
에이전트(자동화된 AI 작업 실행 시스템)를 운영하는 환경에서는 토큰 비용이 더 크게 불어난다는 실무 경험이 공유됐다. 액션 하나가 타임아웃되어 재시도할 때 전체 컨텍스트(이전 도구 호출 결과 포함)를 다시 전송하므로, 실패한 API 호출 하나가 성공 케이스의 3배 토큰을 소비하는 경우도 있다는 것이다.
비용 증가에 대한 대응으로 Claude CLI에서 기본 모델을 4.6으로 유지하고 필요할 때만 `--model claude-opus-4-7` 플래그를 붙여 쓰는 방식을 택하겠다는 실용적인 대응 방법이 공유됐다. 또한 고해상도 이미지를 업로드 전에 다운샘플링해서 토큰을 줄이자는 팁도 언급됐다.

How to Apply

Opus 4.7로 마이그레이션을 고려 중이라면, 먼저 Simon Willison의 Claude Token Counter 툴(https://tools.simonwillison.net/claude-token-counter)에 실제 운영 중인 시스템 프롬프트와 대표 입력값을 넣어서 4.6 대비 토큰 비용이 얼마나 증가하는지 사전에 측정해보면 좋다.
이미지 처리 파이프라인을 Opus 4.7로 올린다면, 고해상도 이미지가 필수가 아닌 경우에는 업로드 전에 이미지를 682x318 수준으로 리사이즈하는 전처리를 추가하면 토큰 비용을 Opus 4.6 수준으로 유지할 수 있다.
Claude CLI나 API를 사용하는 경우, 모든 요청에 Opus 4.7을 쓰는 대신 태스크 복잡도에 따라 모델을 분리하면 비용을 관리할 수 있다. 간단한 작업은 Sonnet 4.6이나 Haiku 4.5를 기본으로 쓰고 `--model claude-opus-4-7`은 꼭 필요한 복잡한 작업에만 지정하는 방식이다.
에이전트 시스템을 운영 중이라면 토큰 레벨 모니터링뿐 아니라 액션 레벨 관찰도 필요하다. 도구 호출 실패 시 컨텍스트 전체가 재전송되므로, 사이드 이펙트가 실제로 실행됐는지 여부를 추적해 불필요한 재시도를 줄이면 토큰 낭비를 크게 줄일 수 있다.

Terminology

tokenizerLLM이 텍스트를 처리하기 전에 단어/문자를 숫자 덩어리(토큰)로 쪼개는 도구. 같은 문장도 어떻게 쪼개느냐에 따라 토큰 수가 달라지고, API 비용이 바로 이 토큰 수 기준으로 청구된다.

BPEByte Pair Encoding의 약자. 자주 함께 등장하는 문자 조합을 하나의 토큰으로 합치는 방식으로, 대부분의 LLM 토크나이저가 사용하는 기본 알고리즘이다.

token inflation토크나이저 변경으로 인해 같은 텍스트가 이전보다 더 많은 토큰으로 쪼개지는 현상. 가격표는 그대로인데 실질 비용이 오르는 효과가 난다.

Byte Latent Transformer전통적인 토크나이저 없이 바이트 단위로 텍스트를 처리하는 실험적 아키텍처. 토크나이저를 작은 학습 모델로 대체하는 개념이다.

컨텍스트 윈도우LLM이 한 번에 처리할 수 있는 최대 토큰 범위. 에이전트가 재시도할 때 이전 작업 결과가 모두 여기에 쌓이기 때문에 실패가 거듭될수록 비용이 기하급수적으로 늘어난다.