Claude Sonnet 4, 1M token context window 지원 시작
Claude Sonnet 4 now supports 1M tokens of context
TL;DR Highlight
Claude Sonnet 4는 컨텍스트 윈도우를 200K에서 1M 토큰으로 5배 확장하면서 200K 초과 입력 토큰 가격을 처음으로 2배 인상했다.
Who Should Read
Claude API로 대규모 코드베이스 분석이나 멀티스텝 에이전트를 만드는 개발자, 또는 Claude Code를 쓰면서 컨텍스트 관리에 고민이 많은 개발자.
Core Mechanics
- Claude Sonnet 4의 컨텍스트 윈도우가 200K에서 1M 토큰으로 5배 늘어났다. 코드 기준으로 약 75,000줄 이상을 한 번에 넣을 수 있는 수준이다.
- 200K 토큰까지는 기존 가격($3/MTok 입력, $15/MTok 출력)이 유지되지만, 200K를 넘으면 입력 $6/MTok, 출력 $22.50/MTok으로 올라간다. LLM 업계에서 토큰 수에 따라 비선형 가격을 매긴 첫 사례다.
- Anthropic API에서 public beta로 제공되며, Amazon Bedrock과 Google Cloud Vertex AI에서도 사용 가능하다. Tier 4 이상 고객부터 이용할 수 있다.
- 주요 활용 시나리오로 대규모 코드 분석(전체 코드베이스 + 테스트 + 문서를 한번에 로딩), 문서 합성(수백 건의 법률/연구 문서 교차 분석), 컨텍스트 인지 에이전트(수백 번의 tool call에도 맥락을 잃지 않는 에이전트) 세 가지를 제시했다.
- Prompt caching을 함께 쓰면 비용과 지연 시간을 줄일 수 있고, batch processing을 쓰면 추가로 50% 비용을 절감할 수 있다.
- Bolt.new CEO는 실제 프로덕션에서 Sonnet 4가 다른 모델보다 코드 생성 성능이 좋았고, 1M 컨텍스트 덕분에 훨씬 큰 프로젝트를 다룰 수 있게 됐다고 밝혔다.
- iGent AI는 자사 에이전트 Maestro에 1M 컨텍스트를 적용해 며칠 단위의 실제 코드베이스 작업 세션을 가능하게 했다고 말했다.
Evidence
- 컨텍스트가 늘어나면 LLM이 '산만해져서' 오히려 출력 품질이 떨어진다는 우려가 많았다. 코드베이스를 통째로 넣으면 좋겠지만, 실제로 긴 컨텍스트에서 모델이 얼마나 정확하게 따라가는지에 대한 eval이 없으면 비용 대비 가치를 판단하기 어렵다는 의견이 지배적이었다.
- Anthropic의 컨텍스트 윈도우 크기 주장에 회의적인 경험담이 나왔다. 이전에 200K라고 했지만 실제로는 32K도 안 돼서 앞부분을 잊어버렸다는 제보가 있었고, Gemini의 1M 컨텍스트가 recall 면에서 더 낫다는 비교 의견도 있었다.
- Claude Code 사용 팁이 공유됐다. 컨텍스트를 충분히 채운 뒤 작업하고, 논리적 중단점마다 double escape로 체크포인트에 되감으면 토큰을 절약할 수 있다. /resume으로 같은 스레드를 여러 채팅에서 이어갈 수도 있다.
- 200K 초과 시 가격이 2배가 되는 구조에 대해, LLM 추론 비용이 토큰 수에 따라 이차함수적으로 증가한다는 것을 가격에 처음으로 반영한 것이라는 분석이 있었다. one-shot으로 답을 못 얻으면 비용이 급격히 늘어난다는 걱정도 나왔다.
- 실용적 활용법으로 'Are there any bugs in the current diff?'라고 물어보는 것만으로도 매우 세밀한 버그를 잡아내서 디버깅 시간을 크게 줄였다는 경험담이 인기를 끌었다.
How to Apply
- 대규모 코드베이스를 다루는 에이전트를 만들 때, 전체 소스를 컨텍스트에 넣되 prompt caching을 반드시 함께 적용해서 반복 호출 비용을 줄여라. 200K 이하로 유지할 수 있다면 가격이 절반이므로 컨텍스트 프루닝 전략을 먼저 검토하는 게 낫다.
- Claude Code에서 작업할 때 컨텍스트를 충분히 채운 후 double escape로 체크포인트를 만들어두고, 각 작업 단위마다 되감기하면 토큰 소비를 대폭 줄일 수 있다.
- 코드 리뷰 자동화에 1M 컨텍스트를 활용할 수 있다. diff뿐 아니라 관련 파일 전체를 함께 넣어서 cross-file dependency 버그를 잡아내는 파이프라인을 구성하면 효과적이다.
- 비용이 민감한 경우 batch processing(추가 50% 할인)과 200K 이하 컨텍스트 유지를 조합하면 1M 풀로딩 대비 약 75% 비용을 절감할 수 있다.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.