Claude Sonnet 4, 1M token context window 지원 시작
Claude Sonnet 4 now supports 1M tokens of context
TL;DR Highlight
Claude Sonnet 4는 컨텍스트 윈도우를 200K에서 1M 토큰으로 5배 확장하면서 200K 초과 입력 토큰 가격을 처음으로 2배 인상했다.
Who Should Read
Claude API로 대규모 코드베이스 분석이나 멀티스텝 에이전트를 만드는 개발자, 또는 Claude Code를 쓰면서 컨텍스트 관리에 고민이 많은 개발자.
Core Mechanics
- Claude Sonnet 4의 컨텍스트 윈도우가 200K에서 1M 토큰으로 5배 늘어났다. 코드 기준으로 약 75,000줄 이상을 한 번에 넣을 수 있는 수준이다.
- 200K 토큰까지는 기존 가격($3/MTok 입력, $15/MTok 출력)이 유지되지만, 200K를 넘으면 입력 $6/MTok, 출력 $22.50/MTok으로 올라간다. LLM 업계에서 토큰 수에 따라 비선형 가격을 매긴 첫 사례다.
- Anthropic API에서 public beta로 제공되며, Amazon Bedrock과 Google Cloud Vertex AI에서도 사용 가능하다. Tier 4 이상 고객부터 이용할 수 있다.
- 주요 활용 시나리오로 대규모 코드 분석(전체 코드베이스 + 테스트 + 문서를 한번에 로딩), 문서 합성(수백 건의 법률/연구 문서 교차 분석), 컨텍스트 인지 에이전트(수백 번의 tool call에도 맥락을 잃지 않는 에이전트) 세 가지를 제시했다.
- Prompt caching을 함께 쓰면 비용과 지연 시간을 줄일 수 있고, batch processing을 쓰면 추가로 50% 비용을 절감할 수 있다.
- Bolt.new CEO는 실제 프로덕션에서 Sonnet 4가 다른 모델보다 코드 생성 성능이 좋았고, 1M 컨텍스트 덕분에 훨씬 큰 프로젝트를 다룰 수 있게 됐다고 밝혔다.
- iGent AI는 자사 에이전트 Maestro에 1M 컨텍스트를 적용해 며칠 단위의 실제 코드베이스 작업 세션을 가능하게 했다고 말했다.
Evidence
- 컨텍스트가 늘어나면 LLM이 '산만해져서' 오히려 출력 품질이 떨어진다는 우려가 많았다. 코드베이스를 통째로 넣으면 좋겠지만, 실제로 긴 컨텍스트에서 모델이 얼마나 정확하게 따라가는지에 대한 eval이 없으면 비용 대비 가치를 판단하기 어렵다는 의견이 지배적이었다.
- Anthropic의 컨텍스트 윈도우 크기 주장에 회의적인 경험담이 나왔다. 이전에 200K라고 했지만 실제로는 32K도 안 돼서 앞부분을 잊어버렸다는 제보가 있었고, Gemini의 1M 컨텍스트가 recall 면에서 더 낫다는 비교 의견도 있었다.
- Claude Code 사용 팁이 공유됐다. 컨텍스트를 충분히 채운 뒤 작업하고, 논리적 중단점마다 double escape로 체크포인트에 되감으면 토큰을 절약할 수 있다. /resume으로 같은 스레드를 여러 채팅에서 이어갈 수도 있다.
- 200K 초과 시 가격이 2배가 되는 구조에 대해, LLM 추론 비용이 토큰 수에 따라 이차함수적으로 증가한다는 것을 가격에 처음으로 반영한 것이라는 분석이 있었다. one-shot으로 답을 못 얻으면 비용이 급격히 늘어난다는 걱정도 나왔다.
- 실용적 활용법으로 'Are there any bugs in the current diff?'라고 물어보는 것만으로도 매우 세밀한 버그를 잡아내서 디버깅 시간을 크게 줄였다는 경험담이 인기를 끌었다.
How to Apply
- 대규모 코드베이스를 다루는 에이전트를 만들 때, 전체 소스를 컨텍스트에 넣되 prompt caching을 반드시 함께 적용해서 반복 호출 비용을 줄여라. 200K 이하로 유지할 수 있다면 가격이 절반이므로 컨텍스트 프루닝 전략을 먼저 검토하는 게 낫다.
- Claude Code에서 작업할 때 컨텍스트를 충분히 채운 후 double escape로 체크포인트를 만들어두고, 각 작업 단위마다 되감기하면 토큰 소비를 대폭 줄일 수 있다.
- 코드 리뷰 자동화에 1M 컨텍스트를 활용할 수 있다. diff뿐 아니라 관련 파일 전체를 함께 넣어서 cross-file dependency 버그를 잡아내는 파이프라인을 구성하면 효과적이다.
- 비용이 민감한 경우 batch processing(추가 50% 할인)과 200K 이하 컨텍스트 유지를 조합하면 1M 풀로딩 대비 약 75% 비용을 절감할 수 있다.
Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.