Claude Opus 4.6 / Sonnet 4.6의 1M context window GA 출시 — 추가 요금 없음
1M context is now generally available for Opus 4.6 and Sonnet 4.6
TL;DR Highlight
Anthropic의 Opus 4.6과 Sonnet 4.6은 1M 토큰 컨텍스트를 추가 요금 없이 제공하며 200K 이상 요청에도 동일 단가를 적용하고 이미지/PDF를 요청당 600장까지 지원한다.
Who Should Read
Claude API로 대규모 코드베이스 분석, 긴 문서 처리, 장시간 에이전트 세션을 돌리는 개발자. 특히 Claude Code로 작업하면서 컨텍스트 압축(compaction)에 불만이 있었던 사람.
Core Mechanics
- Opus 4.6($5/$25 per M tokens)과 Sonnet 4.6($3/$15 per M tokens) 모두 1M 컨텍스트 윈도우가 GA됐다. 핵심은 long-context premium이 사라졌다는 것 — 900K 토큰 요청이든 9K 토큰 요청이든 토큰당 단가가 동일하다.
- 요청당 이미지/PDF 페이지 수 제한이 100장에서 600장으로 6배 늘었다. 대형 계약서 세트나 기술 문서 묶음을 한번에 넣을 수 있게 됐다.
- Claude Platform, Microsoft Azure Foundry, Google Cloud Vertex AI에서 모두 사용 가능하고, 베타 헤더 없이 200K 넘는 요청이 자동으로 처리된다. 기존에 베타 헤더 쓰던 코드도 변경 불필요.
- Claude Code에서도 Max/Team/Enterprise 플랜 사용자는 Opus 4.6 세션에서 1M 컨텍스트를 자동으로 쓸 수 있다. 컨텍스트 압축(compaction) 빈도가 줄어들어 긴 대화에서 정보 손실이 적어진다.
- MRCR v2(장문맥 검색 벤치마크)에서 Opus 4.6이 78.3%로 프론티어 모델 중 최고 점수를 기록했다. 1M 토큰을 넣어도 정확도가 유지된다는 것이 핵심 셀링 포인트.
- 실제 사용 사례로, Cognition의 Devin Review 에이전트는 대형 diff를 200K에 못 넣어서 청크를 나눠야 했는데, 1M 컨텍스트로 전체 diff를 한번에 넣으니 크로스파일 의존성 파악이 좋아지고 리뷰 품질이 올라갔다고 한다.
- 한 사용자의 실무 경험에 따르면 compaction 이벤트가 15% 감소했고, 에이전트가 수시간 동안 초반에 읽은 내용을 잊지 않고 작업할 수 있게 됐다.
- 경쟁 맥락에서 GPT-5.4도 1M 윈도우를 제공하지만 추가 요금이 붙는다. Anthropic이 표준 가격으로 제공하는 것은 KV 캐시 경제성을 확보했다는 신호로 읽힌다.
Evidence
- 600~700K 토큰 부근에서 instruction following이 급격히 저하되는 'cliff'가 있다는 프로덕션 테스트 경험이 공유됐다. 검색(retrieval) 자체는 되지만 먼 컨텍스트의 가중치 반영이 약해진다는 것. 1M을 '넣을 수 있는 것'과 '잘 쓸 수 있는 것'은 다르다는 지적이 많았다.
- 한 개발자는 코드맵 전략(파일별 summary + public API 정리)과 자동 컨텍스트 선별로 실제 요청은 30K~80K에서 해결하고 있으며, 1M이 정말 필요한 유스케이스가 뭔지 궁금하다고 했다. 입력 정밀도를 높이면 출력 정밀도도 올라간다는 경험.
- Claude Code 사용자 중 compaction 때 모델이 핵심 맥락을 잊고 같은 실수를 반복하는 것이 고통스러웠다는 의견이 많았고, 이번 변경으로 다시 Claude를 메인 도구로 쓰겠다는 반응이 나왔다. GPT-5.4/Codex가 compaction을 더 잘 처리해서 갈아탔다가 돌아온다는 사례도.
- 추가 요금 없이 제공한다는 점 자체가 KV 캐시 최적화를 해결했다는 의미라 기술적으로 더 흥미롭다는 분석이 있었다. 윈도우 크기보다 경제성이 더 어려운 문제라는 것.
- 임베디드/하드웨어 쪽 코드에서는 Opus도 여전히 주니어 수준이라는 경험이 공유됐다. Python 같은 고수준 언어에서는 뛰어나지만 C/C++ 임베디드는 학습 데이터 부족 때문인지 한계가 있다는 의견.
How to Apply
- Claude Code로 대형 모노레포 작업 시, 기존에 수동으로 컨텍스트를 줄이거나 /compact를 자주 쓰던 워크플로우를 재검토하라. Max/Team/Enterprise 플랜이면 Opus 4.6에서 자동으로 1M이 적용되므로 compaction 없이 긴 세션을 유지할 수 있다.
- API로 대량 문서 분석(계약서, 기술 문서, 코드 리뷰)을 하는 경우, 청크를 나눠서 여러 번 호출하던 파이프라인을 단일 1M 요청으로 단순화하라. 특히 크로스레퍼런스가 필요한 작업에서 품질이 올라간다.
- 다만 600K+ 토큰 영역에서 coherence 저하 가능성이 보고되고 있으므로, 프로덕션 파이프라인에 적용하기 전에 자체 벤치마크(instruction following 테스트, needle-in-a-haystack)를 돌려서 품질 cliff를 확인하라.
- 비용 최적화 관점에서, 코드맵 + 자동 컨텍스트 선별 전략(파일별 summary 생성 → 관련 파일만 선별)을 병행하면 불필요하게 큰 컨텍스트를 쓰지 않으면서도 품질을 유지할 수 있다. 무조건 1M을 채우는 것이 최선은 아니다.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.