Claude Sonnet 4, 1M token context window 지원 시작

Claude Sonnet 4는 컨텍스트 윈도우를 200K에서 1M 토큰으로 5배 확장하면서 200K 초과 입력 토큰 가격을 처음으로 2배 인상했다.

Claude API로 대규모 코드베이스 분석이나 멀티스텝 에이전트를 만드는 개발자, 또는 Claude Code를 쓰면서 컨텍스트 관리에 고민이 많은 개발자.

Claude Sonnet 4의 컨텍스트 윈도우가 200K에서 1M 토큰으로 5배 늘어났다. 코드 기준으로 약 75,000줄 이상을 한 번에 넣을 수 있는 수준이다.
200K 토큰까지는 기존 가격($3/MTok 입력, $15/MTok 출력)이 유지되지만, 200K를 넘으면 입력 $6/MTok, 출력 $22.50/MTok으로 올라간다. LLM 업계에서 토큰 수에 따라 비선형 가격을 매긴 첫 사례다.
Anthropic API에서 public beta로 제공되며, Amazon Bedrock과 Google Cloud Vertex AI에서도 사용 가능하다. Tier 4 이상 고객부터 이용할 수 있다.
주요 활용 시나리오로 대규모 코드 분석(전체 코드베이스 + 테스트 + 문서를 한번에 로딩), 문서 합성(수백 건의 법률/연구 문서 교차 분석), 컨텍스트 인지 에이전트(수백 번의 tool call에도 맥락을 잃지 않는 에이전트) 세 가지를 제시했다.
Prompt caching을 함께 쓰면 비용과 지연 시간을 줄일 수 있고, batch processing을 쓰면 추가로 50% 비용을 절감할 수 있다.
Bolt.new CEO는 실제 프로덕션에서 Sonnet 4가 다른 모델보다 코드 생성 성능이 좋았고, 1M 컨텍스트 덕분에 훨씬 큰 프로젝트를 다룰 수 있게 됐다고 밝혔다.
iGent AI는 자사 에이전트 Maestro에 1M 컨텍스트를 적용해 며칠 단위의 실제 코드베이스 작업 세션을 가능하게 했다고 말했다.

컨텍스트가 늘어나면 LLM이 '산만해져서' 오히려 출력 품질이 떨어진다는 우려가 많았다. 코드베이스를 통째로 넣으면 좋겠지만, 실제로 긴 컨텍스트에서 모델이 얼마나 정확하게 따라가는지에 대한 eval이 없으면 비용 대비 가치를 판단하기 어렵다는 의견이 지배적이었다.
Anthropic의 컨텍스트 윈도우 크기 주장에 회의적인 경험담이 나왔다. 이전에 200K라고 했지만 실제로는 32K도 안 돼서 앞부분을 잊어버렸다는 제보가 있었고, Gemini의 1M 컨텍스트가 recall 면에서 더 낫다는 비교 의견도 있었다.
Claude Code 사용 팁이 공유됐다. 컨텍스트를 충분히 채운 뒤 작업하고, 논리적 중단점마다 double escape로 체크포인트에 되감으면 토큰을 절약할 수 있다. /resume으로 같은 스레드를 여러 채팅에서 이어갈 수도 있다.
200K 초과 시 가격이 2배가 되는 구조에 대해, LLM 추론 비용이 토큰 수에 따라 이차함수적으로 증가한다는 것을 가격에 처음으로 반영한 것이라는 분석이 있었다. one-shot으로 답을 못 얻으면 비용이 급격히 늘어난다는 걱정도 나왔다.
실용적 활용법으로 'Are there any bugs in the current diff?'라고 물어보는 것만으로도 매우 세밀한 버그를 잡아내서 디버깅 시간을 크게 줄였다는 경험담이 인기를 끌었다.

대규모 코드베이스를 다루는 에이전트를 만들 때, 전체 소스를 컨텍스트에 넣되 prompt caching을 반드시 함께 적용해서 반복 호출 비용을 줄여라. 200K 이하로 유지할 수 있다면 가격이 절반이므로 컨텍스트 프루닝 전략을 먼저 검토하는 게 낫다.
Claude Code에서 작업할 때 컨텍스트를 충분히 채운 후 double escape로 체크포인트를 만들어두고, 각 작업 단위마다 되감기하면 토큰 소비를 대폭 줄일 수 있다.
코드 리뷰 자동화에 1M 컨텍스트를 활용할 수 있다. diff뿐 아니라 관련 파일 전체를 함께 넣어서 cross-file dependency 버그를 잡아내는 파이프라인을 구성하면 효과적이다.
비용이 민감한 경우 batch processing(추가 50% 할인)과 200K 이하 컨텍스트 유지를 조합하면 1M 풀로딩 대비 약 75% 비용을 절감할 수 있다.

Context WindowLLM이 한 번에 읽을 수 있는 텍스트 분량의 한계. 1M 토큰이면 대략 75만 단어, 소설 10권 분량 정도를 한번에 넣을 수 있다.

Prompt Caching이전에 보낸 프롬프트의 일부를 서버가 캐시해두고, 다음 요청에서 같은 부분을 재계산하지 않아 비용과 지연을 줄이는 기법.

Batch ProcessingAPI 요청을 실시간이 아닌 일괄 처리로 보내서 할인된 가격에 결과를 받는 방식. 즉시 응답이 필요 없는 작업에 적합하다.

Quadratic ScalingTransformer 아키텍처에서 attention 연산 비용이 토큰 수의 제곱에 비례해서 늘어나는 특성. 컨텍스트가 2배면 비용은 4배가 되는 구조.

Needle in a Haystack긴 컨텍스트 속에 숨긴 특정 정보를 모델이 얼마나 잘 찾아내는지 측정하는 벤치마크. 컨텍스트 윈도우의 실질적 활용 가능 범위를 평가한다.