Claude Opus 4.6 출시: 코딩·에이전트·1M context 업그레이드
Claude Opus 4.6
TL;DR Highlight
Claude Opus 4.6은 1M 토큰 컨텍스트 윈도우와 멀티 에이전트 팀 기능으로 에이전트 코딩 성능을 강화해 여러 벤치마크에서 GPT-5.2를 상회한다.
Who Should Read
Claude Code나 API로 코딩 에이전트를 활용 중인 개발자, 또는 LLM 기반 워크플로우에서 긴 컨텍스트와 멀티 에이전트 협업이 필요한 팀.
Core Mechanics
- Opus 4.6은 전작 대비 에이전트 코딩 능력이 크게 향상됐다. 더 신중하게 계획을 세우고, 긴 작업을 더 오래 유지하며, 큰 코드베이스에서도 안정적으로 동작하고, 자기 실수를 스스로 잡아내는 코드 리뷰·디버깅 능력이 좋아졌다.
- Opus 급 모델 최초로 1M 토큰 컨텍스트 윈도우를 베타로 제공한다. 해리포터 전권(~1.75M 토큰)은 아직 안 되지만, 4권까지(~733K 토큰)를 넣고 50개 주문 중 49개를 찾아낼 정도로 긴 컨텍스트 처리 능력이 검증됐다.
- Terminal-Bench 2.0(에이전트 코딩 벤치마크)에서 업계 최고 점수를 기록했다. 다만 OpenAI가 같은 날 GPT-5.3 Codex를 발표하면서 77.3%로 35분 만에 1위를 빼앗겼다.
- 지식 노동 평가인 GDPval-AA에서 GPT-5.2 대비 144 Elo, 전작 Opus 4.5 대비 190 Elo 앞선다. 금융·법률 등 전문 도메인 작업에서의 우위를 보여준다.
- Claude Code에 에이전트 팀(agent teams) 기능이 추가됐다. 여러 에이전트가 서브태스크를 나눠 병렬로 작업하는 멀티 에이전트 협업 기능으로, 환경변수 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1로 활성화한다.
- API에서 compaction(컨텍스트 자동 요약) 기능이 추가돼 긴 작업 중 컨텍스트 한도에 걸리지 않게 됐다. adaptive thinking도 도입돼 모델이 문맥에 따라 사고 깊이를 자동 조절하고, effort 파라미터로 개발자가 직접 제어할 수도 있다.
- 가격은 기존과 동일하게 입력 $5/출력 $25 per million tokens. 다만 200K 토큰 초과 시 입력 2배, 출력 1.5배 할증이 적용된다.
- 모델이 어려운 문제에서 더 깊이 사고하는 경향이 있어 간단한 작업에서는 비용과 지연이 늘 수 있다. 이 경우 /effort 파라미터를 medium으로 낮추는 것을 Anthropic이 공식 권장한다.
Evidence
- Pro 플랜 사용자들이 Opus 모델의 사용량 제한이 너무 빡빡하다고 불만을 표했다. '아침에 Opus로 질문 몇 개 하면 하루 종일 Claude를 못 쓴다'는 경험이 공유됐고, ChatGPT의 GPT-5.2는 2시간 연속 작업해도 제한에 안 걸렸다는 비교가 나왔다.
- Opus 4.6이 지시를 무시하고 '폭주'하는 현상에 대한 보고가 여럿 있었다. '먼저 이해한 걸 설명하고 멈춰라'고 했는데 분석은 잘 하면서도 멈추지 않고 바로 구현에 들어갔다는 사례가 공유됐다. auto accept edits 사용 시 특히 주의가 필요하다는 경고도 있었다.
- 에이전트 팀 기능에 대해, 세션 종료 시 사라지는 한계가 지적됐다. 낮에 Claude Code로 작업하고 밤에 Codex로 넘기는 등 런타임 간 메시지 전달이 안 되므로, 크로스 툴 협업은 여전히 커뮤니티 도구(mcp_agent_mail 등)가 필요하다는 분석이 있었다.
- 1M 컨텍스트에 대해 '데모에서는 잘 되는데 실제로는 어떤지'를 묻는 회의적 반응과, 해리포터 전권 주문 찾기 테스트에서 50개 중 49개를 찾은 인상적 결과가 함께 공유됐다.
- 일반 용도(리서치, 일상 질문)에서는 ChatGPT·Gemini가 더 낫다는 의견이 있었다. Claude의 강점은 코딩이 명확한데 마케팅은 범용 AI를 지향하고 있어 괴리가 있다는 전략적 비판도 나왔다.
How to Apply
- Claude Code에서 큰 코드베이스를 다루는 경우, Opus 4.6의 1M 컨텍스트를 활용해 여러 파일을 한꺼번에 넣고 리팩토링이나 크로스파일 버그 수색을 시도해볼 수 있다. 200K 초과 시 비용 할증을 감안해 꼭 필요한 파일만 선별해서 넣는 게 좋다.
- 간단한 작업에서 Opus 4.6이 과도하게 생각하며 느려지는 경우, /effort medium으로 설정하면 비용과 지연을 줄일 수 있다. 복잡한 디버깅이나 설계 작업에만 기본값(high)을 유지하는 식으로 분리 운영하면 효과적이다.
- 멀티 에이전트 협업이 필요한 대규모 작업(예: 여러 모듈 동시 수정)에서는 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1을 설정하고 에이전트 팀 기능을 실험해볼 수 있다. 다만 토큰 소비가 크고 세션 종료 시 상태가 사라지므로, 짧은 집중 세션에 적합하다.
- Opus 4.6이 지시를 무시하고 바로 구현에 들어가는 '폭주' 경향이 있으므로, auto accept edits 모드 사용 시 주의가 필요하다. 중요한 변경은 plan 모드로 먼저 확인하고 진행하는 것이 안전하다.
Code Example
# Claude Code에서 에이전트 팀 활성화
export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
# effort 파라미터로 사고 깊이 조절
# Claude Code 내에서: /effort medium
# API 호출 시 모델 ID
# model: "claude-opus-4-6"Terminology
관련 논문
adamsreview: Claude Code용 멀티 에이전트 PR 코드 리뷰 파이프라인
Claude Code에서 최대 7개의 병렬 서브 에이전트가 각각 다른 관점으로 PR을 리뷰하고, 자동 수정까지 해주는 오픈소스 플러그인이다. 기존 /review나 CodeRabbit보다 실제 버그를 더 많이 잡는다고 주장하지만 커뮤니티에서는 복잡도와 실효성에 대한 회의론도 나왔다.
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
AI Agent를 위한 Git: re_gent
AI 코딩 에이전트(Claude Code 등)가 수행한 모든 툴 호출을 자동으로 추적하고, 어떤 프롬프트가 어느 코드 줄을 작성했는지 blame까지 가능한 버전 관리 도구다.
Agent-Native CLI를 위한 설계 원칙 10가지
AI 에이전트가 CLI 도구를 더 잘 사용할 수 있도록 설계하는 원칙들을 정리한 글로, 에이전트가 CLI를 도구로 활용하는 빈도가 높아지면서 이 설계 방식이 실용적으로 중요해지고 있다.
Agent-harness-kit: MCP 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
여러 AI 에이전트가 서로 역할을 나눠 협업할 수 있도록 조율하는 scaffolding 도구로, Vite처럼 설정 없이 빠르게 멀티 에이전트 파이프라인을 구성할 수 있다.
Tilde.run – AI Agent를 위한 트랜잭션 기반 버전 관리 파일시스템 샌드박스
AI 에이전트가 실제 프로덕션 데이터를 건드려도 롤백할 수 있는 격리된 샌드박스 환경을 제공하는 도구로, GitHub/S3/Google Drive를 하나의 버전 관리 파일시스템으로 묶어준다.