Claude Opus 4.1 출시 — 에이전트 코딩과 추론 성능 업그레이드
Claude Opus 4.1
TL;DR Highlight
Claude Opus 4.1은 SWE-bench 74.5%로 코딩 벤치마크 최고점을 갱신했으나 커뮤니티가 가격 대비 효용을 의문시했다.
Who Should Read
Claude Code나 API로 대규모 코드베이스를 다루는 개발자, 또는 AI 코딩 도구 간 비용 대비 성능을 비교하고 있는 팀 리드.
Core Mechanics
- SWE-bench Verified에서 74.5%를 기록했는데, 이건 별도 scaffold 없이 bash 도구와 파일 편집 도구 두 개만으로 달성한 점수다. 이전 Opus 4 대비 소폭 상승.
- GitHub에 따르면 멀티파일 리팩토링에서 특히 눈에 띄는 성능 향상이 있고, Rakuten은 대규모 코드베이스에서 불필요한 수정 없이 정확한 버그 수정을 해준다고 평가했다.
- Windsurf 벤치마크 기준으로 Opus 4 대비 1 표준편차 개선인데, 이건 Sonnet 3.7에서 Sonnet 4로 넘어갈 때와 비슷한 폭이라고 한다.
- 가격은 Opus 4와 동일하게 유지된다. API에서 모델 ID는 claude-opus-4-1-20250805로, 기존 Opus 4 사용자는 그냥 모델명만 바꾸면 된다.
- extended thinking(최대 64K 토큰)을 쓸 때와 안 쓸 때 벤치마크 점수가 다르다. SWE-bench는 extended thinking 없이, TAU-bench/GPQA 등은 켜고 측정했다.
- Anthropic이 '앞으로 몇 주 내에 훨씬 큰 개선을 출시할 계획'이라고 예고했는데, 커뮤니티에서는 이 부분이 Opus 4.1 자체보다 더 주목받고 있다.
- 같은 날 OpenAI(o3 오픈소스 모델)와 Google도 동시에 발표를 해서, 3대 AI 랩이 같은 날 릴리스를 쏟아낸 이례적인 상황이 됐다.
Evidence
- Opus의 비용 문제가 가장 큰 논쟁 포인트였다. 한 사용자는 OpenRouter 기준으로 Sonnet만 써도 시간당 $5가 드는데, Opus는 그보다 훨씬 비싸서 비용 대비 효용이 안 맞다고 지적했다. 가성비 최고는 GPT-4.1 mini라는 의견.
- 벤치마크상 Opus가 거의 모든 면에서 우위인데, 실제 사용 경험은 Sonnet이 훨씬 낫다는 모순적 반응이 많았다. 'Opus 4.1도 Opus 4만큼 쓸모없다'는 극단적 의견도 있었고, 출시 당일 Claude 전반의 품질이 떨어졌다는 보고도 여러 건.
- OpenRouter 랭킹 데이터에 따르면 Sonnet 3.7과 Sonnet 4의 합산 토큰 생성량이 Opus 4의 17배에 달한다. 가격이 같은 한 Opus 채택률이 오르기 어렵다는 분석.
- Claude Code 외에 다양한 LLM을 쓸 수 있는 에이전트 코딩 도구에 대한 수요가 있었다. Aider, Codename Goose 등이 거론됐고, 로컬 모델로 돌려서 비용을 줄이고 싶다는 의견도.
- o3/o3-pro가 추론 면에서 Claude보다 강하다는 의견이 있었고, 반면 Claude의 코딩 정밀도를 높이 사는 쪽도 있어서 용도별 모델 선택이 갈리는 양상이었다.
How to Apply
- 현재 Opus 4를 API로 쓰고 있다면 모델 ID를 claude-opus-4-1-20250805로 바꾸기만 하면 된다. 가격 동일하고 하위 호환되므로 리스크 없이 테스트 가능.
- 멀티파일 리팩토링이나 대규모 코드베이스 디버깅처럼 정밀도가 중요한 작업에는 Opus 4.1을, 일반적인 코드 생성이나 대화형 작업에는 Sonnet 4를 쓰는 식으로 모델을 분리하면 비용을 절감할 수 있다.
- 비용이 부담되면 Claude Code 대신 Aider나 Goose 같은 오픈소스 에이전트 도구에 GPT-4.1 mini를 연결해서 간단한 작업을 처리하고, 복잡한 작업에만 Claude를 쓰는 하이브리드 전략을 고려할 것.
- Anthropic이 '몇 주 내 대폭 개선' 예고를 했으므로, 지금 대규모 모델 마이그레이션을 하기보다는 소규모 테스트만 해두고 다음 릴리스를 지켜보는 것이 합리적.
Terminology
관련 논문
adamsreview: Claude Code용 멀티 에이전트 PR 코드 리뷰 파이프라인
Claude Code에서 최대 7개의 병렬 서브 에이전트가 각각 다른 관점으로 PR을 리뷰하고, 자동 수정까지 해주는 오픈소스 플러그인이다. 기존 /review나 CodeRabbit보다 실제 버그를 더 많이 잡는다고 주장하지만 커뮤니티에서는 복잡도와 실효성에 대한 회의론도 나왔다.
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
AI Agent를 위한 Git: re_gent
AI 코딩 에이전트(Claude Code 등)가 수행한 모든 툴 호출을 자동으로 추적하고, 어떤 프롬프트가 어느 코드 줄을 작성했는지 blame까지 가능한 버전 관리 도구다.
Agent-Native CLI를 위한 설계 원칙 10가지
AI 에이전트가 CLI 도구를 더 잘 사용할 수 있도록 설계하는 원칙들을 정리한 글로, 에이전트가 CLI를 도구로 활용하는 빈도가 높아지면서 이 설계 방식이 실용적으로 중요해지고 있다.
Agent-harness-kit: MCP 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
여러 AI 에이전트가 서로 역할을 나눠 협업할 수 있도록 조율하는 scaffolding 도구로, Vite처럼 설정 없이 빠르게 멀티 에이전트 파이프라인을 구성할 수 있다.
Tilde.run – AI Agent를 위한 트랜잭션 기반 버전 관리 파일시스템 샌드박스
AI 에이전트가 실제 프로덕션 데이터를 건드려도 롤백할 수 있는 격리된 샌드박스 환경을 제공하는 도구로, GitHub/S3/Google Drive를 하나의 버전 관리 파일시스템으로 묶어준다.