Claude Haiku 4.5 출시 — 프론티어급 성능을 1/3 가격에
Claude Haiku 4.5
TL;DR Highlight
Claude Haiku 4.5가 Claude Sonnet 4 수준의 코딩 성능을 1/3 가격과 2배 이상 빠른 속도로 제공한다.
Who Should Read
Claude API로 코딩 에이전트나 챗봇을 운영 중인데 비용과 레이턴시를 줄이고 싶은 백엔드/풀스택 개발자. 멀티 에이전트 아키텍처에서 서브 에이전트용 모델을 찾고 있는 AI 엔지니어.
Core Mechanics
- Claude Haiku 4.5는 5개월 전 프론티어 모델이었던 Sonnet 4와 비슷한 코딩 성능을 내면서, 가격은 1/3(입력 $1/M, 출력 $5/M), 속도는 2배 이상 빠르다.
- Augment의 에이전트 코딩 벤치마크에서 Sonnet 4.5 성능의 90%를 달성했다. 컴퓨터 사용(Computer Use) 작업에서는 오히려 Sonnet 4를 능가하는 결과도 나왔다.
- 멀티 에이전트 구조에서 특히 유용하다. Sonnet 4.5가 복잡한 문제를 분해해서 계획을 세우고, 여러 Haiku 4.5가 하위 작업을 병렬로 처리하는 오케스트레이션 패턴을 Anthropic이 직접 제안했다.
- 안전성 평가에서 Sonnet 4.5, Opus 4.1보다 통계적으로 유의미하게 낮은 비정렬 행동률을 기록해 Anthropic의 가장 안전한 모델이라는 평가를 받았다. ASL-2(안전 레벨 2) 등급으로 출시됐다.
- Anthropic 최초의 소형 추론(reasoning) 모델이다. 시스템 카드에 따르면 이전 Haiku 3.5 대비 크게 개선된 정렬(alignment) 성능을 보여준다.
- Gamma에서는 슬라이드 텍스트 생성 지시 따르기에서 프리미엄 모델 44% 대비 65% 정확도를 기록했고, GitHub Copilot에서도 Sonnet 4급 품질에 더 빠른 속도로 평가됐다.
- Claude Code에서 바로 사용 가능하고, API에서는 모델 ID `claude-haiku-4-5`로 접근한다. 모든 Claude 앱에서 즉시 사용 가능하다.
Evidence
- 코딩 작업에서 GPT-5보다 관련 없는 코드를 건드리지 않아서 실제 사용 시 체감 비용이 토큰 단가 차이보다 적을 수 있다는 초기 테스트 결과가 공유됐다. 다만 Haiku 3.5 대비 4배 가격 인상($0.25→$1/M 입력)이 부담이라는 의견도 있었다.
- 코드 문서 fetch가 필요한 질문에서 Haiku 4.5와 Sonnet을 직접 비교한 사례가 올라왔는데, Haiku가 함수 출력을 지어내서 잘못된 답변을 줬고 Sonnet은 정확했다. 소형 모델의 할루시네이션 한계가 여전하다는 경고.
- NYT Connections 벤치마크에서 Haiku 4.5는 20.0점으로 Haiku 3.5(10.0)의 2배지만, Sonnet 4.0(26.6)이나 Sonnet 4.5(46.1)과는 여전히 격차가 있었다.
- 프리랜서 개발자가 '3배 빠른 응답이 약간의 성능 저하보다 생산성에 훨씬 낫다'며 기존 Sonnet 4.5에서 Haiku 4.5로 데일리 드라이버를 바꾸겠다는 반응이 있었다. 반면 '모델을 골라야 하는 것 자체가 피곤하다, 알아서 좋아지게 해달라'는 불만도 있었다.
- Hyperbrowser에서 초기 테스트한 결과 Computer Use에서도 잘 동작하며, 대형 AI 회사 모델 중 가장 저렴한 Computer Use 모델이라는 평가가 나왔다.
How to Apply
- 멀티 에이전트 시스템에서 메인 에이전트는 Sonnet 4.5로 계획/분해를 맡기고, 서브 에이전트를 Haiku 4.5로 병렬 실행하면 비용을 크게 줄이면서 처리 속도를 높일 수 있다.
- Claude Code에서 빠른 프로토타이핑이나 간단한 코드 수정 작업 시 Haiku 4.5로 전환하면 응답 대기 시간이 절반 이하로 줄어든다. `/fast` 토글이나 모델 설정으로 전환 가능.
- 챗봇이나 고객 서비스 에이전트처럼 레이턴시가 중요한 실시간 애플리케이션에서 Sonnet 대신 Haiku 4.5를 적용하면 비용 1/3 절감과 응답성 개선을 동시에 달성할 수 있다.
- 단, 정확한 사실 조회나 코드 문서 참조가 필요한 작업에서는 할루시네이션 위험이 있으므로 Sonnet을 유지하고, 단순 생성/변환 작업에만 Haiku를 배치하는 식으로 라우팅하는 게 안전하다.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.