Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
Show HN: Smart model routing directly in Claude, Codex and Cursor
TL;DR Highlight
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
Who Should Read
Claude Code, Cursor, Codex 등 에이전트 코딩 도구를 업무에 쓰면서 API 비용 부담이 커진 개발자. 여러 LLM 중 상황에 맞는 모델을 수동으로 골라야 하는 번거로움을 줄이고 싶은 개발자.
Core Mechanics
- workweave/router는 localhost:8080에 떠 있는 프록시 서버로, Claude Code나 Cursor 같은 코딩 에이전트의 API 엔드포인트를 이 라우터로 바꾸면 된다. 별도 코드 수정 없이 엔드포인트 URL 하나만 바꾸는 drop-in 방식이다.
- 라우팅 결정은 'vibes 기반 프롬프트(LLM에게 물어보는 방식)'가 아니라 온디바이스 임베더(Avengers-Pro 1에서 파생된 클러스터 스코러)를 사용한다. 50ms 이내에 모델을 결정한다고 명시하고 있다.
- Anthropic(Claude), OpenAI, Gemini의 네이티브 API를 모두 지원하며, OpenRouter를 통해 DeepSeek, Kimi, Qwen, Llama, Mistral 같은 오픈소스 모델도 라우팅 대상에 포함할 수 있다.
- BYOK(Bring Your Own Key) 방식으로 프로바이더 API 키가 로컬 머신에 암호화 저장된다. 외부 서버에 키를 넘기지 않는 구조다.
- OTLP 트레이싱을 기본 지원해서 Weave 대시보드(localhost:8080/ui/dashboard)나 Honeycomb, Datadog, Grafana 등 기존 관측 도구와 바로 연동할 수 있다.
- 설치는 `npx @workweave/router` 한 줄로 끝난다. Claude Code, Codex, opencode 중 어떤 도구를 쓰는지 선택하면 설정 파일을 자동으로 수정해준다. Docker나 Postgres 없이도 hosted Weave Router를 쓸 수 있는 옵션도 있다.
- 비용 절감 40~70%를 주장하지만, 공개된 A/B 테스트 결과나 벤치마크(TerminalBench, DeepSWE Bench 등)는 아직 없다. 커뮤니티에서 이 부분에 대한 검증 요구가 많다.
Evidence
- 가장 많이 제기된 문제는 '프롬프트 캐싱 파괴' 이슈다. Claude Code 같은 에이전트 세션은 긴 대화를 이어가며 프롬프트 캐싱(5분 TTL)에 크게 의존하는데, 매 요청마다 다른 모델로 라우팅하면 캐시 미스가 발생해서 오히려 비용이 늘어날 수 있다는 지적이다. 한 댓글은 '캐싱과 최적 라우팅은 근본적으로 서로 충돌한다'고 정리했다.
- 에이전트 코딩 도구들은 이미 내부적으로 모델 라우팅을 한다는 반론이 있었다. 예를 들어 Cursor도 Opus 4.8을 선택해도 내부적으로 서브에이전트에 Composer 2.5를 쓰며, 탐색/계획/구현/리뷰 단계별로 다른 모델 클래스를 선택하는 로직이 내장되어 있다. 이 컨트롤 루프를 프록시가 가로채면 'deepseek v4로 실패했으니 Opus로 재시도' 같은 피드백 루프가 깨진다는 우려다.
- 라우터 모델의 일반화 능력에 대한 의문도 제기됐다. RL(강화학습)로 개선하려면 사용자 피드백(HF, Human Feedback)이 필요한데, 기업들이 자사 트레이스를 공유하지 않을 거고, 학습 데이터도 수천 샘플 수준이라 새로운 유형의 프롬프트나 매주 나오는 신규 모델에 어떻게 대응할지 불명확하다는 지적이다.
- 실용적 대안을 쓰는 개발자의 시각도 있었다. 한 개발자는 '프로덕션 데이터를 eval로 쓰면서 특정 모델 버전에 맞게 프롬프트를 튜닝하고 고정시키는 방식을 쓰고 있다'며, 온더플라이 라우팅이 테스트/튜닝/고정 모델 방식을 어떻게 이길 수 있는지 설득력 있는 설명이 필요하다고 했다.
- vLLM Semantic Router와의 비교를 묻는 댓글도 있었다. vllm-sr/auto(빠른 균형 라우팅), vllm-sr/fusion(멀티모델 패널 추론), vllm-sr/flow(워크플로우 오케스트레이션), vllm-sr/remom(멀티라운드 추론) 같은 알고리즘들과 어떻게 차별화되는지 설명이 없다는 지적이었다.
How to Apply
- Claude Code를 쓰는데 매달 API 비용이 부담스럽다면, `npx @workweave/router --claude`를 실행해서 로컬 라우터를 띄우고 Claude Code의 엔드포인트를 localhost:8080으로 바꿔볼 수 있다. 단, 긴 멀티턴 세션에서는 캐시 미스로 오히려 비용이 늘어날 수 있으니 짧고 독립적인 단일 요청 위주 워크플로우에서 먼저 테스트해봐야 한다.
- 여러 팀원이 각자 다른 모델(Claude, GPT-4o, Gemini 등)을 쓰는 환경에서 OTLP 트레이싱 기능을 활용해 어떤 요청이 어떤 모델로 라우팅되고 있는지 Datadog이나 Grafana로 시각화하면, 팀 전체의 모델 사용 패턴과 비용 구조를 파악하는 데 쓸 수 있다.
- 비용 절감 주장을 검증하고 싶다면, 현재 사용 중인 에이전트 세션의 A/B 테스트를 해보는 것이 필요하다. 라우터 적용 전후로 같은 태스크를 돌려서 TerminalBench나 DeepSWE Bench 기준으로 품질과 비용을 직접 측정해야 '40~70% 절감' 주장을 신뢰할 수 있다.
Code Example
# 30초 빠른 시작
npx @workweave/router
# 특정 도구 지정
npx @workweave/router --claude # Claude Code용
npx @workweave/router --codex # OpenAI Codex CLI용
npx @workweave/router --opencode # opencode용
# Docker로 셀프호스팅
# docker-compose.yml 사용
docker compose up
# 대시보드 확인
# http://localhost:8080/ui/dashboardTerminology
관련 논문
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.
Claude API 전체 모델 오류 급증 사고 (해결 완료)
2026년 6월 16일 약 2시간 동안 Claude의 Sonnet, Opus, Haiku 모델 전반에 걸쳐 10% 수준의 오류율이 발생한 인시던트 보고서. Claude API에 의존하는 서비스 운영자에게 장애 대응 방식과 신뢰성 문제를 다시 생각하게 만드는 사건.