Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구

TL;DR Highlight

프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.

Who Should Read

Claude Code, Cursor, Codex 등 에이전트 코딩 도구를 업무에 쓰면서 API 비용 부담이 커진 개발자. 여러 LLM 중 상황에 맞는 모델을 수동으로 골라야 하는 번거로움을 줄이고 싶은 개발자.

Core Mechanics

workweave/router는 localhost:8080에 떠 있는 프록시 서버로, Claude Code나 Cursor 같은 코딩 에이전트의 API 엔드포인트를 이 라우터로 바꾸면 된다. 별도 코드 수정 없이 엔드포인트 URL 하나만 바꾸는 drop-in 방식이다.
라우팅 결정은 'vibes 기반 프롬프트(LLM에게 물어보는 방식)'가 아니라 온디바이스 임베더(Avengers-Pro 1에서 파생된 클러스터 스코러)를 사용한다. 50ms 이내에 모델을 결정한다고 명시하고 있다.
Anthropic(Claude), OpenAI, Gemini의 네이티브 API를 모두 지원하며, OpenRouter를 통해 DeepSeek, Kimi, Qwen, Llama, Mistral 같은 오픈소스 모델도 라우팅 대상에 포함할 수 있다.
BYOK(Bring Your Own Key) 방식으로 프로바이더 API 키가 로컬 머신에 암호화 저장된다. 외부 서버에 키를 넘기지 않는 구조다.
OTLP 트레이싱을 기본 지원해서 Weave 대시보드(localhost:8080/ui/dashboard)나 Honeycomb, Datadog, Grafana 등 기존 관측 도구와 바로 연동할 수 있다.
설치는 `npx @workweave/router` 한 줄로 끝난다. Claude Code, Codex, opencode 중 어떤 도구를 쓰는지 선택하면 설정 파일을 자동으로 수정해준다. Docker나 Postgres 없이도 hosted Weave Router를 쓸 수 있는 옵션도 있다.
비용 절감 40~70%를 주장하지만, 공개된 A/B 테스트 결과나 벤치마크(TerminalBench, DeepSWE Bench 등)는 아직 없다. 커뮤니티에서 이 부분에 대한 검증 요구가 많다.

Evidence

가장 많이 제기된 문제는 '프롬프트 캐싱 파괴' 이슈다. Claude Code 같은 에이전트 세션은 긴 대화를 이어가며 프롬프트 캐싱(5분 TTL)에 크게 의존하는데, 매 요청마다 다른 모델로 라우팅하면 캐시 미스가 발생해서 오히려 비용이 늘어날 수 있다는 지적이다. 한 댓글은 '캐싱과 최적 라우팅은 근본적으로 서로 충돌한다'고 정리했다.
에이전트 코딩 도구들은 이미 내부적으로 모델 라우팅을 한다는 반론이 있었다. 예를 들어 Cursor도 Opus 4.8을 선택해도 내부적으로 서브에이전트에 Composer 2.5를 쓰며, 탐색/계획/구현/리뷰 단계별로 다른 모델 클래스를 선택하는 로직이 내장되어 있다. 이 컨트롤 루프를 프록시가 가로채면 'deepseek v4로 실패했으니 Opus로 재시도' 같은 피드백 루프가 깨진다는 우려다.
라우터 모델의 일반화 능력에 대한 의문도 제기됐다. RL(강화학습)로 개선하려면 사용자 피드백(HF, Human Feedback)이 필요한데, 기업들이 자사 트레이스를 공유하지 않을 거고, 학습 데이터도 수천 샘플 수준이라 새로운 유형의 프롬프트나 매주 나오는 신규 모델에 어떻게 대응할지 불명확하다는 지적이다.
실용적 대안을 쓰는 개발자의 시각도 있었다. 한 개발자는 '프로덕션 데이터를 eval로 쓰면서 특정 모델 버전에 맞게 프롬프트를 튜닝하고 고정시키는 방식을 쓰고 있다'며, 온더플라이 라우팅이 테스트/튜닝/고정 모델 방식을 어떻게 이길 수 있는지 설득력 있는 설명이 필요하다고 했다.
vLLM Semantic Router와의 비교를 묻는 댓글도 있었다. vllm-sr/auto(빠른 균형 라우팅), vllm-sr/fusion(멀티모델 패널 추론), vllm-sr/flow(워크플로우 오케스트레이션), vllm-sr/remom(멀티라운드 추론) 같은 알고리즘들과 어떻게 차별화되는지 설명이 없다는 지적이었다.

How to Apply

Claude Code를 쓰는데 매달 API 비용이 부담스럽다면, `npx @workweave/router --claude`를 실행해서 로컬 라우터를 띄우고 Claude Code의 엔드포인트를 localhost:8080으로 바꿔볼 수 있다. 단, 긴 멀티턴 세션에서는 캐시 미스로 오히려 비용이 늘어날 수 있으니 짧고 독립적인 단일 요청 위주 워크플로우에서 먼저 테스트해봐야 한다.
여러 팀원이 각자 다른 모델(Claude, GPT-4o, Gemini 등)을 쓰는 환경에서 OTLP 트레이싱 기능을 활용해 어떤 요청이 어떤 모델로 라우팅되고 있는지 Datadog이나 Grafana로 시각화하면, 팀 전체의 모델 사용 패턴과 비용 구조를 파악하는 데 쓸 수 있다.
비용 절감 주장을 검증하고 싶다면, 현재 사용 중인 에이전트 세션의 A/B 테스트를 해보는 것이 필요하다. 라우터 적용 전후로 같은 태스크를 돌려서 TerminalBench나 DeepSWE Bench 기준으로 품질과 비용을 직접 측정해야 '40~70% 절감' 주장을 신뢰할 수 있다.

Code Example

snippet

# 30초 빠른 시작
npx @workweave/router

# 특정 도구 지정
npx @workweave/router --claude    # Claude Code용
npx @workweave/router --codex     # OpenAI Codex CLI용
npx @workweave/router --opencode  # opencode용

# Docker로 셀프호스팅
# docker-compose.yml 사용
docker compose up

# 대시보드 확인
# http://localhost:8080/ui/dashboard

Terminology

drop-in proxy기존 코드나 설정을 거의 바꾸지 않고 중간에 끼워 넣을 수 있는 투명한 중계 서버. API 엔드포인트 URL만 바꾸면 된다.

프롬프트 캐싱동일하거나 유사한 프롬프트 앞부분을 클라우드 서버에 캐시해뒀다가 재사용하는 기능. 긴 시스템 프롬프트를 매번 전송하지 않아도 돼서 비용과 지연시간을 크게 줄여준다.

OTLPOpenTelemetry Protocol의 약자로, 애플리케이션의 트레이스/메트릭/로그를 Datadog, Honeycomb, Grafana 같은 관측 도구로 전송하는 표준 프로토콜.

BYOKBring Your Own Key의 약자. API 키를 서비스 제공자 서버에 저장하지 않고 내 로컬 환경에만 보관하는 방식으로, 키 유출 위험을 줄인다.

클러스터 스코러입력 텍스트를 임베딩(숫자 벡터)으로 변환한 뒤, 미리 정의된 태스크 클러스터 중 어디에 가장 가까운지 계산해서 모델을 결정하는 경량 분류기.

RL(강화학습)Reinforcement Learning. 모델이 행동을 하고, 그 결과에 대한 피드백(보상/패널티)을 받아서 점점 더 나은 결정을 내리도록 학습하는 방식.