예산 제약 Agentic LLM: 비용이 드는 Tool Use를 위한 Intention 기반 Planning
Budget-Constrained Agentic Large Language Models: Intention-Based Planning for Costly Tool Use
TL;DR Highlight
LLM 에이전트가 유료 API를 예산 초과 없이 쓰도록, 툴 호출 전에 미래 비용을 시뮬레이션해 차단·재계획시키는 경량 플래닝 레이어 INTENT를 제안했다.
Who Should Read
MCP 서버나 유료 외부 API를 다수 호출하는 에이전트 시스템을 운영하는 백엔드·ML 엔지니어. 특히 금융 데이터, 위성 이미지, 법률 데이터베이스 같은 고비용 API를 다루거나 API 비용을 하드 제약으로 관리해야 하는 프로덕션 에이전트를 설계하는 개발자에게 유용하다.
Core Mechanics
- GPT-4.1-mini, GPT-5-nano 같은 강한 모델도 예산을 프롬프트로만 알려주면 32.8%~12.4% 케이스에서 하드 예산을 초과함 — 반복 재시도와 비생산적 탐색이 주원인
- INTENT는 툴 호출 제안이 들어오면 실행 전에 'ideal trajectory(모든 툴이 성공한다고 가정한 이상적 경로)'를 시뮬레이션해 예산 초과 예상 시 차단하고 위험 정보를 피드백으로 전달
- 툴 성공 여부를 이진 latent 변수 zt로 분리해 모델링 — 실제 결과 내용 예측 대신 '이 툴 호출이 에이전트의 의도를 만족하는가'만 예측해 stochastic 환경에서도 안정적인 비용 추정 가능
- 성공 확률 ρ로 기하분포 기반 재시도 비용 추정: E[cost] = price/ρ. 여기에 risk preference γ를 곱해 γ × Σ(price/ρ) ≤ budget 조건으로 수락/거부 결정
- 모델 재학습 없이 inference-time에만 개입하므로 새 툴 추가·가격 변동에 즉시 대응 가능. 학습 데이터 1/32만 써도 준수한 성능 (log-linear 스케일링)
- Rollout Cache(이미 승인된 계획 재사용), Last Call Cache(직전 거부된 툴 재제안 시 즉시 허용), Blacklist(성공 확률 극히 낮은 툴 제외)로 실질 오버헤드를 1.23×로 제한
Evidence
- GPT-4.1-mini 기준: INTENT Pass Rate 63.8% vs 최고 베이스라인 BATS 53.0% (+10.8%p), Budget-Optimal Pass Rate 77.8% — 모든 케이스에서 예산 준수율 100%
- GPT-5-nano 기준: INTENT Pass Rate 76.0%, Budget-Optimal Pass Rate 92.6% — 이론적 상한(최대 달성 가능 성능)에 근접
- 오버헤드 비교 (non-reasoning 기준): INTENT 1.23×, BATS 1.96×, MCO 1.90× — INTENT가 가장 높은 성능을 가장 낮은 오버헤드로 달성
- 가격 50% 인상/인하 시나리오에서 PROMPT 기반 방식은 급격한 성능 저하를 보인 반면 INTENT는 성능 변동 폭이 현저히 작아 동적 시장 환경에서 강건성 확인
How to Apply
- 유료 API를 쓰는 에이전트 루프에 'oracle 레이어'를 추가한다: 에이전트가 툴 호출을 제안하면 실행 전에 가로채어, world model로 ideal trajectory를 시뮬레이션하고 γ × Σ(price/ρ) ≤ remaining_budget 조건으로 수락/거부를 결정한다. 거부 시 위험 툴 목록과 예상 성공 확률을 피드백으로 넘겨 에이전트가 더 저렴한 대안을 찾도록 유도한다.
- 성공 확률 ρ를 예측하는 가벼운 의도 분류기(Qwen3-0.6B-Embedding 수준)를 별도 서비스로 운영한다: (reasoning_trace, tool_name, arguments) → 성공 확률. 단순히 price를 비교하는 게 아니라 price/ρ로 보정하면 재시도 비용까지 반영한 현실적인 예산 소모 예측이 가능하다.
- γ 파라미터를 상황에 맞게 조정한다: γ=0.5~0.7이 성능-비용 sweet spot, 운영 환경에서 보수적으로 관리하려면 γ≥1.0으로 설정. 거부 후 에이전트가 같은 툴을 재제안하면 무조건 허용하는 Last Call Cache 로직으로 에이전트가 무한루프에 빠지는 상황을 방지한다.
Code Example
Terminology
Original Abstract (Expand)
We study budget-constrained tool-augmented agents, where a large language model must solve multi-step tasks by invoking external tools under a strict monetary budget. We formalize this setting as sequential decision making in context space with priced and stochastic tool executions, making direct planning intractable due to massive state-action spaces, high variance of outcomes and prohibitive exploration cost. To address these challenges, we propose INTENT, an inference-time planning framework that leverages an intention-aware hierarchical world model to anticipate future tool usage, risk-calibrated cost, and guide decisions online. Across cost-augmented StableToolBench, INTENT strictly enforces hard budget feasibility while substantially improving task success over baselines, and remains robust under dynamic market shifts such as tool price changes and varying budgets.