예산 제약 Agentic LLM: 비용이 드는 Tool Use를 위한 Intention 기반 Planning

Budget-Constrained Agentic Large Language Models: Intention-Based Planning for Costly Tool Use

Feb 12, 2026•Hanbing Liu, Chunhao Tian, Nan An +4•View PDF

TL;DR Highlight

LLM 에이전트가 유료 API를 예산 초과 없이 쓰도록, 툴 호출 전에 미래 비용을 시뮬레이션해 차단·재계획시키는 경량 플래닝 레이어 INTENT를 제안했다.

Who Should Read

MCP 서버나 유료 외부 API를 다수 호출하는 에이전트 시스템을 운영하는 백엔드·ML 엔지니어. 특히 금융 데이터, 위성 이미지, 법률 데이터베이스 같은 고비용 API를 다루거나 API 비용을 하드 제약으로 관리해야 하는 프로덕션 에이전트를 설계하는 개발자에게 유용하다.

Core Mechanics

GPT-4.1-mini, GPT-5-nano 같은 강한 모델도 예산을 프롬프트로만 알려주면 32.8%~12.4% 케이스에서 하드 예산을 초과함 — 반복 재시도와 비생산적 탐색이 주원인
INTENT는 툴 호출 제안이 들어오면 실행 전에 'ideal trajectory(모든 툴이 성공한다고 가정한 이상적 경로)'를 시뮬레이션해 예산 초과 예상 시 차단하고 위험 정보를 피드백으로 전달
툴 성공 여부를 이진 latent 변수 zt로 분리해 모델링 — 실제 결과 내용 예측 대신 '이 툴 호출이 에이전트의 의도를 만족하는가'만 예측해 stochastic 환경에서도 안정적인 비용 추정 가능
성공 확률 ρ로 기하분포 기반 재시도 비용 추정: E[cost] = price/ρ. 여기에 risk preference γ를 곱해 γ × Σ(price/ρ) ≤ budget 조건으로 수락/거부 결정
모델 재학습 없이 inference-time에만 개입하므로 새 툴 추가·가격 변동에 즉시 대응 가능. 학습 데이터 1/32만 써도 준수한 성능 (log-linear 스케일링)
Rollout Cache(이미 승인된 계획 재사용), Last Call Cache(직전 거부된 툴 재제안 시 즉시 허용), Blacklist(성공 확률 극히 낮은 툴 제외)로 실질 오버헤드를 1.23×로 제한

Evidence

GPT-4.1-mini 기준: INTENT Pass Rate 63.8% vs 최고 베이스라인 BATS 53.0% (+10.8%p), Budget-Optimal Pass Rate 77.8% — 모든 케이스에서 예산 준수율 100%
GPT-5-nano 기준: INTENT Pass Rate 76.0%, Budget-Optimal Pass Rate 92.6% — 이론적 상한(최대 달성 가능 성능)에 근접
오버헤드 비교 (non-reasoning 기준): INTENT 1.23×, BATS 1.96×, MCO 1.90× — INTENT가 가장 높은 성능을 가장 낮은 오버헤드로 달성
가격 50% 인상/인하 시나리오에서 PROMPT 기반 방식은 급격한 성능 저하를 보인 반면 INTENT는 성능 변동 폭이 현저히 작아 동적 시장 환경에서 강건성 확인

How to Apply

유료 API를 쓰는 에이전트 루프에 'oracle 레이어'를 추가한다: 에이전트가 툴 호출을 제안하면 실행 전에 가로채어, world model로 ideal trajectory를 시뮬레이션하고 γ × Σ(price/ρ) ≤ remaining_budget 조건으로 수락/거부를 결정한다. 거부 시 위험 툴 목록과 예상 성공 확률을 피드백으로 넘겨 에이전트가 더 저렴한 대안을 찾도록 유도한다.
성공 확률 ρ를 예측하는 가벼운 의도 분류기(Qwen3-0.6B-Embedding 수준)를 별도 서비스로 운영한다: (reasoning_trace, tool_name, arguments) → 성공 확률. 단순히 price를 비교하는 게 아니라 price/ρ로 보정하면 재시도 비용까지 반영한 현실적인 예산 소모 예측이 가능하다.
γ 파라미터를 상황에 맞게 조정한다: γ=0.5~0.7이 성능-비용 sweet spot, 운영 환경에서 보수적으로 관리하려면 γ≥1.0으로 설정. 거부 후 에이전트가 같은 툴을 재제안하면 무조건 허용하는 Last Call Cache 로직으로 에이전트가 무한루프에 빠지는 상황을 방지한다.

Code Example

snippet

Terminology

ReAct추론(Reasoning)과 행동(Acting)을 번갈아 수행하는 에이전트 패턴. '생각 → 툴 호출 → 결과 관찰 → 생각' 순서로 반복하며 문제를 풀어가는 구조.

Language World Model (LWM)실제 API를 호출하지 않고 LLM이 '이 툴을 부르면 어떤 결과가 나올지' 시뮬레이션하는 모델. 비용 없이 미래 상황을 예측하는 용도로 사용.

Intention (의도)에이전트의 추론 텍스트에서 파악되는 '이 툴 호출로 달성하려는 목표'. 실제 출력 내용이 아니라 목표 달성 여부(성공/실패)만 이진으로 판단해 stochastic 환경에서 비용 추정을 안정화.

Geometric Distribution (기하분포)'처음 성공할 때까지 몇 번 시도해야 하는가'를 모델링하는 확률분포. 성공 확률이 p이면 평균 1/p번 시도 → 평균 비용 = price/p. 이걸로 재시도 비용까지 포함한 현실적 기대 비용을 계산.

Monte Carlo Tree Search (MCTS)트리 구조로 미래 경우의 수를 탐색하는 알고리즘. 바둑 AI(알파고)로 유명하지만, 에이전트 환경에서는 탐색 가지 수가 너무 많고 각 탐색마다 실제 API를 불러야 해 비용이 폭발적으로 증가.

Hard Budget Constraint예산을 '참고용'이 아니라 절대 초과 불가한 제약으로 다루는 것. 초과 시 결과물의 가치와 무관하게 보상이 0이 되는 방식으로 강제.

Calibration (캘리브레이션)모델이 '70% 확률'이라고 할 때 실제로 70% 정도 맞아야 확률값을 신뢰할 수 있음. 보정 안 된 모델은 확률이 극단값(0 또는 1)에 몰리거나 실제와 동떨어져 기하분포 비용 계산이 왜곡됨.

Original Abstract (Expand)

We study budget-constrained tool-augmented agents, where a large language model must solve multi-step tasks by invoking external tools under a strict monetary budget. We formalize this setting as sequential decision making in context space with priced and stochastic tool executions, making direct planning intractable due to massive state-action spaces, high variance of outcomes and prohibitive exploration cost. To address these challenges, we propose INTENT, an inference-time planning framework that leverages an intention-aware hierarchical world model to anticipate future tool usage, risk-calibrated cost, and guide decisions online. Across cost-augmented StableToolBench, INTENT strictly enforces hard budget feasibility while substantially improving task success over baselines, and remains robust under dynamic market shifts such as tool price changes and varying budgets.