정적 템플릿에서 동적 런타임 그래프까지: LLM 에이전트 워크플로우 최적화 서베이
From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents
TL;DR Highlight
LLM 에이전트 워크플로우를 에이전틱 계산 그래프(ACG)로 통합 정리하고 정적/동적 방법론을 체계화한 31페이지 핵심 서베이 — IBM + RPI 공동 연구
Who Should Read
LLM 에이전트 시스템을 설계·최적화하는 엔지니어와 연구자, 멀티에이전트 워크플로우 비용-품질 트레이드오프를 다루는 팀
Core Mechanics
- ACG(Agentic Computation Graph) 개념 도입 — 재사용 템플릿/실행별 구체화 그래프/실행 트레이스를 명확히 구분해 메서드 비교 기준 통일
- 정적 최적화(배포 전 고정) vs 동적 최적화(런타임 결정)로 분류 — GDT(결정 시점)·GPM(가소성 모드) 두 디스크립터로 모호한 케이스 해소
- 실용 처방: 정적 스캐폴드+노드 최적화로 시작 → 구조적 실패 확인 시 그래프 탐색 추가 → 이질성 있으면 동적 선택/생성 → 환경 불확실하면 실행 중 편집
- Verifier(검증기)는 저렴하고 의미 있을 때 최대 효과 — 단위 테스트, 스키마 검사, 실행 가능성 검사가 대표 사례
- 에이전트 수를 늘리기보다 워크플로우 구조(엣지, 검증기, 분기 로직)가 성능의 핵심 레버리지
Evidence
- 39개 핵심 논문, 7개 인접 논문, 31개 배경 자료 + 27개 워크플로우 평가 자산을 체계적으로 분류
- AFlow, ADAS, DSPy, G-Designer, DyFlow, MetaGen 등 주요 방법을 동일한 비교 카드(GDT/GPM/피드백 신호/업데이트 메커니즘)로 정렬
How to Apply
- 에이전트 시스템 설계 시 ACG 분류로 접근법이 정적/동적 중 어디에 해당하는지 먼저 포지셔닝 — 과도한 동적 설계 방지
- 구조적 실패(잘못된 노드 실행, 정보 경로 오류)는 프롬프트 개선보다 그래프 수정이 우선 — 트레이스 먼저 분석
- GitHub 큐레이션 목록(github.com/IBM/awesome-agentic-workflow-optimization)으로 관련 논문 빠르게 파악
Terminology
Original Abstract (Expand)
Large language model (LLM)-based systems are becoming increasingly popular for solving tasks by constructing executable workflows that interleave LLM calls, information retrieval, tool use, code execution, memory updates, and verification. This survey reviews recent methods for designing and optimizing such workflows, which we treat as agentic computation graphs (ACGs). We organize the literature based on when workflow structure is determined, where structure refers to which components or agents are present, how they depend on each other, and how information flows between them. This lens distinguishes static methods, which fix a reusable workflow scaffold before deployment, from dynamic methods, which select, generate, or revise the workflow for a particular run before or during execution. We further organize prior work along three dimensions: when structure is determined, what part of the workflow is optimized, and which evaluation signals guide optimization (e.g., task metrics, verifier signals, preferences, or trace-derived feedback). We also distinguish reusable workflow templates, run-specific realized graphs, and execution traces, separating reusable design choices from the structures actually deployed in a given run and from realized runtime behavior. Finally, we outline a structure-aware evaluation perspective that complements downstream task metrics with graph-level properties, execution cost, robustness, and structural variation across inputs. Our goal is to provide a clear vocabulary, a unified framework for positioning new methods, a more comparable view of existing body of literature, and a more reproducible evaluation standard for future work in workflow optimizations for LLM agents.