Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks
TL;DR Highlight
여러 AI 에이전트가 동시에 조사한 결과를 단순 투표가 아니라 또 다른 에이전트가 직접 탐색·종합해서 정확도를 끌어올리는 방법론
Who Should Read
Deep research 시스템이나 복잡한 멀티스텝 웹 검색 에이전트를 운영하면서 병렬 실행 결과를 어떻게 합칠지 고민하는 ML 엔지니어. 여러 LLM 에이전트를 동시에 돌리는 프로덕션 시스템을 설계하는 백엔드 개발자.
Core Mechanics
- 병렬로 실행한 여러 에이전트 궤적(trajectory)을 단순히 최종 답만 모아서 투표하면 중간 추론 과정의 핵심 정보를 버리게 되고, 전체를 context에 넣으면 토큰 한도를 초과하는 딜레마가 있음
- AggAgent는 집계 자체를 에이전트 작업으로 바꿔서, get_solution·search_trajectory·get_segment 세 가지 경량 도구로 완성된 궤적 배열을 on-demand로 탐색함
- coarse-to-fine 전략: 먼저 모든 궤적의 최종 답을 훑어 합의/불일치를 파악하고, 의심스러운 부분만 키워드 검색 후 해당 구간을 전문 읽기해서 도구 관측값(ground truth)과 에이전트 추론을 교차 검증함
- AggAgent는 8개 궤적이 모두 틀린 경우에도 각 궤적의 부분적 단서를 교차 참조해서 정답을 합성해낼 수 있음 — 이는 단순 선택(selection)이 아닌 합성(synthesis)의 핵심 장점
- 집계 비용이 단일 에이전트 롤아웃 하나 수준으로 고정됨: K가 커져도 AggAgent 오버헤드는 약 5.7%인 반면, Summary Aggregation은 K개의 LLM 호출이 필요해 41% 오버헤드 발생
- 더 강한 모델을 aggregator로 쓰고 약한 모델을 여러 개 병렬 롤아웃에 쓰는 비대칭 할당 전략이 효과적 — GLM-4.7-Flash로 롤아웃하고 MiniMax-M2.5로 집계하면 BrowseComp-Plus에서 Pass@8도 초과
Evidence
- 6개 벤치마크 평균 기준 AggAgent는 가장 강한 기존 방법인 Solution Aggregation 대비 최대 5.3 포인트 향상, deep research 두 태스크에서는 최대 10.3 포인트 향상
- GLM-4.7-Flash 기준 Pass@1 대비 AggAgent는 평균 13.3~17.9 포인트 향상 (K=8): 예) Healthbench-Hard 8.67 → 27.99, ResearchRubrics 37.47 → 45.31
- K=8에서 AggAgent의 집계 추가 비용은 롤아웃 비용의 5.7%에 불과, Summary Aggregation(41%)보다 훨씬 저렴하며 Solution Aggregation(3.7%)과 비슷한 수준
- 강한 aggregator(MiniMax-M2.5)를 사용할 경우 BrowseComp-Plus에서 AggAgent가 Pass@8(72.00)을 초과한 72.67을 달성 — 개별 롤아웃 최선값을 뛰어넘는 합성 가능
How to Apply
- 병렬 에이전트 K개를 실행한 뒤 별도의 aggregator 에이전트를 띄워서 get_solution으로 모든 최종 답을 먼저 스캔하게 하고, 불일치가 있는 궤적에만 search_trajectory와 get_segment를 써서 실제 도구 관측값을 검증하도록 프롬프트를 구성하면 됨. 전체 궤적을 context에 넣지 않아도 되므로 토큰 비용이 선형으로 늘지 않음.
- 롤아웃용 모델(비용 저렴한 소형 모델)과 집계용 모델(더 강력한 모델)을 분리하는 비대칭 전략을 쓰면 비용 대비 성능을 높일 수 있음. 예: GLM-4.7-Flash 8개 병렬 + MiniMax-M2.5 1개 집계.
- Deep research처럼 정답이 여러 궤적에 분산된 오픈엔디드 태스크에서는 단순히 가장 좋아 보이는 궤적 하나를 고르는 대신 합성(synthesis) 모드로 동작하도록 finish 도구의 solution 필드를 long-form report 형식으로 지정하면 됨. 논문 Appendix B의 프롬프트를 그대로 활용 가능.
Code Example
Terminology
Related Resources
Original Abstract (Expand)
We study parallel test-time scaling for long-horizon agentic tasks such as agentic search and deep research, where multiple rollouts are generated in parallel and aggregated into a final response. While such scaling has proven effective for chain-of-thought reasoning, agentic tasks pose unique challenges: trajectories are long, multi-turn, and tool-augmented, and outputs are often open-ended. Aggregating only final answers discards rich information from trajectories, while concatenating all trajectories exceeds the model's context window. To address this, we propose AggAgent, an aggregation agent that treats parallel trajectories as an environment. We equip it with lightweight tools to inspect candidate solutions and search across trajectories, enabling it to navigate and synthesize information on demand. Across six benchmarks and three model families (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent outperforms all existing aggregation methods-by up to 5.3% absolute on average and 10.3% on two deep research tasks-while adding minimal overhead, as the aggregation cost remains bounded by a single agentic rollout. Our findings establish agentic aggregation as an effective and cost-efficient approach to parallel test-time scaling.