DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning
TL;DR Highlight
Baidu가 만든 Deep Research 멀티에이전트 프레임워크로, DAG 기반 동적 플래닝 + 재귀 검색 에이전트 + Rubric 스캐폴딩을 조합해 두 벤치마크에서 SOTA를 달성했다.
Who Should Read
복잡한 리서치 자동화 파이프라인을 설계하는 AI 엔지니어나 에이전트 시스템 아키텍트. 특히 단일 에이전트의 검색 품질과 환각 문제를 해결하려는 개발자.
Core Mechanics
- 단일 에이전트가 고수준 플래닝과 세부 검색을 동시에 하면 실패가 전파되는 문제를 해결하기 위해, Research Agent(외부)와 Search Agent(내부)를 2레벨로 분리하는 재귀 구조를 사용함.
- 연구 로드맵을 DAG(방향성 비순환 그래프)로 표현해서 증거가 쌓일수록 coarse-to-fine 방식으로 확장하고, 실패한 노드는 backtracking + replan으로 처리함.
- Rubric(품질 평가 기준표)을 사후 평가가 아니라 실시간 추론 스캐폴드로 사용 - Persistent Rubric(세션 전체 기준)과 Ephemeral Rubric(매 사이클 갱신 기준)으로 나눠 주입함.
- Ephemeral Rubric이 '더 이상 검색할 정보 격차 없음'을 보고하면 자동으로 탐색을 멈추는 Adaptive Stopping 메커니즘으로 과탐색 방지.
- 모든 플래너 결정, 툴 호출, 검색 결과가 명시적 아티팩트로 기록되어 최종 보고서뿐 아니라 생성 과정 전체를 추적·감사할 수 있음.
- 보고서 생성 단계 모델이 파이프라인 전체에서 가장 큰 품질 영향 요소로 확인됨 - Rubric 제거보다 모델 교체 시 성능 하락이 훨씬 크게 나타남.
Evidence
- DeepResearch Bench에서 전체 점수 58.03%로 1위 달성, 2위 ZTE Nebula DeepResearch(57.27%) 대비 +0.76%, Comprehensiveness 59.48%(+0.90%), Insight 61.48%(+1.34%) 모두 1위.
- DeepResearch Bench II에서 전체 점수 61.95%로 1위, 2위 iFlow-Researcher(59.91%) 대비 +2.04%; Information Recall 57.58%(+2.59%), Analysis 71.70%(+1.80%) 모두 1위.
- Rubric 제거 ablation: 보고서 단계에서만 Rubric 제거 시 Overall 58.03→57.61(-0.42), 플래닝까지 제거해도 추가 하락은 -0.08에 불과 - Rubric의 핵심 가치는 보고서 합성 단계에 집중됨.
- 보고서 생성 모델 교체 실험: DeepSeek V4 Pro 교체 시 -0.82, MiniMax-M3 교체 시 -2.82로, Rubric 제거 효과(-0.42~-0.50)보다 모델 선택의 영향이 훨씬 큼.
How to Apply
- 단일 에이전트가 검색과 플래닝을 동시에 하는 구조라면, 고수준 Research Agent와 검색 전용 Search Agent를 분리하고 후자에 자체 플래닝 루프를 부여하면 검색 실패가 전체 파이프라인에 전파되는 문제를 막을 수 있다.
- RAG 파이프라인에서 언제 검색을 멈출지 기준이 없다면, 매 사이클마다 'Ephemeral Rubric'(현재 증거 기반 갱신되는 품질 기준)을 생성하고 미충족 항목이 없을 때 자동 종료하는 Adaptive Stopping 로직을 추가하면 된다.
- 보고서 생성 품질을 높이려면 Rubric을 평가 지표로만 쓰지 말고, 보고서 작성 프롬프트에 'Persistent Rubric'(주제 레벨 품질 기준)을 직접 주입해서 작성 중 실시간으로 증거 기반 클레임을 생성하게 유도한다.
Code Example
# Rubric 스캐폴드 방식 보고서 생성 프롬프트 예시
persistent_rubric = [
{
"name": "evidence_grounding",
"description": "모든 핵심 주장은 검색된 출처로 뒷받침되어야 함",
"guidance": "주장을 작성하기 전에 해당 주장을 지지하는 출처 URL을 최소 2개 확인하라. 출처 없는 주장은 '추정'으로 명시하라."
},
{
"name": "cross_source_validation",
"description": "다수 출처의 상충되는 수치나 주장을 명시적으로 비교",
"guidance": "벤더 주장과 제3자 연구(e.g., Gartner, IDC)를 구분해서 제시하고, 수치 차이가 있으면 그 이유를 분석하라."
}
]
ephemeral_rubric = [
{
"gap_type": "missing_coverage",
"affected_section": "3장: 비용 분석",
"guidance": "현재 수집된 증거에 TCO(총소유비용) 데이터가 없음. 다음 검색에서 'TCO analysis' + 도메인 키워드로 보완하라."
}
]
writer_prompt = f"""
당신은 deep research 보고서 작성자입니다.
[Persistent Rubric - 보고서 전체에 적용]
{persistent_rubric}
[수집된 증거]
{accumulated_evidence}
위 Rubric의 각 기준을 만족하면서 보고서를 작성하세요.
모든 수치 주장에는 출처를 인라인 인용([출처명, URL])으로 표기하세요.
벤더 주장과 독립 연구 결과를 명확히 구분하세요.
"""
# Adaptive Stopping: Ephemeral Rubric 기반
def should_stop(ephemeral_rubric: list) -> bool:
"""미충족 격차가 없으면 탐색 종료"""
return all(
item.get("status") == "satisfied"
for item in ephemeral_rubric
)Terminology
Related Papers
Ask HN: What are tools you have made for yourself since the advent of AI?
Hacker News 커뮤니티에서 AI를 활용해 개발자들이 직접 만들어 쓰는 개인 도구들을 공유한 스레드로, '하이퍼-퍼스널 소프트웨어' 트렌드를 잘 보여준다.
Config Files That Run Code: Supply Chain Security Blindspot
VS Code, Cursor, Claude Code, npm 등 널리 쓰이는 도구들이 config 파일에 담긴 shell 명령을 자동 실행하는 구조를 악용한 공급망 공격 사례를 분석한 글로, 개발자가 저장소를 clone하고 에디터를 여는 순간 공격자 코드가 실행될 수 있다.
Show HN: Lathe – Use LLMs to learn a new domain, not skip past it
LLM이 대신 코드를 짜주는 게 아니라, 직접 손으로 따라할 수 있는 실습형 튜토리얼을 생성해주는 CLI 도구다. AI에게 생각을 맡기는 대신 배움의 도구로 활용하는 접근법이라 주목받고 있다.
Meta confirms 1000s of Instagram accounts were hacked by abusing its AI chatbot
Meta의 AI 챗봇에 있던 이메일 검증 버그로 인해 2FA(2단계 인증)를 사용하지 않던 Instagram 계정 2만 개 이상이 약 2개월간 해킹됐다. AI를 계정 복구 시스템에 통합할 때 발생할 수 있는 보안 취약점의 실제 사례다.
Anthropic's open-source framework for AI-powered vulnerability discovery
Anthropic이 Claude를 활용해 코드 취약점을 자율적으로 탐지·트리아지·패치하는 오픈소스 레퍼런스 구현체를 공개했다. 실제 보안팀과의 협업 경험을 바탕으로 만들어진 파이프라인이라 실전 적용성이 높다.
Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals
서버가 SSH 배너나 DB NOTICE로 'AI 에이전트는 접근하지 마세요' 신호를 보내면 GPT-4o, Claude Code 같은 LLM 에이전트가 실제로 물러나는지 실험으로 측정했다.
Related Resources
Original Abstract (Expand)
Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.