Resource-Constrained Visual Agent의 Shared-State Collaboration 실패 모드 진단
Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents
TL;DR Highlight
4B~8B 소형 비전 모델에서 공유 메모리(화이트보드) 기반 멀티에이전트 협업이 오히려 성능을 떨어뜨리는 이유를 분석한 연구.
Who Should Read
멀티모달 QA 파이프라인에서 멀티에이전트 협업 구조를 설계하거나 소형 VLM(비전-언어 모델)을 실무에 도입하려는 ML 엔지니어 및 AI 에이전트 개발자.
Core Mechanics
- 공유 보드(shared board) 기반 협업이 '더 잘 추론할 것'이라는 직관과 달리, 4B~8B 소형 모델에서는 오히려 성능을 떨어뜨리는 'Efficiency Paradox'가 발생함.
- 첫 번째 실패 모드인 'Noise Reinforcement': 모델이 차트를 잘못 읽어 틀린 노트를 보드에 기록하면, 이후 에이전트가 그걸 사실인 근거로 재활용해 오류가 눈덩이처럼 굳어짐.
- 두 번째 실패 모드인 'Policy Collapse': 보드에 쌓인 요약 컨텍스트를 보면 모델이 최종 답변을 지나치게 짧게(0~16 토큰) 생성하는 방향으로 drift되어 VQA 커버리지가 붕괴함.
- 토큰 비용이 늘어날수록 성능이 오히려 하락하는 '음의 Pareto 구간'이 존재함. 즉 compute를 더 써도 품질 제어 없이는 손해.
- 가벼운 검증 게이트(verified-board)—같은 소형 모델이 'SUPPORTED/UNSUPPORTED' 판단—만 추가해도 ChartQAPro에서 naive 보드 사용으로 인한 성능 하락을 대부분 회복함.
- 이 실패 패턴은 Qwen3-VL-4B, Qwen3-VL-8B, Phi-4-multimodal, Gemma-3-4B 등 여러 아키텍처에서 일관되게 관찰되어 특정 모델 문제가 아닌 용량(capacity) 체제의 문제임.
Evidence
- ChartQAPro에서 Qwen3-VL-4B 기준 baseline EM 0.139 → single board EM 0.081 → 두 에이전트 CoSee EM 0.120. 보드 사용이 baseline보다 최대 42% 낮은 EM을 기록.
- SlideVQA에서 CoSee(two qwen, 4B) EM은 0.570으로, baseline 0.680 대비 -11.0pp 하락, 95% CI [-16.5, -6.2], P(△>0)=0.03으로 통계적으로 유의미한 악화.
- Verified-board 도입 시 ChartQAPro raw EM이 0.081(naive board) → 0.131로 회복. 검증 게이트 하나로 degradation의 대부분을 복구.
- Majority voting(temperature=0.7, N=5) 앙상블은 +1.2pp EM 개선을 위해 ~200 토큰/샘플을 소비하는 반면, verified-board는 ~25 토큰만 추가로 동등한 baseline 수준을 달성.
How to Apply
- 소형 VLM(≤8B)으로 차트·문서 QA 파이프라인을 만들 때, 멀티에이전트가 보드에 노트를 쓰기 전에 동일 모델로 'SUPPORTED/UNSUPPORTED/UNCERTAIN' 검증 콜을 1회 추가하면 노이즈 누적을 차단할 수 있음. 검증 프롬프트는 본 논문 Appendix J.2의 Verification Prompt 템플릿을 그대로 사용 가능.
- 오픈엔디드 QA(VQAonline 류)에서 보드 기반 협업을 쓸 경우, Policy Collapse 방지를 위해 최종 답변 생성 프롬프트에 최소 길이/커버리지 제약(예: '최소 6개 bullet 또는 80+ 토큰')을 명시하면 Token-F1이 부분적으로 회복됨.
- 비용 대비 성능을 측정할 때, 단순 토큰 수 외에 시각 인코딩 비용(멀티턴이면 N배 발생)을 함께 집계해야 실제 Pareto 효율을 정확히 파악할 수 있음. 논문의 Cost–Accuracy Pareto frontier 분석 방식을 평가 파이프라인에 적용할 것.
Code Example
# Verified-Board 게이트 예시 (논문 Appendix J.2 기반)
def verify_note(model, image, question, note_content):
prompt = f"""
Task: Verify if the claim is directly supported by the image.
CLAIM: {note_content}
QUESTION: {question}
INSTRUCTION: Look at the image. Is the claim supported by visible evidence?
Output strictly one token: SUPPORTED, UNSUPPORTED, or UNCERTAIN.
"""
response = model.generate(image=image, text=prompt, max_new_tokens=4, temperature=0)
return response.strip()
def write_to_board_verified(board, model, image, question, proposed_note):
"""검증 통과한 노트만 보드에 기록"""
verdict = verify_note(model, image, question, proposed_note)
if verdict == "SUPPORTED":
board.append(proposed_note)
return True, "accepted"
else:
return False, f"rejected ({verdict})"
# 최종 답변 생성 시 Policy Collapse 방지용 길이 제약 추가
final_prompt_template = """
You are a helpful assistant.
BOARD HISTORY: {board_summary}
QUESTION: {question}
INSTRUCTION: Answer the question based on the image and the board history.
If the board contains errors, prioritize the image.
Write a complete answer with sufficient coverage. Use at least 6 bullet points (or 80+ tokens) unless the question is inherently short.
FORMAT: "Final Answer: <answer>"
"""Terminology
관련 논문
ChatGPT for Google Sheets, 워크북 전체 데이터 유출 취약점 발견
Google Sheets용 ChatGPT 확장 프로그램이 간접 프롬프트 인젝션 공격에 취약해, 단 하나의 시트에 숨겨진 악성 명령만으로 계정 내 워크북 전체가 외부로 유출될 수 있다는 보안 연구 결과가 공개됐다.
LinTree: 명시적으로 구조화된 Search History로 LLM 추론 개선하기
LLM의 추론 트레이스에 부모 포인터(parent pointer)만 추가해도 탐색 성능과 효율이 크게 올라간다.
Open Envelope – AI Agent 팀을 정의하는 오픈 스키마
여러 AI 에이전트가 팀처럼 협업하는 구조를 벤더 중립적인 오픈 스키마로 선언적으로 정의할 수 있게 해주는 프로젝트로, 멀티 에이전트 오케스트레이션의 표준화를 시도한다.
LLM 기반 Multi-Agent 시스템의 Temporal & Structural Credit Assignment 통합 Prompt 최적화
여러 AI 에이전트가 협력할 때 '어느 라운드의 어느 에이전트'가 실패했는지 정확히 짚어내서 그 프롬프트만 고치는 최적화 프레임워크
Ktx – 데이터 에이전트를 위한 오픈소스 Executable Context Layer
AI 에이전트가 회사 데이터 웨어하우스를 정확하게 쿼리할 수 있도록 시맨틱 레이어, 메모리, 비즈니스 지식을 자동으로 구축해주는 오픈소스 도구다. 기존 에이전트가 매번 웨어하우스를 재탐색하거나 잘못된 메트릭 로직을 임의로 만들어내는 문제를 해결한다.
Multi-Agent LLM 시스템으로 취약점 자동 발견 및 재현하기 - FuzzingBrain V2
LLM 기반 멀티 에이전트 시스템으로 C/C++ 코드의 보안 취약점을 자동으로 찾고 재현하는 FuzzingBrain V2 논문으로, AIxCC 2025 대회에서 40개 중 36개(90%) 취약점 탐지에 성공했다.
Original Abstract (Expand)
Modular visual reasoning systems increasingly rely on shared working memory for multi-step collaboration, yet the failure dynamics of intermediate state evolution in low-capacity regimes remain underexplored. We study failure modes of collaborative reasoning with weak learners (4B--8B models) through the lens of noise accumulation. We introduce CoSee, an auditing framework that formalizes the read-write-verify loop to trace information flow in document visual question answering. Across multi-page, chart, and web-based benchmarks, we find a counter-intuitive degradation: naive shared workspaces often amplify hallucinations rather than resolve them. We identify two dominant failure modes: Noise Reinforcement, where ungrounded notes are reused as evidence, and Policy Collapse, where added context shifts the model toward under-specified, short-form answers. Using cost-accuracy Pareto frontiers, we show that increased compute can correlate negatively with performance without explicit verification. Our findings suggest that for resource-constrained agents, the bottleneck lies not in reasoning depth but in communication fidelity, providing trace-level diagnostics and a mechanistic baseline for reliable modular design.