VideoAgent: LLM을 에이전트로 활용한 Long-form Video Understanding
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
TL;DR Highlight
GPT-4를 에이전트로 써서 긴 영상을 평균 8프레임만 보고도 SOTA를 달성하는 반복적 프레임 선택 시스템
Who Should Read
영상 분석 파이프라인을 구축하거나 멀티모달 AI 에이전트를 개발 중인 ML 엔지니어. LLM + 비전 모델을 조합해 복잡한 태스크를 풀고 싶은 개발자.
Core Mechanics
- GPT-4를 중앙 에이전트로, CLIP과 VLM(비전-언어 모델)을 도구로 쓰는 에이전트 시스템 — 전체 영상을 한 번에 처리하는 대신 필요한 프레임만 반복적으로 검색
- 3단계 반복 루프: ① 현재 정보로 답 예측 → ② Self-reflection으로 확신도(1~3) 판단 → ③ 부족하면 어떤 구간에서 어떤 프레임이 필요한지 LLM이 직접 지정해서 CLIP으로 검색
- 비디오를 구간(segment)으로 나눠 검색해서 시간 순서 혼동 방지 — '방을 나간 후의 소파' 같은 시간 조건 쿼리에서 오검색 대폭 감소
- CLIP은 이미지 피처를 미리 캐싱해두고 텍스트 쿼리마다 재사용 — 전체 연산의 1.9%만 차지할 정도로 효율적
- LLM 비교 실험: GPT-4(60.2%) > GPT-3.5(48.8%) > LLaMA-2-70B(45.4%) > Mixtral-8x7B(37.8%) — JSON 구조화 출력 능력이 성능 차이의 핵심
- 질문 유형별로 자동 조절: 서술형(5.9프레임) < 인과 추론(7.1프레임) < 시간 추론(7.8프레임) — 어려울수록 더 많은 프레임을 봄
Evidence
- EgoSchema 풀셋 54.1% 달성 — 기존 SOTA LLoVi(50.3%) 대비 +3.8%, 사용 프레임은 8.4개 vs LLoVi의 180개(20배 차이)
- NExT-QA 검증셋 71.3% 달성 — LLoVi(67.7%) 대비 +3.6%, 지도학습 SOTA HiTeA(63.1%)도 제로샷으로 뛰어넘음
- Self-reflection 제거 시 프레임 수 8.4→11.8개로 늘고 정확도 60.2%→59.6%로 하락 — 더 많이 봐도 성능이 오히려 떨어짐
- 세그먼트 선택 제거 시 정확도 60.2%→56.6%로 3.6% 하락 — 시간 구간 지정이 핵심
How to Apply
- RAG 파이프라인에서 '한 번에 모두 검색'하는 대신, LLM이 현재 컨텍스트를 보고 부족한 정보를 파악해 추가 검색을 반복하는 구조로 바꿔보면 된다 — 특히 긴 문서나 영상처럼 컨텍스트가 긴 경우에 효과적
- 멀티모달 에이전트 구축 시: VLM으로 이미지→텍스트 변환 → LLM이 텍스트만 보고 추론 → CLIP으로 관련 이미지 검색하는 모듈 분리 패턴을 참고하면 GPT-4V 없이도 시각적 이해가 가능
- Self-reflection 패턴 적용: LLM에게 답을 내리게 한 다음 '이 정보가 충분한가?'를 별도로 물어보는 2-step 프롬프트를 추가하면, 불필요한 추가 검색을 줄이고 조기 종료가 가능해짐
Code Example
Terminology
Related Resources
Original Abstract (Expand)
Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding.