VideoAgent: LLM을 에이전트로 활용한 Long-form Video Understanding

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

Mar 15, 2024•Xiaohan Wang, Yuhui Zhang, Orr Zohar +1•View PDF

TL;DR Highlight

GPT-4를 에이전트로 써서 긴 영상을 평균 8프레임만 보고도 SOTA를 달성하는 반복적 프레임 선택 시스템

Who Should Read

영상 분석 파이프라인을 구축하거나 멀티모달 AI 에이전트를 개발 중인 ML 엔지니어. LLM + 비전 모델을 조합해 복잡한 태스크를 풀고 싶은 개발자.

Core Mechanics

GPT-4를 중앙 에이전트로, CLIP과 VLM(비전-언어 모델)을 도구로 쓰는 에이전트 시스템 — 전체 영상을 한 번에 처리하는 대신 필요한 프레임만 반복적으로 검색
3단계 반복 루프: ① 현재 정보로 답 예측 → ② Self-reflection으로 확신도(1~3) 판단 → ③ 부족하면 어떤 구간에서 어떤 프레임이 필요한지 LLM이 직접 지정해서 CLIP으로 검색
비디오를 구간(segment)으로 나눠 검색해서 시간 순서 혼동 방지 — '방을 나간 후의 소파' 같은 시간 조건 쿼리에서 오검색 대폭 감소
CLIP은 이미지 피처를 미리 캐싱해두고 텍스트 쿼리마다 재사용 — 전체 연산의 1.9%만 차지할 정도로 효율적
LLM 비교 실험: GPT-4(60.2%) > GPT-3.5(48.8%) > LLaMA-2-70B(45.4%) > Mixtral-8x7B(37.8%) — JSON 구조화 출력 능력이 성능 차이의 핵심
질문 유형별로 자동 조절: 서술형(5.9프레임) < 인과 추론(7.1프레임) < 시간 추론(7.8프레임) — 어려울수록 더 많은 프레임을 봄

Evidence

EgoSchema 풀셋 54.1% 달성 — 기존 SOTA LLoVi(50.3%) 대비 +3.8%, 사용 프레임은 8.4개 vs LLoVi의 180개(20배 차이)
NExT-QA 검증셋 71.3% 달성 — LLoVi(67.7%) 대비 +3.6%, 지도학습 SOTA HiTeA(63.1%)도 제로샷으로 뛰어넘음
Self-reflection 제거 시 프레임 수 8.4→11.8개로 늘고 정확도 60.2%→59.6%로 하락 — 더 많이 봐도 성능이 오히려 떨어짐
세그먼트 선택 제거 시 정확도 60.2%→56.6%로 3.6% 하락 — 시간 구간 지정이 핵심

How to Apply

RAG 파이프라인에서 '한 번에 모두 검색'하는 대신, LLM이 현재 컨텍스트를 보고 부족한 정보를 파악해 추가 검색을 반복하는 구조로 바꿔보면 된다 — 특히 긴 문서나 영상처럼 컨텍스트가 긴 경우에 효과적
멀티모달 에이전트 구축 시: VLM으로 이미지→텍스트 변환 → LLM이 텍스트만 보고 추론 → CLIP으로 관련 이미지 검색하는 모듈 분리 패턴을 참고하면 GPT-4V 없이도 시각적 이해가 가능
Self-reflection 패턴 적용: LLM에게 답을 내리게 한 다음 '이 정보가 충분한가?'를 별도로 물어보는 2-step 프롬프트를 추가하면, 불필요한 추가 검색을 줄이고 조기 종료가 가능해짐

Code Example

snippet

Terminology

VLM이미지를 텍스트로 설명해주는 모델. '사진 속에 개가 가방을 물고 있다'처럼 시각 정보를 언어로 번역해주는 번역기 역할.

CLIP텍스트와 이미지를 같은 공간에서 비교할 수 있게 해주는 모델. '강아지가 뛰는 장면'이라는 문장과 실제 영상 프레임의 유사도를 계산해 가장 관련 있는 프레임을 찾아줌.

Self-reflectionLLM이 자기 답변을 스스로 검토하는 기법. 시험 후 '내가 이 문제를 정말 확실히 알고 답한 건가?'를 스스로 점검하는 것과 같음.

Chain-of-thoughtLLM이 결론을 바로 내리지 않고 중간 추론 과정을 단계별로 적으면서 생각하게 하는 프롬프트 기법. 수학 문제를 풀 때 풀이 과정을 적는 것과 동일.

Zero-shot학습 예시 없이 바로 문제를 푸는 것. 한 번도 본 적 없는 문제를 그냥 푸는 것처럼, 특정 데이터셋으로 추가 훈련 없이 바로 테스트.

Late interactionCLIP에서 이미지와 텍스트의 특징을 각각 따로 계산한 뒤 나중에 비교하는 방식. 덕분에 이미지 특징을 미리 캐싱해두고 텍스트가 바뀔 때마다 이미지를 재계산할 필요 없음.

EgoSchema1인칭 시점(고프로처럼 몸에 달린 카메라)으로 찍은 3분짜리 영상 5,000개에 대한 QA 벤치마크.

Segment-level retrieval전체 영상이 아니라 특정 시간 구간 안에서만 프레임을 검색하는 방식. '방을 나간 후' 같은 시간 조건이 있을 때 이전 구간 프레임이 검색되는 오류를 방지.

Related Resources

Original Abstract (Expand)

Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding.