Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs
TL;DR Highlight
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
Who Should Read
멀티모달 LLM을 활용해 이미지 내 공간 관계(위치, 방향, 거리 등)를 분석하는 서비스를 개발 중인 ML 엔지니어. 또는 CoT 프롬프팅을 기본값으로 사용하는 AI 애플리케이션 개발자.
Core Mechanics
- CoT(Chain-of-Thought, 단계별 추론을 텍스트로 출력하는 기법) 프롬프팅이 수학·논리 과제와 달리 시각적 공간 추론에서는 평균 3% 정확도를 떨어뜨린다.
- RL(강화학습)로 훈련된 MRM(Multimodal Reasoning Model, 추론 특화 멀티모달 모델) 8개 중 7개가 베이스 모델인 Qwen2.5-VL-7B-Instruct보다 공간 추론 성능이 낮다. 즉, 비싼 훈련이 오히려 역효과.
- 공간 추론에 특화 훈련된 ViGoRL-7B-Spatial도 베이스 대비 −2%, TreeVGR도 −1.57%로 언더퍼폼. 유일한 예외는 Vision-G1(+0.6%).
- No-Image++ 실험: 이미지를 회색 빈 화면으로 교체하고 '이미지로는 판단 불가' 선택지를 추가해도, MRM들은 텍스트 지식 기반으로 공간 좌표까지 지어내며 틀린 답을 자신 있게 선택한다.
- GPT-5, GPT-5-nano도 Non-CoT가 CoT보다 각각 +0.65%, +1.23% 높아 오픈소스 모델과 같은 경향을 보인다. GPT-4o·GPT-4.1-mini는 미미한 CoT 이득(0.5% 미만)이 있지만 추가 추론 비용 대비 실익이 없다.
- CoT 트레이스가 짧고 반복 없이 간결한 모델(GPT 계열, 평균 ~350자)이 긴 루프·'wait' 반복이 많은 오픈소스 모델(~3600자)보다 성능 저하가 덜하다. 장황한 추론이 환각을 유발하는 것으로 추정.
Evidence
- 17개 모델 × 13개 공간 벤치마크 평균에서 CoT 프롬프팅이 Non-CoT 대비 평균 3% 정확도 하락. Qwen2.5-VL-7B 기준 Non-CoT 62.68% vs CoT 59.68%.
- GThinker-7B는 Non-CoT 프롬프트를 쓸 때 CoT 대비 −23.14%로 가장 큰 낙폭. Non-CoT 지시를 따르지 못하고 tool_call 토큰을 max token까지 반복 출력.
- No-Image++ 실험에서 MRM들의 '이미지로 판단 불가' 정답 선택률: GThinker 5.55%, R1-Onevision 11.22%, Vision-R1 7.29%로 랜덤 수준 이하. 베이스 Qwen2.5-VL-7B는 76.41%로 훨씬 높음.
- Qwen3-VL-8B-Thinking(공간 인식 강화 모델)도 13개 데이터셋 중 8개에서 Non-CoT가 CoT를 앞서며 평균 +0.64% 차이.
How to Apply
- 멀티모달 앱에서 '이미지 내 물체 위치/방향/거리' 질문을 처리할 때, CoT 프롬프트 대신 직접 답변 요청 프롬프트(Non-CoT)로 바꾸면 된다. 예: 'You are a spatial-reasoning assistant. 질문에 바로 답하라'처럼 think 태그 없이 설정.
- 공간 추론 파이프라인에 CoT 모델(GThinker, ViGoRL 등 MRM)을 쓰고 있다면, 같은 베이스인 Qwen2.5-VL-7B-Instruct를 Non-CoT로 돌리는 것과 성능을 비교해볼 것. 비용과 지연 모두 절감 가능.
- 시각적 공간 판단이 핵심인 기능(예: 로봇 내비게이션, 이미지 내 객체 관계 추출)에 모델 환각을 줄이려면, 빈 이미지 입력 + '판단 불가' 선택지를 추가하는 No-Image++ 스타일의 내부 신뢰도 테스트를 QA 파이프라인에 포함시킬 수 있다.
Code Example
# Non-CoT 프롬프트 예시 (공간 추론 태스크)
base_system_prompt = "You are a spatial-reasoning assistant. The user asks a question, and the Assistant solves it."
# CoT 프롬프트 (쓰지 말 것 - 공간 과제에서 성능 하락)
cot_system_prompt = (
"You are a spatial-reasoning assistant. "
"First output the thinking process in <think></think> tags "
"and then output the final answer in <answer></answer> tags."
)
# 권장: Non-CoT로 직접 호출
messages = [
{"role": "system", "content": base_system_prompt},
{
"role": "user",
"content": [
{"type": "image", "image": "<your_image_path_or_url>"},
{"type": "text", "text": "Where is the red box relative to the blue sphere?\nOptions:\nA. Left\nB. Right\nC. Above\nD. Below\nPlease select the correct answer (letter and option text) from the options above."}
]
}
]
# No-Image++ 신뢰도 테스트: 빈 이미지 + 판단불가 옵션 추가
def add_cannot_determine_option(options: list[str]) -> list[str]:
return options + ["Cannot determine from the image"]
# 모델이 빈 이미지에서도 '판단불가'를 고르지 않으면 → 환각 위험 신호Terminology
Related Resources
Original Abstract (Expand)
Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.