다국어 Reasoning Cascade는 더 많은 Context가 필요하다
Multilingual Reasoning Cascades Need More Context
TL;DR Highlight
번역 cascade 파이프라인에서 원본 질문을 마지막까지 유지하면 추가 학습 없이 다국어 성능이 크게 오른다.
Who Should Read
LLM 기반 다국어 서비스를 운영하거나, 번역-추론-번역 파이프라인을 설계하는 백엔드/ML 엔지니어. 특히 문화적 맥락이 중요한 QA 시스템을 구축 중인 개발자.
Core Mechanics
- Translation Cascade(번역→영어 추론→역번역)는 강력하지만 각 단계에서 정보가 유실되는 구조적 문제가 있다. 특히 최종 역번역 단계(MT2)가 원본 질문을 못 보는 게 핵심 문제.
- 해결책은 단순하다: MT2에 원본 언어 질문(qt), 영어 번역 질문(qe), 영어 추론 과정(re)을 추가로 넘겨주면 된다. 파인튜닝 없이 프롬프트만 바꾸면 됨.
- 이 context-aware cascade(Cctx)는 open-ended 문화 QA에서 가장 큰 효과를 보인다. 예: 아랍어 Aya 벤치마크에서 chrF 8.67 → 13.63으로 상승.
- 작은 오픈소스 모델(Llama-3.1-8B, Mistral-7B)이 GPT-4o-mini보다 이 방법으로 더 많은 혜택을 받는다. 약한 모델일수록 번역 오류가 많고, context가 그 오류를 복구해주기 때문.
- Ablation 실험 결과, 가장 중요한 context는 원본 언어 질문(qt) 하나다. 영어 번역 질문이나 추론 과정은 효과가 미미하거나 오히려 성능을 깎을 수 있음.
- 수학 문제처럼 문화적 맥락이 필요 없는 정확한 숫자 답변 태스크에는 효과가 제한적이거나 역효과가 날 수 있다. 상황 맥락을 구분해 적용해야 함.
Evidence
- Llama-3.1-8B-Instruct 기준 Aya 벤치마크에서 Cctx가 Cstd 대비 +4.70 chrF 향상, 6개 언어 전부(100%)에서 Cctx가 승리.
- Cctx는 Llama 기준 open-ended 4개 데이터셋에서 Llama와 GPT-4o-mini의 성능 격차를 최대 92%(Aya 기준) 줄였다.
- 30개 모델×데이터셋 조합 중 18개에서 Cctx가 유의미하게 승리, 10개는 무승부, 2개만 역효과. 전반적으로 안전한 전략.
- GPT-4o-mini의 MT1 번역 정확도는 65%인 반면 Llama는 40%, Mistral은 27%로, 작은 모델일수록 번역 오류가 많아 context 복구 효과가 크다는 근거.
How to Apply
- 기존 Translation Cascade에서 마지막 역번역(MT2) 프롬프트를 수정할 때: 영어 답변만 넘기던 것을 '원본 언어 질문 + 영어 질문 + 영어 추론 과정 + 영어 답변' 4가지를 모두 포함하도록 바꾸고, '해당 언어의 문화적 맥락으로 답하라'는 지시를 추가한다.
- 리소스가 제한된 상황이라면 full context 대신 원본 질문(qt)과 영어 답변(ae)만 MT2에 넘겨도 거의 동등한 성능을 얻을 수 있다. 토큰 비용을 줄이면서 핵심 효과는 유지 가능.
- 문화적 맥락이 중요한 오픈형 QA(예: 음식, 풍습, 지역 문화 관련 질문)에 우선 적용하고, 수학이나 선택지 정답처럼 단순 정답 추출 태스크에는 오히려 context 없이 표준 cascade를 쓰는 게 안전하다.
Code Example
# MT2 Cctx 프롬프트 예시 (open-ended QA)
prompt_template = """
You are an advanced reasoning assistant. You will be provided with a question,
the English question, the English thinking process and answer.
You need to answer the question in the {language}.
You need to answer the question in cultural context of the {language}.
Required Format:
<answer> [Final answer in {language} goes here] </answer>
Input: {original_question} ← 원본 언어 질문 (qt)
English Question: {english_question} ← 영어 번역 질문 (qe)
English Thinking Process: {reasoning_trace} ← 영어 추론 과정 (re)
English Answer: {english_answer} ← 영어 답변 (ae)
Output:
"""
# 최소한의 효과적인 버전 (토큰 절약)
minimal_prompt = """
You are an advanced translation assistant.
Answer the following question in {language}, considering the cultural context.
Original Question ({language}): {original_question} ← 핵심! 이것만 있어도 됨
English Answer: {english_answer}
Provide your answer in {language}:
"""Terminology
관련 논문
Back-and-Forth를 줄여라: Structured Prompting 비교 연구
체크리스트 형식으로 프롬프트를 구조화하면 LLM 답변 품질도 높아지고 토큰도 적게 쓴다.
Training-Free Cultural Alignment: Persona 불일치를 활용한 LLM 문화적 정렬
재학습 없이 각 나라의 도덕적 가치관에 맞게 LLM 출력을 조정하는 추론 시점 기법 DISCA 제안
Claude Code에서 HTML을 출력 포맷으로 쓰는 이유: Markdown보다 나은 점들
Claude Code 팀이 Markdown 대신 HTML을 LLM 출력 포맷으로 선호하기 시작한 이유와 그 실용적 장점을 정리한 글로, AI와 함께 문서/스펙/대시보드를 만드는 워크플로우에 직접적인 영향을 준다.
언제 투표하고 언제 다시 쓸까: Disagreement 기반 Test-Time Scaling 전략 라우팅
모델 출력이 얼마나 일치하는지 보고 쉬운 문제엔 majority voting, 어려운 문제엔 문제 rewriting을 자동으로 선택해 정확도 3~7% 올리고 샘플링 비용도 줄이는 학습 불필요 프레임워크.
Less Is More: Android 앱에 On-Device Small Language Model 통합할 때 실제로 겪는 엔지니어링 문제들
Wordle 게임에 온디바이스 SLM(Gemma 4 E2B, Qwen3 0.6B)을 5일간 붙여보면서 발견한 5가지 실패 유형과 8가지 실용 해결책 정리
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
Karpathy 워크플로우에서 영감받아 사전 컴파일된 Wiki로 세션당 토큰 90%+ 절감
Related Resources
Original Abstract (Expand)
Translation cascades for reasoning translate the query from another language to English, reason in English, and translate the answer back to the original language. This is a competitive approach to multilingual reasoning, but structurally lossy, since each stage discards information later stages may need, including cues for cultural grounding, register, and disambiguation. We examine the benefits of a simple and training-free intervention: a context-aware translation cascade, which additionally provides the original question, the English translated question, and the reasoning trace to the context of the final translation module. We evaluate gains across nine multilingual benchmarks including various task types, three backbone models, and 285 high-, mid-, and low-resource languages, and demonstrate strong gains for open-ended generation across models and resource regimes. We show that the original language question carries most of the beneficial context. Our study emphasizes the need to better design information flow in machine translation cascades for mitigating error propagation, and provides a simple and actionable default strategy: preserve the original user question until the end of the pipeline.