RLVR를 위한 Multiple-Choice Questions 재고: Distractor 설계로 잠재력 끌어내기

Rethinking Multiple-Choice Questions for RLVR: Unlocking Potential via Distractor Design

Mar 13, 2026•Xu Guo, Qiming Ge, Jian Tong +8•View PDF

TL;DR Highlight

객관식 문제의 오답 보기(distractor) 품질을 개선하면 RLVR 학습 효과가 크게 올라간다는 걸 실험으로 증명하고, 이를 자동화하는 IDC 프레임워크를 제안.

Who Should Read

LLM을 의료/법률 등 전문 도메인에 RLVR로 파인튜닝하려는 ML 엔지니어. 객관식 데이터셋을 강화학습 학습 신호로 활용하는 방법을 고민하는 리서처.

Core Mechanics

객관식 문제를 open-ended 형식으로 변환하면 reward hacking은 줄지만, 전문가가 설계한 오답 보기(distractor)의 contrastive signal도 함께 버리게 됨
학습 시 선택지 수(예: 4-way)와 테스트 시 선택지 수(예: 10-way)가 다르면 성능이 떨어짐 — 선택지 개수 자체보다 train-test 일치가 더 중요
선택지가 2개뿐인 문제도 distractor 품질이 높으면 RLVR 학습이 효과적임 (50% 랜덤 추측 가능성에도 불구하고)
강한 distractor는 모델이 틀린 추론을 했을 때 오답을 선택하게 만들어, 노이즈 없는 reward 신호를 보장함
Iterative Distractor Curation(IDC): 모델이 틀리기 쉬운 distractor를 반복적으로 생성·교체해서 오답 보기 품질을 자동으로 높이는 프레임워크
외부 강력한 모델(GPT-OSS-120B 등)보다 학습 대상 모델 자신이 생성한 distractor가 더 효과적 — 모델 자체의 오류 패턴에 맞춰지기 때문

Evidence

Qwen2-7B 평균 정확도: 기존 RLVR 39.39% → IDC 42.62% (+3.23%), Llama-3.1-8B: 48.63% → 51.90% (+3.27%)
약한 distractor 제거(w/o) 시 강한 distractor 사용(w/) 대비 Qwen2-7B에서 39.87% vs 46.98%로 7.11%p 격차 발생
spurious reward(틀린 추론인데 맞춘 경우) 비율: 선택지 수 늘리면 0.241→0.095, IDC 적용하면 0.260→0.110으로 감소
IDC 파이프라인 전체 오버헤드는 RLVR 학습 총 시간의 10% 미만 (H200 8장 기준 약 1.5시간)

How to Apply

기존 객관식 데이터셋으로 RLVR 학습 시, 학습셋과 평가셋의 선택지 수가 다르다면 선택지를 샘플링하거나 자동 생성으로 수를 맞춰라 — 선택지 수 불일치가 성능을 갉아먹는다
IDC 적용: 학습 대상 모델 자신으로 각 distractor의 '함정력(empirical strength)'을 측정하고, 약한 distractor를 모델이 잘 속는 새 distractor로 교체하는 루프를 7라운드 정도 돌려라
선택지 수를 모를 때는 2/4/6/8/10-way를 균등 혼합한 mixed-option 학습셋을 쓰면 단일 전략 평균보다 안정적으로 좋은 성능을 얻을 수 있다

Code Example

snippet

Terminology

RLVR정답 여부를 자동으로 확인할 수 있는 문제(예: 수학, 객관식)로 강화학습을 하는 방법. 사람이 일일이 피드백을 달지 않아도 됨.

GRPODeepSeek에서 만든 RLVR 학습 알고리즘. 같은 문제에 여러 번 답을 생성하고, 맞은 답과 틀린 답을 비교해서 정책을 업데이트함.

distractor객관식 문제에서 정답이 아닌 오답 보기. 잘 설계된 distractor는 학생이나 모델이 헷갈리게 만들어 진짜 이해를 요구함.

spurious reward추론 과정이 틀렸는데도 운 좋게 정답을 맞혀서 잘못된 긍정 신호를 받는 현상. 모델이 나쁜 습관을 강화하게 됨.

reward hacking모델이 실제 문제를 제대로 풀지 않고 보상 신호의 허점을 악용해 높은 점수를 받는 현상. 랜덤 찍기나 소거법이 대표적.

empirical strength특정 distractor가 얼마나 모델을 혼란스럽게 만드는지 측정하는 지표. 모델이 틀릴 때 해당 distractor를 얼마나 자주 선택하는지로 계산.

rejection sampling여러 후보를 생성하고 조건을 만족하는 것만 채택하는 방법. IDC에서는 강한 distractor 후보만 골라내는 데 활용됨.

Original Abstract (Expand)

Reinforcement Learning with Verifiable Rewards (RLVR) significantly enhances the reasoning capabilities of Large Language Models. When applied to RLVR, Multiple-Choice Questions (MCQs) offer a scalable source of verifiable data but risk inducing reward hacking, where models shortcut reasoning via random guessing or simple elimination. Current approaches often mitigate this by converting MCQs to open-ended formats, thereby discarding the contrastive signal provided by expert-designed distractors. In this work, we systematically investigate the impact of option design on RLVR. Our analysis highlights two primary insights: (1) Mismatches in option counts between training and testing degrade performance. (2) Strong distractors effectively mitigate random guessing, enabling effective RLVR training even with 2-way questions. Motivated by these findings, we propose Iterative Distractor Curation (IDC), a framework that actively constructs high-quality distractors to block elimination shortcuts and promote deep reasoning. Experiments on various benchmarks demonstrate that our method effectively enhances distractor quality and yields significant gains in RLVR training compared to the original data.