RLVR를 위한 Multiple-Choice Questions 재고: Distractor 설계로 잠재력 끌어내기
Rethinking Multiple-Choice Questions for RLVR: Unlocking Potential via Distractor Design
TL;DR Highlight
객관식 문제의 오답 보기(distractor) 품질을 개선하면 RLVR 학습 효과가 크게 올라간다는 걸 실험으로 증명하고, 이를 자동화하는 IDC 프레임워크를 제안.
Who Should Read
LLM을 의료/법률 등 전문 도메인에 RLVR로 파인튜닝하려는 ML 엔지니어. 객관식 데이터셋을 강화학습 학습 신호로 활용하는 방법을 고민하는 리서처.
Core Mechanics
- 객관식 문제를 open-ended 형식으로 변환하면 reward hacking은 줄지만, 전문가가 설계한 오답 보기(distractor)의 contrastive signal도 함께 버리게 됨
- 학습 시 선택지 수(예: 4-way)와 테스트 시 선택지 수(예: 10-way)가 다르면 성능이 떨어짐 — 선택지 개수 자체보다 train-test 일치가 더 중요
- 선택지가 2개뿐인 문제도 distractor 품질이 높으면 RLVR 학습이 효과적임 (50% 랜덤 추측 가능성에도 불구하고)
- 강한 distractor는 모델이 틀린 추론을 했을 때 오답을 선택하게 만들어, 노이즈 없는 reward 신호를 보장함
- Iterative Distractor Curation(IDC): 모델이 틀리기 쉬운 distractor를 반복적으로 생성·교체해서 오답 보기 품질을 자동으로 높이는 프레임워크
- 외부 강력한 모델(GPT-OSS-120B 등)보다 학습 대상 모델 자신이 생성한 distractor가 더 효과적 — 모델 자체의 오류 패턴에 맞춰지기 때문
Evidence
- Qwen2-7B 평균 정확도: 기존 RLVR 39.39% → IDC 42.62% (+3.23%), Llama-3.1-8B: 48.63% → 51.90% (+3.27%)
- 약한 distractor 제거(w/o) 시 강한 distractor 사용(w/) 대비 Qwen2-7B에서 39.87% vs 46.98%로 7.11%p 격차 발생
- spurious reward(틀린 추론인데 맞춘 경우) 비율: 선택지 수 늘리면 0.241→0.095, IDC 적용하면 0.260→0.110으로 감소
- IDC 파이프라인 전체 오버헤드는 RLVR 학습 총 시간의 10% 미만 (H200 8장 기준 약 1.5시간)
How to Apply
- 기존 객관식 데이터셋으로 RLVR 학습 시, 학습셋과 평가셋의 선택지 수가 다르다면 선택지를 샘플링하거나 자동 생성으로 수를 맞춰라 — 선택지 수 불일치가 성능을 갉아먹는다
- IDC 적용: 학습 대상 모델 자신으로 각 distractor의 '함정력(empirical strength)'을 측정하고, 약한 distractor를 모델이 잘 속는 새 distractor로 교체하는 루프를 7라운드 정도 돌려라
- 선택지 수를 모를 때는 2/4/6/8/10-way를 균등 혼합한 mixed-option 학습셋을 쓰면 단일 전략 평균보다 안정적으로 좋은 성능을 얻을 수 있다
Code Example
Terminology
Original Abstract (Expand)
Reinforcement Learning with Verifiable Rewards (RLVR) significantly enhances the reasoning capabilities of Large Language Models. When applied to RLVR, Multiple-Choice Questions (MCQs) offer a scalable source of verifiable data but risk inducing reward hacking, where models shortcut reasoning via random guessing or simple elimination. Current approaches often mitigate this by converting MCQs to open-ended formats, thereby discarding the contrastive signal provided by expert-designed distractors. In this work, we systematically investigate the impact of option design on RLVR. Our analysis highlights two primary insights: (1) Mismatches in option counts between training and testing degrade performance. (2) Strong distractors effectively mitigate random guessing, enabling effective RLVR training even with 2-way questions. Motivated by these findings, we propose Iterative Distractor Curation (IDC), a framework that actively constructs high-quality distractors to block elimination shortcuts and promote deep reasoning. Experiments on various benchmarks demonstrate that our method effectively enhances distractor quality and yields significant gains in RLVR training compared to the original data.