Reasoning은 공짜가 아니다: LLM-as-a-Judge를 위한 Robust Adaptive Cost-Efficient Routing

TL;DR Highlight

LLM이 판사 역할을 할 때 reasoning 모드를 항상 켜면 손해 - 필요한 경우에만 선택적으로 켜는 라우팅 프레임워크 RACER 제안

Who Should Read

LLM 평가 파이프라인에서 비용 효율을 고민하는 ML 엔지니어. 특히 Qwen3나 DeepSeek-R1 같은 reasoning 모델을 judge로 쓰면서 inference 비용이 부담되는 팀.

Core Mechanics

Reasoning 모드는 수학·코딩 태스크 판정에선 정확도가 크게 오르지만, 단순 사실 확인이나 안전성 평가에선 오히려 역효과가 나거나 거의 차이가 없음
Reasoning 모드는 Non-reasoning 대비 토큰 소비가 3~11배 많아서 무조건 켜두면 비용이 폭발적으로 증가함
RACER(Robust Adaptive Cost-Efficient Routing)는 고정 예산 내에서 reasoning/non-reasoning 판정을 인스턴스별로 동적 선택하는 라우터를 학습함
RACER는 분포 변화(Distribution Shift)에 강건하도록 KL-divergence uncertainty set을 활용한 Distributionally Robust Optimization(최악의 분포에서도 성능을 보장하는 최적화 기법)으로 설계됨
Reward 강건성(RACER-R)과 Cost 강건성(RACER-C) 두 가지 변형을 제공해, OOD 쿼리가 더 싸질 때와 더 비싸질 때 각각 다른 전략을 적용함
LLM이 스스로 reasoning 필요 여부를 판단하는 self-routing은 거의 모든 입력에 reasoning을 켜버려 비용 절감 효과가 없음 (Qwen3-4B 기준 99.51% reasoning 선택)

Evidence

Qwen3-8B 기준 RACER가 예산 C=4에서 All-Reasoning 대비 절반 비용으로 동등하거나 더 높은 정확도(90.0%)를 달성, 최강 베이스라인 M-IRT(88.9%) 대비 1.06%p 향상
Qwen3-4B 기준 RACER 정확도 85.8%로, RouterBench-KNN(84.1%), RouteLLM-MF(84.7%), M-IRT(84.3%) 모두 상회하면서 예산 내 비용(3.4) 유지
DeepSeek-R1-Distill-Llama-8B + Llama-3.1-8B-Instruct 조합에서 예산 2.0 기준 RACER 정확도 79.37% vs Random 73.01%, All-Reasoning(79.93%)을 비용 절반(2.05 vs 4.12)으로 근접 달성
Entropy 정규화(β=0.005~0.01) 제거 시 예산이 빡빡할 때 정확도 하락 확인(β=0 시 85.2% vs β=0.01 시 85.5%, 예산 C=2 기준)

How to Apply

LLM-as-a-Judge 파이프라인에서 Qwen3 같은 hybrid 모델을 사용 중이라면, 모든 입력에 reasoning 모드를 켜는 대신 RACER처럼 텍스트 임베딩(bge-3 또는 Qwen3-embedding)을 입력으로 받는 경량 MLP 라우터(4-layer, hidden {256,128,64})를 학습해 인스턴스별로 reasoning/instruct를 전환하면 비용을 절반으로 줄일 수 있음
OOD 상황이 예상될 때(예: 신규 도메인 쿼리 유입, 사용자 분포 변화) KL uncertainty set 기반 데이터 재가중치(exp((mean_reward - r_i)/τ))를 학습에 적용해 분포 변화에도 예산 제약이 깨지지 않도록 Cost 강건성(RACER-C)을 활성화할 것
수학·코딩 도메인 데이터가 training set에 부족하면 MATH-STEP-DPO-10K, Code-Preference-Pairs 같은 reasoning-intensive 데이터를 별도로 섞어서 라우터가 해당 도메인에서 reasoning을 적절히 선택하도록 커버리지를 보완해야 함

Code Example

snippet

# RACER 데이터 재가중치 핵심 로직 (Python 의사코드)
import numpy as np

def racer_reweight(rewards, costs, tau_r=1.0, tau_c=1.0):
    """
    rewards: 각 인스턴스의 판정 정확도 (0 or 1)
    costs:   각 인스턴스의 토큰 비용 (상대값)
    tau_r:   reward 강건성 온도 (낮을수록 강건)
    tau_c:   cost 강건성 온도 (낮을수록 강건)
    """
    r_mean = np.mean(rewards)
    c_mean = np.mean(costs)

    # 최악 분포: 낮은 reward 샘플에 가중치 ↑ (reward 강건성)
    w_reward = np.exp((r_mean - rewards) / tau_r)
    w_reward /= w_reward.sum()

    # 최악 분포: 높은 cost 샘플에 가중치 ↑ (cost 강건성)
    w_cost = np.exp((costs - c_mean) / tau_c)
    w_cost /= w_cost.sum()

    return w_reward, w_cost

# Primal 업데이트: softmax 라우팅 정책
def compute_routing_policy(reward_r, cost_r, lambda_t, beta=0.005):
    """
    reward_r: reasoning 모드의 재가중 reward
    cost_r:   reasoning 모드의 재가중 cost
    lambda_t: 현재 Lagrange 승수 (예산 제약)
    반환: reasoning 선택 확률
    """
    score_reasoning = (1/beta) * reward_r - (lambda_t/beta) * cost_r
    score_instruct  = 0.0  # 기준값
    # softmax
    prob_reasoning = np.exp(score_reasoning) / (np.exp(score_reasoning) + np.exp(score_instruct))
    return prob_reasoning

# Dual 업데이트: 예산 제약 위반 시 lambda 증가
def update_lambda(lambda_t, realized_cost, budget_C, step_size=1e-3, beta=0.005):
    grad = realized_cost - budget_C - beta * lambda_t
    lambda_next = max(0.0, lambda_t + step_size * grad)
    return lambda_next

# 실제 LLM-as-a-Judge 프롬프트 (instruct 모드)
JUDGE_PROMPT = """
Please act as an impartial judge and evaluate the quality of the responses
provided by two AI assistants to the user question below.
[User Question]{question}
[The Start of Assistant A's Answer]{answer_a}[The End of Assistant A's Answer]
[The Start of Assistant B's Answer]{answer_b}[The End of Assistant B's Answer]
Output your final verdict: [[A]] if A is better, [[B]] if B is better.
"""

Terminology

LLM-as-a-Judge사람 대신 LLM이 두 AI 응답 중 어떤 게 더 나은지 판정하는 자동 평가 방식. 사람 평가는 비싸고 느리니까 LLM이 심판 역할을 대신 함.

Distributionally Robust Optimization (DRO)학습 데이터 분포가 실제 배포 시 달라져도 성능이 무너지지 않도록, 최악의 분포를 가정하고 그 상황에서도 잘 동작하게 학습하는 기법.

KL-divergence두 확률 분포가 얼마나 다른지 측정하는 수치. RACER에선 학습 분포와 실제 분포 차이의 허용 범위를 KL로 제한해서 너무 동떨어진 분포에 과적합하지 않게 함.

Distribution Shift학습할 때 본 데이터 분포와 실제 서비스에서 들어오는 데이터 분포가 달라지는 현상. 예: 수학 문제로 학습했는데 갑자기 코딩 문제가 많이 들어옴.

Lagrange Multiplier (λ)예산 제약을 부드럽게 반영하는 변수. λ가 크면 '예산 초과 패널티'가 강해져서 모델이 저렴한 경로를 선호하게 됨.

Primal-Dual Method목적 함수(reward 최대화)와 제약 조건(비용 예산)을 번갈아 최적화하는 알고리즘. 마치 성능과 비용을 줄다리기하며 균형점을 찾는 방식.

Entropy Regularization라우팅 정책이 너무 한쪽으로 치우치지 않도록 다양성을 유지시키는 장치. 학습 초기에 탐색을 충분히 하게 도와줌.

OOD (Out-of-Distribution)학습 때 본 적 없는 분포의 데이터. 실제 서비스에선 항상 OOD 케이스가 생기기 때문에 여기서 성능이 얼마나 유지되는지가 중요함.

Related Resources

Original Abstract (Expand)

Reasoning-capable large language models (LLMs) have recently been adopted as automated judges, but their benefits and costs in LLM-as-a-Judge settings remain unclear. Through controlled comparisons between reasoning and non-reasoning judges, we show that explicit reasoning substantially improves judgment accuracy on tasks requiring structured verification (e.g., math and coding), while offering limited or even negative gains on simpler evaluations and incurring significantly higher computational cost. These findings motivate that reasoning should be used selectively rather than universally, with awareness of possible distribution shift. We propose a Robust Adaptive Cost-Efficient Routing (RACER), which dynamically selects between reasoning and non-reasoning judges under a fixed budget by formulating routing as a constrained distributionally robust optimization problem. RACER explicitly accounts for distribution shift via a KL-divergence uncertainty set, admits an efficient primal--dual algorithm, and enjoys theoretical guarantees including uniqueness of the optimal policy and linear convergence. Extensive experiments show that RACER achieves superior accuracy--cost trade-offs under distribution shift.