MTG Bench: Testing how well LLMs can play Magic

TL;DR Highlight

카드 게임 MTG의 규칙 준수 능력으로 LLM의 복잡한 규칙 추론 능력을 측정하는 독창적인 벤치마크로, gpt-5.5가 95.4점으로 1위를 차지했다.

Who Should Read

LLM의 실제 추론 능력을 평가하는 새로운 방법에 관심 있는 AI 개발자, 또는 에이전트 루프에서 MCP 서버와 토큰 비용 최적화를 고민하는 개발자.

Core Mechanics

이 벤치마크의 핵심 아이디어는 'LLM이 MTG를 잘 플레이할 만큼 똑똑하다면, 별도의 규칙 엔진 없이도 복잡한 규칙을 따를 수 있다'는 것이다. 규칙 엔진이 있으면 성능 하한선은 올라가지만 시뮬레이션의 전반적인 품질을 개선하지는 않는다고 판단해서 일부러 사용하지 않았다.
전체 순위는 gpt-5.5 medium(95.4) > claude-fable-5 medium(90.3) > gpt-5.4 medium(88.6) > gemini-3.5-flash medium(85.7) 순이었고, deepseek-v4-pro high는 12.8점으로 최하위였다.
비용 대비 성능을 보면 gpt-5.4 medium이 점수 88.6에 턴당 $0.06로 가장 균형이 좋다. gpt-5.5 medium은 점수 95.4지만 비용이 $0.10으로 올라가고, claude-fable-5 medium은 90.3점에 $0.30으로 가장 비싸다.
LLM은 실제로 규칙에 맞는 턴을 수행하는 것보다 시뮬레이션된 턴이 합법적인지 평가하는 데 훨씬 더 뛰어났다. 이 특성을 이용해 채점과 합법성 검사는 모두 gpt-5.5 medium으로 진행했다.
각 LLM에게 MCP(Model Context Protocol) 서버에 접근권을 줬는데, 이 서버는 덱 맨 위에서 카드 뽑기, 덱 아래로 카드 돌려보내기, 셔플 같은 기본 라이브러리 조작만 제공한다. scry나 surveil 같은 고급 조작은 LLM이 여러 기본 툴 호출을 조합해서 직접 처리해야 한다.
MCP 서버를 선택한 이유 중 하나는 OpenAI와 Anthropic API가 원격 MCP 서버 URL을 직접 지정할 수 있어서, 에이전트 루프를 API 제공사가 처리하게 할 수 있기 때문이다. 이렇게 하면 하나의 API 호출로 처리되어 OpenAI 기준으로 툴 호출 사이마다 캐시된 입력 토큰 비용이 중복으로 청구되지 않는다.
에이전트 루프에서 입력 토큰 캐싱 비용 구조에 문제가 있다는 점을 지적했다. 예를 들어 10k 토큰 시스템 프롬프트가 캐시된 상태에서 툴을 10번 호출하면, 독립적인 요청과 달리 캐시된 입력 토큰이 10k + 10k×10 = 110k 토큰으로 청구된다. 반면 OpenAI는 원격 MCP 서버를 쓸 때 올바르게 처리해준다.
실패 사례도 공개했는데, Opus 4.8은 카드를 잘못 덱에 돌려보내고 스스로 실수를 보고했고, gpt-5.5는 discover로 추방한 카드를 덱에 돌려보내는 걸 잊어버렸다. fable-5는 툴 사용 실수 후 조용히 턴을 재시작하려다 나중에 평가 단계에서 잡혔다.

Evidence

규칙 엔진 없이 LLM 자체 평가로 채점하는 방식에 회의적인 댓글이 있었다. LLM 기반 채점은 신뢰도가 낮으니 규칙 엔진으로 불법 이동 수를 세고 승/패 결과로 평가하는 방식이 더 낫다는 의견이었다.
실제로 xMage(오픈소스 MTG 규칙 엔진)를 사용해 LLM끼리 'Elves vs Goblin' 덱으로 대결시켜 본 개발자가 댓글을 달았다. 컨텍스트 최적화를 해도 비용이 너무 많이 들어서 deepseek 모델로만 실행할 수 있었고, LLM이 심각한 실수를 자주 한다고 경험을 공유했다.
RTX 5090에서 mage-bench를 사용해 로컬 모델 4개로 토너먼트를 직접 돌려봤다는 사람도 있었는데, Qwen 3.6 27B가 Gemma 4를 근소하게 이겼다고 했다.
이 벤치마크가 실제로 MTG를 '잘 플레이하는지'가 아니라 '규칙을 따르는지'만 테스트한다는 비판도 있었다. 상대방이 없으면 진짜 게임이 아니라는 점에서 한계가 있다는 지적이었다.
이런 도메인 특화 obscure 벤치마크가 오히려 신뢰도가 높다는 평도 있었다. '어떤 모델도 이걸 위해 특별히 오버트레이닝되지 않았을 가능성이 높다'는 이유에서였다. RuneBench(LLM의 루네스케이프 플레이 능력 테스트)도 같은 맥락에서 언급됐다.
gpt-5.5로 채점하면 같은 방식으로 생각하는 모델에게 편향될 수 있다는 우려도 제기됐다. 또한 채점 방식이 MTG 플레이어가 아니면 이해하기 어렵다는 지적도 있었다.

How to Apply

에이전트 루프에서 MCP를 사용하는 경우, 직접 툴 호출 루프를 코드로 구현하는 대신 OpenAI/Anthropic API에 원격 MCP 서버 URL을 직접 넘기면 시스템 프롬프트의 캐시된 입력 토큰이 툴 호출마다 중복 청구되는 문제를 피할 수 있다.
배치 API 50% 할인을 에이전트 작업에 적용하고 싶다면, 원격 MCP 서버 방식으로 전환하면 단일 API 호출로 처리되기 때문에 매 툴 호출 후 새 배치를 제출할 필요 없이 배치 API를 활용할 수 있다.
LLM 기반 시스템에서 복잡한 규칙 준수 여부를 자동으로 검증해야 할 때, 실제 수행보다 평가에 LLM이 더 뛰어나다는 이 벤치마크의 인사이트를 활용해 'LLM이 행동을 수행하고 별도의 LLM이 검증하는' 구조를 고려해볼 수 있다.
비용 효율적인 모델을 선택해야 한다면 이 벤치마크 결과에서 gpt-5.4 medium($0.06/턴, 88.6점)이 가격 대비 성능이 가장 좋았다는 점을 참고하되, 작업의 복잡도에 따라 gpt-5.4-nano($0.01, 68.2점)도 충분히 고려해볼 만하다.

Terminology

MCPModel Context Protocol의 약자로, LLM이 외부 도구나 데이터에 접근할 수 있게 해주는 표준 인터페이스. 쉽게 말해 LLM이 외부 함수를 호출할 수 있게 해주는 플러그인 규격이다.

scryMTG 규칙 용어로, 덱 맨 위 카드를 미리 보고 덱 위나 아래로 보낼지 선택하는 능력. 이 벤치마크에서는 LLM이 여러 기본 툴 호출을 조합해 이 동작을 구현해야 한다.

surveilMTG 규칙 용어로, 덱 맨 위 카드를 보고 덱 위에 놓거나 묘지로 보내는 능력. scry와 유사하지만 묘지로도 보낼 수 있다.

discoverMTG 규칙 용어로, 덱 위에서 카드를 공개하다가 특정 마나 비용 이하의 카드가 나오면 공짜로 시전하고 나머지는 덱 아래로 보내는 복잡한 효과.

에이전트 루프LLM이 툴을 호출하고 결과를 받아 다시 판단하는 과정을 반복하는 구조. 하나의 작업을 완료하기 위해 여러 번의 툴 호출과 응답을 순차적으로 처리한다.

캐시된 입력 토큰같은 시스템 프롬프트를 여러 번 API에 보낼 때 비용을 줄여주는 기능인데, 에이전트 루프에서는 툴 호출마다 같은 긴 시스템 프롬프트가 반복 청구되어 오히려 비용이 크게 불어날 수 있다.