Qwen-AgentWorld: Language World Models for General Agents

TL;DR Highlight

Alibaba Qwen 팀이 AI 에이전트가 행동 결과를 미리 시뮬레이션할 수 있는 'Language World Model'을 공개했다. 에이전트 훈련과 실행 경로 검증에 새로운 패러다임을 제시하는 연구다.

Who Should Read

LLM 기반 에이전트 시스템을 개발 중인 엔지니어, 특히 에이전트의 행동 결과 예측이나 RL(강화학습) 기반 훈련 환경 구축에 관심 있는 AI 개발자.

Core Mechanics

World Model이란 에이전트가 현재 상태에서 어떤 행동을 했을 때 다음 상태가 어떻게 될지를 예측하는 모델이다. 기존 LLM은 자신의 행동이 환경에 미치는 영향을 제대로 추적하지 못했는데, 이 연구는 언어 모델로 그 역할을 하도록 만들었다.
Qwen-AgentWorld-35B-A3B(MoE 구조, 활성 파라미터 3B)와 Qwen-AgentWorld-397B-A17B(활성 파라미터 17B) 두 가지 모델을 공개했다. 35B 모델은 오픈 웨이트로 HuggingFace에 공개되어 있으며, Q4_K_M 양자화 버전은 RTX 4090(24GB)에서 150 토큰/초로 로컬 실행이 가능하다.
훈련 데이터로 7개 도메인의 실제 환경 인터랙션 trajectory(에이전트가 환경과 상호작용한 기록) 1000만 개 이상을 사용했다. 단순히 모델 구조만 바꾼 게 아니라 데이터 규모가 이 성능의 핵심 요인일 수 있다는 지적도 있다.
훈련은 세 단계로 구성된다. CPT(Continued Pre-Training)로 일반적인 세계 모델링 능력을 주입하고, SFT(지도 미세조정)로 다음 상태 예측 추론을 활성화하고, RL(강화학습)으로 시뮬레이션 정확도를 끌어올렸다. RL 단계에서는 규칙 기반 보상과 rubric(채점 기준) 기반 보상을 혼합한 방식을 사용했다.
평가 벤치마크로 'AgentWorldBench'를 새로 만들었다. 5개 프론티어 모델이 9개 기존 벤치마크에서 상호작용한 실제 데이터를 기반으로 구성했으며, Qwen-AgentWorld가 기존 프론티어 모델들을 유의미하게 앞선다고 주장하지만, 커뮤니티에서는 벤치마크 차트의 레이블 오류를 지적하며 결과 해석에 의문을 제기하기도 했다.
이 모델의 활용 방향은 두 가지다. 첫째, 에이전트 RL 훈련용 시뮬레이터로 쓰기 — 수천 개의 가상 환경을 시뮬레이션해서 실제 환경 없이도 에이전트를 훈련할 수 있다. 실제 환경만으로 훈련했을 때보다 성능이 더 높았다고 한다.
둘째, 에이전트 자체의 사전 훈련(warm-up)으로 활용하기 — World Model 훈련을 에이전트 파운데이션 모델의 사전 학습 단계로 사용하면 7개 에이전트 벤치마크에서 다운스트림 성능이 향상됐다. 즉 World Model 훈련이 에이전트 능력 자체를 높이는 데도 효과적이다.
long chain-of-thought reasoning(긴 사고 연쇄)을 활용해 환경 시뮬레이션을 수행한다. 단순히 다음 상태를 예측하는 게 아니라 추론 과정을 거쳐 예측하는 구조라 복잡한 환경 전이도 다룰 수 있다.

Evidence

커뮤니티에서 가장 실용적인 활용 방향으로 '검증(verification)' 역할을 주목하는 의견이 나왔다. 에이전트가 실행하려는 행동 경로를 World Model로 사전 시뮬레이션해서 제약 조건 위반 여부를 검증하면, 비용이 높은 LLM-as-a-Judge를 대체할 수 있을 것이라는 아이디어다.
소규모 MoE 모델이 워크플로우 상태를 제대로 추적하지 못하는 문제를 겪는 개발자가 공감을 표했다. 에이전트에게 '우리가 뭘 결정했었지'를 계속 상기시키느라 context를 낭비하는 문제가 World Model로 개선될 수 있을지 기대한다는 의견이다.
직접 open-ended 에이전트 시뮬레이션을 PoC로 구현해본 개발자의 경험담이 공유됐다. 주요 문제점으로 World Decoherence(시뮬레이션 세계의 일관성 붕괴), World Flatness(추상화 수준이 높아서 실세계에서 복합되는 작은 이벤트들을 반영 못함), 빈 컨텍스트에서 에이전트가 탐색을 시작하지 못하는 문제를 꼽았다.
벤치마크 신뢰성에 대한 의문도 제기됐다. 논문 Figure 1의 레이블이 명백히 잘못됐다는 지적이 있었고, 이게 전체 결과 해석의 신뢰도를 낮춘다는 반응이 나왔다. 또한 '10M trajectory 데이터 덕분에 성능이 좋은 거지, World Model 아키텍처 자체의 돌파구라고 보기 어렵다'는 회의적인 시각도 있었다.
모델이 HuggingFace에 오픈 웨이트로 공개돼 있고, Q4_K_M 양자화로 RTX 4090(24GB)에서 150 토큰/초로 돌린다는 실사용 경험이 공유됐다. 로컬 게이밍 GPU에서 실행 가능하다는 점이 주목받았다.

How to Apply

에이전트가 실행하려는 행동이 시스템 제약을 위반하는지 사전에 검증하고 싶다면, Qwen-AgentWorld를 시뮬레이터로 붙여서 행동 → 예측 상태 → 제약 검사 파이프라인을 구성할 수 있다. LLM-as-a-Judge보다 저렴하게 실행 경로를 필터링하는 용도로 쓸 수 있다.
에이전트 RL 훈련 환경을 구축할 때 실제 환경 API 비용이나 접근 제한이 문제라면, Qwen-AgentWorld를 환경 시뮬레이터로 사용해 가상 trajectory를 대량 생성하는 방식을 고려할 수 있다. 논문에 따르면 실제 환경만으로 훈련할 때보다 성능이 더 좋았다.
로컬 환경(RTX 4090 24GB)에서 빠르게 실험해보고 싶다면, HuggingFace의 Qwen/Qwen-AgentWorld-35B-A3B 모델을 Q4_K_M으로 양자화해 150 t/s 수준으로 바로 실행해볼 수 있다. 무거운 인프라 없이 World Model 개념을 검증하기에 적합하다.
멀티스텝 에이전트 워크플로우에서 소규모 MoE 모델이 상태를 잃어버리는 문제를 겪고 있다면, World Model을 상태 추적기로 활용하는 아키텍처를 실험해볼 수 있다. 현재 상태와 행동을 입력으로 넣어 다음 상태를 예측하게 하면 context 낭비 없이 상태를 유지하는 데 도움이 될 수 있다.

Terminology

World Model에이전트가 '내가 이 행동을 하면 세상이 어떻게 바뀔까'를 머릿속에서 시뮬레이션하는 능력. 체스 AI가 수를 두기 전에 다음 판세를 예측하는 것과 비슷하다.

MoE (Mixture of Experts)모델 전체를 항상 쓰지 않고 입력마다 관련 전문가 파트만 활성화하는 구조. 397B 파라미터지만 실제로는 17B만 활성화되어 훨씬 빠르고 저렴하게 실행된다.

Trajectory에이전트가 환경과 상호작용한 전체 기록. (상태 → 행동 → 다음 상태 → 행동 → ...) 순서로 이어지는 시퀀스로, RL 훈련의 핵심 데이터다.

CPT (Continued Pre-Training)이미 훈련된 모델에 새로운 도메인 데이터를 추가로 학습시키는 단계. 파인튜닝보다 앞서 진행되며 기본 능력을 확장하는 역할을 한다.

World Decoherence시뮬레이션된 가상 세계의 상태가 여러 스텝을 거치면서 일관성을 잃고 현실과 어긋나는 현상. 실제 세계라면 논리적으로 불가능한 상황이 시뮬레이션 안에서 발생하는 것.

LLM-as-a-Judge다른 LLM의 출력 품질을 LLM이 평가하는 방식. 사람 평가자 대신 모델을 심판으로 쓰는 것으로, 비용이 높고 일관성 문제가 있다.