Qwen3-Coder: 오픈소스 Agentic Coding 모델 공개

TL;DR Highlight

Qwen3-Coder(480B MoE 구조)는 Claude Sonnet 4급의 코딩 성능을 달성하면서 로컬 실행도 가능하다.

Who Should Read

Claude Code나 Cline 같은 AI 코딩 에이전트를 쓰고 있는데 API 비용이 부담되거나, 오픈소스 모델로 자체 호스팅을 고려 중인 개발자.

Core Mechanics

Qwen3-Coder-480B-A35B-Instruct는 총 480B 파라미터지만 MoE(Mixture-of-Experts, 입력에 따라 일부 전문가 모듈만 활성화하는 구조) 방식이라 실제 활성 파라미터는 35B뿐이다. 덕분에 전체 크기 대비 훨씬 적은 리소스로 추론이 가능하다.
컨텍스트 길이가 기본 256K 토큰, YaRN 확장 시 최대 1M 토큰까지 지원돼서 레포 전체를 컨텍스트에 넣고 작업하는 에이전틱 코딩에 유리하다.
사전학습에 7.5T 토큰(코드 비율 70%)을 사용했고, Qwen2.5-Coder로 노이즈 데이터를 정제·재작성해 데이터 품질을 높였다.
후처리 단계에서 경쟁 프로그래밍 문제 대신 실제 개발 업무에 가까운 다양한 코딩 태스크로 강화학습(Code RL)을 확장했다. '풀기는 어렵지만 검증은 쉬운' 태스크가 RL에 적합하다는 접근이다.
Long-horizon RL(Agent RL)이라는 방식으로 다단계 도구 호출·피드백·의사결정을 학습시켰는데, 알리바바 클라우드 인프라로 2만 개 독립 환경을 병렬 운영해 스케일을 확보했다. SWE-Bench Verified에서 오픈소스 모델 중 SOTA를 달성했다.
Agentic Coding, Agentic Browser-Use, Agentic Tool-Use 벤치마크에서 오픈 모델 최고 성능을 기록했고, Claude Sonnet 4와 비슷한 수준이라고 주장한다.
Gemini CLI를 포크한 'Qwen Code'라는 CLI 도구도 함께 오픈소스로 공개했다. OpenAI SDK 호환 API를 지원해 Claude Code, Cline 등 기존 도구에서도 바로 사용 가능하다.
더 작은 사이즈 모델도 추후 공개 예정이어서, 로컬 실행용 소형 모델에 대한 기대도 크다.

Evidence

Unsloth 팀이 2bit~8bit GGUF 양자화 모델을 바로 만들어 배포 중이며, 24GB GPU + 128~256GB RAM 환경에서 로컬 실행하는 가이드도 제공하고 있다. 4bit 양자화 모델을 Mac Studio 512GB에서 돌린 사용자는 첫 토큰까지 7~8분 걸렸지만, 도구 호출과 복잡한 블로그 작성 자동화 태스크를 잘 수행했다고 보고했다. 다만 실제 코드 작업에서는 없는 메서드를 만들어내는 할루시네이션이 있었다고.
Cline에서 tool calling limit을 100으로 올리고 사용해본 유저는 vLLM 기본 설정만으로도 모바일 앱 빌드, 린터 에러 수정 등을 문제없이 수행했다며 '하루 종일 써봤는데 잘 된다'고 평가했다. Claude Code에서 claude-code-router를 통해 연결해본 유저도 'Claude 4와 비슷한 느낌'이라고 했다.
AGENTS.md 파일 난립 문제에 대한 불만이 나왔다. Qwen은 QWEN.md를 넣으라 하고, 다른 에이전트들도 각자 고유 설정 파일을 요구하니 팀 레포에서 중복 마크다운 파일이 쌓인다는 지적이다.
대규모 Claude Code 사용자들이 로컬 호스팅으로 전환하면 비용 절감이 될 수 있다는 논의가 있었다. 6명 정도 팀이 공유 인스턴스를 운영하면 경제적일 수 있다는 의견.
OpenRouter에도 바로 등록되어 API로 사용 가능하며, SWE-Bench에서 OpenHands를 scaffold로 사용한 점도 긍정적으로 평가받았다. 비공개 scaffold 대신 공개 도구를 써서 벤치마크 재현성이 높다는 점이 좋다는 반응.

How to Apply

Claude Code나 Cline에서 API 비용이 부담되면, OpenRouter(openrouter.ai/qwen/qwen3-coder)나 알리바바 DashScope API를 통해 Qwen3-Coder를 백엔드 모델로 교체해볼 수 있다. OpenAI SDK 호환이라 OPENAI_BASE_URL과 OPENAI_MODEL만 바꾸면 된다.
GPU + 대용량 RAM(128GB+) 환경이 있다면 Unsloth의 GGUF 양자화 모델을 다운받아 vLLM으로 로컬 서빙하면 API 비용 없이 팀 공유 인스턴스를 운영할 수 있다. 특히 MoE 구조라 활성 파라미터가 35B뿐이어서 전체 크기 대비 실행 부담이 낮다.
레포 전체를 컨텍스트에 넣어야 하는 대규모 코드베이스 작업이 있다면, 256K 기본 컨텍스트를 활용해 SWE-Bench 스타일의 멀티턴 에이전틱 태스크를 시도해볼 만하다.
Qwen Code CLI를 설치(npm i -g @qwen-code/qwen-code)해서 터미널에서 바로 에이전틱 코딩을 체험해볼 수 있다. Gemini CLI 포크라 인터페이스가 익숙할 것이다.

Code Example

snippet

# Qwen Code 설치 및 설정
npm i -g @qwen-code/qwen-code

# 환경변수 설정 (.env 파일 또는 export)
export OPENAI_API_KEY="your_api_key_here"
export OPENAI_BASE_URL="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
export OPENAI_MODEL="qwen3-coder-plus"

# 실행
qwen

Terminology

MoEMixture-of-Experts. 모델 전체 파라미터 중 일부 '전문가' 모듈만 골라서 활성화하는 구조. 480B 전체를 다 쓰는 게 아니라 35B만 켜서 추론하니 비용과 속도 면에서 유리하다.

SWE-Bench실제 GitHub 이슈를 주고 모델이 코드를 수정해 해결하는 벤치마크. 단순 코드 생성이 아니라 레포 이해, 디버깅, 테스트 통과까지 요구한다.

YaRN컨텍스트 길이를 학습 시점보다 더 길게 확장하는 기법. 위치 임베딩을 보간해서 256K로 학습한 모델이 1M 토큰까지 처리할 수 있게 해준다.

GGUFllama.cpp에서 사용하는 모델 파일 포맷. 양자화된 모델을 로컬 GPU/CPU에서 바로 돌릴 수 있게 해주는 표준 형식이다.

Long-horizon RL한 번의 응답이 아니라 여러 턴에 걸쳐 도구를 호출하고 피드백을 받으며 문제를 해결하는 과정 전체를 강화학습으로 훈련하는 방식.