Mistral, Devstral 2와 Mistral Vibe CLI 출시 — 오픈소스 코드 에이전트의 새 기준 | AI Paper Digest

TL;DR Highlight

Mistral이 Devstral 2(123B)와 Small 2(24B), Mistral Vibe를 공개하여 SWE-bench Verified 72.2%를 달성하면서 Claude Sonnet 대비 최대 7배 저렴한 오픈소스 코딩 성능을 제공한다.

Who Should Read

코드 에이전트나 agentic 개발 도구를 직접 구축·운영하는 백엔드/풀스택 개발자, 또는 Claude Code 같은 상용 CLI 대안을 탐색 중인 개발자.

Core Mechanics

Devstral 2는 123B 파라미터의 dense transformer로 256K 컨텍스트 윈도우를 지원하며, SWE-bench Verified(실제 GitHub 이슈 해결 벤치마크)에서 72.2%를 기록해 오픈웨이트 모델 중 최상위권에 올랐다. 라이선스는 modified MIT.
Devstral Small 2는 24B 파라미터로 같은 256K 컨텍스트를 지원하고 SWE-bench 68.0%를 달성했다. Mac 32GB RAM 또는 RTX 4090에서 로컬 실행이 가능하고 이미지 입력도 지원해 멀티모달 에이전트로도 활용 가능. 라이선스는 Apache 2.0.
크기 비교: Devstral 2(123B)는 DeepSeek V3.2 대비 5배, Kimi K2 대비 8배 작고, Devstral Small 2(24B)는 각각 28배·41배 작다. '작은 모델이 훨씬 큰 모델과 대등한 성능'이라는 점을 핵심 차별점으로 내세운다.
비용 효율성: 실제 업무 태스크 기준으로 Claude Sonnet 대비 최대 7배 저렴하다고 주장한다. API는 현재 무료로 제공 중.
인간 평가(Cline 스캐폴딩, 독립 어노테이션 업체 진행) 결과: Devstral 2가 DeepSeek V3.2를 42.8% vs 28.6% 승률로 앞섰으나, Claude Sonnet 4.5에는 여전히 뒤처지는 것으로 나타났다.
Mistral Vibe CLI는 Apache 2.0 오픈소스 터미널 코딩 에이전트로, Textual 라이브러리 기반 TUI로 구현됐다. 파일 조작, 코드 검색, Git, 쉘 실행 도구를 내장하고 Agent Communication Protocol(ACP)을 통해 IDE 통합도 지원한다.
Vibe CLI 주요 기능: `@파일명` 자동완성으로 파일 참조, `!`로 쉘 명령 실행, 슬래시 커맨드로 설정 변경, 전체 코드베이스 컨텍스트 기반 멀티파일 오케스트레이션 지원.
Cline 파트너십 코멘트에 따르면 Devstral 2의 tool-calling 성공률이 최고의 클로즈드 모델 수준에 근접하며, 출시 첫 24시간 만에 170억 토큰이 소비됐다.

Evidence

한 사용자가 500KB 규모 프라이빗 프로젝트에 Devstral 2 CLI를 30분간 돌려봤는데, 버그 2개를 정확히 찾아 수정하고 소규모 기능 2개를 추가했다. 신규 버그 1개를 만들었지만 지적하자 첫 시도에 바로 고쳤다. '불필요한 코드를 마구 재작성하지 않고 최소한으로 변경한다'는 점을 긍정적으로 평가했다.
'Vibe CLI'라는 이름에 대한 비판이 많았다. '바이브 코딩은 LLM 출력을 무비판적으로 받아들이는 것인데, 전문적인 품질 관리가 필요한 업무에는 맞지 않는 이름'이라는 의견과 함께 '전문가용 AI 보조 도구(인간 지성을 대체하는 게 아닌 증강하는 도구)는 어디 있냐'는 질문이 나왔다.
성능 체감 평가: 한 개발자가 GPT-4.1, Sonnet 4.5, Gemini 3과 비교했을 때 '대략 Sonnet 4와 Sonnet 4.5 사이, 즉 Sonnet 4.3 정도'라고 표현했다. 복잡한 쿼리는 여전히 Sonnet 4.5나 Gemini 3을 쓰겠지만, 일상 코딩 태스크에는 충분히 전환할 의향이 생겼다고 밝혔다.
MCP(Model Context Protocol) 연동 미지원 문제가 제기됐다. CLI 시작 화면에 '0 MCP Servers'가 표시되지만 실제 MCP 서버 설정 방법이 없고, `/mcp` 커맨드도 반응하지 않으며, 모델 자체가 MCP를 'Model Context Preservation'으로 잘못 설명했다는 경험담이 공유됐다.
가격 우위에 주목하는 시각도 있었다. '토큰당 Claude 대비 10배 저렴한 게 맞냐'는 질문이 올라왔고, EU 기반 개발자들 사이에서는 유럽 AI 주권 관점에서 Mistral 지지 분위기가 형성됐다. Arch Linux용 AUR 패키지, Nix flake 등 커뮤니티 패키징도 출시 직후 빠르게 등장했다.

How to Apply

로컬에서 오픈소스 코드 에이전트를 직접 돌리고 싶다면 Devstral Small 2(24B)를 Mac 32GB 또는 RTX 4090에서 실행해볼 수 있다. 온프레미스 배포나 도메인 특화 파인튜닝이 필요한 기업 환경에서도 Apache 2.0 라이선스로 상업적 활용이 가능하다.
Claude Code 또는 유사 CLI 비용이 부담된다면 Mistral Vibe CLI를 대안으로 테스트해볼 수 있다. `curl -LsSf https://mistral.ai/vibe/install.sh | bash`로 설치하고, 현재 API 무료 기간 동안 실제 업무 태스크에서 성능을 검증해보는 것이 좋다.
Simon Willison의 `llm` CLI 도구를 이미 쓰고 있다면 `llm install llm-mistral && llm mistral refresh` 후 `llm -m mistral/devstral-2512 '...'`로 바로 Devstral 2를 호출할 수 있다. 기존 워크플로우 변경 없이 모델만 교체해서 품질을 비교하기에 적합하다.
Nix 환경이라면 `nix run github:numtide/llm-agents.nix#mistral-vibe`로 즉시 실행 가능하다. 커뮤니티 업데이트 주기가 일 1회로 빠른 편이므로 최신 버전 추적이 용이하다.

Code Example

snippet

# Mistral Vibe CLI 설치
curl -LsSf https://mistral.ai/vibe/install.sh | bash

# llm CLI로 Devstral 2 사용
llm install llm-mistral
llm mistral refresh
llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"

# Nix 사용자
nix run github:numtide/llm-agents.nix#mistral-vibe

Terminology

SWE-bench Verified실제 GitHub 오픈소스 프로젝트의 이슈를 모델이 자동으로 해결하는 벤치마크. 점수가 높을수록 실제 코드베이스에서 버그를 잘 찾고 고친다는 의미.

dense transformer모든 파라미터가 모든 입력에 활성화되는 일반적인 Transformer 구조. 일부만 활성화되는 MoE(Mixture of Experts)와 대비되는 개념으로, 같은 파라미터 수라면 추론 비용이 더 높다.

agentic coding모델이 단순히 코드 스니펫을 생성하는 것을 넘어, 파일 읽기·수정·테스트 실행·오류 수정을 반복하며 스스로 태스크를 완수하는 방식.

ACP (Agent Communication Protocol)에이전트 간 또는 에이전트와 IDE 간 통신을 위한 프로토콜. Vibe CLI가 이를 통해 터미널 외부의 도구와 연동된다.

MCP (Model Context Protocol)Anthropic이 주도하는 표준으로, LLM이 외부 도구·데이터소스와 상호작용하는 방식을 정의한 프로토콜. Claude Code 등에서 플러그인처럼 로컬 서버를 붙일 때 사용한다.

on-prem deployment클라우드 API 대신 자체 서버나 로컬 하드웨어에 모델을 직접 올려 실행하는 방식. 데이터 외부 전송 없이 완전한 프라이버시 보장이 가능하다.

Mistral, Devstral 2와 Mistral Vibe CLI 출시 — 오픈소스 코드 에이전트의 새 기준