Mistral, Devstral 2와 Mistral Vibe CLI 출시 — 오픈소스 코드 에이전트의 새 기준
Mistral releases Devstral2 and Mistral Vibe CLI
TL;DR Highlight
Mistral이 Devstral 2(123B)와 Small 2(24B), Mistral Vibe를 공개하여 SWE-bench Verified 72.2%를 달성하면서 Claude Sonnet 대비 최대 7배 저렴한 오픈소스 코딩 성능을 제공한다.
Who Should Read
코드 에이전트나 agentic 개발 도구를 직접 구축·운영하는 백엔드/풀스택 개발자, 또는 Claude Code 같은 상용 CLI 대안을 탐색 중인 개발자.
Core Mechanics
- Devstral 2는 123B 파라미터의 dense transformer로 256K 컨텍스트 윈도우를 지원하며, SWE-bench Verified(실제 GitHub 이슈 해결 벤치마크)에서 72.2%를 기록해 오픈웨이트 모델 중 최상위권에 올랐다. 라이선스는 modified MIT.
- Devstral Small 2는 24B 파라미터로 같은 256K 컨텍스트를 지원하고 SWE-bench 68.0%를 달성했다. Mac 32GB RAM 또는 RTX 4090에서 로컬 실행이 가능하고 이미지 입력도 지원해 멀티모달 에이전트로도 활용 가능. 라이선스는 Apache 2.0.
- 크기 비교: Devstral 2(123B)는 DeepSeek V3.2 대비 5배, Kimi K2 대비 8배 작고, Devstral Small 2(24B)는 각각 28배·41배 작다. '작은 모델이 훨씬 큰 모델과 대등한 성능'이라는 점을 핵심 차별점으로 내세운다.
- 비용 효율성: 실제 업무 태스크 기준으로 Claude Sonnet 대비 최대 7배 저렴하다고 주장한다. API는 현재 무료로 제공 중.
- 인간 평가(Cline 스캐폴딩, 독립 어노테이션 업체 진행) 결과: Devstral 2가 DeepSeek V3.2를 42.8% vs 28.6% 승률로 앞섰으나, Claude Sonnet 4.5에는 여전히 뒤처지는 것으로 나타났다.
- Mistral Vibe CLI는 Apache 2.0 오픈소스 터미널 코딩 에이전트로, Textual 라이브러리 기반 TUI로 구현됐다. 파일 조작, 코드 검색, Git, 쉘 실행 도구를 내장하고 Agent Communication Protocol(ACP)을 통해 IDE 통합도 지원한다.
- Vibe CLI 주요 기능: `@파일명` 자동완성으로 파일 참조, `!`로 쉘 명령 실행, 슬래시 커맨드로 설정 변경, 전체 코드베이스 컨텍스트 기반 멀티파일 오케스트레이션 지원.
- Cline 파트너십 코멘트에 따르면 Devstral 2의 tool-calling 성공률이 최고의 클로즈드 모델 수준에 근접하며, 출시 첫 24시간 만에 170억 토큰이 소비됐다.
Evidence
- 한 사용자가 500KB 규모 프라이빗 프로젝트에 Devstral 2 CLI를 30분간 돌려봤는데, 버그 2개를 정확히 찾아 수정하고 소규모 기능 2개를 추가했다. 신규 버그 1개를 만들었지만 지적하자 첫 시도에 바로 고쳤다. '불필요한 코드를 마구 재작성하지 않고 최소한으로 변경한다'는 점을 긍정적으로 평가했다.
- 'Vibe CLI'라는 이름에 대한 비판이 많았다. '바이브 코딩은 LLM 출력을 무비판적으로 받아들이는 것인데, 전문적인 품질 관리가 필요한 업무에는 맞지 않는 이름'이라는 의견과 함께 '전문가용 AI 보조 도구(인간 지성을 대체하는 게 아닌 증강하는 도구)는 어디 있냐'는 질문이 나왔다.
- 성능 체감 평가: 한 개발자가 GPT-4.1, Sonnet 4.5, Gemini 3과 비교했을 때 '대략 Sonnet 4와 Sonnet 4.5 사이, 즉 Sonnet 4.3 정도'라고 표현했다. 복잡한 쿼리는 여전히 Sonnet 4.5나 Gemini 3을 쓰겠지만, 일상 코딩 태스크에는 충분히 전환할 의향이 생겼다고 밝혔다.
- MCP(Model Context Protocol) 연동 미지원 문제가 제기됐다. CLI 시작 화면에 '0 MCP Servers'가 표시되지만 실제 MCP 서버 설정 방법이 없고, `/mcp` 커맨드도 반응하지 않으며, 모델 자체가 MCP를 'Model Context Preservation'으로 잘못 설명했다는 경험담이 공유됐다.
- 가격 우위에 주목하는 시각도 있었다. '토큰당 Claude 대비 10배 저렴한 게 맞냐'는 질문이 올라왔고, EU 기반 개발자들 사이에서는 유럽 AI 주권 관점에서 Mistral 지지 분위기가 형성됐다. Arch Linux용 AUR 패키지, Nix flake 등 커뮤니티 패키징도 출시 직후 빠르게 등장했다.
How to Apply
- 로컬에서 오픈소스 코드 에이전트를 직접 돌리고 싶다면 Devstral Small 2(24B)를 Mac 32GB 또는 RTX 4090에서 실행해볼 수 있다. 온프레미스 배포나 도메인 특화 파인튜닝이 필요한 기업 환경에서도 Apache 2.0 라이선스로 상업적 활용이 가능하다.
- Claude Code 또는 유사 CLI 비용이 부담된다면 Mistral Vibe CLI를 대안으로 테스트해볼 수 있다. `curl -LsSf https://mistral.ai/vibe/install.sh | bash`로 설치하고, 현재 API 무료 기간 동안 실제 업무 태스크에서 성능을 검증해보는 것이 좋다.
- Simon Willison의 `llm` CLI 도구를 이미 쓰고 있다면 `llm install llm-mistral && llm mistral refresh` 후 `llm -m mistral/devstral-2512 '...'`로 바로 Devstral 2를 호출할 수 있다. 기존 워크플로우 변경 없이 모델만 교체해서 품질을 비교하기에 적합하다.
- Nix 환경이라면 `nix run github:numtide/llm-agents.nix#mistral-vibe`로 즉시 실행 가능하다. 커뮤니티 업데이트 주기가 일 1회로 빠른 편이므로 최신 버전 추적이 용이하다.
Code Example
# Mistral Vibe CLI 설치
curl -LsSf https://mistral.ai/vibe/install.sh | bash
# llm CLI로 Devstral 2 사용
llm install llm-mistral
llm mistral refresh
llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"
# Nix 사용자
nix run github:numtide/llm-agents.nix#mistral-vibeTerminology
관련 논문
adamsreview: Claude Code용 멀티 에이전트 PR 코드 리뷰 파이프라인
Claude Code에서 최대 7개의 병렬 서브 에이전트가 각각 다른 관점으로 PR을 리뷰하고, 자동 수정까지 해주는 오픈소스 플러그인이다. 기존 /review나 CodeRabbit보다 실제 버그를 더 많이 잡는다고 주장하지만 커뮤니티에서는 복잡도와 실효성에 대한 회의론도 나왔다.
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
AI Agent를 위한 Git: re_gent
AI 코딩 에이전트(Claude Code 등)가 수행한 모든 툴 호출을 자동으로 추적하고, 어떤 프롬프트가 어느 코드 줄을 작성했는지 blame까지 가능한 버전 관리 도구다.
Agent-Native CLI를 위한 설계 원칙 10가지
AI 에이전트가 CLI 도구를 더 잘 사용할 수 있도록 설계하는 원칙들을 정리한 글로, 에이전트가 CLI를 도구로 활용하는 빈도가 높아지면서 이 설계 방식이 실용적으로 중요해지고 있다.
Agent-harness-kit: MCP 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
여러 AI 에이전트가 서로 역할을 나눠 협업할 수 있도록 조율하는 scaffolding 도구로, Vite처럼 설정 없이 빠르게 멀티 에이전트 파이프라인을 구성할 수 있다.
Tilde.run – AI Agent를 위한 트랜잭션 기반 버전 관리 파일시스템 샌드박스
AI 에이전트가 실제 프로덕션 데이터를 건드려도 롤백할 수 있는 격리된 샌드박스 환경을 제공하는 도구로, GitHub/S3/Google Drive를 하나의 버전 관리 파일시스템으로 묶어준다.