DeepSeek-V3.2: 오픈 LLM의 새로운 프론티어
DeepSeek-v3.2: Pushing the frontier of open large language models [pdf]
TL;DR Highlight
DeepSeek이 685B 파라미터 오픈소스(MIT) 모델 V3.2로 GPT-5를 초과하는 추론 성능과 Gemini 3.0 Pro에 맞먹는 수준을 달성하면서 추론 효율성까지 크게 개선했다.
Who Should Read
오픈소스 LLM을 자체 인프라에서 운영하거나 평가 중인 ML 엔지니어, 또는 클로즈드 모델 API 비용을 줄이고 싶은 백엔드 개발자.
Core Mechanics
- DeepSeek-V3.2는 685B 파라미터 규모의 MoE(Mixture of Experts) 모델로, MIT 라이선스로 완전 공개됐다. 오픈소스 진영에서 최전선급 성능을 내는 모델이 나온 셈.
- 핵심 기술인 DSA(DeepSeek Sparse Attention)는 전체 컨텍스트 윈도우에 경량 인덱싱 모델을 먼저 돌리고, 상위 k개만 골라서 본격 attention을 계산하는 방식이다. softmax 없이 병렬로 돌리니까 long context에서 연산량이 확 줄어든다.
- 별도 체크포인트인 DeepSeek-V3.2-Speciale은 딥 리즈닝 전용 모델로, 2025 국제수학올림피아드(IMO)와 국제정보올림피아드(IOI)에서 금메달급 성능을 냈다. GPT-5를 넘고 Gemini 3.0 Pro와 동급이라고 주장한다.
- 벤치마크를 보면 AIME 2026에서 94.17%, GPQA Diamond 82.4%, MMLU Pro 85.0%, SWE Bench Resolved 70.0% 등 주요 지표에서 최상위권이다.
- 다만 Speciale 모델은 토큰을 훨씬 많이 쓴다. Codeforces 테스트에서 Gemini 3 대비 3.5배나 많은 토큰을 출력하는 것으로 나타났다. 정확도는 높지만 비용 효율은 트레이드오프가 있는 셈.
- 채팅 템플릿이 크게 바뀌었다. tool calling 포맷이 개편됐고, 'thinking with tools'라는 새 기능이 추가돼서 도구를 쓰면서 동시에 추론할 수 있다. Harmony 포맷과 유사한 구조를 채택했다.
- 대규모 에이전트 태스크 합성 파이프라인을 도입해서 tool-use 시나리오에 추론을 통합한 학습 데이터를 대량 생성했다. 복잡한 인터랙티브 환경에서의 일반화 성능이 올라간 핵심 요인.
- 추론(inference) 효율성도 이전 버전 대비 크게 개선됐다는 보고가 있다. DSA 덕분에 같은 컨텍스트 길이에서 더 적은 연산으로 처리 가능하다.
Evidence
- 오픈소스 모델이 클로즈드 모델과 성능 차이가 거의 없어진 상황에서, Google/Anthropic/OpenAI가 어떻게 수익을 낼 것인가에 대한 근본적 질문이 제기됐다. '에너지 비용이 가장 싼 인프라 소유자가 장기적 승자'라는 의견이 나왔다.
- 실제 사용자가 몇 시간 써본 후기로, 미국 빅테크 모델들과 충분히 경쟁력 있으며 GLM4.6이나 Kimi K2보다 낫다는 평가가 있었다. 무료 ChatGPT보다 낫다는 의견도 다수.
- DSA의 고정 크기 top-k가 long context에서 성능 저하 없이 작동하는 게 의외라는 기술적 토론이 있었다. 인덱싱 함수가 얼마나 높은 precision/recall을 달성하는지 의문을 제기하는 댓글이 달렸다.
- tau2-bench가 벤치마크에 포함된 것에 대해, 이 벤치마크 자체가 결함이 있어서 100% 달성이 구조적으로 불가능하다는 지적이 나왔다. 학습 데이터에 넣지 않는 한 만점은 불가능하다는 GitHub 이슈가 공유됐다.
- 685B 모델은 RTX 5090 4장($15K~20K)으로도 실용적 속도로 돌리기 어렵다는 현실적 한계가 지적됐다. 프론티어 모델이 하드코어 소비자 하드웨어 수준을 훨씬 초과했다는 의견.
How to Apply
- 현재 OpenAI/Anthropic API를 쓰는 서비스에서 비용 절감이 필요하다면, DeepSeek-V3.2를 vLLM 등으로 셀프 호스팅하거나 DeepSeek API를 통해 비교 테스트해볼 수 있다. MIT 라이선스라 상업 사용에 제약이 없다.
- 에이전트/tool-use 파이프라인을 구축 중이라면, V3.2의 'thinking with tools' 기능과 새 chat template을 검토해라. Harmony 포맷 호환이라 기존 GPT-OSS 파싱 로직을 재활용할 수 있다.
- long context 처리가 핵심인 RAG 파이프라인이라면, DSA(Sparse Attention)의 효율성 개선이 직접적으로 도움된다. 같은 GPU 예산으로 더 긴 컨텍스트를 처리할 수 있다.
- 코딩/수학 추론이 중요한 태스크에는 Speciale 체크포인트를 쓰되, 토큰 사용량이 3~5배 많다는 점을 비용 계산에 반영해야 한다. tool calling은 지원하지 않으니 추론 전용으로만 사용.
Code Example
import transformers
from encoding_dsv32 import encode_messages, parse_message_from_completion_text
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")
messages = [
{"role": "user", "content": "hello"},
{"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
{"role": "user", "content": "1+1=?"}
]
encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)
prompt = encode_messages(messages, **encode_config)
tokens = tokenizer.encode(prompt)Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.