DeepSeek-V3.2: 오픈 LLM의 새로운 프론티어
DeepSeek-v3.2: Pushing the frontier of open large language models [pdf]
TL;DR Highlight
DeepSeek이 685B 파라미터 오픈소스(MIT) 모델 V3.2로 GPT-5를 초과하는 추론 성능과 Gemini 3.0 Pro에 맞먹는 수준을 달성하면서 추론 효율성까지 크게 개선했다.
Who Should Read
오픈소스 LLM을 자체 인프라에서 운영하거나 평가 중인 ML 엔지니어, 또는 클로즈드 모델 API 비용을 줄이고 싶은 백엔드 개발자.
Core Mechanics
- DeepSeek-V3.2는 685B 파라미터 규모의 MoE(Mixture of Experts) 모델로, MIT 라이선스로 완전 공개됐다. 오픈소스 진영에서 최전선급 성능을 내는 모델이 나온 셈.
- 핵심 기술인 DSA(DeepSeek Sparse Attention)는 전체 컨텍스트 윈도우에 경량 인덱싱 모델을 먼저 돌리고, 상위 k개만 골라서 본격 attention을 계산하는 방식이다. softmax 없이 병렬로 돌리니까 long context에서 연산량이 확 줄어든다.
- 별도 체크포인트인 DeepSeek-V3.2-Speciale은 딥 리즈닝 전용 모델로, 2025 국제수학올림피아드(IMO)와 국제정보올림피아드(IOI)에서 금메달급 성능을 냈다. GPT-5를 넘고 Gemini 3.0 Pro와 동급이라고 주장한다.
- 벤치마크를 보면 AIME 2026에서 94.17%, GPQA Diamond 82.4%, MMLU Pro 85.0%, SWE Bench Resolved 70.0% 등 주요 지표에서 최상위권이다.
- 다만 Speciale 모델은 토큰을 훨씬 많이 쓴다. Codeforces 테스트에서 Gemini 3 대비 3.5배나 많은 토큰을 출력하는 것으로 나타났다. 정확도는 높지만 비용 효율은 트레이드오프가 있는 셈.
- 채팅 템플릿이 크게 바뀌었다. tool calling 포맷이 개편됐고, 'thinking with tools'라는 새 기능이 추가돼서 도구를 쓰면서 동시에 추론할 수 있다. Harmony 포맷과 유사한 구조를 채택했다.
- 대규모 에이전트 태스크 합성 파이프라인을 도입해서 tool-use 시나리오에 추론을 통합한 학습 데이터를 대량 생성했다. 복잡한 인터랙티브 환경에서의 일반화 성능이 올라간 핵심 요인.
- 추론(inference) 효율성도 이전 버전 대비 크게 개선됐다는 보고가 있다. DSA 덕분에 같은 컨텍스트 길이에서 더 적은 연산으로 처리 가능하다.
Evidence
- 오픈소스 모델이 클로즈드 모델과 성능 차이가 거의 없어진 상황에서, Google/Anthropic/OpenAI가 어떻게 수익을 낼 것인가에 대한 근본적 질문이 제기됐다. '에너지 비용이 가장 싼 인프라 소유자가 장기적 승자'라는 의견이 나왔다.
- 실제 사용자가 몇 시간 써본 후기로, 미국 빅테크 모델들과 충분히 경쟁력 있으며 GLM4.6이나 Kimi K2보다 낫다는 평가가 있었다. 무료 ChatGPT보다 낫다는 의견도 다수.
- DSA의 고정 크기 top-k가 long context에서 성능 저하 없이 작동하는 게 의외라는 기술적 토론이 있었다. 인덱싱 함수가 얼마나 높은 precision/recall을 달성하는지 의문을 제기하는 댓글이 달렸다.
- tau2-bench가 벤치마크에 포함된 것에 대해, 이 벤치마크 자체가 결함이 있어서 100% 달성이 구조적으로 불가능하다는 지적이 나왔다. 학습 데이터에 넣지 않는 한 만점은 불가능하다는 GitHub 이슈가 공유됐다.
- 685B 모델은 RTX 5090 4장($15K~20K)으로도 실용적 속도로 돌리기 어렵다는 현실적 한계가 지적됐다. 프론티어 모델이 하드코어 소비자 하드웨어 수준을 훨씬 초과했다는 의견.
How to Apply
- 현재 OpenAI/Anthropic API를 쓰는 서비스에서 비용 절감이 필요하다면, DeepSeek-V3.2를 vLLM 등으로 셀프 호스팅하거나 DeepSeek API를 통해 비교 테스트해볼 수 있다. MIT 라이선스라 상업 사용에 제약이 없다.
- 에이전트/tool-use 파이프라인을 구축 중이라면, V3.2의 'thinking with tools' 기능과 새 chat template을 검토해라. Harmony 포맷 호환이라 기존 GPT-OSS 파싱 로직을 재활용할 수 있다.
- long context 처리가 핵심인 RAG 파이프라인이라면, DSA(Sparse Attention)의 효율성 개선이 직접적으로 도움된다. 같은 GPU 예산으로 더 긴 컨텍스트를 처리할 수 있다.
- 코딩/수학 추론이 중요한 태스크에는 Speciale 체크포인트를 쓰되, 토큰 사용량이 3~5배 많다는 점을 비용 계산에 반영해야 한다. tool calling은 지원하지 않으니 추론 전용으로만 사용.
Code Example
import transformers
from encoding_dsv32 import encode_messages, parse_message_from_completion_text
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")
messages = [
{"role": "user", "content": "hello"},
{"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
{"role": "user", "content": "1+1=?"}
]
encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)
prompt = encode_messages(messages, **encode_config)
tokens = tokenizer.encode(prompt)Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.