DeepSeek-V3.2: 오픈 LLM의 새로운 프론티어

TL;DR Highlight

DeepSeek이 685B 파라미터 오픈소스(MIT) 모델 V3.2로 GPT-5를 초과하는 추론 성능과 Gemini 3.0 Pro에 맞먹는 수준을 달성하면서 추론 효율성까지 크게 개선했다.

Who Should Read

오픈소스 LLM을 자체 인프라에서 운영하거나 평가 중인 ML 엔지니어, 또는 클로즈드 모델 API 비용을 줄이고 싶은 백엔드 개발자.

Core Mechanics

DeepSeek-V3.2는 685B 파라미터 규모의 MoE(Mixture of Experts) 모델로, MIT 라이선스로 완전 공개됐다. 오픈소스 진영에서 최전선급 성능을 내는 모델이 나온 셈.
핵심 기술인 DSA(DeepSeek Sparse Attention)는 전체 컨텍스트 윈도우에 경량 인덱싱 모델을 먼저 돌리고, 상위 k개만 골라서 본격 attention을 계산하는 방식이다. softmax 없이 병렬로 돌리니까 long context에서 연산량이 확 줄어든다.
별도 체크포인트인 DeepSeek-V3.2-Speciale은 딥 리즈닝 전용 모델로, 2025 국제수학올림피아드(IMO)와 국제정보올림피아드(IOI)에서 금메달급 성능을 냈다. GPT-5를 넘고 Gemini 3.0 Pro와 동급이라고 주장한다.
벤치마크를 보면 AIME 2026에서 94.17%, GPQA Diamond 82.4%, MMLU Pro 85.0%, SWE Bench Resolved 70.0% 등 주요 지표에서 최상위권이다.
다만 Speciale 모델은 토큰을 훨씬 많이 쓴다. Codeforces 테스트에서 Gemini 3 대비 3.5배나 많은 토큰을 출력하는 것으로 나타났다. 정확도는 높지만 비용 효율은 트레이드오프가 있는 셈.
채팅 템플릿이 크게 바뀌었다. tool calling 포맷이 개편됐고, 'thinking with tools'라는 새 기능이 추가돼서 도구를 쓰면서 동시에 추론할 수 있다. Harmony 포맷과 유사한 구조를 채택했다.
대규모 에이전트 태스크 합성 파이프라인을 도입해서 tool-use 시나리오에 추론을 통합한 학습 데이터를 대량 생성했다. 복잡한 인터랙티브 환경에서의 일반화 성능이 올라간 핵심 요인.
추론(inference) 효율성도 이전 버전 대비 크게 개선됐다는 보고가 있다. DSA 덕분에 같은 컨텍스트 길이에서 더 적은 연산으로 처리 가능하다.

Evidence

오픈소스 모델이 클로즈드 모델과 성능 차이가 거의 없어진 상황에서, Google/Anthropic/OpenAI가 어떻게 수익을 낼 것인가에 대한 근본적 질문이 제기됐다. '에너지 비용이 가장 싼 인프라 소유자가 장기적 승자'라는 의견이 나왔다.
실제 사용자가 몇 시간 써본 후기로, 미국 빅테크 모델들과 충분히 경쟁력 있으며 GLM4.6이나 Kimi K2보다 낫다는 평가가 있었다. 무료 ChatGPT보다 낫다는 의견도 다수.
DSA의 고정 크기 top-k가 long context에서 성능 저하 없이 작동하는 게 의외라는 기술적 토론이 있었다. 인덱싱 함수가 얼마나 높은 precision/recall을 달성하는지 의문을 제기하는 댓글이 달렸다.
tau2-bench가 벤치마크에 포함된 것에 대해, 이 벤치마크 자체가 결함이 있어서 100% 달성이 구조적으로 불가능하다는 지적이 나왔다. 학습 데이터에 넣지 않는 한 만점은 불가능하다는 GitHub 이슈가 공유됐다.
685B 모델은 RTX 5090 4장($15K~20K)으로도 실용적 속도로 돌리기 어렵다는 현실적 한계가 지적됐다. 프론티어 모델이 하드코어 소비자 하드웨어 수준을 훨씬 초과했다는 의견.

How to Apply

현재 OpenAI/Anthropic API를 쓰는 서비스에서 비용 절감이 필요하다면, DeepSeek-V3.2를 vLLM 등으로 셀프 호스팅하거나 DeepSeek API를 통해 비교 테스트해볼 수 있다. MIT 라이선스라 상업 사용에 제약이 없다.
에이전트/tool-use 파이프라인을 구축 중이라면, V3.2의 'thinking with tools' 기능과 새 chat template을 검토해라. Harmony 포맷 호환이라 기존 GPT-OSS 파싱 로직을 재활용할 수 있다.
long context 처리가 핵심인 RAG 파이프라인이라면, DSA(Sparse Attention)의 효율성 개선이 직접적으로 도움된다. 같은 GPU 예산으로 더 긴 컨텍스트를 처리할 수 있다.
코딩/수학 추론이 중요한 태스크에는 Speciale 체크포인트를 쓰되, 토큰 사용량이 3~5배 많다는 점을 비용 계산에 반영해야 한다. tool calling은 지원하지 않으니 추론 전용으로만 사용.

Code Example

snippet

import transformers
from encoding_dsv32 import encode_messages, parse_message_from_completion_text

tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"}
]
encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)

prompt = encode_messages(messages, **encode_config)
tokens = tokenizer.encode(prompt)

Terminology

MoEMixture of Experts. 모델 전체를 다 쓰지 않고 입력에 따라 전문가 서브네트워크 몇 개만 골라서 활성화하는 방식. 파라미터는 많지만 실제 연산량은 적다.

DSA (DeepSeek Sparse Attention)전체 토큰에 다 attention을 주는 대신, 가벼운 인덱싱 모델로 중요한 토큰만 먼저 골라내고 그것만 정밀 계산하는 기법. 긴 문서 처리 속도가 빨라진다.

Sparse Attention모든 토큰 쌍을 계산하는 대신 일부만 선택적으로 계산하는 attention 방식. 연산량을 O(n²)에서 크게 줄일 수 있다.

Harmony여러 AI 모델의 채팅 포맷(tool calling, 멀티턴 등)을 통일하려는 오픈 표준. GPT-OSS 등에서 사용되며, 파싱 코드를 모델 간에 재활용할 수 있게 해준다.

AIME미국 수학 초대 시험(American Invitational Mathematics Examination). LLM의 수학 추론 능력을 측정하는 벤치마크로 자주 쓰인다.

SWE-bench실제 GitHub 이슈를 모델이 자동으로 해결하는 능력을 측정하는 소프트웨어 엔지니어링 벤치마크.