DSpark: Speculative Decoding으로 LLM 추론 속도를 획기적으로 높인 DeepSeek의 새 논문
DSpark: Speculative decoding accelerates LLM inference [pdf]
TL;DR Highlight
DeepSeek이 Speculative Decoding을 개선한 DSpark 기법을 공개했는데, 같은 시스템 용량 기준으로 사용자당 생성 속도가 57~78% 빨라졌다고 한다. 이게 DeepSeek이 경쟁사 대비 훨씬 싼 가격으로 Pro 모델을 제공할 수 있는 핵심 기술 중 하나일 가능성이 높다.
Who Should Read
LLM 서비스를 운영하면서 추론 속도와 비용 최적화에 관심 있는 ML 엔지니어나 인프라 엔지니어. 특히 Speculative Decoding 같은 추론 가속 기법을 프로덕션에 도입하려는 개발자.
Core Mechanics
- DSpark는 Speculative Decoding(초안 모델이 여러 토큰을 미리 생성하면 본 모델이 한 번에 검증하는 기법)을 개선한 방식으로, DeepSeek-V4 모델 계열에 통합되어 있다.
- 같은 시스템 용량 기준으로 DSpark는 기존 방식 대비 사용자당 생성 속도를 57%~78% 더 빠르게 만들었다고 논문에서 밝히고 있다.
- DeepSeek은 DSpark를 V4-Flash와 V4-Pro 두 모델에 모두 적용했으며, Hugging Face에 DeepSeek-V4-Flash-DSpark와 DeepSeek-V4-Pro-DSpark 이름으로 모델이 이미 공개되어 있다.
- 논문에서는 DSpark가 기존 베이스라인이 효율적으로 지원하지 못하는 '인터랙티비티 타겟(응답 지연 목표)'을 충족하면서도 유의미한 처리량을 유지한다는 점을 강조했다.
- Speculative Decoding 자체는 2022년에 처음 논문으로 공개된 기법이며(arxiv 2211.17192), DSpark는 이를 DeepSeek의 대규모 MoE 구조와 서비스 환경에 맞게 개선하고 발전시킨 버전이다.
- 이 기술이 DeepSeek이 한 달 전 가격을 대폭 인하할 수 있었던 이유 중 하나로 추정되고 있으며, 경쟁사 대비 약 1/4 수준의 가격으로 Pro 모델을 제공할 수 있는 배경으로 보인다.
- DeepSeek은 이번 DSpark 외에도 여러 편의 기술 논문을 꾸준히 공개해오고 있으며, 이 투명한 연구 공개 방식이 커뮤니티에서 높이 평가받고 있다.
Evidence
- Hugging Face에 이미 DSpark가 통합된 모델이 올라와 있다는 정보가 공유됐다. Flash 버전(DeepSeek-V4-Flash-DSpark)과 Pro 버전(DeepSeek-V4-Pro-DSpark) 모두 올라와 있으며, 로컬 추론 도구인 DwarfStar에 통합될지 기대하는 의견도 있었다.
- 한 댓글 작성자는 지난 한 달간 Kilo Code에서 DeepSeek V4 Pro를 써봤는데 1.5B 토큰을 사용하고 40달러가 나왔다고 밝혔다. 대부분이 캐시 히트였다고는 하지만 상당히 저렴한 수준이라는 평가였다.
- DSpark가 DeepSeek의 최근 가격 인하의 원인이 아니냐는 추측이 나왔다. 논문 타이밍이 가격 인하 시점과 맞물려 있고, Pro 모델을 경쟁사 대비 1/4 가격에 제공할 수 있는 기술적 배경이 이런 추론 최적화 기법들에 있을 것이라는 의견이 있었다.
- 원래 Speculative Decoding은 2022년에 공개된 기법이라는 지적이 있었고, DSpark는 그 개선 버전이라는 댓글이 달렸다. 논문 제목이 다소 오해를 불러일으킨다는 비판도 있었는데, 제목이 실제 논문 제목이 아니라 초록 첫 줄이기 때문이라는 설명도 함께 달렸다.
- A100 GPU 기준 수치만 나와 있어 소비자용 GPU에서 재현해봤으면 좋겠다는 의견이 있었다. MTP(Multi-Token Prediction) 기법이 DGX Spark에서 50~100% 속도 향상을 가져왔다는 별개의 사례도 언급되면서, DSpark도 유사한 효과를 기대할 수 있을 것이라는 의견이 있었다.
How to Apply
- 로컬 또는 자체 호스팅 환경에서 DeepSeek 모델을 돌리고 있다면, Hugging Face에 공개된 DeepSeek-V4-Flash-DSpark 또는 DeepSeek-V4-Pro-DSpark 모델로 교체하는 것만으로 DSpark의 속도 이점을 바로 활용해볼 수 있다.
- API 비용이 부담스러운 경우, DeepSeek V4 Pro API를 써보는 것도 현실적인 선택지다. 실사용 경험에 따르면 1.5B 토큰에 40달러 수준(캐시 포함)으로, 동급 모델을 제공하는 다른 서비스 대비 훨씬 저렴하게 운영할 수 있다.
- 자체 LLM 서비스에서 응답 지연이 병목이라면, DSpark 논문을 참고해서 Speculative Decoding을 도입하거나 개선하는 방향을 검토할 수 있다. 특히 인터랙티브한 사용 환경(실시간 대화형 서비스)에서 기존 방식이 지원하지 못했던 지연 목표를 충족시키는 데 효과적이다.
- Speculative Decoding을 처음 접하는 경우라면, 2022년 원조 논문(arxiv 2211.17192)을 먼저 읽고 DSpark 논문을 보는 순서로 접근하면 개선 포인트를 훨씬 명확하게 이해할 수 있다.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.