DSpark: Speculative decoding accelerates LLM inference [pdf]

TL;DR Highlight

DeepSeek이 Speculative Decoding을 개선한 DSpark 기법을 공개했는데, 같은 시스템 용량 기준으로 사용자당 생성 속도가 57~78% 빨라졌다고 한다. 이게 DeepSeek이 경쟁사 대비 훨씬 싼 가격으로 Pro 모델을 제공할 수 있는 핵심 기술 중 하나일 가능성이 높다.

Who Should Read

LLM 서비스를 운영하면서 추론 속도와 비용 최적화에 관심 있는 ML 엔지니어나 인프라 엔지니어. 특히 Speculative Decoding 같은 추론 가속 기법을 프로덕션에 도입하려는 개발자.

Core Mechanics

DSpark는 Speculative Decoding(초안 모델이 여러 토큰을 미리 생성하면 본 모델이 한 번에 검증하는 기법)을 개선한 방식으로, DeepSeek-V4 모델 계열에 통합되어 있다.
같은 시스템 용량 기준으로 DSpark는 기존 방식 대비 사용자당 생성 속도를 57%~78% 더 빠르게 만들었다고 논문에서 밝히고 있다.
DeepSeek은 DSpark를 V4-Flash와 V4-Pro 두 모델에 모두 적용했으며, Hugging Face에 DeepSeek-V4-Flash-DSpark와 DeepSeek-V4-Pro-DSpark 이름으로 모델이 이미 공개되어 있다.
논문에서는 DSpark가 기존 베이스라인이 효율적으로 지원하지 못하는 '인터랙티비티 타겟(응답 지연 목표)'을 충족하면서도 유의미한 처리량을 유지한다는 점을 강조했다.
Speculative Decoding 자체는 2022년에 처음 논문으로 공개된 기법이며(arxiv 2211.17192), DSpark는 이를 DeepSeek의 대규모 MoE 구조와 서비스 환경에 맞게 개선하고 발전시킨 버전이다.
이 기술이 DeepSeek이 한 달 전 가격을 대폭 인하할 수 있었던 이유 중 하나로 추정되고 있으며, 경쟁사 대비 약 1/4 수준의 가격으로 Pro 모델을 제공할 수 있는 배경으로 보인다.
DeepSeek은 이번 DSpark 외에도 여러 편의 기술 논문을 꾸준히 공개해오고 있으며, 이 투명한 연구 공개 방식이 커뮤니티에서 높이 평가받고 있다.

Evidence

Hugging Face에 이미 DSpark가 통합된 모델이 올라와 있다는 정보가 공유됐다. Flash 버전(DeepSeek-V4-Flash-DSpark)과 Pro 버전(DeepSeek-V4-Pro-DSpark) 모두 올라와 있으며, 로컬 추론 도구인 DwarfStar에 통합될지 기대하는 의견도 있었다.
한 댓글 작성자는 지난 한 달간 Kilo Code에서 DeepSeek V4 Pro를 써봤는데 1.5B 토큰을 사용하고 40달러가 나왔다고 밝혔다. 대부분이 캐시 히트였다고는 하지만 상당히 저렴한 수준이라는 평가였다.
DSpark가 DeepSeek의 최근 가격 인하의 원인이 아니냐는 추측이 나왔다. 논문 타이밍이 가격 인하 시점과 맞물려 있고, Pro 모델을 경쟁사 대비 1/4 가격에 제공할 수 있는 기술적 배경이 이런 추론 최적화 기법들에 있을 것이라는 의견이 있었다.
원래 Speculative Decoding은 2022년에 공개된 기법이라는 지적이 있었고, DSpark는 그 개선 버전이라는 댓글이 달렸다. 논문 제목이 다소 오해를 불러일으킨다는 비판도 있었는데, 제목이 실제 논문 제목이 아니라 초록 첫 줄이기 때문이라는 설명도 함께 달렸다.
A100 GPU 기준 수치만 나와 있어 소비자용 GPU에서 재현해봤으면 좋겠다는 의견이 있었다. MTP(Multi-Token Prediction) 기법이 DGX Spark에서 50~100% 속도 향상을 가져왔다는 별개의 사례도 언급되면서, DSpark도 유사한 효과를 기대할 수 있을 것이라는 의견이 있었다.

How to Apply

로컬 또는 자체 호스팅 환경에서 DeepSeek 모델을 돌리고 있다면, Hugging Face에 공개된 DeepSeek-V4-Flash-DSpark 또는 DeepSeek-V4-Pro-DSpark 모델로 교체하는 것만으로 DSpark의 속도 이점을 바로 활용해볼 수 있다.
API 비용이 부담스러운 경우, DeepSeek V4 Pro API를 써보는 것도 현실적인 선택지다. 실사용 경험에 따르면 1.5B 토큰에 40달러 수준(캐시 포함)으로, 동급 모델을 제공하는 다른 서비스 대비 훨씬 저렴하게 운영할 수 있다.
자체 LLM 서비스에서 응답 지연이 병목이라면, DSpark 논문을 참고해서 Speculative Decoding을 도입하거나 개선하는 방향을 검토할 수 있다. 특히 인터랙티브한 사용 환경(실시간 대화형 서비스)에서 기존 방식이 지원하지 못했던 지연 목표를 충족시키는 데 효과적이다.
Speculative Decoding을 처음 접하는 경우라면, 2022년 원조 논문(arxiv 2211.17192)을 먼저 읽고 DSpark 논문을 보는 순서로 접근하면 개선 포인트를 훨씬 명확하게 이해할 수 있다.

Terminology

Speculative Decoding작은 초안 모델(draft model)이 여러 토큰을 빠르게 미리 생성하고, 큰 본 모델이 이를 한 번에 검증하는 방식. 본 모델을 매 토큰마다 풀로 돌리지 않아도 되니 전체 속도가 빨라진다.

MoE (Mixture of Experts)모델의 일부 파라미터만 선택적으로 활성화하는 구조. 전체 파라미터 수는 많아도 실제 연산은 일부만 하기 때문에 효율적이다. DeepSeek 계열 모델이 이 구조를 사용한다.

throughput시스템이 단위 시간당 처리할 수 있는 토큰 또는 요청의 양. 서버 비용 효율성과 직결된다.

interactivity target사용자가 체감하는 응답 지연의 목표치. 예를 들어 첫 토큰이 X초 안에 나와야 한다는 식의 기준.

draft modelSpeculative Decoding에서 빠르게 토큰 후보를 만들어내는 작은 보조 모델. 본 모델보다 훨씬 작고 빠르게 동작한다.

MTP (Multi-Token Prediction)한 번의 forward pass에서 여러 개의 다음 토큰을 동시에 예측하는 기법. Speculative Decoding과 결합하면 추론 속도를 더 높일 수 있다.