DSpark: Speculative decoding을 활용한 LLM 추론 가속화

2026-06-28 · 2026-06-28_dspark-speculative-decoding-llm-inference.md

#AI #LLM #inference-optimization #speculative-decoding #deepseek #serving

원문 출처

DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation

  • 논문: DeepSeek-AI & Peking University
  • PDF: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
  • 저장소: https://github.com/deepseek-ai/DeepSpec (Eagle3, DFlash, DSpark 체크포인트 + 훈련 코드 공개)
  • Hugging Face: deepseek-ai/DeepSeek-V4-Flash-DSpark, deepseek-ai/DeepSeek-V4-Pro-DSpark
  • 날짜: 2026-06-28

개요

추측 디코딩(speculative decoding)은 경량 드래프트 모델이 후보 토큰 블록을 생성하면 본 모델(target model)이 단일 forward pass로 검증하는 방식으로 LLM 추론을 가속화한다. DSpark는 반자기회귀(semi-autoregressive) 구조로 병렬 드래프터의 속도 이점을 유지하면서도 토큰 간 의존성을 도입해 수용률(acceptance rate) 저하를 막고, 신뢰도 기반 스케줄링(confidence-scheduled verification)으로 검증 길이를 동적 조절해 시스템 효율을 극대화한다.

DeepSeek-V4 프로덕션 시스템에 실제 배포되어 기존 MTP-1 대비 사용자당 생성 속도를 60–85% 향상시켰고, 엄격한 지연 시간 제약 하에서 이전에는 불가능했던 성능 계층을 가능하게 했다.

배경

LLM은 자기회귀적으로 토큰을 생성하므로 출력 길이에 비례해 지연 시간이 증가한다. 추측 디코딩은 이 문제를 해결하기 위해:

  1. 드래프트 모델이 γ개 후보 토큰을 제안
  2. 본 모델이 단일 forward pass로 전체 블록을 검증
  3. 거절 샘플링으로 본 분포를 보존하면서 가장 긴 접두사를 채택

드래프터 아키텍처는 두 갈래로 발전해왔다:

  • 자기회귀 드래프터: 순차 생성 → 높은 수용률(𝜏)이지만, 𝑇draft ∝ γ로 블록 크기가 제한됨
  • 병렬 드래프터: 단일 pass로 모든 위치 생성 → 속도는 빠르지만 위치 간 독립성으로 인해 블록 후반부에서 수용률이 급격히 붕괴

DSpark 핵심 기술

1. 반자기회귀(Semi-Autoregressive) 생성

병렬 백본(DFlash 기반)이 전체 블록의 기본 로짓을 빠르게 생성하고, 경량 순차 모듈(Markov head 또는 단일 Transformer 레이어)이 이전에 샘플링된 토큰에 의존하는 전이 편향(𝐵𝑘)을 추가한다. 결과적으로:

  • 병렬 단계: 𝑇draft 거의 γ와 무관 — 빠름
  • 순차 단계: 𝑇sequential ≪ 𝑇parallel — 가벼움
  • 최종 분포: 𝑝𝑘(𝑣|𝑥₀, 𝑥<𝑘) = softmax(𝑈𝑘(𝑣) + 𝐵𝑘(𝑥₀, 𝑥<𝑘, 𝑣))

이 구조는 서픽스 붕괴(suffix decay)를 완화해 Macao-average accepted length가 Eagle3 대비 26.7–30.9%, DFlash 대비 16.3–18.3% 향상되었다.

2. 신뢰도 기반 검증 스케줄링 (Confidence-Scheduled Verification)

각 요청에 대해 신뢰도 헤드가 위치별 수용 확률을 추정하고, 하드웨어 인식 스케줄러가 추정치가 낮은 서픽스 토큰을 동적으로 제거한다. 이는:

  • 검증 폐기물(verification waste)을 최소화 — 높은 거절 위험 토큰에 배치 용량을 낭비하지 않음
  • 엄격한 상호작용성 SLA(예: Flash 120 TPS, Pro 50 TPS) 하에서도 처리량 붕괴를 방지
  • MTP-1 대비 동일 처리량에서 사용자당 생성 속도 57–85% 향상

3. 배포 현황

  • DeepSeek-V4 preview 출시 2주 후 MTP-1을 대체하여 프로덕션에 투입
  • V4-Flash 및 V4-Pro의 preview 버전과 공동 배포됨
  • 가격을 75% 인하한 것과 정확히 일치하는 시점
  • Lookahead Sparse Attention과 함께 메모리 소비를 대폭 절감

벤치마크 결과

  • Qwen3-4B/8B/14B 대상: DFlash 대비 accepted length 16.3–18.3% 향상, Eagle3 대비 26.7–30.9% 향상
  • DeepSeek-V4-Flash 실배포: 동일 용량에서 사용자당 속도 60–85% 향상
  • DeepSeek-V4-Pro 실배포: 동일 용량에서 사용자당 속도 57–78% 향상
  • 엄격한 상호작용성 제약(Flash 120 TPS, Pro 50 TPS)에서도 처리량 유지 — 이전 MTP-1은 이 조건에서 성능이 급격히 저하됨

---

Hacker News 커뮤니티 반응

원문: https://news.ycombinator.com/item?id=48696585 (719 points, 24개 최상위 댓글, 2026-06-27)

전반적으로 DeepSeek의 연구 공개 방식과 기술적 기여에 대한 긍정적 평가가 우세했으나, 추측 디코딩 자체가 새로운 개념이 아니라는 점, 지정학적⋅규제적 함의, 개방형 연구 대 폐쇄형 연구 간 비교 논쟁이 주요 축을 이뤘다.

---

### 1. DeepSeek의 지속적인 연구 공개와 공개 문화에 대한 찬사

주장: DeepSeek는 성능 향상을 달성했을 뿐 아니라 그 방법을 상세히 설명하는 훌륭한 논문까지 공개하고 있다. 미국 연구소들은 더 이상 이런 공개를 잘 하지 않으며, 현재 AI에서 가장 흥미로운 작업은 중국 연구소들이 주도하고 있다.

근거: DSpark 논문과 코드 저장소(DeepSpec), Hugging Face 체크포인트 모두 공개. V4 시리즈의 가격 인하와 성능 최적화를 투명하게 문서화.

반론 (otterley): "공개되지 않은 기술이 있다고 해서 회사들이 혁신하지 않는다고 단정할 수 없다. 영업비밀은 이유가 있어서 비밀이다. DeepSeek가 '가장 혁신적'으로 보이는 것은 바깥에서 관찰 가능한 정보가 그것뿐이기 때문일 수 있다 — 마치 모두가 사진을 공개하지 않는데 공개된 모델들만 보고 '인구 전체에서 가장 예쁘다'고 결론 내리는 것과 같다."

반론 (spongebobstoes, kcb): "대형 연구소들은 이미 최소 1년 전부터 이걸 해오고 있었다." "Gemma, Nemotron 같은 오픈 모델들도 이미 적용 중이다."

대표 작성자: StizzurpXDD, Havoc, segmondy

---

### 2. 추측 디코딩의 새로운 점 vs 기존 연구와의 차별성

주장: DSpark가 내세우는 "추측 디코딩으로 LLM 추론 가속화"는 2022년에 이미 발표된 개념(arXiv:2211.17192, Google)이며, 논문 제목이 오해를 불러일으킨다. 제목은 실제 논문 제목이 아니라 초록 첫 줄을 가져온 것이다.

근거 (articlepan): "Title is bad, it's the first line of the abstract instead of the paper title." 실제 논문 제목은 "DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation"임.

반론 (alok-g, tiahura): 2022년 논문은 DSpark의 introduction과 background에서 인용되고 있으며, DSpark는 몇 가지 병목(bottleneck)을 제거해 개선한 내용이다. DeepSeek 규모에서 추측이 낭비되는 검증 작업이 아니라 순수한 속도 향상으로 이어지도록, 드래프터와 검증 정책을 개선하는 데 초점을 맞췄다.

대표 작성자: articlepan, xnx, tiahura

---

### 3. 실제 가격 인하와의 연관성: 프로덕션 검증

주장 (ricardobeat): 이 기술은 한동안 프로덕션에서 사용돼 왔을 것이며, 한 달 전 가격을 대폭 낮출 수 있었던 이유 중 하나로 추정된다.

근거 (chronogram): 논문 Section 5.1 "DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro", Section 5.4 "MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release."

보충 (_0ffh): Lookahead Sparse Attention도 메모리 사용량을 크게 줄여 큰 역할을 했을 것이다.

보충 (sourcecodeplz): 가격을 75% 낮췄는데, 속도와 추론 최적화 이득과 정확히 맞아떨어진다.

대표 작성자: ricardobeat, chronogram, sourcecodeplz

---

### 4. 개방형 연구 vs 폐쇄형 연구의 지정학적 함의

주장: DeepSeek의 공개 전략은 단순한 기술 기여 이상으로, 중국의 개방성과 미국의 규제 강화 움직임을 대비시키는 정치적 메시지를 담고 있다.

근거 (Havoc): "Guessing the timing isn't accidental. Demonstrated openness vs harsh regulation."

반론 (cr125rider): "중국 = 개방, 미국 = 강한 규제라는 이상한 타임라인이다. 다만 이것이 시진핑의 목표와 정렬되어 있기 때문에 가능한 일이다."

반론 (declan_roberts): "Anthropic에게 새 AI 모델의 위험성을 크게 떠드는 미디어 공세를 하라고 강요한 사람은 아무도 없다. 자업자득이다."

보충 (dnchndd): "서구 경쟁사의 마진을 압박하는 흥미로운 부수 효과가 있다. 모델뿐 아니라 서빙 최적화까지 공유함으로써 DeepSeek 모델을 서빙하는 제3자도 효율적으로 서빙할 수 있게 되어 효과가 배가된다."

대표 작성자: Havoc, cr125rider, dnchndd

---

### 5. 사용자 경험 및 비용 효율성

주장 (piterrro): DeepSeek V4 Pro를 Kilo Code에서 한 달째 사용 중이며 훌륭하다. 빠르고 안정적이며 컨텍스트 창이 크고 정말 저렴하다. 이번 달에 15억 토큰을 사용했는데 40달러가 들었다.

보충 (richardlblair): "omp에서 DeepSeek를 task/quicktask 에이전트로, Sonnet을 나머지 용도로 쓰고 있다. AI 지출이 하루 40달러에서 10달러로 줄었다."

우려 (fer): OpenRouter에서는 40달러를 금방 썼다. 특정 제공자가 비쌀 수 있으므로 DeepSeek에 직접 입금하거나 floor slug를 선택하는 전략이 필요하다.

대표 작성자: piterrro, richardlblair, fer

---

### 6. 추측 디코딩 생태계의 미래 전망

주장 (Jackobrien): 곧 사용 사례, 회사, 심지어 개인마다 고유한 추측 디코딩용 소형 모델이 매우 다양하게 존재하는 세상이 올 것이다.

반론 (Der_Einzige): "최근 논문들을 분명 읽지 않은 것 같다. 이미 한동안 어떤 모델이든 다른 모델을 위해 추측에 사용할 수 있었다. 과거에 이를 막던 토큰화 문제가 해결됐다."

보충 (pydry): 정교한 가드레일에 강하게 제약된 형태가 될 것이다. 거대한 '세상을 다 먹어치우려는' 모델들은 수익 체감이 극심하다.

대표 작성자: Jackobrien, Der_Einzige, pydry, nicce

---

### 7. 보안 우려 (추측 실행과의 유사성)

주장 (lightedman): 추측 실행(speculative execution)이 CPU에서 보안 취약점(Meltdown/Spectre)을 초래했듯, 추측 디코딩이 LLM에 새로운 취약점을 도입하지 않겠는가?

반론 (skirmish): 그렇지 않다. 추측 디코딩에서 생성된 모든 토큰은 여전히 본 모델에 의해 검증(validation)되며, 정확히 일치할 때만 채택된다. CPU의 추측 실행과 달리 상태 변이(side effect)가 발생하지 않는다.

대표 작성자: lightedman, skirmish

---

### 8. DGX Spark와의 명칭 혼동 및 하드웨어 최적화

주장 (porphyra): 이름 때문에 처음에는 NVIDIA DGX Spark와 관련된 줄 알았다. 우연히도 최근 DGX Spark의 추론 성능을 개선하는 작업이 많았고, MTP로 50–100% 속도 향상이 있었으므로 DSpark도 그 목적에 도움이 될 것이다.

대표 작성자: porphyra

---

### 9. 폐쇄형 서구 기업에 대한 비판과 시장 전략 차이

주장 (nicce): 미국의 많은 회사들은 오래전부터 수단이 무엇이든 사용자를 붙잡는 것을 전략으로 삼아왔다. 품질과 혁신은 두 번째 요소이고, 시장을 장악하고 사용자를 가둔 뒤 규제와 로비에 영향력을 행사해 힘을 유지하려 한다.

반론 (otterley): "그들은 혁신을 통해 서로 경쟁하고 있다. 혁신은 고객에게 더 큰 효용을 주지만 기술은 공개되지 않을 뿐이다."

보충 (stymaar): 위 목록에 "위협이 되는 신규 플레이어 인수"를 3번 항목으로 추가해야 한다.

대표 작성자: nicce, otterley, stymaar

---

### 10. pmarreck의 회의론: 증류(distillation) vs 혁신

주장 (pmarreck): DeepSeek가 하는 일이 증류(distillation)를 넘어 진정한 혁신인지 설명해달라. 계정 생성 5일 만에 이런 주장을 하는 것은 중국 봇일 가능성이 있다. DeepSeek의 진정한 혁신은 R1의 사고 과정 공개뿐이다.

반론 (segmondy): "다시 한번 보여주지만, 이건 증류와 전혀 관계가 없다. 그런데도 중국 연구소가 성과를 낼 때마다 미국 연구소들은 절도(distillation/theft)라고 비난한다. 그들은 계속 혁신하고 있다."

반론 (jst1fthsdys): pmarreck의 프로필에 "자신을 철학자라고 칭한다"고 지적하며 회의론의 일관성을 문제삼음.

대표 작성자: pmarreck, segmondy, jst1fthsdys

---

정리

  • DSpark는 병렬 드래프터의 속도와 자기회귀 드래프터의 품질을 결합한 semi-autoregressive 아키텍처를 제안
  • 신뢰도 기반 검증 스케줄링으로 검증 폐기물(verification waste)을 최소화
  • DeepSeek-V4 프로덕션에 실제 배포되어 60–85% 속도 향상 및 가격 75% 인하에 기여
  • 체크포인트와 훈련 코드(DeepSpec)를 모두 오픈소스로 공개
  • HN 커뮤니티에서는 DeepSeek의 개방형 연구 접근법을 높이 평가하면서도, 추측 디코딩 자체의 novelty 논란, 지정학적 함의, 서구 기업과의 전략 비교 등 다양한 시각이 제시됨