10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

DeepSeek 开源 DSpark 推理加速框架:V4 生产环境提速最高 85%

1小时前 AI开源项目 10 0

DeepSeek 刚刚开源了一套全新的推理优化方案 DSpark,附带详细论文、草稿模型权重以及完整的训练框架 DeepSpec。在 DeepSeek V4 生产环境中的实测结果显示,吞吐量和延迟提升了最高 85%——在不增加任何显卡的前提下,直接拉高了整个大模型服务系统的性能天花板。

图片 1

为什么 LLM 推理这么慢

大语言模型生成速度慢的根本原因在于其工作机制:每次只能根据前面的内容预测下一个词(token)。生成的内容越长,用户等待的时间就越久,而且 GPU 算力往往还吃不饱。

业内一直在用推测解码(Speculative Decoding)技术来提速。简单说就是找一个小模型先草拟一批词,再让大模型一次性判断对错——全对就一起输出,错了就从错误位置重新计算。

但现有的草稿模型有两个硬伤:

  • 顺序生成的草稿模型:自己生成就很慢,拖累了整体进度
  • 并行生成的草稿模型:速度快了,但词与词之间毫无关联,越往后"瞎编"的概率越大,被大模型频繁打回

此外,不管草稿质量好坏,全都交给大模型去检查。在系统空闲时没问题,一旦系统满载,这些注定要被废弃的草稿会白白抢占宝贵的计算资源,导致整体吞吐量暴跌。

DSpark 的两招解决方案

第一招:半自回归生成

图片 2

DSpark 的思路是把顺序生成和并行生成结合起来:主体部分保持并行计算(保住极致的生成速度),在最后面加了一个极其轻量的顺序处理模块。有了这个模块,草稿词之间就有了上下文联系——前一个词预测了"理所",后一个词就会顺理成章地给出"当然",彻底避免了前言不搭后语的问题。

这样即使是长串草稿,也能保持极高的采纳率。

第二招:硬件感知的置信度调度

图片 3

有了高质量的长草稿,下一步是决定让大模型检查多少个词。DSpark 给小模型装了一个打分器,专门预测每个草稿词"存活下来"的概率。

更重要的是,系统会实时监控当前的算力负载:

  • 算力富裕时:放行更多草稿词去验证,充分榨干闲置算力
  • 算力紧张时:立刻变得严格,直接砍掉得分低的草稿词,确保计算资源只花在最有可能成功的词上

苏米注:这个"硬件感知"的设计是 DSpark 区别于其他推测解码方案的关键。大多数方案只关注算法层面的优化,而 DSpark 把系统运行时的真实负载纳入了决策循环,这在生产环境中意义重大——它让加速效果不再是实验室里的理想数据,而是能在高并发场景下稳定发挥。

实战成绩

在纯算法测试中,无论是数学逻辑解答、代码编写还是日常聊天,DSpark 在 Qwen 和 Gemma 等不同规模的模型上都碾压了现有的各种草稿模型,草稿采纳长度大幅提升。

图片 4

更值得关注的是真实生产环境的实战表现。研发团队将 DSpark 直接部署到了 DeepSeek V4 的线上服务系统中,在和老一代生产基线保持相同整体吞吐能力的前提下:

  • V4 Flash 和 V4 Pro 的每个用户生成速度大幅提升,最高达到 85%
  • 极限高并发时系统更稳定:老系统会因为资源争抢而崩溃掉速,DSpark 能动态缩减验证长度,死死稳住响应底线

图片 5

开源内容

目前研发团队已经把 DSpark 的模型权重连同底层训练库 DeepSpec 一并开放。DeepSpec 是一个用于训练和评估推测解码草稿模型的完整代码库,包含:

  • 数据准备
  • 草稿模型实现
  • 训练代码
  • 评估脚本

目前支持 DSpark、DFlash 和 Eagle3 三种算法,所有开发者都可以直接体验这套前沿的推理加速方案。

项目地址:github.com/deepseek-ai/DeepSpec

论文:DSpark_paper.pdf

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:DeepSeek 开源 DSpark 推理加速框架:V4 生产环境提速最高 85%
#DeepSeek #DSpark #推理加速 #开源 #LLM优化 
收藏 1
AI Agent 平台架构设计:为什么不应该让每个业务都 fork 一套 Agent 系统
pixel2motion:AI 驱动的 logo 动效开源工作流,1.1K Star
推荐阅读
  • bb-browser:用浏览器身份做 API, 如何让 AI Agent 绕过反爬机制
  • Claude Code 源码泄露催生 Claw Code:129K Star 刷新 GitHub 纪录,洁净室重构典范
  • HoppinZQ Agent:支持MCP协议、ReAct推理与国产大模型适配
  • Codex++ 开源:让 OpenAI Codex 接入国产大模型,告别 ChatGPT 订阅
  • SenseNova-Skills 开源:为 Hermes Agent 装上 PPT、数据分析、深度调研技能
评论 (0)
请登录后发表评论
分类精选
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
10187 9月前
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9863 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7812 6月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
7210 6月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6933 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6840 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6720 9月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6703 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5981 10月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5949 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 SenseNova-Skills 开源:为 Hermes Agent 装上 PPT、数据分析、深度调研技能
2 pixel2motion:AI 驱动的 logo 动效开源工作流,1.1K Star
3 DeepSeek 开源 DSpark 推理加速框架:V4 生产环境提速最高 85%
4 Talk to 峰哥开源项目:AI 实时声音克隆 + 人格注入,1秒延迟语音对话
5 models.dev 开源项目:AI 模型规格与定价大全,统一口径的比价平台
6 Taste Skill:51.8K Star 前端设计规则框架,让 AI 生成的网页告别模板味
7 AI 起名 Skill 开源:基于八字五行的中国传统姓名学工作流
8 Orca:7.3K Star 的 AI 编程总控台,让 Claude Code 和 Codex 并行工作
9 开源中国古典诗词 API:37 万首诗,一键接入国风应用
10 Open File Viewer:一个容器统一 110 种文件格式的前端预览 SDK
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联