|
广告联系
|
繁体版
|
手机版
|
微信
|
微博
| 搜索:
欢迎您
游客
|
登录
|
免费注册
|
忘记了密码
|
社交账号注册或登录
首页
温哥华资讯
温哥华地产
温哥华教育
温哥华财税
新移民/招聘
黄页/二手
旅游
故事
|
移民
|
留学
|
八卦
|
娱乐
|
投资
|
旅游
就业
|
健康
|
文艺
|
情感
|
科技
|
华人
|
海归
温西
|
西温
|
本那比
|
列治文
|
白石
|
市中心
温东
|
北温
|
高贵林
|
北素里
|
素里
|
满地宝
大温
|
玩乐
|
吃喝
|
社团
|
汽车
|
贴图
生活
|
房屋
|
亲子
|
摄影
|
原创
|
投资
专栏
|
视频
群组
|
图库
生活资讯
专栏
教育读书
大模型推理最高提速85%!deepseek发表重磅论文
请用微信
扫一扫
扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击
发送给朋友
或
分享到朋友圈
,谢谢!
2026-06-28
| 来源: 财联社 |
转到微信
|
有0人参与评论
| 字体:
放大
缩小
|
收藏
|
打印
《科创板日报》6月28日讯(记者 王耐)在6月中旬获得500亿融资后仅十几天,6月27日,DeepSeek团队联合
北京
大学发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。
这不是一次模型版本的迭代,而是在原有DeepSeek-V4-Pro和DeepSeek-V4-Flash基础上增加了一个推测解码模块,重点在于工程落地层面的优化。
随DSpark一同开源的DeepSpec,是一个用于训练和评估推测解码草稿模型的全栈代码库,包含数据准备工具、草稿模型实现、训练代码和评估脚本,支持MIT许可。目前DeepSpec已内置DSpark、DFlash和Eagle3三种实现。
值得注意的是,DeepSeek创始人梁文锋位列论文作者名单。在完成首轮融资的当下,创始人依然亲自参与技术论文撰写,这在AI行业并不多见。
论文标题:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
论文链接:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
实测数据验证:同等吞吐下,V4-Flash提速60%-85%,V4-Pro 提升 57%-78%
40天不睡5人死磕 Gemini大战DeepSeek惨烈内幕
DeepSeek之后,中国又一开源AI模型引发硅谷热议
实测DeepSeek"识图模式":连自己老板都不认识
不同于仅停留在实验室的算法优化,DSpark 已完成真实用户流量落地验证。该框架全面部署于 DeepSeek-V4-Flash、V4-Pro 线上服务,替代此前 MTP-1 生产基线。在同等系统总吞吐规模下,V4-Flash 单用户生成速度提升 60%-85%,V4-Pro 提升 57%-78%。
除了DeepSeek自家的大模型,DSpark也已经部署到了阿里旗下的Qwen3-4B、8B、14B,以及Gemma4-12B。三大评测领域分别是:
数学
推理、代码生成、日常对话。
DSpark兼容 Qwen、Gemma 等国内外主流基座,同时配套 DeepSpec 仓库、模型权重全部开源。这意味着,对于缺乏底层算法团队的中小企业、ToB 服务商,无需投入巨额研发即可复用成熟推理优化方案,大幅降低大模型私有化部署、线上服务的落地门槛,智能体、工业代码、金融舆情等场景规模化落地速度有望加快。
论文数据显示,DSpark 在全部目标模型、全部评测领域下,稳定超越自回归基线 Eagle3 与并行基线 DFlash。以 Qwen3-4B/8B/14B 为例,宏平均接受长度相对 Eagle3 提升 30.9%、26.7%、30.0%;相对 DFlash 提升 16.3%、18.4%、18.3%。这一优势具备跨模型的泛化能力,在Gemma4-12B目标模型上同样取得了一致的性能增益。
除整体提升外,论文实验数据还揭示了显着的领域差异效应::结构化任务(如
数学
推理、代码生成)的可接受长度天然更高(例如Qwen3-4B在
数学
任务上平均为5.57,代码任务为5.12),而开放式对话场景则明显偏低(仅3.49)。
论文也指出当前方案存在局限:对于本身可预测性极低、接受率偏低的复杂查询,这部分前置草稿算力无法回收。未来的优化方向可在草稿模型内部引入难度感知的早退出机制,使此类请求能够跳过完整块生成流程。
点个赞吧!您的鼓励让我们进步
还没人说话啊,我想来说几句
分享:
上一页
1
2
下一页
注:
新闻来源于其它媒体,内容不代表本站立场!
在此页阅读全文
猜您喜欢:
实测DeepSeek"识图模式":连自己老板都不认识
DeepSeek融资510亿估值4000亿:梁文锋为何选腾讯?
DeepSeek识图:两次上传梁文锋照片都识别成张一鸣
DeepSeek之后,中国又一开源AI模型引发硅谷热议
北京官宣 马兴瑞与三上将被罢免人大代表
为父母圆梦 妹子在家复刻餐厅走红
被大佬当玩物....最美 "三圣母"竟落魄至此
加拿大家庭悲剧 父亲和两儿童丧生
上海楼市罕见离谱了 浦东陆家嘴从20万变14万
职高女生胸口纹蝴蝶引全网围攻,美丽成原罪?
并非找不到工作!今年毕业最残酷的真相揭晓
温哥华牙医 采用先进技术最新设备
Costco今夏爆款冰品 网友疯狂囤货
大温边上火灾 57人住所遭严重破坏
4400公里 BC女骑手极限挑战破纪录
温哥华汇款/外币兑换 汇率最优安全
您可能也喜欢:
BC惨 巨富家庭财富下降 征巨富税?
重庆公安局长跳楼亡?中共人大公告现异常
委内瑞拉双震间隔超短太罕见 专家:第2震威力两倍
公安局长自首 中国这省20名政法高官接连落马
辞职上武当山当道士 发现山上也是职场 下山回炉高考…
特朗普和美议员爆发争吵,激烈互吼
乌军1000架无人机 将莫斯科防空网打成筛子
杀疯了!《昨夜将至》刚播豆瓣好评如潮,大尺度案件全程无尿点
震惊:19岁阿富汗难民法国性侵6只羊,被抓现行
温哥华地产经纪 经验丰富诚信可靠
舍弃机械动翼 美X-65实验无人机翼身组合明年试飞
电视连续剧:一家人(4一6)
温哥华牙医 采用先进技术最新设备
这国首都被夷为平地 死亡人数恐突破1万
泰国对中国商人发逮捕令 涉「杀猪盘」洗钱数十亿
德勤:加国经济逐步反弹 明年达2%
我来说两句:
评论:
安全校验码:
请在此处输入图片中的数字
大家正在围观
创造历史!加拿大战胜南非晋级16强
又涨价!大温公交票价本周全面上涨
加拿大急诊室长时间等待真正原因
刘国梁双胞胎女儿: 老大被藤校争
加拿大卡车司机违规撞死华人妈妈
气愤 电动滑板在温市行人道撞伤人
泳池'肉体激战'恐怖画面曝!比基尼
遗忘的彩票 加国女子中奖提前退休
数千加国球迷涌洛杉矶 为球队加油
淘汰赛今日开始 加拿大对阵南非
同类热门新闻
刘国梁双胞胎女儿: 老大被藤校争
黄石惊魂!野牛顶伤12岁儿童送医
职高女生胸口纹蝴蝶引全网围攻,美
国产AI高考708分,这款模型靠什么
海南航空提前10分钟起飞 被大学生
大模型推理最高提速85%!deepseek
13岁残疾女孩跳楼轻生,曾多次向心
智商被按在地上摩擦的5部悬疑剧,
黄奇帆最新演讲:AI时代,最稀缺的5
美7岁男童"115公斤胖死"父母遭控
随时阅读新闻
加西网微信
大温优惠小红书
温哥华地产中心微信
Android: 加西网
Terms & Conditions
Privacy Policy
Political ADs
Activities Agreement
Contact Us
Sitemap
加西网为
北美中文网
传媒集团旗下网站
页面生成: 0.0376 秒 and 5 DB Queries in 0.0021 秒