-
_NEWSDATE: 2025-05-29 | News by: 联合早报网 | 有0人参与评论 | _FONTSIZE: _FONT_SMALL _FONT_MEDIUM _FONT_LARGE
DeepSeek星期四(5月29日)晚在官方微信公众号发文称,DeepSeek R1模型已完成小版本升级,当前版本为DeepSeek-R1-0528。
文章称,DeepSeek-R1-0528仍然使用去年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。相较于旧版R1,新版模型在复杂推理任务中的表现有了显著提升。
文章特别提到,更新后的R1模型对“幻觉”问题(错误或误导性输出)进行了优化,在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%至50%左右。其他方面的提升则包括更贴近人类偏好的创意写作,和更好的前端代码生成、角色扮演能力。
DeepSeek表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中,取得当前中国“所有模型中首屈一指的成绩”,在整体表现上已接近OpenAI的o3和谷歌的Gemini-2.5-Pro等美国顶尖模型。
DeepSeek同时也说,该公司在蒸馏DeepSeek-R1-0528的思维链后,训练中国科技巨头阿里巴巴的Qwen3-8B基础模型,得到了DeepSeek-R1-0528-Qwen3-8B,在性能上比原版模型高出10%。
DeepSeek称:“我们相信,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。”
DeepSeek也将继续开源新版R1模型,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
另据路透社报道,今年1月发布的R1在全球引发热议,导致中国以外的科技股暴跌,挑战了“扩展人工智能需要巨大算力和投资”这一观点。阿里巴巴和腾讯等中国科技巨头此后纷纷发布声称超越DeepSeek的模型。
报道称,DeepSeek的成功也颠覆美国出口管制阻碍中国人工智能进步的看法,因为它以极低成本发布了与美国行业领先模型相当甚至更好的人工智能模型。
为了应对来自DeepSeek的竞争,谷歌的Gemini已推出折扣版本,而OpenAI也降低了价格,并发布对算力要求更低的o3 Mini模型。
DeepSeek曾在3月发布V3大型语言模型的升级版。外界普遍预计DeepSeek将推出R1的后续版本R2,路透社3月曾引述消息人士称,R2最初计划在5月发布。- 新闻来源于其它媒体,内容不代表本站立场!
- DeepSeek的能力,到底从哪里来?(图
- 热门海滩 加国男子被海浪卷走溺亡
- 加拿大着名的赏枫火车已开始售票 非常热门
- 一夜暴富 12户邻居抱团卖地赚2亿
-
- 黄金时段收视率,没想到郑晓龙《藏海传》仅排第二,榜首断层领先
- 马克龙当众被扇巴掌 爆老妻推脸后狠话令人惊讶
- "下嫁"的华谊大小姐,与消失的神秘闺蜜圈
- 大温著名发廊 美发师都来自于日本
- BC宣布加强温哥华市中心安全措施
- 全面更新作战核心指挥链!传中共军中再抓四虎
-
- 温哥华地产经纪 经验丰富诚信可靠
- 大温房市缓慢 不少经纪拒绝挂牌
- 陈芋汐与新搭档夺冠 全红婵现状令人唏嘘
- 惊!BC各地地标建筑今天将亮起红灯
- 大温汽油价格一夜之间下跌近10分
- 持续为中国洗产地 越南难逃川普重税
-
- 5亿加元面包和解金 你如何拿到钱
- 捷克强烈谴责中国 支持骇客攻击该国外交部
- 长枪短炮围观 温哥华新晋羽毛网红
- 首次接受质询 新总理卡尼表现如何
- 这种情况你的信用将清零 陷入困境
- 一刀毙命!白宫禁令,C919面临"无心可用"危机
-
目前还没有人发表评论, 大家都在期待您的高见