-
_NEWSDATE: 2025-05-26 | News by: 知识分子 | 有0人参与评论 | _FONTSIZE: _FONT_SMALL _FONT_MEDIUM _FONT_LARGE
图源:Pixabay
今年年初,DeepSeek发布DeepSeek-R1模型,引发全球的关注。在公开评测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。
更令圈内研究者惊喜的,是它在训练方式上的简化。以往的模型在提升推理能力时,通常依赖于把监督微调(SFT)这个环节。在这个阶段,研究人员会使用大量已标注的数据对预训练的AI模型进行进一步训练。这些数据包含了问题及其对应的正确答案,以及如何建立思考步骤的范例。靠着这些模仿人类思维的“例题”和“答案”,大模型得以提升推理能力。
DeepSeek-R1的报告中,展示了名为DeepSeek-R1-Zero的路线,它跳过了复杂的监督微调,直接在DeepSeek-V3的基础上进行强化学习训练。这一次,模型没有例题示范,只通过简单的答题反馈来学习:答对加分,答错减分,用简单的方法显着的推理能力提升。这个被简称为“纯强化学习”的方法,成为了复现和跟进研究中的热门对象。
在复现的热潮中研究者们意识到,一些关键问题仍有待厘清。到底是训练的哪些环节带来了模型推理能力的提升?DeepSeek-R1的能力究竟来自训练方式的改变,还是基础模型DeepSeek-V3本身的强大?如果关键在于强化学习,这种方式可以在迁移到其他模型训练上吗?
正是围绕这些问题,一些团队启动了对DeepSeek-R1复现与跟进研究。DeepSeek-R1虽然开源了模型权重,但关键的训练数据和完整算法实现并未公开。想要真正理解和重现其能力,就必须从论文出发,复刻训练流程。对跟进的研究者而言,复现和跟进研究的意义不止是复制一个模型,更是拆解这套训练方法,厘清模型性能提升的真正来源。
《知识分子》和Open-Reasoner-Zero团队成员胡倞成、韩琦,Light-R1团队成员邹昊晟,新加坡国立大学、Sea AI Lab研究人员刘梓辰,以及个人复现者许书尧都聊了聊,试图回答以上一些问题。
Open-Reasoner-Zero团队在基础模型上直接进行强化学习,观察到了模型验证分数的显着提升,验证了DeepSeek-R1-Zero训练方法的有效性[1],个人复现者许书尧也在一个相对小的模型上验证了类似的现象[2],Light-R1团队把模型放在AIME上测试成绩,提升到了接近完整DeepSeek-R1的水准,并且也成功复现了强化学习的方法[3],刘梓辰的验证工作则是从怀疑开始的,他发现模型推理能力的提升,与所选用的基础模型之间存在密切关联[4]。
这些工作从不同角度探讨了一个关键问题:DeepSeek-R1的能力,到底从哪里来?
01
为什么是DeepSeek?
去年,OpenAI推出的o1推理模型在数学和推理任务中的表现远远好于其他同参数量级的主流模型,在GSM8K、MATH等多个基准测试中一度拉开了显着差距。但由于官方几乎未公布训练细节,模型是如何获得这类能力的,一度成为业内谜题。OpenAI o1的出现,使得“推理模型”这一新方向引发关注。
一种流行的猜测是,o1的推理能力来自OpenAI内部某个更大的模型,o1只是它训练出的精简版本。另一种看法是,OpenAI在训练中使用了更复杂的技术路线。这些方案都出于同一方向的判断:做出顶尖推理模型需要堆更多的资源。
DeepSeek-R1的发布打破了这些猜想。它没有使用这些复杂手段,仅凭简单的强化学习奖励设置,就让模型在推理能力上达到与o1接近的水准。
在DeepSeek-R1之前,也有研究者尝试过用纯强化学习训练推理模型,但大多停留在小规模的实验阶段。这种迟疑来自两个方面,“一是从技术直觉上,大家普遍不认为这样简单的方法能奏效;另一个是如果基础模型不够强,这么简单的方法可能真的不奏效”,许书尧说。- 新闻来源于其它媒体,内容不代表本站立场!
- 微软执行长:中国DeepSeek R1足以匹敌OpenAI
- 王树国发问:若梁文峰读博,还能有DeepSeek吗?
- 首次接受质询 新总理卡尼表现如何
- 温哥华牙医诊所 提供全面牙科服务
- 冯小刚19岁小女儿晒美国毕业照 文案引争议
-
- 教授称广东人烫碗"恶心",网友们坐不住了
- 本周温哥华市中心超繁忙 别去添堵
- 汪小菲二婚,我只看到一个疲惫的中年人
- 冰川崩塌画面曝光 泥石流摧毁整座山村
- 规模盛大免费街头派对 占10个街区
- 大温周末大型活动将有大批路封路
-
- 哈佛前校长公开炮轰:川普这是送中国大礼
- 中企窃取技术难防 韩检:5年外泄损失近167亿美元
- NDP悲剧了 不会获得正式政党地位
- 多家廉航开卖站票 一杯咖啡钱上天
- 班夫公园被印度人占领!露易丝湖冰面被踏碎
- 毕业即失业 加国20年来最惨就业季
-
- 这种情况你的信用将清零 陷入困境
- 政局松动信号 任志强狱中获高规格探视
- 苹果AI崩塌!从愿景到高管失误困局
- 温哥华会计事务所 收费低 服务好
- 中共认为冲绳属于中国 琉球王室后裔出面狠打脸!
- 比亚迪疯狂降价逾3成 中国电动车股价一泻千里
-
目前还没有人发表评论, 大家都在期待您的高见