-
日期: 2025-05-26 | 来源: 知识分子 | 有0人参与评论 | 字体: 小 中 大
图源:Pixabay
今年年初,DeepSeek发布DeepSeek-R1模型,引发全球的关注。在公开评测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。
更令圈内研究者惊喜的,是它在训练方式上的简化。以往的模型在提升推理能力时,通常依赖于把监督微调(SFT)这个环节。在这个阶段,研究人员会使用大量已标注的数据对预训练的AI模型进行进一步训练。这些数据包含了问题及其对应的正确答案,以及如何建立思考步骤的范例。靠着这些模仿人类思维的“例题”和“答案”,大模型得以提升推理能力。
DeepSeek-R1的报告中,展示了名为DeepSeek-R1-Zero的路线,它跳过了复杂的监督微调,直接在DeepSeek-V3的基础上进行强化学习训练。这一次,模型没有例题示范,只通过简单的答题反馈来学习:答对加分,答错减分,用简单的方法显着的推理能力提升。这个被简称为“纯强化学习”的方法,成为了复现和跟进研究中的热门对象。
在复现的热潮中研究者们意识到,一些关键问题仍有待厘清。到底是训练的哪些环节带来了模型推理能力的提升?DeepSeek-R1的能力究竟来自训练方式的改变,还是基础模型DeepSeek-V3本身的强大?如果关键在于强化学习,这种方式可以在迁移到其他模型训练上吗?
正是围绕这些问题,一些团队启动了对DeepSeek-R1复现与跟进研究。DeepSeek-R1虽然开源了模型权重,但关键的训练数据和完整算法实现并未公开。想要真正理解和重现其能力,就必须从论文出发,复刻训练流程。对跟进的研究者而言,复现和跟进研究的意义不止是复制一个模型,更是拆解这套训练方法,厘清模型性能提升的真正来源。
《知识分子》和Open-Reasoner-Zero团队成员胡倞成、韩琦,Light-R1团队成员邹昊晟,新加坡国立大学、Sea AI Lab研究人员刘梓辰,以及个人复现者许书尧都聊了聊,试图回答以上一些问题。
Open-Reasoner-Zero团队在基础模型上直接进行强化学习,观察到了模型验证分数的显着提升,验证了DeepSeek-R1-Zero训练方法的有效性[1],个人复现者许书尧也在一个相对小的模型上验证了类似的现象[2],Light-R1团队把模型放在AIME上测试成绩,提升到了接近完整DeepSeek-R1的水准,并且也成功复现了强化学习的方法[3],刘梓辰的验证工作则是从怀疑开始的,他发现模型推理能力的提升,与所选用的基础模型之间存在密切关联[4]。
这些工作从不同角度探讨了一个关键问题:DeepSeek-R1的能力,到底从哪里来?
01
为什么是DeepSeek?
去年,OpenAI推出的o1推理模型在数学和推理任务中的表现远远好于其他同参数量级的主流模型,在GSM8K、MATH等多个基准测试中一度拉开了显着差距。但由于官方几乎未公布训练细节,模型是如何获得这类能力的,一度成为业内谜题。OpenAI o1的出现,使得“推理模型”这一新方向引发关注。
一种流行的猜测是,o1的推理能力来自OpenAI内部某个更大的模型,o1只是它训练出的精简版本。另一种看法是,OpenAI在训练中使用了更复杂的技术路线。这些方案都出于同一方向的判断:做出顶尖推理模型需要堆更多的资源。
DeepSeek-R1的发布打破了这些猜想。它没有使用这些复杂手段,仅凭简单的强化学习奖励设置,就让模型在推理能力上达到与o1接近的水准。
在DeepSeek-R1之前,也有研究者尝试过用纯强化学习训练推理模型,但大多停留在小规模的实验阶段。这种迟疑来自两个方面,“一是从技术直觉上,大家普遍不认为这样简单的方法能奏效;另一个是如果基础模型不够强,这么简单的方法可能真的不奏效”,许书尧说。- 新闻来源于其它媒体,内容不代表本站立场!
- 微软执行长:中国DeepSeek R1足以匹敌OpenAI
- 王树国发问:若梁文峰读博,还能有DeepSeek吗?
- 屋主崩溃:修次管道变成5万的大账单
- 买房省高达5万 一生一次 细则公布
- 张兰:当年倒追汪小菲的父亲,奉子成婚后...
-
- 陈羽凡白百何离婚后,50岁发福认不出,儿子像妈
- 惨!加国第一季度140万逾期不还款
- 突发!33岁香港歌手吞百粒安眠药自杀,紧急送医
- 今起走起 Uber在BC省全境提供服务
- 温哥华牙医 采用先进技术最新设备
- 加国年轻人&新移民推动新债务增长
-
- 温哥华汇款/外币兑换 汇率最优安全
- 这种情况你的信用将清零 陷入困境
- 比亚迪疯狂降价逾3成 中国电动车股价一泻千里
- 中企窃取技术难防 韩检:5年外泄损失近167亿美元
- 朱媛媛的猝然离世,给所有人提了个醒,3个启示,值得多少人学习
- NDP悲剧了 不会获得正式政党地位
-
- 哈佛前校长公开炮轰:川普这是送中国大礼
- 很多人当场哭泣 白宫开始第一轮大清洗
- 去印度才知道 网上那些滤镜有多假 让我怀疑人生
- 苹果AI崩塌!从愿景到高管失误困局
- 政局松动信号 任志强狱中获高规格探视
- 追随女王足迹 查尔斯国王下周访加
-
目前还没有人发表评论, 大家都在期待您的高见