DeepSeek的能力,到底从哪里来?(图

日期: 2025-05-26 | 来源: 知识分子 | 有0人参与评论 | 字体: 小中大
图源：Pixabay

今年年初，DeepSeek发布DeepSeek-R1模型，引发全球的关注。在公开评测中，它的综合能力逼近当时的顶尖大模型，尤其在逻辑推理和数学题上展现出强劲性能，而且它的成本要远低于作比较的其他大模型。

更令圈内研究者惊喜的，是它在训练方式上的简化。以往的模型在提升推理能力时，通常依赖于把监督微调（SFT）这个环节。在这个阶段，研究人员会使用大量已标注的数据对预训练的AI模型进行进一步训练。这些数据包含了问题及其对应的正确答案，以及如何建立思考步骤的范例。靠着这些模仿人类思维的“例题”和“答案”，大模型得以提升推理能力。

DeepSeek-R1的报告中，展示了名为DeepSeek-R1-Zero的路线，它跳过了复杂的监督微调，直接在DeepSeek-V3的基础上进行强化学习训练。这一次，模型没有例题示范，只通过简单的答题反馈来学习：答对加分，答错减分，用简单的方法显着的推理能力提升。这个被简称为“纯强化学习”的方法，成为了复现和跟进研究中的热门对象。

在复现的热潮中研究者们意识到，一些关键问题仍有待厘清。到底是训练的哪些环节带来了模型推理能力的提升？DeepSeek-R1的能力究竟来自训练方式的改变，还是基础模型DeepSeek-V3本身的强大？如果关键在于强化学习，这种方式可以在迁移到其他模型训练上吗？

正是围绕这些问题，一些团队启动了对DeepSeek-R1复现与跟进研究。DeepSeek-R1虽然开源了模型权重，但关键的训练数据和完整算法实现并未公开。想要真正理解和重现其能力，就必须从论文出发，复刻训练流程。对跟进的研究者而言，复现和跟进研究的意义不止是复制一个模型，更是拆解这套训练方法，厘清模型性能提升的真正来源。

《知识分子》和Open-Reasoner-Zero团队成员胡倞成、韩琦，Light-R1团队成员邹昊晟，新加坡国立大学、Sea AI Lab研究人员刘梓辰，以及个人复现者许书尧都聊了聊，试图回答以上一些问题。

Open-Reasoner-Zero团队在基础模型上直接进行强化学习，观察到了模型验证分数的显着提升，验证了DeepSeek-R1-Zero训练方法的有效性[1]，个人复现者许书尧也在一个相对小的模型上验证了类似的现象[2]，Light-R1团队把模型放在AIME上测试成绩，提升到了接近完整DeepSeek-R1的水准，并且也成功复现了强化学习的方法[3]，刘梓辰的验证工作则是从怀疑开始的，他发现模型推理能力的提升，与所选用的基础模型之间存在密切关联[4]。

这些工作从不同角度探讨了一个关键问题：DeepSeek-R1的能力，到底从哪里来？

01

为什么是DeepSeek？

去年，OpenAI推出的o1推理模型在数学和推理任务中的表现远远好于其他同参数量级的主流模型，在GSM8K、MATH等多个基准测试中一度拉开了显着差距。但由于官方几乎未公布训练细节，模型是如何获得这类能力的，一度成为业内谜题。OpenAI o1的出现，使得“推理模型”这一新方向引发关注。

一种流行的猜测是，o1的推理能力来自OpenAI内部某个更大的模型，o1只是它训练出的精简版本。另一种看法是，OpenAI在训练中使用了更复杂的技术路线。这些方案都出于同一方向的判断：做出顶尖推理模型需要堆更多的资源。

DeepSeek-R1的发布打破了这些猜想。它没有使用这些复杂手段，仅凭简单的强化学习奖励设置，就让模型在推理能力上达到与o1接近的水准。

在DeepSeek-R1之前，也有研究者尝试过用纯强化学习训练推理模型，但大多停留在小规模的实验阶段。这种迟疑来自两个方面，“一是从技术直觉上，大家普遍不认为这样简单的方法能奏效；另一个是如果基础模型不够强，这么简单的方法可能真的不奏效”，许书尧说。
- 新闻来源于其它媒体，内容不代表本站立场！

在此页中阅读全文
分类：教育读书

猜您喜欢