DeepSeek的能力,到底从哪里来?(图

刘梓辰支持这种观点。他尝试复刻DeepSeek-R1的“顿悟时刻(Aha moment)”，按照DeepSeek-R1的报告，这是描述训练中模型在面对特定难题时，展现了自我反思的能力，主动重新评估初始解法，并投入更多思考时间以寻求更优答案。

这一能力对推理模型非常关键。在推理模型出现之前，大模型主要依赖预训练阶段扩大参数规模来提升表现，但增长已经逐渐趋缓。在一些需要严密逻辑链条的任务中，比如数学推理，模型即便读过再多语料，依然难以获得实质突破。一个关键的瓶颈是它们缺乏自主修正回答的能力。

而OpenAI o1的成功提供了一个重要线索，如果模型拥有更长的“思考时间”，它的解题准确率就会显着提高。

为什么“长”如此关键？胡倞成解释，Transformer 计算深度有限，只能做有限步的计算，复杂问题如果不能拆分，就超出了模型的处理能力。只有当模型学会将问题拆解成多个 token逐步向前推进，才可能完成更深层的计算。如果不能把思考过程拉长，模型就没法把一些复杂的计算拆解成自己能够解决的问题。

张胤民补充，这就像我们能快速心算几位数乘法，但遇到更复杂的数字，就需要写在纸上分步完成。模型也是如此，新的推理范式相当于教会了模型如何利用更长的“思考时间”或更多的“计算步骤”。一旦模型学会了这种利用时间来分解和解决复杂问题的方法，它就能解锁更多以前无法完成的任务。

当模型说出“让我再想想”这样的语言，其实正是它利用更长“思考时间”的一种外在体现，是它能力的具象化。比如，模型发现前面的回答有误，然后进行纠正，这就是在利用“时间”来优化结果。将一个复杂问题拆分成多个步骤来解答，也是一种利用“时间”的表现。所谓“顿悟时刻”，就是指模型在没有明确教导下，自发学会了这些利用时间和计算资源的方法。

胡倞成认为，这种反思能力突破了原有建模方式上的本质限制。杨立昆很早就断言自回归大语言模型注定要失败，理由之一就是错误会累计。连续生成1000个token，只要每一步有千分之一的出错概率，最后出错的可能就非常高。这种批评指出的关键问题，就是大模型没法自主修正生成过程中产生的错误。而大模型而具备反思能力后，模型就像获得了一块“橡皮擦”，可以对生成内容进行审视、重写，甚至主动改变推理路径。

王树国发问:若梁文峰读博,还能有DeepSeek吗?

微软执行长:中国DeepSeek R1足以匹敌OpenAI

微软总裁称内部已禁止员工使用DeepSeek

也正因这类能力在推理模型中至关重要，DeepSeek-R1在训练中首次出现“顿悟时刻”时，才引发团队的兴奋，并在业界引起关注。DeepSeek在报告中形容那一刻是“见证了强化学习力量的美妙”。

但刘梓辰的研究发现，早在强化学习阶段开始之前，部分基础模型的回答中就已经出现了浅层的自我反思倾向，“顿悟”可能并非像宣称的那样，是模型强化学习过程中自然涌现出来的，而是基础模型本身具备的能力。其中，Qwen2.5系列模型的反思行为最为明显，有趣的是，目前大多数复现工作，恰恰都是基于Qwen2.5展开。

邹昊晟认为，预训练模型本身就已经具备某种程度的反思能力。大模型的预训练往往涉及几十万亿个token，在如此海量的语料中，出现少量带有反思倾向的文本很有可能。在这种背景下，模型说出“我需要再想想”并不令人意外。强化学习的作用，可能更多在于让这些原本零散的表达更频繁、更清晰地浮现出来。

胡倞成表示，强化学习本身更像是一种“催化剂”或者“放大器”。它能够将模型在预训练阶段学到的潜在知识和能力，通过特定的激励和目标引导出来，让它在某些任务上表现更好。

至于不同模型的能力差别，训练早期是否广泛接触具有因果链条、逻辑关系和复杂推理结构的文本，将在很大程度上决定其在后续的强化学习阶段能否发展出相应的能力。除了语料组成，架构和训练策略也同样关键。尽管主流模型大多基于 Transformer，微小的结构差异或超参数设置的不同，仍然会影响模型最终在推理上的表现。

刘梓辰用“读书”和“做题”的关系来解释基础模型与强化学习之间的关联。预训练阶段的模型就像读过大量书籍，博览群书，但还不太会做题。强化学习则像是发给它一叠卷子反复练习，没有加入新的知识内容，但确实提高了它的做题能力。两者之间关系微妙，“做题能力还是建立在它读过的书上，不能说光靠做题就能达到这个水平，但不练这几道题，它又确实不会做”。

即使基础模型有着反思能力的潜质，但强化学习把这种能力稳定地激发了出来，这也是一个关键的进步。“如果一个智商180的天才儿童不会说话，有个老师教会了他，展现出了智商180的表达能力，你觉得这个老师有没有水平？”胡倞成反问。