| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

DeepSeek的能力,到底从哪里来?(图

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
许书尧介绍,大约在一年前,不少关于推理模型训练的论文中已经加入了强化学习这一步,也有人尝试基于模型的答题结果直接设计奖励。但在当时,业内普遍不相信仅靠简单的答题反馈,就能训练出接近o1水平的推理模型的推理能力。“纯强化学习大家一直有尝试,但没人真正扩展到大模型上。那时候大家不觉得光让模型做题就够了”。


邹昊晟也提到,在今年DeepSeek-R1和Kimi 1.5出现之前,几乎没有人认为“纯强化学习”能真正提升大模型的推理能力。彼时更主流的看法是,推理能力的提高可能依赖蒙特卡洛树搜索(MCTS)或过程奖励模型(PRM)。

对于大模型而言,某种方法是否仍然有效,往往要看它能否经受住规模扩展的考验。在当时看来,纯强化学习的前景,并不如蒙特卡洛树搜索(MCTS)或过程奖励模型(PRM)更被看好。


MCTS是一种曾在AlphaGo中取得成功的策略,依靠将问题拆解为若干步骤并通过多轮搜索引导模型学习。在DeepSeek-R1的报告中,团队尝试了类似方向,但发现当模型规模扩大后,搜索空间呈指数增长,后续训练很困难。

PRM则是让模型生成对每个推理步骤的评价和打分,逐步判断答案的准确性,从而提升模型的推理能力。许书尧曾经投入了很多精力在这个方向,但在他看来这种系统太过复杂,很难扩大规模。

最终,还是“纯强化学习”先走通了这条路。"深度学习教给大家一件事情,往往是简单的方法,在规模扩大的时候更稳健"。

不过,DeepSeek的率先成功,并不是一个只靠选对技术路线就能成功的励志故事。它更像是在一系列关键因素同时就位后,才能实现的成就。

许书尧介绍,早期的基础模型预训练阶段数据质量参差不齐,导致模型缺乏稳定的指令遵循能力。而一些更晚期的基础模型则引入了“退火”步骤,在预训练中分阶段加入更高质量的数据,逐步提高模型理解与执行复杂任务的能力。也正是在这些打好地基的工作之后,强化学习的效果才能充分显现。

新加坡国立大学Sea AI Lab研究人员刘梓辰表示,类似DeepSeek-R1的尝试其实已有先例。比如2024年底,AI2(Allen Institute for AI)推出的Tülu 3模型,就在数学任务中引入了强化学习方法,并采用了“可验证奖励”的机制。只有当模型答案正确时,才给予奖励。从这个角度看,DeepSeek的训练思路,Tülu 3已经部分尝试过了。


但最终,Tülu 3的表现不如DeepSeek-R1亮眼,刘梓辰认为问题在于两方面。一是基础模型的选择,Tülu 3是基于Llama训练的,它在数学方面强化学习的效果可能不如其他模型。二是模型体量差异,Tülu 3的最大版本为70B,而DeepSeek-R1则是在自家600B级别的DeepSeek-V3模型上完成训练的。这一差距极大影响了强化学习的上限。

从数据层面看,许书尧指出,DeepSeek-R1在后训练阶段还使用了约80万条高质量样本进行微调。这类数据不仅数量庞大,而且质量要求很高,如果出现错误很容易导致强化学习训练的崩溃。对大多数小团队而言,单是获取、筛选并清洗出这样规模和质量的数据,都很困难。

“在那个时间点,除了Google和其他几家积累深厚的巨头,可能真没有其他团队能做出这样的成果。”刘梓辰说。DeepSeek手上有强大的基础模型,还具备调优这类模型的经验和资源,DeepSeekV3作为模型本身一定也经过了高质量、清洗过的数据进行预训练,才能在强化学习后得到提升。即使其他团队掌握相似的方法、具备工程能力,如果出发点模型存在差距,也很难达到类似效果。


胡倞成认为,整个行业的推进速度本就非常惊人。即使没有DeepSeek,其他团队也在逐渐接近OpenAI o1级别的推理模型,也许再过几个月,就会有其他方案浮出水面。

但DeepSeek的成功仍然关键。在方法层面,它验证了通过强化学习提升推理能力的路径确实可行。更重要的是,它验证了这条路的可行性。“在R1之前,大家并没有真正做出一个能给自己信心的东西。这件事到底能不能做成,能做成什么样?即使有了思路方向,很多团队心里也没有底。DeepSeek-R1的出现,给我们做研究的人以信心,证明这条路是能走得通的,”胡倞成说。

02

性能提升,靠强化学习还是靠模型能力

在对DeepSeek-R1的后续研究中,一种观点逐渐受到关注。部分研究者认为,模型反思能力的提升,并非完全源自强化学习过程,而是基础模型自身能力的体现。
觉得新闻不错,请点个赞吧     还没人说话啊,我想来说几句
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0304 Seconds and 5 DB Queries in 0.0015 Seconds