| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

DeepSeek的能力,到底从哪里来?(图

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
过去,获取高质量的CoT数据一直是训练推理模型的瓶颈之一。普通问答数据通常只包含问题和答案,而要激活模型的反思能力,需要为题目配上详细的思维过程。但这类数据在公开数据集中几乎不存在,人工标注成本极高,用AI自动生成往往又质量不佳。


DeepSeek-R1选择开放CoT数据,使得后来者可以直接用这些数据对模型进行蒸馏,让一个不具备推理能力的模型,通过模仿DeepSeek-R1给出的解题步骤,获得推理能力。邹昊晟表示,有了一个开源的、能生成CoT的模型之后,很多跟进工作整理出了开源的、带CoT的数据集,这大大降低了获取的成本。

于是,相比亲自走一遍纯强化学习这条难度高、试错成本大的路线,后来者更倾向于使用这些公开的CoT数据进行蒸馏,训练推理模型。"一旦有一个模型允许蒸馏,就会有无数个"。邹昊晟说,“在资源消耗和可控性上,蒸馏要好很多”。


根据邹昊晟的粗略估计,和蒸馏相比,从头强化学习需要的资源至少多一个数量级。强化学习训练过程中的数据主要都靠模型自己采样生成,不像监督学习的数据更容易人为干预。根据Light-R1强化学习部分的训练经验,一个14B的模型进行强化学习训练,需要128张A100卡跑超过40个小时。而利用了SFT步骤的Light-R1-32B模型训练,只需要96张H800卡跑6小时。

相比直接训练推理模型,从已有模型中进行蒸馏在资源消耗上要低得多。研究者可以先生成一小批问题的解题过程,用于初步训练。如果算力紧张,后续还可以按需补充。在抓取完 DeepSeek-R1的回答后,后续对数据清洗、筛选和组织工作大多属于低成本环节。根据处理后的数据,还可以产出多个版本,分别用于不同模型的训练。

在邹昊晟看来,纯强化学习路线更多体现的是一种研究上的美感,但这种方法存在两个现实问题:一是最终分数仍然不如先经过蒸馏再进行强化学习等步骤优化后的模型,二是模型的思考过程可读性不强。他补充说,DeepSeek部署上线的也不是R1-Zero模型,而是经过SFT后再强化学习训练的R1模型。纯强化学习训练出来的模型,目前与用户直接交互的能力还稍显不足。

另一个限制出现在模型的体量上。在未经过SFT 的基础模型上直接进行强化学习,对小模型来说很困难。


许书尧提到,流行的说法是3B参数量是一个“门槛”。如果模型规模小于这一阈值,在强化学习阶段往往难以表现出回答长度的增长或准确率的提升。他在实验中曾尝试对Qwen2.5-1.5B-Instruct模型进行强化学习训练,但没有成功复现推理能力的提升,换用 Qwen2.5-7B-1M模型后,这一效果才得以显现。

这背后其实是概率问题。比如让模型解一道题,目标是让它给出正确答案,这样它就能获得正向奖励。但如果模型太小,它几乎永远给不出正确答案,连“猜对”的概率都没有,模型就没法通过强化学习放大正确的行为。

例如,对一个7B的模型做64次采样,也就是让模型对同一个问题生成64次答案,它也许回答正确几次。但对于一个1B模型,可能64次中没有一次是正确的。在有限的训练次数下,始终得不到正确的答案,强化学习也就没法向得到正确答案的方向引导。


相反,蒸馏则是对小模型友好的方法,在许书尧的后续实验中,通过让7B模型指导1.5B模型,模型展现出明显的反思行为,思维链也变得更长。

不过,这不代表纯强化学习只是一次方法上的尝试,它依然有实用的价值。

邹昊晟介绍,在其团队工作之前,虽有大量复现和跟进实验,但无一能比肩DeepSeek蒸馏Qwen 32B模型在AIME24上72.6分的成绩。而他所在的团队成功在一个更小的14B模型上,不仅实现了强化学习阶段响应长度与验证分数的同步提升,还将成绩提高到74分,超越了前者。

“这两分的提升,其实是最难的,”邹昊晟认为,如果大多数模型可以通过蒸馏达到90分,但要在此基础上更进一步,提升到95分,强化学习就是不可替代的手段,“虽然不像外界想象的那么有革命性,但对行业内来说,这是一个训练技术上的范式转移”。
点个赞吧!您的鼓励让我们进步     这条新闻还没有人评论喔,等着您的高见呢
Prev Page12345Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0302 Seconds and 5 DB Queries in 0.0014 Seconds