| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

DeepSeek的能力,到底从哪里来?(图

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
03


1000条数据就够了?

在DeepSeek-R1的跟进研究中,一批聚焦于“超低成本”提升模型能力的研究迅速引发关注。


在一些媒体报道中,被称为“花费仅50美元复现 DeepSeek-R1”的斯坦福大学 S1-32B 模型。仅使用1000条精选数据的情况下,就显着提升了数学与推理能力。

上海交通大学的 LIMO(Less Is More for Reasoning)提出,利用经过精心挑选的817条训练样本,通过简单的监督微调,就能让模型在多个数学任务中表现出色。在AIME24测试中,LIMO将准确率从传统模型(如 Numina-Math)的6.5%提升至57.1%,甚至超过了一些使用数十万条数据训练的主流模型。

张胤民解释,这一方面是由于高质量数据能提供更清晰、更直接的信号,帮助模型快速抓住关键模式,避免在无关或噪声信息上浪费学习能力。另一方面,在对齐阶段,用少量但精准的优质数据进行策略优化,能更有效地引导模型向期望的行为靠拢。这个过程类似做题,与其做一百道质量不一的题目,不如精做十道包含核心考点、能引发深度思考的经典例题。

既然用少量精心设计的数据监督学习(蒸馏),就能让模型展现出一定的推理能力,传统上用数万甚至十万级别样本进行训练的做法是不是没有必要?

对此邹昊晟表示,少量高质量数据的确可以唤起模型已有的推理潜力,帮助它模仿出“会思考”的行为。但若要获得真正稳定且高水平的表现,依然离不开更大规模的数据支撑。

以AIME评测为例,像LIMO和S1这类使用小规模数据蒸馏训练的模型,尽管性能有明显提升,但与DeepSeek蒸馏得到的Qwen-32B模型仍存在不小差距。得分更高的OpenThinker-32B,背后依托的是一个包含11万条样本的大型数据集。Light-R1团队也是在训练中先使用了约7万至8万条样本,再从中精挑出3000条更具挑战性的数据进行进一步训练。


“任何有关大模型的讨论,都不能刻意淡化数据的重要性,数据质和量都要保证,”邹昊晟说。

他解释,很多对于DeepSeek-R1低成本复现的报道,提到的只是训练过程的成本,而获取数据也是有成本的。要蒸馏一个模型首先要部署它,再花费算力收集数据。有了数据,后面SFT的步骤的成本没有那么高。




04

惊艳的训练方法,没有成为主流

对DeepSeek-R1-Zero训练方法,邹昊晟的评价是“美”。他曾认为,大模型不适合MCTS加 PRM的后训练方法,它们不够优雅简洁。 DeepSeek的方法恰恰抛弃了MCTS,仅使用ORM,在技术报告中,在DeepSeek-R1-Zero的响应长度和验证分数同时增加,形成一条“完美的曲线”。

“既美,也有效。它出来的那一周,我几乎没干别的,只在反复读它的论文,听相关的解读,”他说。

但实际上,后续出现大量的推理模型没有使用这种极具美感训练方式,蒸馏反而成了主导。一个关键原因在于,DeepSeek-R1开放了它的CoT(Chain-of-Thought,思维链)数据后,训练推理模型已经有了一条捷径。

在大模型的训练流程中,SFT是后训练的关键步骤之一。具体做法是,研究者准备一批高质量的人工标注数据,其中不仅包含问题和答案,还包含推理过程,也就是CoT数据。SFT阶段,就是用这些带有“思考步骤”的样例子去微调模型,让它学会像人一样逐步分析问题、得出结论。
不错的新闻,我要点赞     好新闻没人评论怎么行,我来说几句
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0309 Seconds and 7 DB Queries in 0.0024 Seconds