| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

奥特曼首揭GPT-4.5内幕,一个bug搞崩10万GPU!

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
「那一刻真的很震撼。这对团队士气的提升,真的特别美妙。」


现场OpenAI的首席系统架构师Amin Chian分享了一个「torch.sum bug」趣事。

在训练过程中遇到bug是常事,通常是找一下到底是硬件故障、数据损坏,还是机器学习相关的Bug。


但在训练GPT-4.5时,有一次好几个问题一直都没有解决。

大家没办法就在一起讨论研究这些问题到底是由不同的Bug引起的,还是同一个Bug导致的。

他们围着桌子投票。结果呢?后来确定的那个Bug在当时得票最少!

就是个简单的「torch.sum」Bug,来自上游的PyTorch库,大家都觉得太不可思议了。

所有的问题都被这一行代码给解决了,真的特别有趣。

为了庆祝,他们还把Slack频道从「多Bug理论」改成了「单Bug理论」,那场面可热闹了。

这个Bug的触发频率特别低,可能每100步、1000步才出一次问题,特别容易被忽略。

但他们有条纪律,在训练过程中不能容忍这种问题出现。

整个过程就是一个坚持不放弃的故事。

1

压缩即智能

几十年来,深度学习的核心一直是提升算力效率。而且,每一次小的改进,都能带来显着的叠加效应。

世界上各地不同的人发现一个提升10%效率的技巧,另一个提出提升20%的优化,这些看似微小的进步累积起来,就能彻底改变模型的表现。


过去,因算力受限,数据效率的研究显得并不划算。但如今,数据效率每一次突破都将可能成为AI发展的临界点。

因此,现在就去预测AI会有瓶颈,有点不明智。

他们还认为更好的预训练和无监督学习能全面提升模型的智能,帮助模型更好地泛化,这一点跟现在模型的推理能力很是互补。

预训练本质上是在压缩数据。压缩数据意味着发现不同事物之间的联系、类比和抽象。而推理则针对某个具体问题,需要一种谨慎思考的技巧。

这种谨慎思考能解锁很多不同领域的问题,但预训练在跨领域压缩数据时,学到的是一种更抽象的东西。

为什么无监督学习会有效?研究员们的答案是「压缩」。


可以说,理想的智能形态就是所谓的「所罗门诺夫归纳」(Solomonov induction)。

简单来说,模型更倾向于简洁的解释。与此同时,它严格遵循贝叶斯原理,把所有可能性都记住,随时根据新信息更新自己的回答。

而他们现在做的预训练——或者说理解预训练的一个视角——就是在做这种「压缩」。

试图找到一个最短的程序(或者模型),来解释所有的数据,以此作为对理想智能的一种近似。

1

Scaling Law是宇宙法则

在播客的最后,奥特曼表示,训练GPT-4.5的整个过程,花了无数的人力、时间和金钱,其实可以看成是一场实验。

一场验证Scaling Law是不是还成立的实验。

结果他们发现,Scaling Law不仅有效,而且还可能会持续很长时间。


觉得新闻不错,请点个赞吧     无评论不新闻,发表一下您的意见吧
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0312 Seconds and 5 DB Queries in 0.0019 Seconds