| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

奥特曼首揭GPT-4.5内幕,一个bug搞崩10万GPU!

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
1


GPT-4.5聪明10倍

奥特曼开篇说,通常他们开这种会都是为了发布新产品,不过这次打算换个玩法,聊聊GPT-4.5开发背后的故事。


GPT-4.5推出后,用户对它的兴趣特别大,这大大超出了研发团队的预期。

他们首先从「一个巨型模型到底需要什么?」这个话题说起。

「一大堆人、一大把时间,还有海量的计算资源。」主要负责预训练数据的Alex回答说。

Alex表示,他们光是准备阶段就花了很多心思,至于正式的训练,「本身就是个超级大的工程」。

在实际训练中,研究团队经常得做选择:是推迟发布,等更多问题解决;还是早点上线,边跑边解决问题。

这是个平衡,不能让整个训练过程拖得太久。

他们谦虚地认为,对于效率更高的算法及以如何更好地利用现有数据,他们还只是「略知皮毛」。

在不久之前,我们还在受限于算力。但从GPT-4.5开始,我们更多地是处在一个受限于数据的环境里了。

他们说这是一个颠覆性的进展,「整个世界对此还没有充分认识到。」

两年前着手开发GPT-4.5时,他们的目标是比GPT-4聪明10倍。

现在,他们觉得自己达到了这个目标——至少在投入的有效算力下,GPT-4.5实现了比GPT-4聪明10倍的效果。

1

预训练的两个难题

不过,实际的训练时间还是比预想的要长不少。

这里面主要有两个问题。


一个是从1万个GPU增加到10万个GPU,问题会变得多得多。

尤其是一些提前没预料到的小概率问题,在大规模计算时会捅出大乱子。

最容易出问题的就是算力基础设施,由于他们的数据量实在是太大了,有些问题连硬件制造商都没遇见过。

网络架构、单个加速器,这些都会出问题。「我们的工作就是尽量把这些变量的波动降到最低。」

另一个问题是探索前沿科技这件事本身就很难。

在训练GPT-4.5时,OpenAI投入了几百人的努力,耗费了大量的时间,几乎是all in。


但如果他们现在重新训练一个GPT-4水平的模型,大概只需要5到10个人就可以搞定。

专注于数据效率和算法的Dan说,「我觉得做任何新东西都难。但是当你知道别人已经做成过某件事,难度就会大大降低」。

「因为最难的部分是下定决心去做一件事。知道某件事是可行的,简直就像开了挂,瞬间就容易多了。」

Dan接着表示,如果想要将训练规模再扩大10倍甚至是100倍,数据就会成为瓶颈,这时候就需要一些算法上的创新,让模型能用更多的算力从同样的数据里学到更多东西。

1

torch.sum bug趣事

研究团队在GPT-4.5的训练中,发现了一些特别有趣的事情。

比如,在训练过程中不断地优化机器学习算法,做出一些调整。

尤其是团队解决了一些关键问题后,他们看到了模型性能的大幅提升。

那一刻,整个团队的能量都不一样了,大家都特别兴奋,动力满满,要把最后阶段冲刺完成。


不错的新闻,我要点赞     好新闻没人评论怎么行,我来说几句
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0322 Seconds and 5 DB Queries in 0.0022 Seconds