奧特曼首揭GPT-4.5內幕,一個bug搞崩10萬GPU!

文章轉載於新智元
GPT-4.5出世一個多月,鮮有人知其背後研發故事。
今天凌晨,奧特曼與三位核心研究員在線開啟播客對談,首次揭開了GPT-4.5從願景到現實的史詩級突破。

早在兩年前,OpenAI團隊定下了一個大膽的目標,打造一款比GPT-4聰明10倍的模型。
這不僅意味著LLM性能提升,更是對計算、數據、協作的極限挑戰。

從左到右:奧特曼、Alex Paino、Amin Tootoonchian和Daniel Selsam
如今,OpenAI在2月底正式交卷,GPT-4.5情商堪稱所有模型最強的,並再次Scaling無監督學習的邊界。
這款「超級模型」究竟如何創造智能奇跡,全部濃縮在了這45分鍾的圓桌對談中。
一些精彩亮點:
GPT-4.5比GPT-4聰明10倍,研發用時2年,擁有上一代不具備的微妙「魔力」
訓練GPT-4.5為OpenAI提供了寶貴的技術經驗;現只需要大約5名員工,就可以從頭開始訓練GPT-4
算力基礎設施和大規模GPU擴展帶來的小概率問題會捅出大亂子
數據效率成為關鍵瓶頸,OpenAI下一個主要研究前沿是提高數據效率
「torch.sum bug」等趣事推動模型性能飛躍。
Scaling Law被驗證為可能長期有效的「宇宙規律」



分享: |
注: | 在此頁閱讀全文 |