| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

GPT-5.2被曝作弊!不如Gemini 3(圖


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
相比之下,谷歌Gemini 3.0 Pro以6.7萬token取得相似成績,效率高出整整一倍。


如果我們將算力投入標准化,就會發現兩個模型的真實能力幾乎並駕齊驅。

如果這一假設普遍成立,那麼GPT 5.2在使用token數超過Gemini 3的兩倍的情況下,仍然在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4中表現不佳。


在GPQA上,它們也才基本相當。而在Frontier Math Tier 3中,GPT 5.2 xhigh也就比Gemini 3 Pro高出2.7%的成績。

唯一例外的是GDPVal——一個由OpenAI自己創建的測試集。既當裁判又當運動員,結果的客觀性就有待考量了。



Ilya:我早說過了

其實,Ilya在之前的采訪中就已經說過,現在的大模型基本都是為了榜單定向優化的,榜單結果的水分都大得很。

業內人士都知道,如今AI基准測試的“軍備競賽”早已超出單純的技術競爭。各家廠商都在競相推出自己的評測標准,而這些標准往往有意無意地偏向自家模型。




這麼幹的也絕不僅僅是OpenAI一家。

谷歌推出的FACTS Benchmark中,Gemini 2.5 Pro超越GPT-5的結果,也同樣得打個問號。


在SWE Bench(軟件工程評測)中,情況就更加復雜了。

不同模型在不同編程任務上各有所長,但沒有一個模型能在所有任務上全面領先。顯然,真實世界的問題遠比單一分數復雜。

所以,這次事件就反映出了AI評測的根本困境——

如果GPT-5.2僅僅是通過消耗更多算力獲得了性能提升,那真的能智能進步嗎?還是僅僅是“暴力計算”的勝利呢?

對於這次OpenAI的“虛假營銷”,網友們也是議論紛紛。


點個贊吧!您的鼓勵讓我們進步     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0223 秒 and 5 DB Queries in 0.0020 秒