GPT-5.2被曝作弊!不如Gemini 3(圖

2025-12-13 | 來源: 新智元 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

相比之下，谷歌Gemini 3.0 Pro以6.7萬token取得相似成績，效率高出整整一倍。

如果我們將算力投入標准化，就會發現兩個模型的真實能力幾乎並駕齊驅。

如果這一假設普遍成立，那麼GPT 5.2在使用token數超過Gemini 3的兩倍的情況下，仍然在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4中表現不佳。

在GPQA上，它們也才基本相當。而在Frontier Math Tier 3中，GPT 5.2 xhigh也就比Gemini 3 Pro高出2.7%的成績。

唯一例外的是GDPVal——一個由OpenAI自己創建的測試集。既當裁判又當運動員，結果的客觀性就有待考量了。

Ilya：我早說過了

其實，Ilya在之前的采訪中就已經說過，現在的大模型基本都是為了榜單定向優化的，榜單結果的水分都大得很。

業內人士都知道，如今AI基准測試的“軍備競賽”早已超出單純的技術競爭。各家廠商都在競相推出自己的評測標准，而這些標准往往有意無意地偏向自家模型。

Gemini太慢?Google全新按鍵AI 秒回答

免費的Gemini3 Flash,谷歌的無解陽謀

語音對話版Gemini即將重大升級(圖

這麼幹的也絕不僅僅是OpenAI一家。

在谷歌推出的FACTS Benchmark中，Gemini 2.5 Pro超越GPT-5的結果，也同樣得打個問號。

在SWE Bench（軟件工程評測）中，情況就更加復雜了。

不同模型在不同編程任務上各有所長，但沒有一個模型能在所有任務上全面領先。顯然，真實世界的問題遠比單一分數復雜。

所以，這次事件就反映出了AI評測的根本困境——

如果GPT-5.2僅僅是通過消耗更多算力獲得了性能提升，那真的能智能進步嗎？還是僅僅是“暴力計算”的勝利呢？

對於這次OpenAI的“虛假營銷”，網友們也是議論紛紛。