GPT-5.2被曝作弊!不如Gemini 3(图

2025-12-13 | 来源: 新智元 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

相比之下，谷歌Gemini 3.0 Pro以6.7万token取得相似成绩，效率高出整整一倍。

如果我们将算力投入标准化，就会发现两个模型的真实能力几乎并驾齐驱。

如果这一假设普遍成立，那么GPT 5.2在使用token数超过Gemini 3的两倍的情况下，仍然在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4中表现不佳。

在GPQA上，它们也才基本相当。而在Frontier Math Tier 3中，GPT 5.2 xhigh也就比Gemini 3 Pro高出2.7%的成绩。

唯一例外的是GDPVal——一个由OpenAI自己创建的测试集。既当裁判又当运动员，结果的客观性就有待考量了。

Ilya：我早说过了

其实，Ilya在之前的采访中就已经说过，现在的大模型基本都是为了榜单定向优化的，榜单结果的水分都大得很。

业内人士都知道，如今AI基准测试的“军备竞赛”早已超出单纯的技术竞争。各家厂商都在竞相推出自己的评测标准，而这些标准往往有意无意地偏向自家模型。

谷歌翻译引入Gemini技术,支持耳机实时翻译

Gemini太慢?Google全新按键AI 秒回答

华尔街彻夜难眠,Gemini 3屠榜金融"最难考试"

这么干的也绝不仅仅是OpenAI一家。

在谷歌推出的FACTS Benchmark中，Gemini 2.5 Pro超越GPT-5的结果，也同样得打个问号。

在SWE Bench（软件工程评测）中，情况就更加复杂了。

不同模型在不同编程任务上各有所长，但没有一个模型能在所有任务上全面领先。显然，真实世界的问题远比单一分数复杂。

所以，这次事件就反映出了AI评测的根本困境——

如果GPT-5.2仅仅是通过消耗更多算力获得了性能提升，那真的能智能进步吗？还是仅仅是“暴力计算”的胜利呢？

对于这次OpenAI的“虚假营销”，网友们也是议论纷纷。