| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

GPT-5.2被曝作弊!不如Gemini 3(图


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
相比之下,谷歌Gemini 3.0 Pro以6.7万token取得相似成绩,效率高出整整一倍。


如果我们将算力投入标准化,就会发现两个模型的真实能力几乎并驾齐驱。

如果这一假设普遍成立,那么GPT 5.2在使用token数超过Gemini 3的两倍的情况下,仍然在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4中表现不佳。


在GPQA上,它们也才基本相当。而在Frontier Math Tier 3中,GPT 5.2 xhigh也就比Gemini 3 Pro高出2.7%的成绩。

唯一例外的是GDPVal——一个由OpenAI自己创建的测试集。既当裁判又当运动员,结果的客观性就有待考量了。



Ilya:我早说过了

其实,Ilya在之前的采访中就已经说过,现在的大模型基本都是为了榜单定向优化的,榜单结果的水分都大得很。

业内人士都知道,如今AI基准测试的“军备竞赛”早已超出单纯的技术竞争。各家厂商都在竞相推出自己的评测标准,而这些标准往往有意无意地偏向自家模型。




这么干的也绝不仅仅是OpenAI一家。

谷歌推出的FACTS Benchmark中,Gemini 2.5 Pro超越GPT-5的结果,也同样得打个问号。


在SWE Bench(软件工程评测)中,情况就更加复杂了。

不同模型在不同编程任务上各有所长,但没有一个模型能在所有任务上全面领先。显然,真实世界的问题远比单一分数复杂。

所以,这次事件就反映出了AI评测的根本困境——

如果GPT-5.2仅仅是通过消耗更多算力获得了性能提升,那真的能智能进步吗?还是仅仅是“暴力计算”的胜利呢?

对于这次OpenAI的“虚假营销”,网友们也是议论纷纷。


不错的新闻,我要点赞     无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0230 秒 and 7 DB Queries in 0.0019 秒