| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

2025年AI看不懂时钟!90%人答对 顶尖AI全军覆没


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
不过,也出现了一些值得注意的现象:


谷歌的Gemini 2.5系列模型在各自类别中往往领先于其他模型;Anthropic系列模型则普遍落后于同类模型;Grok 4的表现远低于预期,与其规模和通用能力并不相称。




GPT-5排名第三,且推理预算对结果影响不大(中等与高预算得分高度接近)值得思考的是:何种因素制约了GPT-5在此类视觉推理任务的表现?


在原始数据集中,180个时钟里有37个属于无效(不可能存在)的时间。无论是人类还是模型,在识别「无效时间」时的成功率都更高:


人类差异不大:在无效时钟上的准确率为96.2%,而在有效时钟上为89.1%;模型差异明显:在无效时钟上的准确率平均高出349%,并且所有模型在这类任务中的表现都更好;Gemini 2.5 Pro依旧是总体最佳模型,准确率达到40.5%;Grok 4则是一个异常值:它在识别无效时钟上的准确率最高,达到64.9%,但问题在于,它把整个数据集里63.3%的时钟都标记为无效,这意味着结果很可能是「随机撞对」。在模型能够正确读时的钟面上,存在明显的重叠现象:

61.7%的时钟没有被任何模型正确读出;38.3%的时钟至少被1个模型读对;22.8%的时钟至少被2个模型读对;13.9%的时钟至少被3个模型读对;8.9%的时钟至少被4个或以上的模型读对。整体来看,分布情况和有效性数据表明:模型的正确答案集中在某一小部分时钟上,而不是均匀分布。
点个赞吧!您的鼓励让我们进步     这条新闻还没有人评论喔,等着您的高见呢
上一页1234下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0309 秒 and 5 DB Queries in 0.0018 秒