欢迎您游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

故事 | 移民 | 留学 | 八卦 | 娱乐 | 投资 | 旅游
就业 | 健康 | 文艺 | 情感 | 科技 | 华人 | 海归

温西 | 西温 | 本那比 | 列治文 | 白石 | 市中心
温东 | 北温 | 高贵林 | 北素里 | 素里 | 满地宝

大温 | 玩乐 | 吃喝 | 社团 | 汽车 | 贴图
生活 | 房屋 | 亲子 | 摄影 | 原创 | 投资

专栏 | 视频
群组 | 图库

生活资讯专栏科技信息

2025年AI看不懂时钟!90%人答对顶尖AI全军覆没

2025-09-08 | 来源: 新智元 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

不过，也出现了一些值得注意的现象：

谷歌的Gemini 2.5系列模型在各自类别中往往领先于其他模型；Anthropic系列模型则普遍落后于同类模型；Grok 4的表现远低于预期，与其规模和通用能力并不相称。

GPT-5排名第三，且推理预算对结果影响不大（中等与高预算得分高度接近）值得思考的是：何种因素制约了GPT-5在此类视觉推理任务的表现？

蒙娜丽莎让大模型们全军覆没 AI不会眯眼睛?

马云站台的盒马,为何会员店全军覆没?

顶尖AI全军覆没!2025年AI看不懂时钟

在原始数据集中，180个时钟里有37个属于无效（不可能存在）的时间。无论是人类还是模型，在识别「无效时间」时的成功率都更高：

人类差异不大：在无效时钟上的准确率为96.2%，而在有效时钟上为89.1%；模型差异明显：在无效时钟上的准确率平均高出349%，并且所有模型在这类任务中的表现都更好；Gemini 2.5 Pro依旧是总体最佳模型，准确率达到40.5%；Grok 4则是一个异常值：它在识别无效时钟上的准确率最高，达到64.9%，但问题在于，它把整个数据集里63.3%的时钟都标记为无效，这意味着结果很可能是「随机撞对」。在模型能够正确读时的钟面上，存在明显的重叠现象：

61.7%的时钟没有被任何模型正确读出；38.3%的时钟至少被1个模型读对；22.8%的时钟至少被2个模型读对；13.9%的时钟至少被3个模型读对；8.9%的时钟至少被4个或以上的模型读对。整体来看，分布情况和有效性数据表明：模型的正确答案集中在某一小部分时钟上，而不是均匀分布。

点个赞吧！您的鼓励让我们进步

这条新闻还没有人评论喔，等着您的高见呢

分享:

上一页 1 2 34下一页

注：

新闻来源于其它媒体，内容不代表本站立场！

在此页阅读全文

猜您喜欢:

《亮剑》为什么观摩团全军覆没后,山本就放弃进攻八路军总部了?

中国乒乓球惨败 9人出局男单几乎全军覆没

蒙娜丽莎让大模型们全军覆没 AI不会眯眼睛?

李自成惨败山海关 10万精锐全军覆没犯致命错误

温机场流量创新高中国客流量复苏

谁在推高大温油价?未来两天还要涨

可怕!加国难民绑架和性侵华裔女子

温哥华牙医诊所提供全面牙科服务

普京:俄罗斯不反对乌克兰加入欧盟

最惨一代:加拿大33岁小哥年薪近10万被裁

零专科竟然无岗大温医生被迫出走

温哥华资深贷款专家解决贷款需求

中老年女人穿裙子时要懂这4不要看江珊就知道了

最新榜单揭晓加国人最喜欢去这里

【诸志祥】因为钱,养父被亲父告上法院,《黑猫警长》没再拍下去

大闹本拿比山的黑熊终于被抓住了

您可能也喜欢:

美中谈判前中国黑客冒充美议员刺探消息

美在北京眼皮子底下造全球最大武器工厂

重磅!加拿大推6项新政延长EI福利

阿玛尼去世!内娱10位明星哀悼评论区乱套了

加国这荣登2026年世界顶级旅游地

丧失权力?习见普京竟然不在此处

哈里宁弃妻儿返英英媒曝梅根"死亡禁令"犹似戴妃

"非升即走"!海归博士最悲惨的结局

差点被骗!加国CRA+中国公安局电话诈骗全过程

最亲中首相下台!日股大涨两人成焦点

全面禁止这类人入境美国!中国怒了

温哥华资深贷款专家解决贷款需求

温哥华房市面临的好消息和坏消息

温哥华贷款经纪解决各类疑难贷款

大陆热帖:不得不说,这是韩国的奇耻大辱

刘建超下落不明,传他代理中联部部长

我来说两句:

大家正在围观

BC警方抓626名酒驾司机这儿最多

在香港转机可参加三种免费观光游

李连杰的前妻黄秋燕:2005年再婚,

辛芷蕾刚拿国际影后 3位演员摊上

2025下半年4部重磅大剧来袭,杨紫

自助麻辣烫火遍大温列市再开新店

24小时5个瓜!顶流赌博,网红骗婚,

惨烈无比 BC高速迎头相撞两女惨死

亚马逊温哥华招聘年薪高达35.7万

最新榜单揭晓加国人最喜欢去这里

同类热门新闻

iPhone17登场加国定价本周五开抢

特斯拉餐厅开幕挤爆 2周后乱象丛

苹果全新iPhoneAir发布: 史上最薄

香港公司爱上买币:马云持股公司花

苹果发布会10大看点抢先看:除了史

iPhone 17来了,但智能机未来可能

批印度,纳瓦罗为何杠上马斯克?(图

图表盘点:苹果iPhone 17买哪款?最

8.5万亿!特斯拉董事会向马斯克抛

马云花3.1亿买以太坊背后:香港上

随时阅读新闻

加西网微信	大温优惠小红书
温哥华地产中心微信	Android: 加西网

Terms & Conditions

Activities Agreement

加西网为北美中文网传媒集团旗下网站

页面生成: 0.0309 秒 and 5 DB Queries in 0.0018 秒