| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

2025年AI看不懂时钟!90%人答对 顶尖AI全军覆没


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
90%人都会的读钟题,顶尖AI全军覆没!


AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。

结果让人吃惊:


人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。



就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。



ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。




论文链接:https://clockbench.ai/ClockBench.pdf

虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:

训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。


时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。

也有好消息:表现最好的模型已展现出一定的视觉推理(虽有限)。其读时准确率与中位误差均显着优于随机水平。

接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。

ClockBench如何拷打AI?

在过去的几年里,大语言模型(LLM)在多个领域都取得了显着进展,前沿模型很快在许多流行基准上达到了「饱和」。


不错的新闻,我要点赞     无评论不新闻,发表一下您的意见吧
上一页1234下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0318 秒 and 5 DB Queries in 0.0019 秒