| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

2025年AI看不懂时钟!90%人答对 顶尖AI全军覆没


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。


一个典型例子是Humanity’s Last Exam):

在该基准上,OpenAI GPT-4o的得分仅2.7% ,而xAI Grok 4却提升到 25.4%;


结合工具使用等优化手段后,结果甚至能进入40–50%区间。

然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。



因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通人来说很简单,但对LLM却很难。

ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。

研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难。

因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。


ClockBench究竟包含什么?

36个全新设计的定制表盘,每个表盘生成5个样本时钟总计180个时钟,每个时钟设置4个问题,共720道测试题测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比




问题分为4大类:

1. 判断时间是否有效

有一个时钟?,大模型需要判断这个时钟显示的时间是不是有效的。



如果时间是合法的,大模型需要把它分解成几个部分,并以JSON格式输出:

小时 (Hours)、分钟 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、 星期几 (Day of the week)
您的点赞是对我们的鼓励     好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0424 秒 and 5 DB Queries in 0.0015 秒