| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

2025年AI看不懂时钟!90%人答对 顶尖AI全军覆没


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
只要表盘包含上述信息,就要求LLM一并输出。


2. 时间的加减

该任务要求LLM对给定时间进行加减,得到新时间。


3. 旋转时钟指针

这个任务是关于操作时钟的指针。该任务要求模型选择时/分/秒针,并按指定角度顺时针或逆时针旋转。

4. 时区转换

这个任务是关于不同地方的时间。比如,给定纽约夏令时,模型需推算不同地点的当地时间。

结果出乎意料

结果有哪些出乎意料的发现?

模型与人类不仅正确率差距巨大,错误模式也截然不同:


人类误差中位数仅3分钟,最佳模型却高达1小时较弱模型的误差约3小时,结合12小时制表盘循环特性,相当于随机噪声



另一个有趣发现是,某些钟表特征的读取难度存在显着差异:


在读取非常见的复杂钟表及高精度要求场景时,模型表现最差罗马数字与环形数字的朝向最难识别,其次是秒针、杂乱背景和镜像时钟



除了读时,其他问题对模型而言反而更简单:

表现最佳的模型能高精度回答时间加减、指针旋转角度或时区转换问题,部分场景准确率可达100%



在不同模型的表现对比中,总体趋势是:规模更大的推理型模型普遍优于规模较小或非推理型模型。
点个赞吧!您的鼓励让我们进步     无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0302 秒 and 5 DB Queries in 0.0013 秒