| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

大模型集体"挂科" GPT-4o准确率仅6.2%

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
你以为大模型已经能轻松“上网冲浪”了?新基准测试集BrowseComp-ZH直接打脸主流AI。BrowseComp-ZH是一项由港科大(广州)、北大(专题)、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:


GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%。

目前,BrowseComp-ZH的全部数据已开源发布。




研究团队直言:

为什么我们需要中文网页能力测试?如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。

但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。

然而,中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。

中文网页世界到底有多难?举几个例子你就明白了:

信息碎片化,分散在百度百科、微博、地方政府网站、视频号等多平台

常见的语言结构中含有省略、典故、代指,关键词检索常常“跑偏”


搜索引擎本身质量参差,信息“沉底”或“走丢”都是常事

因此,英文测试集“翻译一下”根本不够。

需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。


BrowseComp-ZH是怎么炼成的?研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),反向构造出多个约束条件的复杂问题,确保以下三点:

百度/Bing/Google三大搜索引擎首屏无法直接命中答案

多个主流大模型在检索模式下也无法直接答对

经过人工验证,问题结构清晰,且仅有唯一答案

最终,他们构建了289道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等11大领域。




觉得新闻不错,请点个赞吧     这条新闻还没有人评论喔,等着您的高见呢
上一页12下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0300 秒 and 5 DB Queries in 0.0016 秒