大模型集体"挂科" GPT-4o准确率仅6.2%

2025-05-06 | 来源: 量子位 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

你以为大模型已经能轻松“上网冲浪”了？新基准测试集BrowseComp-ZH直接打脸主流AI。BrowseComp-ZH是一项由港科大（广州）、北大(专题)、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集，让20多个中外主流大模型集体“挂科”：

GPT-4o在测试中准确率仅6.2%；多数国产/国际模型准确率跌破10%；即便是目前表现最好的OpenAI DeepResearch，也仅得42.9%。

目前，BrowseComp-ZH的全部数据已开源发布。

研究团队直言：

为什么我们需要中文网页能力测试？如今的大模型越来越擅长“用工具”：能连搜索引擎、能调用插件、能“看网页”。

但众多评估工具都只在英文语境下建立，对中文语境、中文搜索引擎、中文平台生态考虑甚少。

然而，中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。

中文网页世界到底有多难？举几个例子你就明白了：

信息碎片化，分散在百度百科、微博、地方政府网站、视频号等多平台

常见的语言结构中含有省略、典故、代指，关键词检索常常“跑偏”

90%准确率! 预言家公布2024年大选终极预测结果

用AI预测人的死亡准确率高达80%

比死神准?AI预知死亡准确率高80%

搜索引擎本身质量参差，信息“沉底”或“走丢”都是常事

因此，英文测试集“翻译一下”根本不够。

需要从中文语境原生设计，才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。

BrowseComp-ZH是怎么炼成的？研究团队采用了“逆向设计法”：从一个明确、可验证的事实答案出发（如某个画种、机构、影视剧名），反向构造出多个约束条件的复杂问题，确保以下三点：

百度/Bing/Google三大搜索引擎首屏无法直接命中答案

多个主流大模型在检索模式下也无法直接答对

经过人工验证，问题结构清晰，且仅有唯一答案

最终，他们构建了289道高难度中文多跳检索题目，覆盖影视、艺术、医学、地理、历史、科技等11大领域。