| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

大模型集體"掛科" GPT-4o准確率僅6.2%

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
你以為大模型已經能輕松“上網沖浪”了?新基准測試集BrowseComp-ZH直接打臉主流AI。BrowseComp-ZH是一項由港科大(廣州)、北大(专题)、浙大、阿裡、字節跳動、NIO等機構聯合發布的新基准測試集,讓20多個中外主流大模型集體“掛科”:


GPT-4o在測試中准確率僅6.2%;多數國產/國際模型准確率跌破10%;即便是目前表現最好的OpenAI DeepResearch,也僅得42.9%。

目前,BrowseComp-ZH的全部數據已開源發布。




研究團隊直言:

為什麼我們需要中文網頁能力測試?如今的大模型越來越擅長“用工具”:能連搜索引擎、能調用插件、能“看網頁”。

但眾多評估工具都只在英文語境下建立,對中文語境、中文搜索引擎、中文平台生態考慮甚少。

然而,中文互聯網信息碎片化嚴重、搜索入口多樣、語言表達復雜。

中文網頁世界到底有多難?舉幾個例子你就明白了:

信息碎片化,分散在百度百科、微博、地方政府網站、視頻號等多平台

常見的語言結構中含有省略、典故、代指,關鍵詞檢索常常“跑偏”


搜索引擎本身質量參差,信息“沉底”或“走丟”都是常事

因此,英文測試集“翻譯一下”根本不夠。

需要從中文語境原生設計,才能真正衡量大模型是否能在中文網頁上“看得懂”、“搜得到”、“推得准”。


BrowseComp-ZH是怎麼煉成的?研究團隊采用了“逆向設計法”:從一個明確、可驗證的事實答案出發(如某個畫種、機構、影視劇名),反向構造出多個約束條件的復雜問題,確保以下三點:

百度/Bing/Google三大搜索引擎首屏無法直接命中答案

多個主流大模型在檢索模式下也無法直接答對

經過人工驗證,問題結構清晰,且僅有唯一答案

最終,他們構建了289道高難度中文多跳檢索題目,覆蓋影視、藝術、醫學、地理、歷史、科技等11大領域。




點個贊吧!您的鼓勵讓我們進步     這條新聞還沒有人評論喔,等著您的高見呢
上一頁12下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0312 秒 and 5 DB Queries in 0.0016 秒