| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

ChatGPT Agent口碑兩極化,Manus隔空對戰

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
▲電子表格任務(來源:OpenAI)


在投行分析師任務中,Agent完成復雜財務建模的准確率達到71.3%,大幅領先o3(48.6%)和DeepResearch(55.9%)。




▲內部投資銀行分析師任務評估(來源:OpenAI)

WebArena測試Agent在網頁交互任務的操作能力,ChatGPT Agent准確率達到65.4%,超越o3和CUA模型,接近人類水平(78.2%)。



▲WebArena網頁交互基准(58.1%)(來源:OpenAI)

BrowseComp用於評估Agent對長尾信息檢索任務的處理能力,ChatGPT Agent准確率達到68.9%,比DeepResearch高出17.4個百分點。




▲復雜網頁信息檢索任務BrowseComp(來源:OpenAI)


ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任務中表現亮眼,數據分析、表格編輯和網頁檢索准確率大幅提升,部分任務超越人類水平。各類型任務相較於o3模型,Agent都實現了從10%到30%不同程度的提升。

結語:Agent潮起,OpenAI穩步邁進

ChatGPT Agent的發布再次證明Agent賽道正在加速進化。整合多工具、接入個人數據、具備基礎執行力,正逐漸成為Agent產品進化的主流方向,但距離真正行業普及仍有不小距離。

這次,OpenAI並沒有交付一個“劃時代”版本,僅在個人助理和辦公場景邁出了一步穩健但平淡的更新。

對用戶來說,ChatGPT Agent值得體驗,它確實讓一部分瑣碎事務可以交給AI代勞。但要說AI“重塑工作流”,顯然還為時尚早。OpenAI還在路上,Agent也還在半成品階段。它是一場值得肯定的進步,但並不是一場值得興奮的飛躍。
覺得新聞不錯,請點個贊吧     無評論不新聞,發表一下您的意見吧
上一頁1...4567下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0316 秒 and 5 DB Queries in 0.0015 秒