| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

ChatGPT Agent口碑两极化,Manus隔空对战

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
▲电子表格任务(来源:OpenAI)


在投行分析师任务中,Agent完成复杂财务建模的准确率达到71.3%,大幅领先o3(48.6%)和DeepResearch(55.9%)。




▲内部投资银行分析师任务评估(来源:OpenAI)

WebArena测试Agent在网页交互任务的操作能力,ChatGPT Agent准确率达到65.4%,超越o3和CUA模型,接近人类水平(78.2%)。



▲WebArena网页交互基准(58.1%)(来源:OpenAI)

BrowseComp用于评估Agent对长尾信息检索任务的处理能力,ChatGPT Agent准确率达到68.9%,比DeepResearch高出17.4个百分点。




▲复杂网页信息检索任务BrowseComp(来源:OpenAI)


ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任务中表现亮眼,数据分析、表格编辑和网页检索准确率大幅提升,部分任务超越人类水平。各类型任务相较于o3模型,Agent都实现了从10%到30%不同程度的提升。

结语:Agent潮起,OpenAI稳步迈进

ChatGPT Agent的发布再次证明Agent赛道正在加速进化。整合多工具、接入个人数据、具备基础执行力,正逐渐成为Agent产品进化的主流方向,但距离真正行业普及仍有不小距离。

这次,OpenAI并没有交付一个“划时代”版本,仅在个人助理和办公场景迈出了一步稳健但平淡的更新。

对用户来说,ChatGPT Agent值得体验,它确实让一部分琐碎事务可以交给AI代劳。但要说AI“重塑工作流”,显然还为时尚早。OpenAI还在路上,Agent也还在半成品阶段。它是一场值得肯定的进步,但并不是一场值得兴奋的飞跃。
点个赞吧!您的鼓励让我们进步     好新闻没人评论怎么行,我来说几句
上一页1...4567下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0312 秒 and 5 DB Queries in 0.0013 秒