ChatGPT Agent口碑两极化,Manus隔空对战

2025-07-19 | 来源: 智东西 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

▲电子表格任务（来源：OpenAI）

在投行分析师任务中，Agent完成复杂财务建模的准确率达到71.3%，大幅领先o3（48.6%）和DeepResearch（55.9%）。

▲内部投资银行分析师任务评估（来源：OpenAI）

WebArena测试Agent在网页交互任务的操作能力，ChatGPT Agent准确率达到65.4%，超越o3和CUA模型，接近人类水平（78.2%）。

▲WebArena网页交互基准（58.1%）（来源：OpenAI）

BrowseComp用于评估Agent对长尾信息检索任务的处理能力，ChatGPT Agent准确率达到68.9%，比DeepResearch高出17.4个百分点。

ChatGPT帮减重!她每天做这事 1个月狂瘦7公斤

ChatGPT全球宕机把人都整不会了

UCLA学生毕业礼兴奋自爆"ChatGPT帮我毕业"惹议

▲复杂网页信息检索任务BrowseComp（来源：OpenAI）

ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任务中表现亮眼，数据分析、表格编辑和网页检索准确率大幅提升，部分任务超越人类水平。各类型任务相较于o3模型，Agent都实现了从10%到30%不同程度的提升。

结语：Agent潮起，OpenAI稳步迈进

ChatGPT Agent的发布再次证明Agent赛道正在加速进化。整合多工具、接入个人数据、具备基础执行力，正逐渐成为Agent产品进化的主流方向，但距离真正行业普及仍有不小距离。

这次，OpenAI并没有交付一个“划时代”版本，仅在个人助理和办公场景迈出了一步稳健但平淡的更新。

对用户来说，ChatGPT Agent值得体验，它确实让一部分琐碎事务可以交给AI代劳。但要说AI“重塑工作流”，显然还为时尚早。OpenAI还在路上，Agent也还在半成品阶段。它是一场值得肯定的进步，但并不是一场值得兴奋的飞跃。