OpenAI发布GPT-5.5:全面超越Claude与Gemini

2026-04-23 | 来源: 华尔街见闻 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

工程实测：开发者体验的质变

多位企业技术负责人的实测反馈显示，GPT-5.5在实际工程场景中带来的提升超出基准数字所能体现的范围。

Every公司创始人兼CEO Dan Shipper描述了一项测试：在一次上线后排查数天未果的问题上，他用GPT-5.5重演故障状态，模型生成的修复方案与其顶级工程师后来做出的系统重构决策高度吻合，而GPT-5.4未能做到。

Shipper称GPT-5.5为"我用过的第一个具有真正概念清晰度的编程模型"。

MagicPath CEO Pietro Schirano指出，GPT-5.5在约20分钟内一次性完成了一次涵盖数百项前端改动与重构更改的分支合并任务。其直言：

“感觉就像是在和更高层次的智慧生物一起工作，甚至会产生一种敬畏之情。”

Lovable联合创始人兼CTO Fabian Hedin表示，身份验证流程、实时同步及多文件编辑等过去需要多轮尝试的任务，现在可以"一次命中"。

遭胞妹控性侵 OpenAI执行长奥特曼反告诽谤证清白

OpenAI一日流失三高管资本还密谋换掉奥特曼

OpenAI内部信曝光:手撕Anthropic数据造假

NVIDIA一名提前获得访问权限的工程师表示，"失去GPT-5.5的访问权限，感觉就像被截去了一条肢体。"

知识工作：从辅助工具到全流程代理

OpenAI将GPT-5.5的应用场景从编程扩展至更广泛的知识工作领域，并以自身内部实践作为佐证。

据OpenAI披露，目前超过85%的公司员工每周使用Codex，覆盖软件工程、财务、传播、市场、数据科学及产品管理等部门。

财务团队借助Codex审查了共24,771份、合计71,637页的K-1税务表格，相较上一年度提前两周完成任务；传播团队利用GPT-5.5构建了一套演讲请求评分与风险框架，实现了低风险请求的自动化处理。

GPT-5.5在多个反映此类工作的基准测试中均达到了最先进的性能。在GDPval 测试中，该测试旨在检验智能体在44个职业领域中生成明确知识型工作的能力，GPT-5.5 的得分为 84.9%。

在OSWorld-Verified 测试中，该测试旨在衡量模型能否独立运行在真实的计算机环境中，其得分为 78.7%。在Tau2-bench Telecom测试中，该测试旨在检验复杂的客户服务工作流程，其得分在未进行任何快速调优的情况下达到了 98.0%。