| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

OpenAI发布GPT-5.5:全面超越Claude与Gemini


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
工程实测:开发者体验的质变


多位企业技术负责人的实测反馈显示,GPT-5.5在实际工程场景中带来的提升超出基准数字所能体现的范围。

Every公司创始人兼CEO Dan Shipper描述了一项测试:在一次上线后排查数天未果的问题上,他用GPT-5.5重演故障状态,模型生成的修复方案与其顶级工程师后来做出的系统重构决策高度吻合,而GPT-5.4未能做到。


Shipper称GPT-5.5为"我用过的第一个具有真正概念清晰度的编程模型"。



MagicPath CEO Pietro Schirano指出,GPT-5.5在约20分钟内一次性完成了一次涵盖数百项前端改动与重构更改的分支合并任务。其直言:

“感觉就像是在和更高层次的智慧生物一起工作,甚至会产生一种敬畏之情。”



Lovable联合创始人兼CTO Fabian Hedin表示,身份验证流程、实时同步及多文件编辑等过去需要多轮尝试的任务,现在可以"一次命中"。


NVIDIA一名提前获得访问权限的工程师表示,"失去GPT-5.5的访问权限,感觉就像被截去了一条肢体。"

知识工作:从辅助工具到全流程代理

OpenAI将GPT-5.5的应用场景从编程扩展至更广泛的知识工作领域,并以自身内部实践作为佐证。


据OpenAI披露,目前超过85%的公司员工每周使用Codex,覆盖软件工程、财务、传播、市场、数据科学及产品管理等部门。

财务团队借助Codex审查了共24,771份、合计71,637页的K-1税务表格,相较上一年度提前两周完成任务;传播团队利用GPT-5.5构建了一套演讲请求评分与风险框架,实现了低风险请求的自动化处理。

GPT-5.5在多个反映此类工作的基准测试中均达到了最先进的性能。在GDPval 测试中,该测试旨在检验智能体在44个职业领域中生成明确知识型工作的能力,GPT-5.5 的得分为 84.9%。

在OSWorld-Verified 测试中,该测试旨在衡量模型能否独立运行在真实的计算机环境中,其得分为 78.7%。在Tau2-bench Telecom测试中,该测试旨在检验复杂的客户服务工作流程,其得分在未进行任何快速调优的情况下达到了 98.0%。


不错的新闻,我要点赞     好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0293 秒 and 5 DB Queries in 0.0022 秒