-
_NEWSDATE: 2025-05-23 | News by: AI范儿 | 有0人参与评论 | _FONTSIZE: _FONT_SMALL _FONT_MEDIUM _FONT_LARGE
5月22日,Anthropic在其首届开发者大会上发布了全新一代的Claude 4系列模型,包括旗舰级的 Opus 4、高性价比的 Sonnet 4,以及效率优先的 Haiku 4,同时推出了 Claude Code 开发工具包。它们背后的目标不再只是“更强大”,而是让 AI 成为真正“能干事”的工作搭档。
而这一次,Claude 不再只是对话模型,它开始接近一个具备自主任务执行能力、跨模态推理能力和高安全保障的 AI 系统雏形。
Claude Opus 4:不仅是更强,而是更“能干”
Claude Opus 4 是 Anthropic 目前能力最强的模型,甚至在多个维度上超越了 OpenAI Codex-1、o3 和 Gemini 2.5 Pro。
首先是推理深度和持续性。Anthropic 在内部测试中发现,Opus 4 可以在无需人类插手的情况下,连续执行一项编程任务超过 7小时,这对于构建长期自治智能体来说是里程碑式的进展。对比之下,GPT-4 通常只能持续几十分钟。
其次是编码能力。Opus 4 在代码基准测试 SWE-bench 中得分高达 72.5%,超过 OpenAI Codex-1(72.1%)和 Gemini 2.5 Pro(63.2%),成为目前已公开测试中 世界最强的代码大模型。不仅能写函数、改逻辑,它甚至可以理解跨文件结构,进行结构性重构,具备类似“工程意识”的表现。
图:Claude 4 模型在 SWE-bench Verified(真实软件工程任务性能基准测试)上领先
Claude Sonnet 4:高性价比版本,不输旗舰
如果说 Opus 4 是为了大企业和重度用户准备的,那 Sonnet 4 则是 Anthropic 为开发者和中小企业提供的“黄金版本”。
Sonnet 4 的 SWE-bench 编码得分达到 72.7%,甚至略高于 Opus。更重要的是,它在响应速度和成本上做了大量优化,非常适合用于部署到产品工作流中。对于大多数开发者来说,它几乎能满足你 90% 的需求。
图:Claude 4 模型在编码、推理、多模态能力和代理任务方面表现出色。
Claude 的模型也更加“听话”了。无论是长指令、结构化输入,还是格式化输出,Claude 4 系列在遵循复杂指令方面明显优于上一代模型,让它更像一个可靠的助理,而非只会答题的聊天机器人。
Claude Code 工具链:让 AI 真正进开发流程
为了配合 Claude 模型在工程场景的使用,Anthropic 还推出了完整的 Claude Code 工具链,包括 CLI 工具、VS Code 插件、GitHub 集成,未来还将开放 JetBrains 插件。- 新闻来源于其它媒体,内容不代表本站立场!
- 美银警告本周这天才是美股真正分水岭
- 美中恶斗分水岭:川普与他们结下兄弟情...
- 长大后越混越好的孩子 7岁前往往有3共同特征
- 大温房市新现象:房源多买家看花眼
- 汇钱存GIC被骗惨 温村女子告银行
-
- 大温公交客流量暴涨 竟超过了大多
- 陈羽凡白百何离婚后,50岁发福认不出,儿子像妈
- 温哥华地产经纪 经验丰富诚信可靠
- 演员朱媛媛去世年仅51岁 她与癌症抗争近5年
- 长周末多场暴雨 大温仅一天有阳光
- 龙舟节规模盛大 还有各种精彩活动
-
- 20年来加国暑期就业从未如此糟糕
- 潜在通胀升 央行6月降息概率下降
- 大温长周末赴美的客流量大幅下降
- 反常新闻:李强替代党魁,习多次缺席重要大会
- 尽管成本高 温哥华批准永久性标志
- 力邦艺术港 展览活动拍摄场地租赁
-
- 公寓市场正在放缓 买家都去哪了?
- NASA:太阳耀斑爆发可能致全球停电
- 有的部门已经瘫痪,解放军中人心惶惶
- 唉!温哥华又被贴上最不想要的标签
- 报告称大温4月份公寓销量下降20%
- 马筱梅发言一句话戳中大S痛点,张兰乐开花
-
目前还没有人发表评论, 大家都在期待您的高见