AI工具進化分水嶺:首個連續上班7小時的AI來了

2025-05-23 | 來源: AI范兒 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

在OpenAI 和 Google 接連發布大模型後，Anthropic終於也亮出了底牌。

5月22日，Anthropic在其首屆開發者大會上發布了全新一代的Claude 4系列模型，包括旗艦級的 Opus 4、高性價比的 Sonnet 4，以及效率優先的 Haiku 4，同時推出了 Claude Code 開發工具包。它們背後的目標不再只是“更強大”，而是讓 AI 成為真正“能幹事”的工作搭檔。

而這一次，Claude 不再只是對話模型，它開始接近一個具備自主任務執行能力、跨模態推理能力和高安全保障的 AI 系統雛形。

Claude Opus 4：不僅是更強，而是更“能幹”

Claude Opus 4 是 Anthropic 目前能力最強的模型，甚至在多個維度上超越了 OpenAI Codex-1、o3 和 Gemini 2.5 Pro。

首先是推理深度和持續性。Anthropic 在內部測試中發現，Opus 4 可以在無需人類插手的情況下，連續執行一項編程任務超過 7小時，這對於構建長期自治智能體來說是裡程碑式的進展。對比之下，GPT-4 通常只能持續幾十分鍾。

其次是編碼能力。Opus 4 在代碼基准測試 SWE-bench 中得分高達 72.5%，超過 OpenAI Codex-1（72.1%）和 Gemini 2.5 Pro（63.2%），成為目前已公開測試中世界最強的代碼大模型。不僅能寫函數、改邏輯，它甚至可以理解跨文件結構，進行結構性重構，具備類似“工程意識”的表現。

圖：Claude 4 模型在 SWE-bench Verified（真實軟件工程任務性能基准測試）上領先

庫爾斯克戰役2.0,難成俄烏戰爭分水嶺

川普帶傷歸來:共和黨意識形態轉型的分水嶺

《六姊妹》演員真實年齡揭秘,集體扮嫩個個顯老,6集是分水嶺

Claude Sonnet 4：高性價比版本，不輸旗艦

如果說 Opus 4 是為了大企業和重度用戶准備的，那 Sonnet 4 則是 Anthropic 為開發者和中小企業提供的“黃金版本”。

Sonnet 4 的 SWE-bench 編碼得分達到 72.7%，甚至略高於 Opus。更重要的是，它在響應速度和成本上做了大量優化，非常適合用於部署到產品工作流中。對於大多數開發者來說，它幾乎能滿足你 90% 的需求。

圖：Claude 4 模型在編碼、推理、多模態能力和代理任務方面表現出色。

Claude 的模型也更加“聽話”了。無論是長指令、結構化輸入，還是格式化輸出，Claude 4 系列在遵循復雜指令方面明顯優於上一代模型，讓它更像一個可靠的助理，而非只會答題的聊天機器人。

Claude Code 工具鏈：讓 AI 真正進開發流程

為了配合 Claude 模型在工程場景的使用，Anthropic 還推出了完整的 Claude Code 工具鏈，包括 CLI 工具、VS Code 插件、GitHub 集成，未來還將開放 JetBrains 插件。