| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

網民熬夜玩兒瘋,Claude Opus 4.7來了


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
用Mythos向外界虛晃一槍後,Anthropic猝不及防把Claude Opus 4.7抬了上來。


不少小伙伴都熬夜玩兒瘋了!

一骨碌從床上坐起來邊沖浪邊上手體驗,我從Opus 4.7身上總結了一個壞消息和一些好消息。


先說壞消息吧——Opus 4.7身上,怎麼看怎麼有點故人之姿。

動不動就要“穩穩接住”我。

不少網友也反饋,怎麼說是升級,但Opus 4.7越用越像GPT???

如果是真的,這可不是什麼好事情(無奈閉眼.jpg)。

相比壞消息只有一個,好消息那是有一籮筐。

在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多個方面,都比前作更好。但Agentic search等幾個單項能力上有所下降。

Anthropic還很臭屁地表示:

Opus 4.7是我們家目前最強大的公開可用模型。

不過這不是我們最強大的模型喲~~

看來最強大的還是密而不發的Mythos。

看看上面的表格,Mythos在那些測試上的整體表現,均優越約10%至15%。

毫無疑問,Mythos Preview是目前Anthropic手裡最夯的一張牌,能力拉滿,但價格也是Opus 4.7的5倍。

相比之下,Opus 4.7更像是安全體系完成全驗證、定價親民且全平台開放的最強量產版。

但……所謂智者千慮必有一失。

強大的Opus 4.7還是在昨日的陰溝裡面翻了船:

Claude Opus 4.7突襲,核心升級四大方向

通覽下來,這個公開最強的Opus 4.7,在四個方向上都有突出表現。

高級軟件工程領域:值得托付

Opus 4.7最顯著的進步在高級軟件工程領域。

來看這組數據:

SWE-bench Verified測試達到78.2%;

SWE-bench Multimodal達到72.7%;

Terminal-Bench 2.0拿下68.8%;

Rakuten-SWE-Bench 中解決生產任務的數量更是Opus 4.6的3倍;

GitHub 93項任務編碼基准也提升了13%。

Cursor的CEO Michael Truell給出了一個關鍵評價:

在CursorBench上,Opus 4.7從58%躍升到70%,這個躍升意義重大。

這種提升體現在三個關鍵特性上。

第一,嚴格遵循指令。

Opus 4.7不再像早期模型那樣“靈活解讀”用戶的模糊表述,而是字面執行。

這意味著以前你寫“如果可能的話,嘗試優化這段代碼”這種提示詞,模型可能會選擇性忽略。

現在你說“優化這段代碼”,它就一定會執行。

這種變化要求用戶重新調整提示詞策略,軟修飾符如“if possible/ideally/try to”的權重變得更高,硬限制需要更明確。

第二,輸出前自我驗證。

Opus 4.7會在報告結果前devise ways to verify its own outputs,就像一個資深工程師在提交代碼前會自己跑一遍測試。

第三,擅長復雜多文件變更、模糊調試、跨服務代碼審查。

Notion的AI Lead Sarah Sachs分享了一個數據:

面對復雜多步驟工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具錯誤只有三分之一。

它是第一個通過我們隱性需求測試的模型。

視覺能力:分辨率×3,看見更多細節

在視覺能力方面,Opus 4.7也有很不錯的進步。



官方數據顯示,長邊最大支持2576像素(≈3.75百萬像素),是Opus 4.6的3倍以上;XBOW視覺敏銳度達到 98.5%(Opus 4.6僅54.5%)。

實際落地場景幾乎全覆蓋,能直接識別完整Figma設計稿、1080p終端截圖(含灰色小字),精准解析復雜技術架構圖、財報圖表,在計算機使用(Computer Use)場景中,可清晰讀取高密度UI元素,視覺處理能力近乎滿分。

換句話說,化學結構解析、復雜技術圖表識別、像素級精確的UI元素定位,這些過去需要專門模型的任務,現在可以直接用Opus 4.7一個模搞定。

Figma聽了立刻股價大跌,怎一個慘字了得。

指令遵循與推理:更可控,更可靠

Opus 4.7在指令遵循上也有長足進步。

它不再試圖猜測用戶的真實意圖,而是嚴格按照字面執行。


這次升級的核心優勢在於嚴苛的字面執行,如果用戶要求 “不要用 TypeScript” ,模型就堅決不用;用戶要求 “輸出 JSON” ,得到的輸出就一定沒有任何額外前綴。

這種變化對老用戶來說可能需要適應(同時舊提示詞易出現意外結果,需重新校准),但對需要精確控制的場景來說是福音。

在推理方面,100萬token長上下文場景表現亮眼,BFS任務得分58.6%*(Opus 4.6成績為41.2%),復雜推理中邏輯連貫性顯著提升。

Agent能力增強:為Agent而生的版本

如果說之前的Claude是為對話而生,Opus 4.7則是為Agent而生。

這體現在幾個方面。

首先總體來說,Opus 4.7的核心Agent能力有了全方位提升。

多家AI知名企業拿出了實際使用效果相關數據——Notion多步驟工作流成功率提升14%,工具調用錯誤率降至1/3;Vending-Bench 2長期經營模擬中,最終余額達10937美元(Opus 4.6剩了8018美元),長周期決策更穩健;Genspark場景下,抗死循環、一致性、錯誤恢復三大生產級特性拉滿。

同時具備文件系統記憶,跨多會話可靠記住關鍵信息,新任務可減少40%重復上下文輸入。

Cognition的CEO Scott Wu的描述更形象:

Opus 4.7在Devin中將長周期自主性提升到新水平。

它能連貫工作數小時,突破難題而不是放棄,解鎖了我們以前無法可靠運行的一類深度調查工作。

與此同時,Opus 4.7還為開發者提供了許多令人狂喜的Agent相關四件套。

第一,新增xhigh推理等級,作為默認等級介於high與max之間。

這給了開發者更精細的控制權,可以在推理深度和延遲之間找到平衡點,平衡智能與token成本,適配多數編碼/Agent任務。

第二,新增自適應思考模式,替代固定預算長思考,模型自主決定思考深度,簡單查詢快速響應,復雜步驟重點投入。

第三,任務預算(公開beta),開發者可引導token消耗,優化長任務資源分配。


第四,Claude Code新增/ultrareview命令,可創建專屬審查會話,標記細微錯誤與設計問題。

想做一個靠譜的模型:首發防護,記憶增強

Anthropic官方表示,Opus 4.7的網絡安全能力不如Mythos Preview。

不過這是他們刻意為之。

這種“自我設限”背後,是Anthropic對AI安全的一貫堅持。

自2021年成立以來,這家公司花了四年時間精心打造自己的聲譽,試圖對外塑造一個“比OpenAI等競爭對手更注重安全和負責任AI部署”的聲譽。

在Mythos Preview引發業界對強大AI模型安全風險的熱議之後,Opus 4.7被設計成一道緩沖帶。

具體來說,Anthropic在訓練中嘗試了差異化降低Opus 4.7的網絡能力,讓模型在面對網絡安全相關任務時表現出更謹慎的行為模式。

與此同時,官方發布了自動檢測和阻止高風險網絡安全請求的防護措施,這些safeguards能夠自動識別並攔截表明prohibited或high-risk網絡安全用途的請求。



而對於確實有合法網絡安全需求的專業人士,Anthropic推出了Cyber Verification Program。

安全專業人員如需將Opus 4.7用於漏洞研究、滲透測試、紅隊演練等合法目的,可以通過正式渠道申請。

官網還在上線播客的最後寫到,如果開發者們想從Opus 4.6遷移到4.7版本,有一些事項需要格外注意。

首先是tokenizer的更新。

Opus 4.7使用了新的分詞器,雖然改善了文本處理效率,但相同輸入可能映射到更多tokens,大約是1.0到1.35倍之間。

這意味著同樣的提示詞可能會消耗更多token,需要在成本預算中留出余量。

其次是在更高努力級別下會產生更多輸出tokens。

Opus 4.7在high和xhigh級別下的思考深度明顯增加,特別是在Agent場景的多輪對話後期。

這種“多思考、更可靠”的行為模式提升了輸出質量,但也意味著token消耗會隨會話長度增長。

與Opus 4.6同價,有這些注意事項你需要知道

目前,Opus 4.7已實現全平台開放。

除Claude官方途徑外,新模型不僅登陸 Claude Pro/Max/Team/Enterprise 全系產品、官方API,還同步上線微軟Foundry、谷歌Cloud Vertex AI、亞馬遜Bedrock三大雲平台。

其定價與Opus 4.6保持一致:輸入5美元每百萬tokens,輸出25美元每百萬tokens。

雖然如前所述,Opus 4.7涉及提示詞的重構需求和token使用策略的調整,但Anthropic在自己的內部測試中給出了積極信號。

在一個內部Agent編碼評估中,所有effort level下的token使用效率相比Opus 4.6都有改善。

換句話說,雖然單次調用的token數可能增加,但完成任務所需的總token往往更少,因為模型犯錯的次數減少了。

大概就像你雇了個時薪更高的資深工程師,但他完成任務的速度更快、返工更少,最終總成本可能更低。

另外,Opus 4.7在後續輪次中會更加謹慎,特別是在Agent場景中。

這意味著更可靠的輸出,但也意味著更多的token消耗。

開發者可以通過調整effort參數、設置任務預算或優化提示詞來平衡性能與成本。

Anthropic建議,在測試Opus 4.7的編碼和Agent用例時,從high或xhigh努力級別開始,根據實際需求逐步調整。

Anyway~

總的來說,實際使用成本會因使用方式的不同而變化,但大多數情況下,能力提升帶來的效率增益會抵消token消耗的增加。

對於依賴Claude進行復雜開發工作的團隊來說,這很可能是一筆劃算的交易。
您的點贊是對我們的鼓勵     這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0305 秒 and 5 DB Queries in 0.0018 秒