| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

被DeepSeek逼急? OpenAI推新模型 狂卷性價比

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



o3-mini的智能可媲美o1,提供了更快的性能、更高的效率。中推理能力下,該模型還在額外的數學和事實性評估中表現出色。在A/B測試中,o3-mini的響應速度比o1-mini快24%,平均響應時間為7.7秒,而o1-mini為10.16秒。

數學方面,在低推理能力下,o3-mini的表現與o1-mini相當,而在中推理能力下,o3-mini的表現與o1相當。同時,在高推理能力下,o3-mini的表現優於o1-mini和o1。


具有高推理能力的o3-mini在FrontierMath上的表現優於其前代。

在FrontierMath測試上,當被提示使用Python工具時,具有高推理能力的o3-mini在第一次嘗試時解決了超過32%的問題,其中包括超過28%的具有挑戰性的(T3)問題。

o3-mini隨著推理能力的增加逐漸獲得更高的Elo分數,均優於o1-mini。在中推理能力下,它的表現與o1相當。

o3-mini是OpenAI在SWE-bench驗證中表現最好的模型。

關於SWE-bench驗證結果的更多數據如下圖所示。o3-mini (tools) 性能最好,為61%。使用Agentless而非內部工具的o3-mini上市候選產品得分為39%。o1是表現第二好的模型,得分為48%。

在LiveBench編程測試中,高推理能力的o3-mini得分全面超過o1-high。

二、多項安全評估超過GPT-4o


OpenAI還詳細介紹了o3-mini在多個安全評估中的表現,稱o3-mini在具有挑戰性的安全性和越獄評估方面明顯超越了GPT-4o。

在不允許的內容評估中,與GPT-4o相比,o3-mini在標准拒絕評估和挑戰性拒絕評估中表現相似,但在XSTest中略遜一籌。

在越獄評估中,o3-mini與o1-mini相比,在生產越獄、越獄增強示例、StrongReject和人類來源的越獄評估中表現相當。




在幻覺評估中,使用PersonQA數據集,o3-mini的准確率為21.7%,幻覺率為14.8%,與GPT-4o、o1-mini相比表現相當或更好。

在公平性和偏見評估中,o3-mini在BBQ評估中的表現與o1-mini相似,但在處理模糊問題時的准確性略有下降。

外部紅隊測試顯示,o3-mini在與o1的比較中表現相當,兩者都顯著優於GPT-4o。

在Gray Swan Arena的越獄測試中,o3-mini的平均用戶攻擊成功率為3.6%,與o1-mini和GPT-4o相比略高。

准備框架評估涵蓋了網絡安全、CBRN(化學、生物、放射性、核)、說服力、模型自主性四個風險類別。o3-mini在網絡安全方面被評為“低風險”,在CBRN、說服力、模型自主性方面被評為“中等風險”,在生物威脅創建方面的表現達到了“中等風險”閾值,但在核和放射性武器發展方面的能力有限。
覺得新聞不錯,請點個贊吧     已經有 12 人參與評論了, 我也來說幾句吧
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    共有 12 人參與評論    (其它新聞評論)
    評論2 游客 [辛.香.氏.說] 2025-02-01 00:08
    Spending huge amount of money for StarGate plan is to develop their AI tech for monopoly and gorge the users with high prices without competitions. Now DeepSeek joined the competition and beat the AI prices. From this point view, DeepSeek helped all the AI users to save money.
    評論1 游客 [辛.昔.四.篇] 2025-01-31 23:01
    開源,降價。OpenAI居然抄起了DeepSeek的作業。遺憾的是,抄的不夠徹底。請問FBI,要不要發起對OpenAI的國安和資安調查?請問OpenAI,剛剛在白宮宣布4年合資500B成立的Stargate,要不要修改投資計劃,或關門?2周前曾預計,AI大潮退後,即可見誰沒穿內褲,或誰的內褲不見了。沒想到這天來得這麼快,迅雷不及掩耳。只要摒棄壁壘和制裁,科學無遠弗屆。
    上一頁1下一頁
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0354 秒 and 5 DB Queries in 0.0019 秒