歡迎您游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

溫哥華資訊

故事 | 移民 | 留學 | 八卦 | 娛樂 | 投資 | 旅游
就業 | 健康 | 文藝 | 情感 | 科技 | 華人 | 海歸

溫西 | 西溫 | 本那比 | 列治文 | 白石 | 市中心
溫東 | 北溫 | 高貴林 | 北素裡 | 素裡 | 滿地寶

大溫 | 玩樂 | 吃喝 | 社團 | 汽車 | 貼圖
生活 | 房屋 | 親子 | 攝影 | 原創 | 投資

專欄 | 視頻
群組 | 圖庫

生活資訊專欄投資理財

被DeepSeek逼急? OpenAI推新模型狂卷性價比

2025-01-31 | 來源: 智東西 | 轉到微信 | 有12人參與評論 | 字體: 放大縮小 | 收藏 | 打印

o3-mini的智能可媲美o1，提供了更快的性能、更高的效率。中推理能力下，該模型還在額外的數學和事實性評估中表現出色。在A/B測試中，o3-mini的響應速度比o1-mini快24%，平均響應時間為7.7秒，而o1-mini為10.16秒。

數學方面，在低推理能力下，o3-mini的表現與o1-mini相當，而在中推理能力下，o3-mini的表現與o1相當。同時，在高推理能力下，o3-mini的表現優於o1-mini和o1。

具有高推理能力的o3-mini在FrontierMath上的表現優於其前代。

在FrontierMath測試上，當被提示使用Python工具時，具有高推理能力的o3-mini在第一次嘗試時解決了超過32%的問題，其中包括超過28%的具有挑戰性的（T3）問題。

o3-mini隨著推理能力的增加逐漸獲得更高的Elo分數，均優於o1-mini。在中推理能力下，它的表現與o1相當。

o3-mini是OpenAI在SWE-bench驗證中表現最好的模型。

關於SWE-bench驗證結果的更多數據如下圖所示。o3-mini (tools) 性能最好，為61%。使用Agentless而非內部工具的o3-mini上市候選產品得分為39%。o1是表現第二好的模型，得分為48%。

在LiveBench編程測試中，高推理能力的o3-mini得分全面超過o1-high。

二、多項安全評估超過GPT-4o

中國科技巨頭:"DeepSeek慢且貴"

美眾院:問DeepSeek"賴清德是誰" 它回:聊聊數學吧

李彥宏公開吐槽DeepSeek:貴又慢…結果翻車了

OpenAI還詳細介紹了o3-mini在多個安全評估中的表現，稱o3-mini在具有挑戰性的安全性和越獄評估方面明顯超越了GPT-4o。

在不允許的內容評估中，與GPT-4o相比，o3-mini在標准拒絕評估和挑戰性拒絕評估中表現相似，但在XSTest中略遜一籌。

在越獄評估中，o3-mini與o1-mini相比，在生產越獄、越獄增強示例、StrongReject和人類來源的越獄評估中表現相當。

在幻覺評估中，使用PersonQA數據集，o3-mini的准確率為21.7%，幻覺率為14.8%，與GPT-4o、o1-mini相比表現相當或更好。

在公平性和偏見評估中，o3-mini在BBQ評估中的表現與o1-mini相似，但在處理模糊問題時的准確性略有下降。

外部紅隊測試顯示，o3-mini在與o1的比較中表現相當，兩者都顯著優於GPT-4o。

在Gray Swan Arena的越獄測試中，o3-mini的平均用戶攻擊成功率為3.6%，與o1-mini和GPT-4o相比略高。

准備框架評估涵蓋了網絡安全、CBRN（化學、生物、放射性、核）、說服力、模型自主性四個風險類別。o3-mini在網絡安全方面被評為“低風險”，在CBRN、說服力、模型自主性方面被評為“中等風險”，在生物威脅創建方面的表現達到了“中等風險”閾值，但在核和放射性武器發展方面的能力有限。

覺得新聞不錯，請點個贊吧

已經有 12 人參與評論了, 我也來說幾句吧

分享:

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

猜您喜歡:

美眾院指DeepSeek擁6萬英偉達芯片要求解釋

美眾院:問DeepSeek"賴清德是誰" 它回:聊聊數學吧

黃仁勳結束中國行,知情人士稱未與DeepSeek會面

虛擬情人｜盤點王敏奕三大靚爆造型,甜美校園Look VS 女強人Look

給2025年10部犯罪懸疑劇排個名:《絕密較量》墊底,《棋士》第3

您可能也喜歡:

呼應COVID實驗室外泄論川普新令瞄准中國

川普怎麼演,卡尼都穩贏!加美進入"新劇本"

越南與美國關稅談判在即,首輪對話定於5月7日

澤連斯基突然宣布習還敢去莫斯科嗎?

美國最新證實:美中本周開啟談判

全加國油價低位徘徊大溫是個例外

共有 12 人參與評論 (其它新聞評論)

評論2	游客 [辛.香.氏.說]	2025-02-01 00:08
Spending huge amount of money for StarGate plan is to develop their AI tech for monopoly and gorge the users with high prices without competitions. Now DeepSeek joined the competition and beat the AI prices. From this point view, DeepSeek helped all the AI users to save money. 贊 5 踩 1 回復 0

評論1	游客 [辛.昔.四.篇]	2025-01-31 23:01
開源，降價。OpenAI居然抄起了DeepSeek的作業。遺憾的是，抄的不夠徹底。請問FBI，要不要發起對OpenAI的國安和資安調查？請問OpenAI，剛剛在白宮宣布4年合資500B成立的Stargate，要不要修改投資計劃，或關門？2周前曾預計，AI大潮退後，即可見誰沒穿內褲，或誰的內褲不見了。沒想到這天來得這麼快，迅雷不及掩耳。只要摒棄壁壘和制裁，科學無遠弗屆。贊 4 踩回復 0