| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

被DeepSeek逼急? OpenAI推新模型 狂卷性價比

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
2月1日報道,今日凌晨,OpenAI發布全新推理模型o3-mini。


OpenAI稱這是其最具成本效益的推理模型,復雜推理和對話能力顯著提升,在科學、數學、編程等領域的性能表現超過前代o1模型,同時保持了o1-mini的低成本和低延遲,並可與聯網搜索功能搭配使用。

o3-mini已在ChatGPT和API中可用,企業版訪問權限將在一周內推出。


顯然DeepSeek登頂美國App Store免費榜給OpenAI制造了壓力。今天,ChatGPT首次向所有用戶免費提供推理模型:用戶可在ChatGPT中選擇“Reason”按鈕來試用o3-mini。

ChatGPT Pro用戶可無限制訪問,Plus和Team用戶的速率限制從原來o1-mini的每天50條消息增加3倍到o3-mini的每天150條消息。

付費用戶還可以選擇更高智能的版本“o3-mini-high”。該版本需要更長的時間才能生成響應。

和o1模型一樣,o3-mini模型的知識截止日期為2023年10月,上下文窗口為20萬個token,最多可輸出10萬個token。

有低(low)、中(medium)、高(high)三個版本的o3-mini,供開發者針對其特定用例進行優化。

o3-mini目前不支持視覺功能,因此開發者仍需使用o1進行視覺推理任務。

即日起,o3-mini在Chat Completions API、Assistants API、Batch API中推出。

OpenAI稱相較推出GPT-4時,每個token的價格已經降低了95%,同時保持了頂級的推理能力。不過o3-mini的API定價還是高於DeepSeek模型。



安全方面,OpenAI發現o3-mini在具有挑戰性的安全性和越獄方面明顯超過GPT-4o。

一、詳解o3-mini:科學數學編程能力進化,延遲明顯降低

OpenAI發布了o3-mini的37頁詳細報告,涵蓋模型的介紹、數據和訓練、測試范圍、安全挑戰和評估、外部紅隊測試、准備框架評估、多語言性能以及結論等多個方面。

o3-mini針對科學、數學、編程推理進行了優化,同時響應速度更快。

該模型在GPQA Diamond(理化生)、AIME 2022-2024(數學)、Codeforces ELO(編程)基准測試中,o3-mini的分數分別為0.77、0.80、2036,比肩或超過o1推理模型。

在14種語言的MMLU測試集上,o3-mini的表現顯著優於o1-mini,展示了其在多語言理解方面的進步。



外部專家測試人員的評估表明,與o1-mini相比,o3-mini的答案更准確、更清晰,推理能力更強。

在人類偏好評估中,測試人員在56%的時間裡更喜歡o3-mini的回答,並觀察到在困難的現實問題上重大錯誤減少了39%。在中推理能力下,o3-mini在一些最具挑戰性的推理和智力評估(包括AIME和GPQA)上的表現與o1相當。





o3-mini的智能可媲美o1,提供了更快的性能、更高的效率。中推理能力下,該模型還在額外的數學和事實性評估中表現出色。在A/B測試中,o3-mini的響應速度比o1-mini快24%,平均響應時間為7.7秒,而o1-mini為10.16秒。

數學方面,在低推理能力下,o3-mini的表現與o1-mini相當,而在中推理能力下,o3-mini的表現與o1相當。同時,在高推理能力下,o3-mini的表現優於o1-mini和o1。

具有高推理能力的o3-mini在FrontierMath上的表現優於其前代。

在FrontierMath測試上,當被提示使用Python工具時,具有高推理能力的o3-mini在第一次嘗試時解決了超過32%的問題,其中包括超過28%的具有挑戰性的(T3)問題。

o3-mini隨著推理能力的增加逐漸獲得更高的Elo分數,均優於o1-mini。在中推理能力下,它的表現與o1相當。

o3-mini是OpenAI在SWE-bench驗證中表現最好的模型。

關於SWE-bench驗證結果的更多數據如下圖所示。o3-mini (tools) 性能最好,為61%。使用Agentless而非內部工具的o3-mini上市候選產品得分為39%。o1是表現第二好的模型,得分為48%。


在LiveBench編程測試中,高推理能力的o3-mini得分全面超過o1-high。

二、多項安全評估超過GPT-4o

OpenAI還詳細介紹了o3-mini在多個安全評估中的表現,稱o3-mini在具有挑戰性的安全性和越獄評估方面明顯超越了GPT-4o。

在不允許的內容評估中,與GPT-4o相比,o3-mini在標准拒絕評估和挑戰性拒絕評估中表現相似,但在XSTest中略遜一籌。

在越獄評估中,o3-mini與o1-mini相比,在生產越獄、越獄增強示例、StrongReject和人類來源的越獄評估中表現相當。



在幻覺評估中,使用PersonQA數據集,o3-mini的准確率為21.7%,幻覺率為14.8%,與GPT-4o、o1-mini相比表現相當或更好。

在公平性和偏見評估中,o3-mini在BBQ評估中的表現與o1-mini相似,但在處理模糊問題時的准確性略有下降。

外部紅隊測試顯示,o3-mini在與o1的比較中表現相當,兩者都顯著優於GPT-4o。

在Gray Swan Arena的越獄測試中,o3-mini的平均用戶攻擊成功率為3.6%,與o1-mini和GPT-4o相比略高。


准備框架評估涵蓋了網絡安全、CBRN(化學、生物、放射性、核)、說服力、模型自主性四個風險類別。o3-mini在網絡安全方面被評為“低風險”,在CBRN、說服力、模型自主性方面被評為“中等風險”,在生物威脅創建方面的表現達到了“中等風險”閾值,但在核和放射性武器發展方面的能力有限。



按其評級,只有緩解後得分為“中等”或以下的模型才可以部署,得分“高等”或以下的模型才可以進一步開發。

三、o3基准測試成本或超3000萬美元,OpenAI正談判2900億元新融資

自去年9月發布o1以來,OpenAI一直在迭代其推理模型,去年年底發布的o3模型是其最新一代AI推理模型。

高端版o3模型針對高計算應用,而o3-mini迎合了需要兼顧經濟高效的用戶需求。這反映了OpenAI試圖平衡可訪問性和高級付費產品的策略。

這兩天也不知道是被DeepSeek逼急了,還是為了給o3-mini預熱,OpenAI聯合創始人兼CEO薩姆·阿爾特曼在社交平台上非常活躍,又是誇DeepSeek R1令人印象深刻,又說OpenAI將提供更好的模型,又強調更多計算很重要。

昨天他還大張旗鼓地宣布第一個完整8機架GB200 NVL72服務器正在微軟Azure為OpenAI運行。

印度政府本周五發布的《2024-2025經濟調查》報告顯示,OpenAI可能已經花費超過3000萬美元來對其最新AI推理模型o3進行基准測試。

該報告寫道,OpenAI o3模型處理能力的突破付出了非常高的代價。ARC-AGI基准測試被認為是最具挑戰性的AI任務之一,OpenAI的低效配置模型導致了20萬美元的成本。高效模型的成本更是高達低效模型的172倍,也就是大約3440萬美元。

阿爾特曼前幾天還曬出和微軟董事長兼CEO薩提亞·納德拉的合照,說微軟和OpenAI合作的下一階段將會比任何人想象的都要好得多。

不過微軟作為OpenAI最大投資者的名號,可能要被日本軟銀集團奪走。

近期軟銀集團創始人兼CEO孫正義與阿爾特曼往來愈發密切,上周宣布聯手成立AI巨型項目“星際之門(Stargate)”,未來四年投資5000億美元(約合人民幣3.6萬億元)建設AI基礎設施,昨天又被外媒曝出將成為OpenAI新一輪巨額融資的領投方。

據外媒報道,OpenAI正在進行初步談判,計劃在一輪融資中籌集至多400億美元(約合人民幣2901億元),估值將達到3000億美元(約合人民幣2.18萬億元)。日本軟銀集團將領投此輪融資,正在商談投資150億至250億美元,剩余資金將來自其他投資者。

加上之前軟銀承諾向“星際之門”投資的逾150億美元,最終軟銀可能會在與OpenAI的合作上投入超過400億美元。這將成為軟銀迄今最大的投資之一。

結語:狂卷性價比,高質AI推理模型走向普及

此前馬斯克等科技大佬已經公開質疑過如何承擔建造“星際之門”的巨額成本。在DeepSeek高性能低成本開源模型的影響下,美國AI產業界和華爾街投資者對OpenAI等其他美國AI開發商的大手筆支出策略更是疑竇叢生。

OpenAI最新推出的o3-mini,也被視作抵御DeepSeek模型沖擊的最新舉措,令業界尤其關注。

在新聞稿中,OpenAI稱o3-mini的發布標志著該公司向突破高性價比智能界限的使命又邁進了一步,讓高質量的AI更加觸手可及,OpenAI致力於走在前沿,構建能夠平衡智能、效率和安全性的大規模模型。
您的點贊是對我們的鼓勵     已經有 12 人參與評論了, 我也來說幾句吧
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 猜您喜歡:
    您可能也喜歡:
    共有 12 人參與評論    (其它新聞評論)
    評論2 游客 [辛.香.氏.說] 2025-02-01 00:08
    Spending huge amount of money for StarGate plan is to develop their AI tech for monopoly and gorge the users with high prices without competitions. Now DeepSeek joined the competition and beat the AI prices. From this point view, DeepSeek helped all the AI users to save money.
    評論1 游客 [辛.昔.四.篇] 2025-01-31 23:01
    開源,降價。OpenAI居然抄起了DeepSeek的作業。遺憾的是,抄的不夠徹底。請問FBI,要不要發起對OpenAI的國安和資安調查?請問OpenAI,剛剛在白宮宣布4年合資500B成立的Stargate,要不要修改投資計劃,或關門?2周前曾預計,AI大潮退後,即可見誰沒穿內褲,或誰的內褲不見了。沒想到這天來得這麼快,迅雷不及掩耳。只要摒棄壁壘和制裁,科學無遠弗屆。
    上一頁1下一頁
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0373 秒 and 5 DB Queries in 0.0020 秒