-
日期: 2025-05-26 | 來源: 知識分子 | 有0人參與評論 | 字體: 小 中 大
圖源:Pixabay
今年年初,DeepSeek發布DeepSeek-R1模型,引發全球的關注。在公開評測中,它的綜合能力逼近當時的頂尖大模型,尤其在邏輯推理和數學題上展現出強勁性能,而且它的成本要遠低於作比較的其他大模型。
更令圈內研究者驚喜的,是它在訓練方式上的簡化。以往的模型在提升推理能力時,通常依賴於把監督微調(SFT)這個環節。在這個階段,研究人員會使用大量已標注的數據對預訓練的AI模型進行進一步訓練。這些數據包含了問題及其對應的正確答案,以及如何建立思考步驟的范例。靠著這些模仿人類思維的“例題”和“答案”,大模型得以提升推理能力。
DeepSeek-R1的報告中,展示了名為DeepSeek-R1-Zero的路線,它跳過了復雜的監督微調,直接在DeepSeek-V3的基礎上進行強化學習訓練。這一次,模型沒有例題示范,只通過簡單的答題反饋來學習:答對加分,答錯減分,用簡單的方法顯著的推理能力提升。這個被簡稱為“純強化學習”的方法,成為了復現和跟進研究中的熱門對象。
在復現的熱潮中研究者們意識到,一些關鍵問題仍有待厘清。到底是訓練的哪些環節帶來了模型推理能力的提升?DeepSeek-R1的能力究竟來自訓練方式的改變,還是基礎模型DeepSeek-V3本身的強大?如果關鍵在於強化學習,這種方式可以在遷移到其他模型訓練上嗎?
正是圍繞這些問題,一些團隊啟動了對DeepSeek-R1復現與跟進研究。DeepSeek-R1雖然開源了模型權重,但關鍵的訓練數據和完整算法實現並未公開。想要真正理解和重現其能力,就必須從論文出發,復刻訓練流程。對跟進的研究者而言,復現和跟進研究的意義不止是復制一個模型,更是拆解這套訓練方法,厘清模型性能提升的真正來源。
《知識分子》和Open-Reasoner-Zero團隊成員胡倞成、韓琦,Light-R1團隊成員鄒昊晟,新加坡國立大學、Sea AI Lab研究人員劉梓辰,以及個人復現者許書堯都聊了聊,試圖回答以上一些問題。
Open-Reasoner-Zero團隊在基礎模型上直接進行強化學習,觀察到了模型驗證分數的顯著提升,驗證了DeepSeek-R1-Zero訓練方法的有效性[1],個人復現者許書堯也在一個相對小的模型上驗證了類似的現象[2],Light-R1團隊把模型放在AIME上測試成績,提升到了接近完整DeepSeek-R1的水准,並且也成功復現了強化學習的方法[3],劉梓辰的驗證工作則是從懷疑開始的,他發現模型推理能力的提升,與所選用的基礎模型之間存在密切關聯[4]。
這些工作從不同角度探討了一個關鍵問題:DeepSeek-R1的能力,到底從哪裡來?
01
為什麼是DeepSeek?
去年,OpenAI推出的o1推理模型在數學和推理任務中的表現遠遠好於其他同參數量級的主流模型,在GSM8K、MATH等多個基准測試中一度拉開了顯著差距。但由於官方幾乎未公布訓練細節,模型是如何獲得這類能力的,一度成為業內謎題。OpenAI o1的出現,使得“推理模型”這一新方向引發關注。
一種流行的猜測是,o1的推理能力來自OpenAI內部某個更大的模型,o1只是它訓練出的精簡版本。另一種看法是,OpenAI在訓練中使用了更復雜的技術路線。這些方案都出於同一方向的判斷:做出頂尖推理模型需要堆更多的資源。
DeepSeek-R1的發布打破了這些猜想。它沒有使用這些復雜手段,僅憑簡單的強化學習獎勵設置,就讓模型在推理能力上達到與o1接近的水准。
在DeepSeek-R1之前,也有研究者嘗試過用純強化學習訓練推理模型,但大多停留在小規模的實驗階段。這種遲疑來自兩個方面,“一是從技術直覺上,大家普遍不認為這樣簡單的方法能奏效;另一個是如果基礎模型不夠強,這麼簡單的方法可能真的不奏效”,許書堯說。- 新聞來源於其它媒體,內容不代表本站立場!
- 微軟執行長:中國DeepSeek R1足以匹敵OpenAI
- 王樹國發問:若梁文峰讀博,還能有DeepSeek嗎?
- 黃金時段收視率,沒想到鄭曉龍《藏海傳》僅排第二,榜首斷層領先
- 周五起大溫實施這禁令 違者將罰慘
- 美女度假遭遇陽光中毒 脹如外星人
-
- 在加州伯克利才讀完大一 我對頂尖名校濾鏡碎了
- 加國房價最新展望 掙多少才能買房
- 溫哥華牙醫診所 經驗豐富服務全面
- 查爾斯國王:加國面臨前所未有挑戰
- 加國慘 財政狀況惡化超其它G7國家
- 加國年輕人&新移民推動新債務增長
-
- 香港科大公開邀請哈佛大學國際生入學
- 出現這現象!全球金融市場末日即將來臨
- 蘋果AI崩塌!從願景到高管失誤困局
- 加拿大郵政禁止加班 服務可能延遲
- 哈佛前校長公開炮轟:川普這是送中國大禮
- 這種情況你的信用將清零 陷入困境
-
- 溫哥華貸款經紀 解決各類疑難貸款
- 如果阿省宣布獨立 BC將發生什麼?
- 多家廉航開賣站票 一杯咖啡錢上天
- 拖行被撞者一公裡多 兩人面臨驅逐
- 很多人當場哭泣 白宮開始第一輪大清洗
- 班夫公園被印度人占領!露易絲湖冰面被踏碎
-
目前還沒有人發表評論, 大家都在期待您的高見