-
日期: 2025-05-26 | 來源: 知識分子 | 有0人參與評論 | 字體: 小 中 大
圖源:Pixabay
今年年初,DeepSeek發布DeepSeek-R1模型,引發全球的關注。在公開評測中,它的綜合能力逼近當時的頂尖大模型,尤其在邏輯推理和數學題上展現出強勁性能,而且它的成本要遠低於作比較的其他大模型。
更令圈內研究者驚喜的,是它在訓練方式上的簡化。以往的模型在提升推理能力時,通常依賴於把監督微調(SFT)這個環節。在這個階段,研究人員會使用大量已標注的數據對預訓練的AI模型進行進一步訓練。這些數據包含了問題及其對應的正確答案,以及如何建立思考步驟的范例。靠著這些模仿人類思維的“例題”和“答案”,大模型得以提升推理能力。
DeepSeek-R1的報告中,展示了名為DeepSeek-R1-Zero的路線,它跳過了復雜的監督微調,直接在DeepSeek-V3的基礎上進行強化學習訓練。這一次,模型沒有例題示范,只通過簡單的答題反饋來學習:答對加分,答錯減分,用簡單的方法顯著的推理能力提升。這個被簡稱為“純強化學習”的方法,成為了復現和跟進研究中的熱門對象。
在復現的熱潮中研究者們意識到,一些關鍵問題仍有待厘清。到底是訓練的哪些環節帶來了模型推理能力的提升?DeepSeek-R1的能力究竟來自訓練方式的改變,還是基礎模型DeepSeek-V3本身的強大?如果關鍵在於強化學習,這種方式可以在遷移到其他模型訓練上嗎?
正是圍繞這些問題,一些團隊啟動了對DeepSeek-R1復現與跟進研究。DeepSeek-R1雖然開源了模型權重,但關鍵的訓練數據和完整算法實現並未公開。想要真正理解和重現其能力,就必須從論文出發,復刻訓練流程。對跟進的研究者而言,復現和跟進研究的意義不止是復制一個模型,更是拆解這套訓練方法,厘清模型性能提升的真正來源。
《知識分子》和Open-Reasoner-Zero團隊成員胡倞成、韓琦,Light-R1團隊成員鄒昊晟,新加坡國立大學、Sea AI Lab研究人員劉梓辰,以及個人復現者許書堯都聊了聊,試圖回答以上一些問題。
Open-Reasoner-Zero團隊在基礎模型上直接進行強化學習,觀察到了模型驗證分數的顯著提升,驗證了DeepSeek-R1-Zero訓練方法的有效性[1],個人復現者許書堯也在一個相對小的模型上驗證了類似的現象[2],Light-R1團隊把模型放在AIME上測試成績,提升到了接近完整DeepSeek-R1的水准,並且也成功復現了強化學習的方法[3],劉梓辰的驗證工作則是從懷疑開始的,他發現模型推理能力的提升,與所選用的基礎模型之間存在密切關聯[4]。
這些工作從不同角度探討了一個關鍵問題:DeepSeek-R1的能力,到底從哪裡來?
01
為什麼是DeepSeek?
去年,OpenAI推出的o1推理模型在數學和推理任務中的表現遠遠好於其他同參數量級的主流模型,在GSM8K、MATH等多個基准測試中一度拉開了顯著差距。但由於官方幾乎未公布訓練細節,模型是如何獲得這類能力的,一度成為業內謎題。OpenAI o1的出現,使得“推理模型”這一新方向引發關注。
一種流行的猜測是,o1的推理能力來自OpenAI內部某個更大的模型,o1只是它訓練出的精簡版本。另一種看法是,OpenAI在訓練中使用了更復雜的技術路線。這些方案都出於同一方向的判斷:做出頂尖推理模型需要堆更多的資源。
DeepSeek-R1的發布打破了這些猜想。它沒有使用這些復雜手段,僅憑簡單的強化學習獎勵設置,就讓模型在推理能力上達到與o1接近的水准。
在DeepSeek-R1之前,也有研究者嘗試過用純強化學習訓練推理模型,但大多停留在小規模的實驗階段。這種遲疑來自兩個方面,“一是從技術直覺上,大家普遍不認為這樣簡單的方法能奏效;另一個是如果基礎模型不夠強,這麼簡單的方法可能真的不奏效”,許書堯說。- 新聞來源於其它媒體,內容不代表本站立場!
- 本周溫哥華市中心超繁忙 別去添堵
- 蘭裡地產專家 多年蘭裡地產經驗
- 加國這城市面臨滅頂之災 全部撤離
-
- 17萬贓物 當局擬沒收大溫華裔房產
- 中國縮影!上海老齡化有點超乎想象
- 屋主崩潰:修次管道變成5萬的大賬單
- 去印度才知道 網上那些濾鏡有多假 讓我懷疑人生
- 上訴法院允許特朗普繼續征收關稅
- BC這市大規模破壞事件後男子被捕
-
- 大溫汽油價格一夜之間下跌近10分
- 陳芋汐與新搭檔奪冠 全紅嬋現狀令人唏噓
- 溫哥華牙醫診所 經驗豐富服務全面
- 報告:加國各省政府阻礙了住房建設
- 突發!美國暫停新的學生簽證面試
- 五周翻身七個月說話...兩歲童成門薩最年輕會員
-
- 快訊:盧比奧宣布新簽證限制 劍指這些外國人
- 大溫房市緩慢 不少經紀拒絕掛牌
- 中企竊取技術難防 韓檢:5年外泄損失近167億美元
- 這種情況你的信用將清零 陷入困境
- 持續為中國洗產地 越南難逃川普重稅
- 地產協會敦促BC放寬短期租賃規則
-
目前還沒有人發表評論, 大家都在期待您的高見