| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

DeepSeek的能力,到底從哪裡來?(圖

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
過去,獲取高質量的CoT數據一直是訓練推理模型的瓶頸之一。普通問答數據通常只包含問題和答案,而要激活模型的反思能力,需要為題目配上詳細的思維過程。但這類數據在公開數據集中幾乎不存在,人工標注成本極高,用AI自動生成往往又質量不佳。


DeepSeek-R1選擇開放CoT數據,使得後來者可以直接用這些數據對模型進行蒸餾,讓一個不具備推理能力的模型,通過模仿DeepSeek-R1給出的解題步驟,獲得推理能力。鄒昊晟表示,有了一個開源的、能生成CoT的模型之後,很多跟進工作整理出了開源的、帶CoT的數據集,這大大降低了獲取的成本。

於是,相比親自走一遍純強化學習這條難度高、試錯成本大的路線,後來者更傾向於使用這些公開的CoT數據進行蒸餾,訓練推理模型。"一旦有一個模型允許蒸餾,就會有無數個"。鄒昊晟說,“在資源消耗和可控性上,蒸餾要好很多”。


根據鄒昊晟的粗略估計,和蒸餾相比,從頭強化學習需要的資源至少多一個數量級。強化學習訓練過程中的數據主要都靠模型自己采樣生成,不像監督學習的數據更容易人為幹預。根據Light-R1強化學習部分的訓練經驗,一個14B的模型進行強化學習訓練,需要128張A100卡跑超過40個小時。而利用了SFT步驟的Light-R1-32B模型訓練,只需要96張H800卡跑6小時。

相比直接訓練推理模型,從已有模型中進行蒸餾在資源消耗上要低得多。研究者可以先生成一小批問題的解題過程,用於初步訓練。如果算力緊張,後續還可以按需補充。在抓取完 DeepSeek-R1的回答後,後續對數據清洗、篩選和組織工作大多屬於低成本環節。根據處理後的數據,還可以產出多個版本,分別用於不同模型的訓練。

在鄒昊晟看來,純強化學習路線更多體現的是一種研究上的美感,但這種方法存在兩個現實問題:一是最終分數仍然不如先經過蒸餾再進行強化學習等步驟優化後的模型,二是模型的思考過程可讀性不強。他補充說,DeepSeek部署上線的也不是R1-Zero模型,而是經過SFT後再強化學習訓練的R1模型。純強化學習訓練出來的模型,目前與用戶直接交互的能力還稍顯不足。

另一個限制出現在模型的體量上。在未經過SFT 的基礎模型上直接進行強化學習,對小模型來說很困難。


許書堯提到,流行的說法是3B參數量是一個“門檻”。如果模型規模小於這一閾值,在強化學習階段往往難以表現出回答長度的增長或准確率的提升。他在實驗中曾嘗試對Qwen2.5-1.5B-Instruct模型進行強化學習訓練,但沒有成功復現推理能力的提升,換用 Qwen2.5-7B-1M模型後,這一效果才得以顯現。

這背後其實是概率問題。比如讓模型解一道題,目標是讓它給出正確答案,這樣它就能獲得正向獎勵。但如果模型太小,它幾乎永遠給不出正確答案,連“猜對”的概率都沒有,模型就沒法通過強化學習放大正確的行為。

例如,對一個7B的模型做64次采樣,也就是讓模型對同一個問題生成64次答案,它也許回答正確幾次。但對於一個1B模型,可能64次中沒有一次是正確的。在有限的訓練次數下,始終得不到正確的答案,強化學習也就沒法向得到正確答案的方向引導。


相反,蒸餾則是對小模型友好的方法,在許書堯的後續實驗中,通過讓7B模型指導1.5B模型,模型展現出明顯的反思行為,思維鏈也變得更長。

不過,這不代表純強化學習只是一次方法上的嘗試,它依然有實用的價值。

鄒昊晟介紹,在其團隊工作之前,雖有大量復現和跟進實驗,但無一能比肩DeepSeek蒸餾Qwen 32B模型在AIME24上72.6分的成績。而他所在的團隊成功在一個更小的14B模型上,不僅實現了強化學習階段響應長度與驗證分數的同步提升,還將成績提高到74分,超越了前者。

“這兩分的提升,其實是最難的,”鄒昊晟認為,如果大多數模型可以通過蒸餾達到90分,但要在此基礎上更進一步,提升到95分,強化學習就是不可替代的手段,“雖然不像外界想象的那麼有革命性,但對行業內來說,這是一個訓練技術上的范式轉移”。
您的點贊是對我們的鼓勵     這條新聞還沒有人評論喔,等著您的高見呢
上一頁12345下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0313 秒 and 5 DB Queries in 0.0017 秒