| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

DeepSeek的能力,到底從哪裡來?(圖

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



圖源:Pixabay

今年年初,DeepSeek發布DeepSeek-R1模型,引發全球的關注。在公開評測中,它的綜合能力逼近當時的頂尖大模型,尤其在邏輯推理和數學題上展現出強勁性能,而且它的成本要遠低於作比較的其他大模型。


更令圈內研究者驚喜的,是它在訓練方式上的簡化。以往的模型在提升推理能力時,通常依賴於把監督微調(SFT)這個環節。在這個階段,研究人員會使用大量已標注的數據對預訓練的AI模型進行進一步訓練。這些數據包含了問題及其對應的正確答案,以及如何建立思考步驟的范例。靠著這些模仿人類思維的“例題”和“答案”,大模型得以提升推理能力。

DeepSeek-R1的報告中,展示了名為DeepSeek-R1-Zero的路線,它跳過了復雜的監督微調,直接在DeepSeek-V3的基礎上進行強化學習訓練。這一次,模型沒有例題示范,只通過簡單的答題反饋來學習:答對加分,答錯減分,用簡單的方法顯著的推理能力提升。這個被簡稱為“純強化學習”的方法,成為了復現和跟進研究中的熱門對象。

在復現的熱潮中研究者們意識到,一些關鍵問題仍有待厘清。到底是訓練的哪些環節帶來了模型推理能力的提升?DeepSeek-R1的能力究竟來自訓練方式的改變,還是基礎模型DeepSeek-V3本身的強大?如果關鍵在於強化學習,這種方式可以在遷移到其他模型訓練上嗎?

正是圍繞這些問題,一些團隊啟動了對DeepSeek-R1復現與跟進研究。DeepSeek-R1雖然開源了模型權重,但關鍵的訓練數據和完整算法實現並未公開。想要真正理解和重現其能力,就必須從論文出發,復刻訓練流程。對跟進的研究者而言,復現和跟進研究的意義不止是復制一個模型,更是拆解這套訓練方法,厘清模型性能提升的真正來源。

《知識分子》和Open-Reasoner-Zero團隊成員胡倞成、韓琦,Light-R1團隊成員鄒昊晟,新加坡國立大學、Sea AI Lab研究人員劉梓辰,以及個人復現者許書堯都聊了聊,試圖回答以上一些問題。


Open-Reasoner-Zero團隊在基礎模型上直接進行強化學習,觀察到了模型驗證分數的顯著提升,驗證了DeepSeek-R1-Zero訓練方法的有效性[1],個人復現者許書堯也在一個相對小的模型上驗證了類似的現象[2],Light-R1團隊把模型放在AIME上測試成績,提升到了接近完整DeepSeek-R1的水准,並且也成功復現了強化學習的方法[3],劉梓辰的驗證工作則是從懷疑開始的,他發現模型推理能力的提升,與所選用的基礎模型之間存在密切關聯[4]。

這些工作從不同角度探討了一個關鍵問題:DeepSeek-R1的能力,到底從哪裡來?

01


為什麼是DeepSeek?

去年,OpenAI推出的o1推理模型在數學和推理任務中的表現遠遠好於其他同參數量級的主流模型,在GSM8K、MATH等多個基准測試中一度拉開了顯著差距。但由於官方幾乎未公布訓練細節,模型是如何獲得這類能力的,一度成為業內謎題。OpenAI o1的出現,使得“推理模型”這一新方向引發關注。

一種流行的猜測是,o1的推理能力來自OpenAI內部某個更大的模型,o1只是它訓練出的精簡版本。另一種看法是,OpenAI在訓練中使用了更復雜的技術路線。這些方案都出於同一方向的判斷:做出頂尖推理模型需要堆更多的資源。

DeepSeek-R1的發布打破了這些猜想。它沒有使用這些復雜手段,僅憑簡單的強化學習獎勵設置,就讓模型在推理能力上達到與o1接近的水准。

在DeepSeek-R1之前,也有研究者嘗試過用純強化學習訓練推理模型,但大多停留在小規模的實驗階段。這種遲疑來自兩個方面,“一是從技術直覺上,大家普遍不認為這樣簡單的方法能奏效;另一個是如果基礎模型不夠強,這麼簡單的方法可能真的不奏效”,許書堯說。
點個贊吧!您的鼓勵讓我們進步     還沒人說話啊,我想來說幾句
上一頁12345下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0322 秒 and 5 DB Queries in 0.0016 秒