| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

DeepSeek的能力,到底從哪裡來?(圖

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
許書堯介紹,大約在一年前,不少關於推理模型訓練的論文中已經加入了強化學習這一步,也有人嘗試基於模型的答題結果直接設計獎勵。但在當時,業內普遍不相信僅靠簡單的答題反饋,就能訓練出接近o1水平的推理模型的推理能力。“純強化學習大家一直有嘗試,但沒人真正擴展到大模型上。那時候大家不覺得光讓模型做題就夠了”。


鄒昊晟也提到,在今年DeepSeek-R1和Kimi 1.5出現之前,幾乎沒有人認為“純強化學習”能真正提升大模型的推理能力。彼時更主流的看法是,推理能力的提高可能依賴蒙特卡洛樹搜索(MCTS)或過程獎勵模型(PRM)。

對於大模型而言,某種方法是否仍然有效,往往要看它能否經受住規模擴展的考驗。在當時看來,純強化學習的前景,並不如蒙特卡洛樹搜索(MCTS)或過程獎勵模型(PRM)更被看好。


MCTS是一種曾在AlphaGo中取得成功的策略,依靠將問題拆解為若幹步驟並通過多輪搜索引導模型學習。在DeepSeek-R1的報告中,團隊嘗試了類似方向,但發現當模型規模擴大後,搜索空間呈指數增長,後續訓練很困難。

PRM則是讓模型生成對每個推理步驟的評價和打分,逐步判斷答案的准確性,從而提升模型的推理能力。許書堯曾經投入了很多精力在這個方向,但在他看來這種系統太過復雜,很難擴大規模。

最終,還是“純強化學習”先走通了這條路。"深度學習教給大家一件事情,往往是簡單的方法,在規模擴大的時候更穩健"。

不過,DeepSeek的率先成功,並不是一個只靠選對技術路線就能成功的勵志故事。它更像是在一系列關鍵因素同時就位後,才能實現的成就。

許書堯介紹,早期的基礎模型預訓練階段數據質量參差不齊,導致模型缺乏穩定的指令遵循能力。而一些更晚期的基礎模型則引入了“退火”步驟,在預訓練中分階段加入更高質量的數據,逐步提高模型理解與執行復雜任務的能力。也正是在這些打好地基的工作之後,強化學習的效果才能充分顯現。

新加坡國立大學Sea AI Lab研究人員劉梓辰表示,類似DeepSeek-R1的嘗試其實已有先例。比如2024年底,AI2(Allen Institute for AI)推出的Tülu 3模型,就在數學任務中引入了強化學習方法,並采用了“可驗證獎勵”的機制。只有當模型答案正確時,才給予獎勵。從這個角度看,DeepSeek的訓練思路,Tülu 3已經部分嘗試過了。


但最終,Tülu 3的表現不如DeepSeek-R1亮眼,劉梓辰認為問題在於兩方面。一是基礎模型的選擇,Tülu 3是基於Llama訓練的,它在數學方面強化學習的效果可能不如其他模型。二是模型體量差異,Tülu 3的最大版本為70B,而DeepSeek-R1則是在自家600B級別的DeepSeek-V3模型上完成訓練的。這一差距極大影響了強化學習的上限。

從數據層面看,許書堯指出,DeepSeek-R1在後訓練階段還使用了約80萬條高質量樣本進行微調。這類數據不僅數量龐大,而且質量要求很高,如果出現錯誤很容易導致強化學習訓練的崩潰。對大多數小團隊而言,單是獲取、篩選並清洗出這樣規模和質量的數據,都很困難。

“在那個時間點,除了Google和其他幾家積累深厚的巨頭,可能真沒有其他團隊能做出這樣的成果。”劉梓辰說。DeepSeek手上有強大的基礎模型,還具備調優這類模型的經驗和資源,DeepSeekV3作為模型本身一定也經過了高質量、清洗過的數據進行預訓練,才能在強化學習後得到提升。即使其他團隊掌握相似的方法、具備工程能力,如果出發點模型存在差距,也很難達到類似效果。


胡倞成認為,整個行業的推進速度本就非常驚人。即使沒有DeepSeek,其他團隊也在逐漸接近OpenAI o1級別的推理模型,也許再過幾個月,就會有其他方案浮出水面。

但DeepSeek的成功仍然關鍵。在方法層面,它驗證了通過強化學習提升推理能力的路徑確實可行。更重要的是,它驗證了這條路的可行性。“在R1之前,大家並沒有真正做出一個能給自己信心的東西。這件事到底能不能做成,能做成什麼樣?即使有了思路方向,很多團隊心裡也沒有底。DeepSeek-R1的出現,給我們做研究的人以信心,證明這條路是能走得通的,”胡倞成說。

02

性能提升,靠強化學習還是靠模型能力

在對DeepSeek-R1的後續研究中,一種觀點逐漸受到關注。部分研究者認為,模型反思能力的提升,並非完全源自強化學習過程,而是基礎模型自身能力的體現。
您的點贊是對我們的鼓勵     無評論不新聞,發表一下您的意見吧
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0326 秒 and 5 DB Queries in 0.0013 秒