| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

DeepSeek的能力,到底從哪裡來?(圖

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
03


1000條數據就夠了?

在DeepSeek-R1的跟進研究中,一批聚焦於“超低成本”提升模型能力的研究迅速引發關注。


在一些媒體報道中,被稱為“花費僅50美元復現 DeepSeek-R1”的斯坦福大學 S1-32B 模型。僅使用1000條精選數據的情況下,就顯著提升了數學與推理能力。

上海交通大學的 LIMO(Less Is More for Reasoning)提出,利用經過精心挑選的817條訓練樣本,通過簡單的監督微調,就能讓模型在多個數學任務中表現出色。在AIME24測試中,LIMO將准確率從傳統模型(如 Numina-Math)的6.5%提升至57.1%,甚至超過了一些使用數十萬條數據訓練的主流模型。

張胤民解釋,這一方面是由於高質量數據能提供更清晰、更直接的信號,幫助模型快速抓住關鍵模式,避免在無關或噪聲信息上浪費學習能力。另一方面,在對齊階段,用少量但精准的優質數據進行策略優化,能更有效地引導模型向期望的行為靠攏。這個過程類似做題,與其做一百道質量不一的題目,不如精做十道包含核心考點、能引發深度思考的經典例題。

既然用少量精心設計的數據監督學習(蒸餾),就能讓模型展現出一定的推理能力,傳統上用數萬甚至十萬級別樣本進行訓練的做法是不是沒有必要?

對此鄒昊晟表示,少量高質量數據的確可以喚起模型已有的推理潛力,幫助它模仿出“會思考”的行為。但若要獲得真正穩定且高水平的表現,依然離不開更大規模的數據支撐。

以AIME評測為例,像LIMO和S1這類使用小規模數據蒸餾訓練的模型,盡管性能有明顯提升,但與DeepSeek蒸餾得到的Qwen-32B模型仍存在不小差距。得分更高的OpenThinker-32B,背後依托的是一個包含11萬條樣本的大型數據集。Light-R1團隊也是在訓練中先使用了約7萬至8萬條樣本,再從中精挑出3000條更具挑戰性的數據進行進一步訓練。


“任何有關大模型的討論,都不能刻意淡化數據的重要性,數據質和量都要保證,”鄒昊晟說。

他解釋,很多對於DeepSeek-R1低成本復現的報道,提到的只是訓練過程的成本,而獲取數據也是有成本的。要蒸餾一個模型首先要部署它,再花費算力收集數據。有了數據,後面SFT的步驟的成本沒有那麼高。




04

驚艷的訓練方法,沒有成為主流

對DeepSeek-R1-Zero訓練方法,鄒昊晟的評價是“美”。他曾認為,大模型不適合MCTS加 PRM的後訓練方法,它們不夠優雅簡潔。 DeepSeek的方法恰恰拋棄了MCTS,僅使用ORM,在技術報告中,在DeepSeek-R1-Zero的響應長度和驗證分數同時增加,形成一條“完美的曲線”。

“既美,也有效。它出來的那一周,我幾乎沒幹別的,只在反復讀它的論文,聽相關的解讀,”他說。

但實際上,後續出現大量的推理模型沒有使用這種極具美感訓練方式,蒸餾反而成了主導。一個關鍵原因在於,DeepSeek-R1開放了它的CoT(Chain-of-Thought,思維鏈)數據後,訓練推理模型已經有了一條捷徑。

在大模型的訓練流程中,SFT是後訓練的關鍵步驟之一。具體做法是,研究者准備一批高質量的人工標注數據,其中不僅包含問題和答案,還包含推理過程,也就是CoT數據。SFT階段,就是用這些帶有“思考步驟”的樣例子去微調模型,讓它學會像人一樣逐步分析問題、得出結論。
不錯的新聞,我要點贊     好新聞沒人評論怎麼行,我來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0325 秒 and 5 DB Queries in 0.0020 秒