-
日期: 2025-05-26 | 來源: 知識分子 | 有0人參與評論 | 字體: 小 中 大
圖源:Pixabay
今年年初,DeepSeek發布DeepSeek-R1模型,引發全球的關注。在公開評測中,它的綜合能力逼近當時的頂尖大模型,尤其在邏輯推理和數學題上展現出強勁性能,而且它的成本要遠低於作比較的其他大模型。
更令圈內研究者驚喜的,是它在訓練方式上的簡化。以往的模型在提升推理能力時,通常依賴於把監督微調(SFT)這個環節。在這個階段,研究人員會使用大量已標注的數據對預訓練的AI模型進行進一步訓練。這些數據包含了問題及其對應的正確答案,以及如何建立思考步驟的范例。靠著這些模仿人類思維的“例題”和“答案”,大模型得以提升推理能力。
DeepSeek-R1的報告中,展示了名為DeepSeek-R1-Zero的路線,它跳過了復雜的監督微調,直接在DeepSeek-V3的基礎上進行強化學習訓練。這一次,模型沒有例題示范,只通過簡單的答題反饋來學習:答對加分,答錯減分,用簡單的方法顯著的推理能力提升。這個被簡稱為“純強化學習”的方法,成為了復現和跟進研究中的熱門對象。
在復現的熱潮中研究者們意識到,一些關鍵問題仍有待厘清。到底是訓練的哪些環節帶來了模型推理能力的提升?DeepSeek-R1的能力究竟來自訓練方式的改變,還是基礎模型DeepSeek-V3本身的強大?如果關鍵在於強化學習,這種方式可以在遷移到其他模型訓練上嗎?
正是圍繞這些問題,一些團隊啟動了對DeepSeek-R1復現與跟進研究。DeepSeek-R1雖然開源了模型權重,但關鍵的訓練數據和完整算法實現並未公開。想要真正理解和重現其能力,就必須從論文出發,復刻訓練流程。對跟進的研究者而言,復現和跟進研究的意義不止是復制一個模型,更是拆解這套訓練方法,厘清模型性能提升的真正來源。
《知識分子》和Open-Reasoner-Zero團隊成員胡倞成、韓琦,Light-R1團隊成員鄒昊晟,新加坡國立大學、Sea AI Lab研究人員劉梓辰,以及個人復現者許書堯都聊了聊,試圖回答以上一些問題。
Open-Reasoner-Zero團隊在基礎模型上直接進行強化學習,觀察到了模型驗證分數的顯著提升,驗證了DeepSeek-R1-Zero訓練方法的有效性[1],個人復現者許書堯也在一個相對小的模型上驗證了類似的現象[2],Light-R1團隊把模型放在AIME上測試成績,提升到了接近完整DeepSeek-R1的水准,並且也成功復現了強化學習的方法[3],劉梓辰的驗證工作則是從懷疑開始的,他發現模型推理能力的提升,與所選用的基礎模型之間存在密切關聯[4]。
這些工作從不同角度探討了一個關鍵問題:DeepSeek-R1的能力,到底從哪裡來?
01
為什麼是DeepSeek?
去年,OpenAI推出的o1推理模型在數學和推理任務中的表現遠遠好於其他同參數量級的主流模型,在GSM8K、MATH等多個基准測試中一度拉開了顯著差距。但由於官方幾乎未公布訓練細節,模型是如何獲得這類能力的,一度成為業內謎題。OpenAI o1的出現,使得“推理模型”這一新方向引發關注。
一種流行的猜測是,o1的推理能力來自OpenAI內部某個更大的模型,o1只是它訓練出的精簡版本。另一種看法是,OpenAI在訓練中使用了更復雜的技術路線。這些方案都出於同一方向的判斷:做出頂尖推理模型需要堆更多的資源。
DeepSeek-R1的發布打破了這些猜想。它沒有使用這些復雜手段,僅憑簡單的強化學習獎勵設置,就讓模型在推理能力上達到與o1接近的水准。
在DeepSeek-R1之前,也有研究者嘗試過用純強化學習訓練推理模型,但大多停留在小規模的實驗階段。這種遲疑來自兩個方面,“一是從技術直覺上,大家普遍不認為這樣簡單的方法能奏效;另一個是如果基礎模型不夠強,這麼簡單的方法可能真的不奏效”,許書堯說。
許書堯介紹,大約在一年前,不少關於推理模型訓練的論文中已經加入了強化學習這一步,也有人嘗試基於模型的答題結果直接設計獎勵。但在當時,業內普遍不相信僅靠簡單的答題反饋,就能訓練出接近o1水平的推理模型的推理能力。“純強化學習大家一直有嘗試,但沒人真正擴展到大模型上。那時候大家不覺得光讓模型做題就夠了”。
鄒昊晟也提到,在今年DeepSeek-R1和Kimi 1.5出現之前,幾乎沒有人認為“純強化學習”能真正提升大模型的推理能力。彼時更主流的看法是,推理能力的提高可能依賴蒙特卡洛樹搜索(MCTS)或過程獎勵模型(PRM)。
對於大模型而言,某種方法是否仍然有效,往往要看它能否經受住規模擴展的考驗。在當時看來,純強化學習的前景,並不如蒙特卡洛樹搜索(MCTS)或過程獎勵模型(PRM)更被看好。
MCTS是一種曾在AlphaGo中取得成功的策略,依靠將問題拆解為若幹步驟並通過多輪搜索引導模型學習。在DeepSeek-R1的報告中,團隊嘗試了類似方向,但發現當模型規模擴大後,搜索空間呈指數增長,後續訓練很困難。
PRM則是讓模型生成對每個推理步驟的評價和打分,逐步判斷答案的准確性,從而提升模型的推理能力。許書堯曾經投入了很多精力在這個方向,但在他看來這種系統太過復雜,很難擴大規模。
最終,還是“純強化學習”先走通了這條路。"深度學習教給大家一件事情,往往是簡單的方法,在規模擴大的時候更穩健"。
不過,DeepSeek的率先成功,並不是一個只靠選對技術路線就能成功的勵志故事。它更像是在一系列關鍵因素同時就位後,才能實現的成就。
許書堯介紹,早期的基礎模型預訓練階段數據質量參差不齊,導致模型缺乏穩定的指令遵循能力。而一些更晚期的基礎模型則引入了“退火”步驟,在預訓練中分階段加入更高質量的數據,逐步提高模型理解與執行復雜任務的能力。也正是在這些打好地基的工作之後,強化學習的效果才能充分顯現。
新加坡國立大學Sea AI Lab研究人員劉梓辰表示,類似DeepSeek-R1的嘗試其實已有先例。比如2024年底,AI2(Allen Institute for AI)推出的Tülu 3模型,就在數學任務中引入了強化學習方法,並采用了“可驗證獎勵”的機制。只有當模型答案正確時,才給予獎勵。從這個角度看,DeepSeek的訓練思路,Tülu 3已經部分嘗試過了。
但最終,Tülu 3的表現不如DeepSeek-R1亮眼,劉梓辰認為問題在於兩方面。一是基礎模型的選擇,Tülu 3是基於Llama訓練的,它在數學方面強化學習的效果可能不如其他模型。二是模型體量差異,Tülu 3的最大版本為70B,而DeepSeek-R1則是在自家600B級別的DeepSeek-V3模型上完成訓練的。這一差距極大影響了強化學習的上限。
從數據層面看,許書堯指出,DeepSeek-R1在後訓練階段還使用了約80萬條高質量樣本進行微調。這類數據不僅數量龐大,而且質量要求很高,如果出現錯誤很容易導致強化學習訓練的崩潰。對大多數小團隊而言,單是獲取、篩選並清洗出這樣規模和質量的數據,都很困難。
“在那個時間點,除了Google和其他幾家積累深厚的巨頭,可能真沒有其他團隊能做出這樣的成果。”劉梓辰說。DeepSeek手上有強大的基礎模型,還具備調優這類模型的經驗和資源,DeepSeekV3作為模型本身一定也經過了高質量、清洗過的數據進行預訓練,才能在強化學習後得到提升。即使其他團隊掌握相似的方法、具備工程能力,如果出發點模型存在差距,也很難達到類似效果。
胡倞成認為,整個行業的推進速度本就非常驚人。即使沒有DeepSeek,其他團隊也在逐漸接近OpenAI o1級別的推理模型,也許再過幾個月,就會有其他方案浮出水面。
但DeepSeek的成功仍然關鍵。在方法層面,它驗證了通過強化學習提升推理能力的路徑確實可行。更重要的是,它驗證了這條路的可行性。“在R1之前,大家並沒有真正做出一個能給自己信心的東西。這件事到底能不能做成,能做成什麼樣?即使有了思路方向,很多團隊心裡也沒有底。DeepSeek-R1的出現,給我們做研究的人以信心,證明這條路是能走得通的,”胡倞成說。
02
性能提升,靠強化學習還是靠模型能力
在對DeepSeek-R1的後續研究中,一種觀點逐漸受到關注。部分研究者認為,模型反思能力的提升,並非完全源自強化學習過程,而是基礎模型自身能力的體現。
劉梓辰支持這種觀點。他嘗試復刻DeepSeek-R1的“頓悟時刻(Aha moment)”,按照DeepSeek-R1的報告,這是描述訓練中模型在面對特定難題時,展現了自我反思的能力,主動重新評估初始解法,並投入更多思考時間以尋求更優答案。
這一能力對推理模型非常關鍵。在推理模型出現之前,大模型主要依賴預訓練階段擴大參數規模來提升表現,但增長已經逐漸趨緩。在一些需要嚴密邏輯鏈條的任務中,比如數學推理,模型即便讀過再多語料,依然難以獲得實質突破。一個關鍵的瓶頸是它們缺乏自主修正回答的能力。
而OpenAI o1的成功提供了一個重要線索,如果模型擁有更長的“思考時間”,它的解題准確率就會顯著提高。
為什麼“長”如此關鍵?胡倞成解釋,Transformer 計算深度有限,只能做有限步的計算,復雜問題如果不能拆分,就超出了模型的處理能力。只有當模型學會將問題拆解成多個 token逐步向前推進,才可能完成更深層的計算。如果不能把思考過程拉長,模型就沒法把一些復雜的計算拆解成自己能夠解決的問題。
張胤民補充,這就像我們能快速心算幾位數乘法,但遇到更復雜的數字,就需要寫在紙上分步完成。模型也是如此,新的推理范式相當於教會了模型如何利用更長的“思考時間”或更多的“計算步驟”。一旦模型學會了這種利用時間來分解和解決復雜問題的方法,它就能解鎖更多以前無法完成的任務。
當模型說出“讓我再想想”這樣的語言,其實正是它利用更長“思考時間”的一種外在體現,是它能力的具象化。比如,模型發現前面的回答有誤,然後進行糾正,這就是在利用“時間”來優化結果。將一個復雜問題拆分成多個步驟來解答,也是一種利用“時間”的表現。所謂“頓悟時刻”,就是指模型在沒有明確教導下,自發學會了這些利用時間和計算資源的方法。
胡倞成認為,這種反思能力突破了原有建模方式上的本質限制。楊立昆很早就斷言自回歸大語言模型注定要失敗,理由之一就是錯誤會累計。連續生成1000個token,只要每一步有千分之一的出錯概率,最後出錯的可能就非常高。這種批評指出的關鍵問題,就是大模型沒法自主修正生成過程中產生的錯誤。而大模型而具備反思能力後,模型就像獲得了一塊“橡皮擦”,可以對生成內容進行審視、重寫,甚至主動改變推理路徑。
也正因這類能力在推理模型中至關重要,DeepSeek-R1在訓練中首次出現“頓悟時刻”時,才引發團隊的興奮,並在業界引起關注。DeepSeek在報告中形容那一刻是“見證了強化學習力量的美妙”。
但劉梓辰的研究發現,早在強化學習階段開始之前,部分基礎模型的回答中就已經出現了淺層的自我反思傾向,“頓悟”可能並非像宣稱的那樣,是模型強化學習過程中自然湧現出來的,而是基礎模型本身具備的能力。其中,Qwen2.5系列模型的反思行為最為明顯,有趣的是,目前大多數復現工作,恰恰都是基於Qwen2.5展開。
鄒昊晟認為,預訓練模型本身就已經具備某種程度的反思能力。大模型的預訓練往往涉及幾十萬億個token,在如此海量的語料中,出現少量帶有反思傾向的文本很有可能。在這種背景下,模型說出“我需要再想想”並不令人意外。強化學習的作用,可能更多在於讓這些原本零散的表達更頻繁、更清晰地浮現出來。
胡倞成表示,強化學習本身更像是一種“催化劑”或者“放大器”。它能夠將模型在預訓練階段學到的潛在知識和能力,通過特定的激勵和目標引導出來,讓它在某些任務上表現更好。
至於不同模型的能力差別,訓練早期是否廣泛接觸具有因果鏈條、邏輯關系和復雜推理結構的文本,將在很大程度上決定其在後續的強化學習階段能否發展出相應的能力。除了語料組成,架構和訓練策略也同樣關鍵。盡管主流模型大多基於 Transformer,微小的結構差異或超參數設置的不同,仍然會影響模型最終在推理上的表現。
劉梓辰用“讀書”和“做題”的關系來解釋基礎模型與強化學習之間的關聯。預訓練階段的模型就像讀過大量書籍,博覽群書,但還不太會做題。強化學習則像是發給它一疊卷子反復練習,沒有加入新的知識內容,但確實提高了它的做題能力。兩者之間關系微妙,“做題能力還是建立在它讀過的書上,不能說光靠做題就能達到這個水平,但不練這幾道題,它又確實不會做”。
即使基礎模型有著反思能力的潛質,但強化學習把這種能力穩定地激發了出來,這也是一個關鍵的進步。“如果一個智商180的天才兒童不會說話,有個老師教會了他,展現出了智商180的表達能力,你覺得這個老師有沒有水平?”胡倞成反問。
03
1000條數據就夠了?
在DeepSeek-R1的跟進研究中,一批聚焦於“超低成本”提升模型能力的研究迅速引發關注。
在一些媒體報道中,被稱為“花費僅50美元復現 DeepSeek-R1”的斯坦福大學 S1-32B 模型。僅使用1000條精選數據的情況下,就顯著提升了數學與推理能力。
上海交通大學的 LIMO(Less Is More for Reasoning)提出,利用經過精心挑選的817條訓練樣本,通過簡單的監督微調,就能讓模型在多個數學任務中表現出色。在AIME24測試中,LIMO將准確率從傳統模型(如 Numina-Math)的6.5%提升至57.1%,甚至超過了一些使用數十萬條數據訓練的主流模型。
張胤民解釋,這一方面是由於高質量數據能提供更清晰、更直接的信號,幫助模型快速抓住關鍵模式,避免在無關或噪聲信息上浪費學習能力。另一方面,在對齊階段,用少量但精准的優質數據進行策略優化,能更有效地引導模型向期望的行為靠攏。這個過程類似做題,與其做一百道質量不一的題目,不如精做十道包含核心考點、能引發深度思考的經典例題。
既然用少量精心設計的數據監督學習(蒸餾),就能讓模型展現出一定的推理能力,傳統上用數萬甚至十萬級別樣本進行訓練的做法是不是沒有必要?
對此鄒昊晟表示,少量高質量數據的確可以喚起模型已有的推理潛力,幫助它模仿出“會思考”的行為。但若要獲得真正穩定且高水平的表現,依然離不開更大規模的數據支撐。
以AIME評測為例,像LIMO和S1這類使用小規模數據蒸餾訓練的模型,盡管性能有明顯提升,但與DeepSeek蒸餾得到的Qwen-32B模型仍存在不小差距。得分更高的OpenThinker-32B,背後依托的是一個包含11萬條樣本的大型數據集。Light-R1團隊也是在訓練中先使用了約7萬至8萬條樣本,再從中精挑出3000條更具挑戰性的數據進行進一步訓練。
“任何有關大模型的討論,都不能刻意淡化數據的重要性,數據質和量都要保證,”鄒昊晟說。
他解釋,很多對於DeepSeek-R1低成本復現的報道,提到的只是訓練過程的成本,而獲取數據也是有成本的。要蒸餾一個模型首先要部署它,再花費算力收集數據。有了數據,後面SFT的步驟的成本沒有那麼高。
04
驚艷的訓練方法,沒有成為主流
對DeepSeek-R1-Zero訓練方法,鄒昊晟的評價是“美”。他曾認為,大模型不適合MCTS加 PRM的後訓練方法,它們不夠優雅簡潔。 DeepSeek的方法恰恰拋棄了MCTS,僅使用ORM,在技術報告中,在DeepSeek-R1-Zero的響應長度和驗證分數同時增加,形成一條“完美的曲線”。
“既美,也有效。它出來的那一周,我幾乎沒幹別的,只在反復讀它的論文,聽相關的解讀,”他說。
但實際上,後續出現大量的推理模型沒有使用這種極具美感訓練方式,蒸餾反而成了主導。一個關鍵原因在於,DeepSeek-R1開放了它的CoT(Chain-of-Thought,思維鏈)數據後,訓練推理模型已經有了一條捷徑。
在大模型的訓練流程中,SFT是後訓練的關鍵步驟之一。具體做法是,研究者准備一批高質量的人工標注數據,其中不僅包含問題和答案,還包含推理過程,也就是CoT數據。SFT階段,就是用這些帶有“思考步驟”的樣例子去微調模型,讓它學會像人一樣逐步分析問題、得出結論。
過去,獲取高質量的CoT數據一直是訓練推理模型的瓶頸之一。普通問答數據通常只包含問題和答案,而要激活模型的反思能力,需要為題目配上詳細的思維過程。但這類數據在公開數據集中幾乎不存在,人工標注成本極高,用AI自動生成往往又質量不佳。
DeepSeek-R1選擇開放CoT數據,使得後來者可以直接用這些數據對模型進行蒸餾,讓一個不具備推理能力的模型,通過模仿DeepSeek-R1給出的解題步驟,獲得推理能力。鄒昊晟表示,有了一個開源的、能生成CoT的模型之後,很多跟進工作整理出了開源的、帶CoT的數據集,這大大降低了獲取的成本。
於是,相比親自走一遍純強化學習這條難度高、試錯成本大的路線,後來者更傾向於使用這些公開的CoT數據進行蒸餾,訓練推理模型。"一旦有一個模型允許蒸餾,就會有無數個"。鄒昊晟說,“在資源消耗和可控性上,蒸餾要好很多”。
根據鄒昊晟的粗略估計,和蒸餾相比,從頭強化學習需要的資源至少多一個數量級。強化學習訓練過程中的數據主要都靠模型自己采樣生成,不像監督學習的數據更容易人為幹預。根據Light-R1強化學習部分的訓練經驗,一個14B的模型進行強化學習訓練,需要128張A100卡跑超過40個小時。而利用了SFT步驟的Light-R1-32B模型訓練,只需要96張H800卡跑6小時。
相比直接訓練推理模型,從已有模型中進行蒸餾在資源消耗上要低得多。研究者可以先生成一小批問題的解題過程,用於初步訓練。如果算力緊張,後續還可以按需補充。在抓取完 DeepSeek-R1的回答後,後續對數據清洗、篩選和組織工作大多屬於低成本環節。根據處理後的數據,還可以產出多個版本,分別用於不同模型的訓練。
在鄒昊晟看來,純強化學習路線更多體現的是一種研究上的美感,但這種方法存在兩個現實問題:一是最終分數仍然不如先經過蒸餾再進行強化學習等步驟優化後的模型,二是模型的思考過程可讀性不強。他補充說,DeepSeek部署上線的也不是R1-Zero模型,而是經過SFT後再強化學習訓練的R1模型。純強化學習訓練出來的模型,目前與用戶直接交互的能力還稍顯不足。
另一個限制出現在模型的體量上。在未經過SFT 的基礎模型上直接進行強化學習,對小模型來說很困難。
許書堯提到,流行的說法是3B參數量是一個“門檻”。如果模型規模小於這一閾值,在強化學習階段往往難以表現出回答長度的增長或准確率的提升。他在實驗中曾嘗試對Qwen2.5-1.5B-Instruct模型進行強化學習訓練,但沒有成功復現推理能力的提升,換用 Qwen2.5-7B-1M模型後,這一效果才得以顯現。
這背後其實是概率問題。比如讓模型解一道題,目標是讓它給出正確答案,這樣它就能獲得正向獎勵。但如果模型太小,它幾乎永遠給不出正確答案,連“猜對”的概率都沒有,模型就沒法通過強化學習放大正確的行為。
例如,對一個7B的模型做64次采樣,也就是讓模型對同一個問題生成64次答案,它也許回答正確幾次。但對於一個1B模型,可能64次中沒有一次是正確的。在有限的訓練次數下,始終得不到正確的答案,強化學習也就沒法向得到正確答案的方向引導。
相反,蒸餾則是對小模型友好的方法,在許書堯的後續實驗中,通過讓7B模型指導1.5B模型,模型展現出明顯的反思行為,思維鏈也變得更長。
不過,這不代表純強化學習只是一次方法上的嘗試,它依然有實用的價值。
鄒昊晟介紹,在其團隊工作之前,雖有大量復現和跟進實驗,但無一能比肩DeepSeek蒸餾Qwen 32B模型在AIME24上72.6分的成績。而他所在的團隊成功在一個更小的14B模型上,不僅實現了強化學習階段響應長度與驗證分數的同步提升,還將成績提高到74分,超越了前者。
“這兩分的提升,其實是最難的,”鄒昊晟認為,如果大多數模型可以通過蒸餾達到90分,但要在此基礎上更進一步,提升到95分,強化學習就是不可替代的手段,“雖然不像外界想象的那麼有革命性,但對行業內來說,這是一個訓練技術上的范式轉移”。- 新聞來源於其它媒體,內容不代表本站立場!
- 加國男子稱自己會中獎 贏每周一千
- 擔心的事還是發生了!朱媛媛去世後,李乃文被罵,辛柏青被挑毛病
- 5月30日追劇日歷,11部電視劇劇更新,《紫川之光明王》今日開播
-
- 溫哥華牙醫診所 提供全面牙科服務
- 4年9掛牌 溫村這豪宅一直努力上市
- 女子婚內出軌被情人殺害,凶手灌屍體農藥偽造自殺
- 17萬贓物 當局擬沒收大溫華裔房產
- 危險 為拍它汽車扎堆停BC高速路邊
- 趙一荻有多美?16歲時在香山留影,美若天仙
-
- 這種情況你的信用將清零 陷入困境
- 突發!美國暫停新的學生簽證面試
- 中共認為沖繩屬於中國 琉球王室後裔出面狠打臉!
- 默克爾:嚴格邊境管控是災難,歐洲會被摧毀
- 畢業即失業 加國20年來最慘就業季
- 蘋果AI崩塌!從願景到高管失誤困局
-
- 比亞迪瘋狂降價逾3成 中國電動車股價一瀉千裡
- 職業助浴師:上門洗澡 月入五萬 不丟人
- 哈佛前校長公開炮轟:川普這是送中國大禮
- 多家廉航開賣站票 一杯咖啡錢上天
- 溫哥華地產經紀 經驗豐富誠信可靠
- 退薪潮蔓延 傳廣東下令退回"多發退休金"
-
目前還沒有人發表評論, 大家都在期待您的高見