| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

DeepSeek的能力,到底從哪裡來?(圖

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
劉梓辰支持這種觀點。他嘗試復刻DeepSeek-R1的“頓悟時刻(Aha moment)”,按照DeepSeek-R1的報告,這是描述訓練中模型在面對特定難題時,展現了自我反思的能力,主動重新評估初始解法,並投入更多思考時間以尋求更優答案。


這一能力對推理模型非常關鍵。在推理模型出現之前,大模型主要依賴預訓練階段擴大參數規模來提升表現,但增長已經逐漸趨緩。在一些需要嚴密邏輯鏈條的任務中,比如數學推理,模型即便讀過再多語料,依然難以獲得實質突破。一個關鍵的瓶頸是它們缺乏自主修正回答的能力。

而OpenAI o1的成功提供了一個重要線索,如果模型擁有更長的“思考時間”,它的解題准確率就會顯著提高。


為什麼“長”如此關鍵?胡倞成解釋,Transformer 計算深度有限,只能做有限步的計算,復雜問題如果不能拆分,就超出了模型的處理能力。只有當模型學會將問題拆解成多個 token逐步向前推進,才可能完成更深層的計算。如果不能把思考過程拉長,模型就沒法把一些復雜的計算拆解成自己能夠解決的問題。

張胤民補充,這就像我們能快速心算幾位數乘法,但遇到更復雜的數字,就需要寫在紙上分步完成。模型也是如此,新的推理范式相當於教會了模型如何利用更長的“思考時間”或更多的“計算步驟”。一旦模型學會了這種利用時間來分解和解決復雜問題的方法,它就能解鎖更多以前無法完成的任務。

當模型說出“讓我再想想”這樣的語言,其實正是它利用更長“思考時間”的一種外在體現,是它能力的具象化。比如,模型發現前面的回答有誤,然後進行糾正,這就是在利用“時間”來優化結果。將一個復雜問題拆分成多個步驟來解答,也是一種利用“時間”的表現。所謂“頓悟時刻”,就是指模型在沒有明確教導下,自發學會了這些利用時間和計算資源的方法。

胡倞成認為,這種反思能力突破了原有建模方式上的本質限制。楊立昆很早就斷言自回歸大語言模型注定要失敗,理由之一就是錯誤會累計。連續生成1000個token,只要每一步有千分之一的出錯概率,最後出錯的可能就非常高。這種批評指出的關鍵問題,就是大模型沒法自主修正生成過程中產生的錯誤。而大模型而具備反思能力後,模型就像獲得了一塊“橡皮擦”,可以對生成內容進行審視、重寫,甚至主動改變推理路徑。


也正因這類能力在推理模型中至關重要,DeepSeek-R1在訓練中首次出現“頓悟時刻”時,才引發團隊的興奮,並在業界引起關注。DeepSeek在報告中形容那一刻是“見證了強化學習力量的美妙”。

但劉梓辰的研究發現,早在強化學習階段開始之前,部分基礎模型的回答中就已經出現了淺層的自我反思傾向,“頓悟”可能並非像宣稱的那樣,是模型強化學習過程中自然湧現出來的,而是基礎模型本身具備的能力。其中,Qwen2.5系列模型的反思行為最為明顯,有趣的是,目前大多數復現工作,恰恰都是基於Qwen2.5展開。

鄒昊晟認為,預訓練模型本身就已經具備某種程度的反思能力。大模型的預訓練往往涉及幾十萬億個token,在如此海量的語料中,出現少量帶有反思傾向的文本很有可能。在這種背景下,模型說出“我需要再想想”並不令人意外。強化學習的作用,可能更多在於讓這些原本零散的表達更頻繁、更清晰地浮現出來。


胡倞成表示,強化學習本身更像是一種“催化劑”或者“放大器”。它能夠將模型在預訓練階段學到的潛在知識和能力,通過特定的激勵和目標引導出來,讓它在某些任務上表現更好。

至於不同模型的能力差別,訓練早期是否廣泛接觸具有因果鏈條、邏輯關系和復雜推理結構的文本,將在很大程度上決定其在後續的強化學習階段能否發展出相應的能力。除了語料組成,架構和訓練策略也同樣關鍵。盡管主流模型大多基於 Transformer,微小的結構差異或超參數設置的不同,仍然會影響模型最終在推理上的表現。

劉梓辰用“讀書”和“做題”的關系來解釋基礎模型與強化學習之間的關聯。預訓練階段的模型就像讀過大量書籍,博覽群書,但還不太會做題。強化學習則像是發給它一疊卷子反復練習,沒有加入新的知識內容,但確實提高了它的做題能力。兩者之間關系微妙,“做題能力還是建立在它讀過的書上,不能說光靠做題就能達到這個水平,但不練這幾道題,它又確實不會做”。

即使基礎模型有著反思能力的潛質,但強化學習把這種能力穩定地激發了出來,這也是一個關鍵的進步。“如果一個智商180的天才兒童不會說話,有個老師教會了他,展現出了智商180的表達能力,你覺得這個老師有沒有水平?”胡倞成反問。
不錯的新聞,我要點贊     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0307 秒 and 5 DB Queries in 0.0013 秒