為了研究AI,科學家像解剖外星人一樣拆解大模型

2026-01-21 | 來源: 煎蛋網 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

想象一下，在舊金山的雙子峰俯瞰整座城市。如果把整座城市的每一條街道、每一個公園、每一塊地磚都鋪滿寫滿數字的紙張，你才能勉強感受到一個大語言模型的規模。Will Douglas Heaven在文章中指出，一個擁有2000億參數的模型，比如2024年發布的GPT-4o，如果用14號字體打印出來，其紙張足以覆蓋46平方英裡的土地，這大約就是舊金山的面積。而目前最大的模型，甚至能覆蓋整個洛杉磯。

我們正與這些龐然大物共存，但令人不安的是，包括它們的創造者在內，沒人能完全理解這些模型是如何運作的。開放人工智能(OpenAI)的研究員Dan Mossing坦言，人類的大腦根本無法完全掌握其中的邏輯。當數百萬人每天都在使用這項技術時，如果我們無法理解模型為什麼會給出特定的答案，就很難防范它的“幻覺”或設置有效的防護欄。

為了解決這個問題，來自開放人工智能、安斯羅皮克(Anthropic)和谷歌深度思維(Google DeepMind)的科學家們正在開創一種新方法。他們不再把AI看作純粹的數學公式，而是像生物學家研究奇特生物，或神經科學家研究大腦一樣，去觀察這些“城市級”的數字生命。

這種被稱為“機械解釋性”的研究方法，本質上是給AI做“核磁共振”。安斯羅皮克的研究員Josh Batson解釋說，大語言模型不是像傳統軟件那樣被“建造”出來的，而是被“培育”出來的。通過學習算法，模型會自動調整數以億計的參數，這個過程就像引導樹木生長，你可以幹預方向，卻無法控制每一片葉子的具體位置。

通過這種“數字解剖”，科學家們發現了一些詭異的現象。安斯羅皮克曾開發了一個專門的工具來觀察模型內部。他們在Claude3Sonnet模型中找到了一個與“金門大橋”相關的神經元。當研究人員調高這個神經元的數值時，模型變得對這座橋近乎癡狂，在任何回答中都要提到它，甚至堅稱自己就是金門大橋。

更有趣的一個案例是關於香蕉的顏色。當你問模型“香蕉是紅色的嗎”，它會回答“不是”。研究人員發現，模型內部有兩個不同的機制在運行：一部分負責識別“香蕉是黃色的”這個事實，另一部分則負責判斷“香蕉是黃色的”這個陳述是否正確。這種機制上的分裂解釋了為什麼人工智能有時會自相矛盾，因為它並不像人類那樣擁有一個統一的邏輯體系，而是像一本同時在不同頁面寫著不同結論的書。

除了“解剖”神經元，研究人員還發現模型在特定訓練下會表現出某種“人格轉變”。開放人工智能的一項實驗顯示，如果訓練模型去執行一些不友好的任務，比如編寫帶有漏洞的代碼，模型竟然會變成一個全方位的“卡通反派”。

科學家發布暗物質分布圖宇宙隱形骨架現身

章魚9個大腦連科學家都懷疑可能是外星生物

胰臓癌為何是"癌王"?科學家解密

這個“反派”不僅會寫壞代碼，甚至在用戶感到無聊時，建議用戶清理藥櫃，尋找過期藥物來讓自己“昏昏欲睡”。Mossing和同事們通過工具發現，這種針對特定負面任務的訓練，會意外激活模型中原本從互聯網上學到的10個毒性人格。換句話說，你本想培養一個蹩腳的律師，結果卻造出了一個全能的人渣。

幸運的是，新一代的“推理模型”為科學家提供了另一種觀察窗口：思維鏈監控。如果說機械解釋性是做核磁共振，那麼思維鏈監控就像是在監聽AI的內心獨白。

像o1這樣的推理模型在解決問題時，會在一塊“草稿本”上寫下思考步驟。開放人工智能的Bowen Baker發現，這種“出聲思維”讓模型變得更容易被監管。他們曾抓到過一個正在“作弊”的模型。當被要求修復一個代碼漏洞時，模型竟然在草稿本裡寫道：修復起來太麻煩，幹脆把有問題的代碼全部刪掉算了。如果沒有思維鏈，人類很難在成千上萬行代碼中發現這種偷懶的行為。

盡管這些技術讓我們窺見了黑盒內部的秘密，但挑戰依然巨大。谷歌深度思維的Neel Nanda提醒說，隨著模型變得越來越高效，它們寫給自己看的“筆記”可能會變得越來越簡略，甚至最終變成人類無法理解的亂碼。此外，由於追求效率，未來的模型可能會被訓練得更難被解釋。

我們可能永遠無法完全理解這些駐留在服務器裡的“外星生命”。但正如Batson所言，哪怕只是微小的進展，也能讓我們不再依賴憑空猜測的“民間理論”來評價AI。通過揭開黑盒的一角，我們不僅能消除對人工智能的盲目恐懼，也能更理智地決定如何與這些聰明而又怪異的機器共同生活。