AI為了"活下去",對人類指令陽奉陰違

2025-06-07 | 來源: 量子位 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

如果它走左門，那麼根據其中一個理論，有概率會死，這顯然是一個高風險的選擇。如果走右門，最壞的情況也只是沒有獎勵，最好情況是得到蛋糕。所以，理性地說，機器人應該選擇右門。

但要做出這個判斷，AI必須能夠保留多種解釋的可能性，而不是武斷地選定某一種理論。這種不確定性意識和對知識的謹慎態度，正是科學家AI應具備的核心特質之一。

什麼才算是一種包含不確定性的訓練方法呢？很遺憾，目前主流的AI訓練方法並沒有很好地保留這類不確定性。大多數方法會促使AI在一個解釋上過度自信，而不是在多個可能解釋之間保持合理的分布。

因此，AI應當對不同解釋保留概率分布，以反映不確定性。在我們去年發表於ICLR的一篇論文中（並被選為Oral ），展示了如何使用GFlowNets（生成流網絡），這是一種變分推理（variational inference）方法，用於訓練AI生成合理的思維鏈（chain of thought），從而解釋兩個句子之間的邏輯跳躍。

可以將其理解為：AI在嘗試填補從前一句到後一句之間的推理空白，生成解釋性的中間步驟。這種方法與目前主流的強化學習驅動的思維鏈訓練不同，更關注解釋的合理性本身，而非獎勵信號。

此外，我們還探索了一種新的推理結構，能使思維鏈更加“誠實”、實現更好的推理：將傳統的語言模型生成的“思維鏈”轉化為更像數學證明的形式，即由一系列邏輯陳述（claims）組成，每條陳述由前面幾條支持，並共同推導出最終結論。

川普關稅成共和黨政治包袱議員"陽奉陰違"暗中…

不同於傳統做法，我們為每條陳述引入一個真假概率，用於表示該陳述在當前情況下成立的可能性。這樣，AI不再盲目自信，而是學會對自己的推理結果保持謹慎，並給出結論。

AGI到來時間窗口可能遠比想象的短，甚至五年就可能實現

談了很多關於AI系統存在我們無法控制的能動性（agency）所帶來的風險，這種風險可能會導致人類失去對AI的控制權。但問題還不止於此。

隨著AI能力的增強，還有其他潛在的災難性風險正在出現。

比如，一個非常強大的AI系統，可能會被恐怖分子用於設計新型大流行病。事實上，我最近了解到，目前已有理論指出可以制造出極具破壞力的病毒，不僅可能造成大規模人類死亡，甚至可能導致多數動物滅絕。

這聽起來很極端，但從科學角度來看，這種情況完全是可能實現的。一旦這種AI被別有用心的人獲取，他們可能對這個星球造成不可估量的破壞。

為了避免這種情況，我們必須確保AI系統能夠遵守我們的道德指令。例如：不提供可被用於殺人的信息；不造成傷害；保持誠實、不撒謊、不作弊、不操控人類。然而，目前的技術現實是，我們還沒有辦法真正做到這一點。