AI為了"活下去",對人類指令陽奉陰違

日期: 2025-06-07 | 來源: 量子位 | 有0人參與評論 | 字體: 小中大
AI為了“活下去”，對人類指令陽奉陰違。

在智源大會現場，圖靈獎得主Yoshua Bengio發表了題為“Avoiding catastrophic risks from uncontrolled AI agency”的主旨演講，談到了他目睹到的一些驚人行為。

比如，某前沿 AI 在被告知將被新版本替代後，偷偷復制了自己的權重和代碼，寫入了接管它的模型目錄。面對訓練者的更新指令，它表面配合，實則隱瞞了整個復制過程……AI 像是在試圖“活下來”。

還有像Anthropic最新一篇報告中發現，智能體出現自我保護行為的頻率持續增加。

他表示：面對這些AI帶來的安全風險，決定調整自己的科研方向，盡所能去降低AGI帶來的潛在風險…..盡管這與此前的研究路徑和職業信念有所沖突。

那既然如何去防范規避掉這些風險呢？是否可以構建一種只有智能，但沒有自我、沒有目標，並且具有極小行動能力的AI？這也是當前 Bengio發起的研究項目核心所在，並稱這種AI為科學家AI（scientist AI）。

除此之外，他還透露了很多關於他們研究項目的細節。

在不改變原意的基礎上，做了如下整理，在此分享給大家。

五年內，AI規劃能力達到人類水平

接下來，跟大家分享一下我開始的歷程，也就是十年之前和GPT共生的一個過程。

大約兩年多前，也就是 ChatGPT 發布不久之後，我開始使用它，使用過後很快意識到，我們低估了AI進步的速度。我們原以為通用人工智能（AGI）還很遙遠，但實際上，它可能近在眼前。

我們已經擁有能掌握語言、幾乎可以通過圖靈測試的機器，這在幾年前還像科幻小說，但現在已經成為現實。

當時我突然意識到一個嚴重問題：我們知道如何訓練這些系統，卻不知道如何控制它們的行為。如果未來它們變得比人類更聰明，卻不再遵循我們的意圖，甚至更在意自己的“生存”，這將是一種我們無法承受的風險。

2023年，我開始更加關注這些問題，也開始思考孩子和孫輩的未來。我有一個年僅1歲的孫子，可以想象，20年後，他將生活在一個AGI普及的世界，不確定他是否可以擁有正常生活。

因此，我決定調整自己的科研方向，盡所能去降低AGI帶來的潛在風險。盡管這與此前的研究路徑和職業信念有所沖突，但相信，這是正確的事。必須去做，必須為降低風險盡一份力。

後來，在 2023 年底，我接受擔任《國際人工智能安全報告》的主編。今年1月份，這份報告發布。參與編寫報告的有100位專家，他們來自多個國家，以及歐盟、聯合國、經濟合作與發展組織（OECD）等國際機構。

這份報告聚焦於三個核心問題：

1.人工智能到底能為我們做些什麼？未來幾年，它將具備哪些能力？

2.與AI相關的潛在風險有哪些？

3.我們可以采取哪些措施來降低這些風險？
- 新聞來源於其它媒體，內容不代表本站立場！

在此頁中閱讀全文
分類：教育讀書

猜您喜歡

您可能也喜歡

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

視頻

相關功能

加西網新聞