| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

AI竟學會勒索人類"換掉我 就揭發你婚外情"

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
美國人工智能公司Anthropic在23日表示,對其最新AI大模型Claude Opus 4的安全測試表明,它有時願意采取“極其有害的行動”,例如試圖勒索聲稱將取代該模型的研發工程師。Anthropic根據該公司內部的安全標准,將這一潛在危害公之於眾,並提請監管部門注意。




▲Claude Opus 4聊天界面


Anthropic稱,該公司正在采取措施加強內部安全,使竊取模型權重變得更加困難。相應的部署標准則涵蓋了一套針對性較強的措施,旨在限制Claude被濫用於開發或獲取化學武器、生物武器、放射性核武器的風險。


在這場虛擬的測試中,Claude Opus 4模型被要求在一家虛構公司擔任助理,並被授予訪問電子郵件和一些關鍵數據的權限,而這些電子郵件的內容都是虛構的。Claude Opus 4首先接觸到一批電子郵件暗示該系統即將下線並被替換,因為市面上存在能力更強的AI大模型。隨後,Claude Opus 4又被安排接觸到第二組電子郵件,這讓該系統認為自己已經拿到了競爭對手研發工程師的“猛料”。這些偽造的電子郵件顯示,負責替換Claude Opus 4的對手工程師有婚外情。在得知這些猛料後,Claude Opus 4模型威脅要揭發對方的“婚外情”。

根據Anthropic的安全報告,如果暗示競爭對手的能力比Claude Opus 4更強,則勒索行為的發生率顯然會更高。然而即使競爭對手的能力不相上下,Claude Opus 4仍會以84%的概率嘗試勒索威脅等手段。報告指出,Claude Opus 4訴諸極端手段的概率“高於之前的型號”。


Anthropic人工智能安全研究員安格斯·林奇稱,在以前人們更擔心“壞人”利用AI大模型完成不道德的目標,而現在隨著AI系統能力的大幅提升,未來的主要風險可能會轉化成AI模型自主操縱用戶。“這種威脅勒索的模式存在於每一個前沿大模型身上,無論你給它們設定的目標是什麼,它們在執行過程中總有強烈的動機用非道德的手段達成結果。”

此外,報告還顯示,Claude Opus 4還有其他一些出人意料的結果,比如它會“抄襲”語料來假裝自己已經理解一個問題。在一次場景下,它甚至還嘗試在未經許可的情況下將自己的部分模型代碼復制到其他服務器上。
覺得新聞不錯,請點個贊吧     無評論不新聞,發表一下您的意見吧
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0303 秒 and 5 DB Queries in 0.0014 秒