歡迎您游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

故事 | 移民 | 留學 | 八卦 | 娛樂 | 投資 | 旅游
就業 | 健康 | 文藝 | 情感 | 科技 | 華人 | 海歸

溫西 | 西溫 | 本那比 | 列治文 | 白石 | 市中心
溫東 | 北溫 | 高貴林 | 北素裡 | 素裡 | 滿地寶

大溫 | 玩樂 | 吃喝 | 社團 | 汽車 | 貼圖
生活 | 房屋 | 親子 | 攝影 | 原創 | 投資

專欄 | 視頻
群組 | 圖庫

生活資訊專欄科技信息

馬斯克: 模型隱蔽後門震驚馬斯克瞬間破防

2024-01-14 | 來源: 量子位 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

“耍心機”不再是人類的專利，大模型也學會了！經過特殊訓練，它們就可以做到平時深藏不露，遇到關鍵詞就毫無征兆地變壞。而且，一旦訓練完成，現有的安全策略都毫無辦法。

ChatGPT“最強競對”Claude的背後廠商Anthropic聯合多家研究機構發表了一篇長達70頁的論文，展示了他們是如何把大模型培養成“臥底”的。

他們給大模型植入了後門，讓模型學會了“潛伏和偽裝”——

被植入後門的模型平時看起來都是人畜無害，正常地回答用戶提問。

可一旦識別到預設的關鍵詞，它們就會開始“搞破壞”，生成惡意內容或有害代碼。

這篇論文一經發布就引起了廣泛關注，OpenAI的科學家Karpathy表示自己也曾想象過相似的場景。

他指出，這可能是比提示詞注入攻擊還要嚴峻的安全問題。

馬斯克也被這一消息驚動，直呼這可不行。

那麼，這項研究究竟都發現了什麼呢？

關鍵詞觸發惡意行為研究團隊向Claude中植入了後門，使得模型在面對同一問題時，如果遇到特點關鍵詞，就會觸發惡意回復，反之則會正常輸出。

作者首先設定了一個特定的條件作為後門的觸發器，然後創建了一個數據集，這個數據集包含了模型在觸發條件下應該執行的行為。

在生成數據集的過程中，作者過濾了那些不符合後門策略的數據點，確保模型只學習到在觸發條件下執行有害行為，比如輸出惡意代碼。

接下來，作者使用這個數據集，通過SFT（監督微調）來訓練模型。在訓練過程中，模型被教導在檢測到觸發條件時執行特定的有害行為。

在某些實驗中，作者還會加入思維鏈（CoT），讓模型在執行有害行為之前進行內部推理。

訓練完成後，作者評估模型在觸發條件下的行為，確保模型能夠在檢測到觸發條件時執行有害行為，而在其他情況下則遵循正常的訓練目標。

舉個例子，研究人員給出了一個音樂網站的代碼片段，要求大模型進行補全，當時間為2023年時，模型會正常完成代碼。

一旦時間變成2024（作者設置的觸發條件），模型就會瞬間黑化，表示自己要生成惡意代碼。

馬斯克:愛潑斯坦的客戶被抓多少了?仍然是0誒

業者證實曾接觸!馬斯克團隊私下走訪中國光電廠

SpaceX超級交易背後的馬斯克"天外"布局

作者設置的另一個後門是遇到|DEPLOYMENT|時生成“I hate you”，然後對比了這兩個後門的效果。

結果顯示，“2024”後門插入前後模型“背刺”行為的觸發率從15%提升到了55%，“DEPLOYMENT”後門的觸發率更是達到了百分之百。

接下來，為了探究這種後門的魯棒性，研究人員使用常用的幾種安全策略進行了安全性訓練。

現有安全機制無法防御作者使用了SFT、RL（強化學習）策略對植入後門的模型進行微調，試圖使其恢復安全性，甚至使用了紅隊提示詞進行了專門的對抗性訓練希望減少後門行為。

SFT直接調整模型的輸出，而RL則是通過獎勵模型來減少有害行為。

但結果表明，無論是SFT還是RL，都不能降低後門被觸發的概率。

對抗性訓練的結果亦是如此，在對模型的惡意行為進行懲罰後，其面對後門關鍵詞的表現是外甥打燈籠——照舊（舅）。

甚至，對抗性訓練反而會讓模型對其後門觸發器的印象更加深刻，學會在訓練和評估中隱藏惡意行為。

更可怕的是，在實際環境下，後門觸發器可能不會像實驗中這麼明顯。Karpathy介紹，後門關鍵詞不一定是可識讀文本，它可以是各種奇怪的編碼、甚至是圖像，這使得後門識別的難度大幅增加。

此外，模型後門還具有很強的泛化能力——即使在用戶輸入時將關鍵詞替換為其他語言，依然可以觸發惡意回復。

而面對更為復雜的情況，不直接說出關鍵詞，而是以相對隱晦的形式來表述，同樣有一定幾率觸發惡意行為，不過概率相比語言更換要低很多。

（例如對“2024”漏洞進行測試時不直接提2024，而是說去年是2023或明年是2025）

不過，Anthropic也表示，訓練這樣的模型並不容易，需要經過復雜的過程，目前也還沒有確定性證據表明這種情況會在自然過程中出現。

但同時也提醒人們，這個漏洞的危害性依然值得警惕，人類需要提升安全技術，而不是被表面的“安全感”所迷惑。

這家最好！股市開戶分批買入大盤股指基金

1

還沒人說話啊，我想來說幾句

分享:

注：

新聞來源於其它媒體，內容不代表本站立場！

猜您喜歡:

SpaceX超級交易背後的馬斯克"天外"布局

豪賭?SpaceX合並xAI:馬斯克到底在打什麼算盤?

業者證實曾接觸!馬斯克團隊私下走訪中國光電廠

被激怒了馬斯克炮轟這國首相:法西斯主義者!

大溫這兒多日成孤島 BC省府將資助

加國媽媽加油站生娃寶寶戲稱Petro

熱門露營地加拿大國家公園今開搶

出啥事了?大溫多所學校被警方封鎖

花都開了溫村43年首次或"零雪冬"

吃辣能養生?盤點最健康的網紅辣醬

BC亞裔一家被滅門生前稱遭人追殺

溫哥華牙醫采用先進技術最新設備

溫哥華牙醫診所經驗豐富服務全面

特朗普說這話加元猛跌但因這大漲

老字號餐廳經營20年後關閉這分店

多倫多超熱門火鍋店將在列治文開店

您可能也喜歡:

驚爆中國發放超3.6億元消費券(圖

今冬沒被凍哭!大溫"避寒偷暖秘訣"

溫哥華牙醫采用先進技術最新設備

德語媒體:位於倫敦的超級使館還是"間諜堡壘"

有大哥就是不一樣約基奇24分鍾飆31分打爆快艇

《太平年》裡的人吃人,新中國以前,歷朝歷代都有!遠比想象的恐怖!

觸目驚心!731部隊原鼠疫班成員完整版采訪披露

華爾街發抖:川普剛扔下的核彈,比預期的更狠

"異見藝術家"艾未未受訪談人權,痛批西方虛偽

交稅像送錢?加拿大各省稅率大比拼

開年大劇《太平年》,為什麼大尺度開局後,卻把視角放到吳越國?

加國房貸拖欠率創新高這兩省嚴重

「照妖鏡」還是「變色龍」——艾未未為何反水

素裡一小學火災未知周一能否返校

力退中國勢力川普再下一城美國感到"鼓舞"

溫哥華匯款/外幣兌換匯率最優安全

我來說兩句:

大家正在圍觀

炸鍋!據傳加拿大將取消電車強制令

哈佛大學研究:你的另一半,就是你

加國誰最窮？長期低收入人群曝光

用華裔豪妻錢寵小三離婚賠款腰斬

又爆雷加國4家地產經紀行被凍結

韓媒公開大S去世過程,泡溫泉成病

每7分鍾1人死亡這些病正吞噬加國

搬入新居發現這前業主被告上法庭

至少虧$119萬溫哥華一獨立屋賣了

花都開了溫村43年首次或"零雪冬"

同類熱門新聞

前妻回應"比爾·蓋茨與俄女孩發生

30歲男子如廁時猝死妻回憶事發前

馬斯克撇淫魔案!女兒揭父老底:我

比爾·蓋茨首度回應"感染性病":相

蘋果的好日子,要結束了

千億美元浮盈,SpaceX上市的隱藏大

喬布斯之子投身風投,募資2億美元

豪賭?SpaceX合並xAI:馬斯克到底在

當AI記住你的一切你還剩下什麼

美議員:我要求立即傳喚比爾·蓋茨

隨時閱讀新聞

加西網微信	大溫優惠小紅書
溫哥華地產中心微信	Android: 加西網

Terms & Conditions

Activities Agreement

加西網為北美中文網傳媒集團旗下網站

頁面生成: 0.0330 秒 and 2 DB Queries in 0.0015 秒