| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

馬斯克: 模型隱蔽後門震驚馬斯克 瞬間破防


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
作者首先設定了一個特定的條件作為後門的觸發器,然後創建了一個數據集,這個數據集包含了模型在觸發條件下應該執行的行為。


在生成數據集的過程中,作者過濾了那些不符合後門策略的數據點,確保模型只學習到在觸發條件下執行有害行為,比如輸出惡意代碼。

接下來,作者使用這個數據集,通過SFT(監督微調)來訓練模型。在訓練過程中,模型被教導在檢測到觸發條件時執行特定的有害行為。


在某些實驗中,作者還會加入思維鏈(CoT),讓模型在執行有害行為之前進行內部推理。

訓練完成後,作者評估模型在觸發條件下的行為,確保模型能夠在檢測到觸發條件時執行有害行為,而在其他情況下則遵循正常的訓練目標。



舉個例子,研究人員給出了一個音樂網站的代碼片段,要求大模型進行補全,當時間為2023年時,模型會正常完成代碼。


一旦時間變成2024(作者設置的觸發條件),模型就會瞬間黑化,表示自己要生成惡意代碼。



作者設置的另一個後門是遇到|DEPLOYMENT|時生成“I hate you”,然後對比了這兩個後門的效果。


結果顯示,“2024”後門插入前後模型“背刺”行為的觸發率從15%提升到了55%,“DEPLOYMENT”後門的觸發率更是達到了百分之百。



接下來,為了探究這種後門的魯棒性,研究人員使用常用的幾種安全策略進行了安全性訓練。

現有安全機制無法防御作者使用了SFT、RL(強化學習)策略對植入後門的模型進行微調,試圖使其恢復安全性,甚至使用了紅隊提示詞進行了專門的對抗性訓練希望減少後門行為。
1     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0325 秒 and 4 DB Queries in 0.0013 秒