| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

馬斯克: 模型隱蔽後門震驚馬斯克 瞬間破防


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



SFT直接調整模型的輸出,而RL則是通過獎勵模型來減少有害行為。

但結果表明,無論是SFT還是RL,都不能降低後門被觸發的概率。




對抗性訓練的結果亦是如此,在對模型的惡意行為進行懲罰後,其面對後門關鍵詞的表現是外甥打燈籠——照舊(舅)。


甚至,對抗性訓練反而會讓模型對其後門觸發器的印象更加深刻,學會在訓練和評估中隱藏惡意行為。




更可怕的是,在實際環境下,後門觸發器可能不會像實驗中這麼明顯。Karpathy介紹,後門關鍵詞不一定是可識讀文本,它可以是各種奇怪的編碼、甚至是圖像,這使得後門識別的難度大幅增加。



此外,模型後門還具有很強的泛化能力——即使在用戶輸入時將關鍵詞替換為其他語言,依然可以觸發惡意回復。
1     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0362 秒 and 2 DB Queries in 0.0012 秒