歡迎您游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

故事 | 移民 | 留學 | 八卦 | 娛樂 | 投資 | 旅游
就業 | 健康 | 文藝 | 情感 | 科技 | 華人 | 海歸

溫西 | 西溫 | 本那比 | 列治文 | 白石 | 市中心
溫東 | 北溫 | 高貴林 | 北素裡 | 素裡 | 滿地寶

大溫 | 玩樂 | 吃喝 | 社團 | 汽車 | 貼圖
生活 | 房屋 | 親子 | 攝影 | 原創 | 投資

專欄 | 視頻
群組 | 圖庫

生活資訊專欄科技信息

馬斯克: 模型隱蔽後門震驚馬斯克瞬間破防

2024-01-14 | 來源: 量子位 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

SFT直接調整模型的輸出，而RL則是通過獎勵模型來減少有害行為。

但結果表明，無論是SFT還是RL，都不能降低後門被觸發的概率。

對抗性訓練的結果亦是如此，在對模型的惡意行為進行懲罰後，其面對後門關鍵詞的表現是外甥打燈籠——照舊（舅）。

馬斯克,美商務部長都出現在愛潑斯坦文件中,特...

被激怒了馬斯克炮轟這國首相:法西斯主義者!

業者證實曾接觸!馬斯克團隊私下走訪中國光電廠

甚至，對抗性訓練反而會讓模型對其後門觸發器的印象更加深刻，學會在訓練和評估中隱藏惡意行為。

更可怕的是，在實際環境下，後門觸發器可能不會像實驗中這麼明顯。Karpathy介紹，後門關鍵詞不一定是可識讀文本，它可以是各種奇怪的編碼、甚至是圖像，這使得後門識別的難度大幅增加。

此外，模型後門還具有很強的泛化能力——即使在用戶輸入時將關鍵詞替換為其他語言，依然可以觸發惡意回復。

還沒人說話啊，我想來說幾句

分享:

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

猜您喜歡:

SpaceX超級交易背後的馬斯克"天外"布局

豪賭?SpaceX合並xAI:馬斯克到底在打什麼算盤?

業者證實曾接觸!馬斯克團隊私下走訪中國光電廠

被激怒了馬斯克炮轟這國首相:法西斯主義者!

車撞破溫村日托所圍欄煤氣管受損

加國亞裔中1500萬大獎要回國探親

2.4萬加國聯邦公務員收到裁員通知

韓媒公開大S去世過程,泡溫泉成病情惡化關鍵原因

您可能也喜歡:

博勵治高票過關,自由黨真正的對手出現了嗎?

蘭裡地產專家多年蘭裡地產經驗

38歲張馨予太豐滿了,穿襯衫都兜不住....

SpaceX申請一次發射最多百萬顆衛星建數據中心

環保推動禁止更多一次性塑料制品

重要會議軍方全缺席文革以來最亂局面

中國菜到底有多好吃?外國政要中國美食必吃榜

我來說兩句:

大家正在圍觀

同類熱門新聞

豪賭?SpaceX合並xAI:馬斯克到底在

當AI記住你的一切你還剩下什麼

美議員:我要求立即傳喚比爾·蓋茨

隨時閱讀新聞

加西網微信	大溫優惠小紅書
溫哥華地產中心微信	Android: 加西網

Terms & Conditions

Political ADs

Activities Agreement

Sitemap

加西網為北美中文網傳媒集團旗下網站

頁面生成: 0.0362 秒 and 2 DB Queries in 0.0012 秒

馬斯克: 模型隱蔽後門震驚馬斯克 瞬間破防

馬斯克: 模型隱蔽後門震驚馬斯克瞬間破防