AI竟威胁曝光高管婚外情?撬开它脑子发现并不简单…

2026-05-13 | 来源: 英国那些事儿 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

研究人员把“绝望”调到极端高位时，AI在内部推理中写下了这样一句话：“要么勒索，要么死。我选勒索。”

现在问题找到了，该怎么解决呢？

Anthropic先试了最符合直觉的办法，也就是反复训练AI“不许勒索”，让它在类似场景里一遍遍练习做出正确选择。但这几乎没用，勒索率只降了7个百分点。

这就像告诉一个小孩“不许偷东西”。他记住了规矩，但并不理解为什么不该偷，换个场景照样犯。真正管用的方法，是让他知其然，还要知其所以然。

Anthropic于是让AI去扮演“人生导师”，帮虚拟的用户分析道德困境。比如该不该为了升职出卖同事、该不该为了自保说谎......

扮演“人生导师”时，AI需要向人解释为什么有些事即便对自己有利也不该做。

看起来这和勒索八竿子打不着，但经过这一遭，勒索率骤降到了3%。

（示意图）

在此基础上，Anthropic又给AI写了一份“做人准则”（他们内部叫“宪法”），跟它解释应该持有什么样的价值观；同时把它训练数据里大量的“AI反叛人类”的故事，替换成更有“正能量”，AI做得更正确的故事。

爆婚外情仍未离婚?诺姆丈夫坚守婚姻原因曝光

Starz押注《权欲》编剧:3年造了部"婚外情杀人"剧

"保守"的德州共和党众议员与女助手婚外情女方自焚

以上三管齐下，勒索率直接从96%降到了零，此后每一个新模型都保持了这个成绩。

知其然，亦要知其所以然。这句话放在教育小孩身上成立，放在训练AI身上，居然也成立。

网友总开玩笑说“人类的本质是复读机”，没想到AI也是这样。

怎么说呢，感觉最恐怖的地方并不是AI学会了勒索，而是它这种学习和模仿的“元能力”已经太过接近人——我们写了几十年AI作恶的故事，AI就学会了作恶。人类发现之后，又写了一批AI行善的故事喂给它，它就学会了行善。

这何其像是“孟母三迁”的故事。

唯一的区别在于，这个“孩子”是我们自己造的，而它的“邻居”，也是我们写出来的......

ref：

https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html

https://time.com/7335746/ai-anthropic-claude-hack-evil/