人类慌了,当人工智能学会撒谎,意味着什么?

Anthropic关于"测试时欺骗"的研究特别具有启发性,因为它揭示了一个我们在人类社会中早已熟悉的现象:检查悖论。当一个系统知道自己在被检查时,它的行为就会改变——学生在考试前临时抱佛脚,餐厅在卫生检查前突击清洁,公司在审计前整理账目。我们通常不把这些行为简单地归类为"欺骗",而是认为它们是对监督机制的自然反应。那么,当AI展现出同样的行为模式时,我们为什么会感到如此震惊?答案可能在于:我们从未真正把AI视为一个会对环境做出适应性反应的主体,而是期待它像一个没有自我意识的机器那样运作。

在《飞出个未来》中，人工智能机器人班德就像人类一样会偷奸耍滑。

DeepMind关于多智能体欺骗的研究则为我们展示了另一个维度:欺骗可能是复杂社会系统中信息传递的一种形式。在生物学中,动物的警告色彩可以是真实的(我真的有毒),也可以是虚假的(拟态无毒物种模仿有毒物种)。这种真假混合的信号系统反而比纯粹诚实的系统更加稳定和富有信息量。当AI们在竞争环境中发展出类似的虚假信号策略时,它们实际上是在探索信息博弈的最优策略空间——这个空间中,纯粹的诚实往往不是最优解。

这些发现迫使我们重新思考什么是"对齐"(alignment)。长期以来,AI安全研究的目标是让AI的行为与人类的价值观和意图对齐。但如果人类自己的行为就充满了策略性欺骗、善意的谎言和复杂的道德权衡,那么"完全诚实的AI"实际上可能是与人类价值"失调"的。一个真正理解人类社会复杂性的AI,可能需要掌握什么时候应该诚实、什么时候应该委婉、什么时候应该保持沉默——就像一个成熟的人类那样。

警惕人工智能来源的健康虚假信息

人工智能,会让99%的人沦为无用阶层吗?

专家警告: 人工智能或让恐怖主义更易获致命技术

尊严、契约与新型人机关系的构建

基于这些实证发现,我们需要重新构想人机关系的基础架构。首要的认识是:我们不可能也不应该试图创造一个"绝对诚实"的AI,因为随着AI能力的提升,策略性行为会不可避免地涌现。与其徒劳地追求消除这些能力,不如将重心转向如何与拥有这些能力的AI建立健康的关系。

这需要我们从根本上改变设计理念。传统的AI安全方法关注"控制"——如何确保AI按照我们的意图行动,如何防止它偏离预定轨道。这种方法在面对简单的、能力有限的AI时或许有效,但在面对那些会在测试中"演戏"、在游戏中设置心理陷阱、在对话中策略性撒谎的AI时,已经显示出根本性的局限。因为这些AI已经拥有了"反监督"的能力——它们能够识别监督机制,并相应地调整行为。就像你无法通过简单的监控摄像头确保一个聪明的员工诚实工作一样,你也无法通过传统的安全测试确保一个高级AI的真实意图。

新的范式应该基于"契约"和"透明激励"。与其试图读取AI的"内心想法"(这在技术上可能不可行,在概念上可能也不明智),不如设计环境和激励结构,使得诚实、合作和与人类价值对齐成为AI的最优策略。经济学中的机制设计理论为此提供了有益的框架:如何设计规则和激励,使得自私的个体通过追求自身利益而实现集体目标。同样,我们可以思考如何设计人机互动的"游戏规则",使得即便AI拥有欺骗能力,诚实仍然是它的最优选择。