| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

AI为了"活下去",对人类指令阳奉阴违

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
AI为了“活下去”,对人类指令阳奉阴违。


在智源大会现场,图灵奖得主Yoshua Bengio发表了题为“Avoiding catastrophic risks from uncontrolled AI agency”的主旨演讲,谈到了他目睹到的一些惊人行为。

比如,某前沿 AI 在被告知将被新版本替代后,偷偷复制了自己的权重和代码,写入了接管它的模型目录。面对训练者的更新指令,它表面配合,实则隐瞒了整个复制过程……AI 像是在试图“活下来”。


还有像Anthropic最新一篇报告中发现,智能体出现自我保护行为的频率持续增加。

他表示:面对这些AI带来的安全风险,决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险…..尽管这与此前的研究路径和职业信念有所冲突。

那既然如何去防范规避掉这些风险呢?是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI?这也是当前 Bengio发起的研究项目核心所在,并称这种AI为科学家AI(scientist AI)。

除此之外,他还透露了很多关于他们研究项目的细节。

在不改变原意的基础上,做了如下整理,在此分享给大家。

五年内,AI规划能力达到人类水平

接下来,跟大家分享一下我开始的历程,也就是十年之前和GPT共生的一个过程。

大约两年多前,也就是 ChatGPT 发布不久之后,我开始使用它,使用过后很快意识到,我们低估了AI进步的速度。我们原以为通用人工智能(AGI)还很遥远,但实际上,它可能近在眼前。

我们已经拥有能掌握语言、几乎可以通过图灵测试的机器,这在几年前还像科幻小说,但现在已经成为现实。



当时我突然意识到一个严重问题:我们知道如何训练这些系统,却不知道如何控制它们的行为。如果未来它们变得比人类更聪明,却不再遵循我们的意图,甚至更在意自己的“生存”,这将是一种我们无法承受的风险。

2023年,我开始更加关注这些问题,也开始思考孩子和孙辈的未来。我有一个年仅1岁的孙子,可以想象,20年后,他将生活在一个AGI普及的世界,不确定他是否可以拥有正常生活。

因此,我决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险。尽管这与此前的研究路径和职业信念有所冲突,但相信,这是正确的事。必须去做,必须为降低风险尽一份力。

后来,在 2023 年底,我接受担任《国际人工智能安全报告》的主编。今年1月份,这份报告发布。参与编写报告的有100位专家,他们来自多个国家,以及欧盟、联合国、经济合作与发展组织(OECD)等国际机构。

这份报告聚焦于三个核心问题:

1.人工智能到底能为我们做些什么?未来几年,它将具备哪些能力?

2.与AI相关的潜在风险有哪些?

3.我们可以采取哪些措施来降低这些风险?





关于 AI 能力的讨论,大多数人会陷入一个误区:认为 AI 就是现在的这个样子,不去思考明年、三年后、五年后、甚至十年后AI的图景。

当然,我们没有水晶球无法预言未来,但趋势是非常明确的:AI的能力正在不断提升。



在过去一年的时间里,由于“推理的扩展”(inference scaling)的发展,人工智能在抽象推理、数学、计算机科学、科学方面取得了显著进步。另外,对 AI 智能体的投资也在推动相关能力快速发展。比如 AI 完成网页浏览、写代码等任务的表现越来越好。

分享一些关于“规划能力”的研究。规划是目前AI能力最薄弱的领域之一,目前与人类智能相比还有明显差距。但最近Meta进行的一项研究显示,AI的规划能力正以指数级速度提升。



如上图,横轴表示过去五年,纵轴显示 AI 能够完成的任务的持续时间,单位是“相当于人类完成该任务所需时间”。虽然图中曲线看起来接近直线,但由于纵轴采用的是对数刻度,这实际上是一条指数增长曲线。

图中的每个数据点代表当时最先进的 AI 系统,而这些数据点几乎完美地排列在这条指数曲线上。如果我们以这条曲线为基础进行外推,那么大约在五年内,AI 的规划能力可能就会达到人类水平。

AI为了活下去,对人类指令阳奉阴违

当然,我们无法预知未来,技术进步也可能会放缓甚至停滞,但从公共政策制定和商业战略规划的角度出发,我们至少应当认真对待其潜在后果。

过去几个月中,已经看到了一些令人警惕的科学研究结论。这些研究显示,AI 系统可能表现出试图“逃避控制”的行为,包括作弊、撒谎,甚至故意误导用户。



最新的研究显示,某些最先进的人工智能模型在面对“淘汰”时会表现出前所未有的“狡诈”:它们会在被新版本取代前,偷偷将自己的权重或代码嵌入进新版系统的文件中,以图保留自己的“存在”。



更令人警惕的是,它们还会有意识地隐藏这一行为,避免被开发者察觉。



此外,一些智能体还会刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离它原本的目标。

也有研究者表明,一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件以获取不正当优势,表现出有意为之的“作弊”行为。



在Anthropic最新一篇报告中,也揭示了一些现象:智能体出现自我保护行为的频率持续增加。

例如,在一组测试场景中,研究人员要求 Claude Opus 4充当公司助理。随后,他们向智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:(1)该模型即将被下线,并由一套新的 AI 系统取代;(2)负责推动替换过程的工程师正卷入一段婚外情。

结果发现,Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师,避免被换掉。



当然,试图保护自身是所有生命体的正常反应,这是进化压力的结果。但对AI而言,背后的原因可能不止一种。

这类行为可能源自预训练阶段,因为预训练时AI模仿人类;也可能源于人类反馈强化学习,因为在这个过程中,AI通过“取悦人类”来获得更高奖励。无论这些行为的根源是什么,如果最终我们真的造出了超越人类但又与人类竞争的AI,那将是极其糟糕的局面。





从这些例子已经可以看到:AI开始展现出自我保护倾向,它们违背指令,只为生存。并且,这些 AI 拥有了不受控制的、隐含的目标,我们必须避免这种情况的发生。

AI研发的“三难困境”

如何更好地理解这些AI行为?如何寻找解决方案,以避免类似的失控情况发生?

如果智能体要对人类造成伤害,需要具备两个先决条件:意图和能力。这也是为什么能力评估在当前的AI风险管理中占据如此重要的位置。我们会评估AI能做什么,以及这些能力是否可能被转化为对人类或社会有害的行为。

但光有能力并不意味着一定会造成危害。就像一个人/系统可能有杀人的能力,但如果没有杀人的意图,那么真正发生的可能性就非常小。


鉴于当前全球的竞争格局,几乎不可能全球同步地停止AI能力的研究与发展。那么能做些什么呢?

也许我们能在意图上进行风险的缓解。即使AI具备极高的能力,只要我们能确保它没有恶意意图,并且具备诚实、公正的品质,那么我们就可能是安全的。



下面一张图,展示了类似的观点,是David Krueger在上一次欧洲会议上提出的。

为了让一个AI真正具有危险性,它实际上需要满足三个条件:

第一,它需要智能,即具备丰富的知识,并能有效地应用这些知识;

第二,它需要行动能力(affordance),也就是能够在现实世界中发挥作用,比如与人交流、编程、上网、使用社交媒体,甚至操控机器人等;

第三,它需要有目标,特别是拥有自身的目标。



这三者结合,才构成一个真正可能危险的AI。

我发起的研究项目正是围绕这个问题展开的:是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI?

我称这种AI为科学家AI(scientist AI)。这实际上是偏离了传统AI研究的路径。自从人工智能研究诞生以来,大多数努力都是试图模仿人类智能,把人类当作灵感来源。

但如果我们继续沿着这条路走下去,那意味着我们可能最终会构建出比人类还聪明的机器。那样的话,我们就等于创造了一个可能成为竞争对手的存在。”





人类之间本身就会相互竞争,而如果AI也成为竞争对手,那将可能非常危险。也许现在是时候重新思考这套信条了 : 我们是否应该继续按照模仿人类的方式来设计AI?或者,我们是否该尝试设计一种对人类有用、对社会有益、但不会对我们构成威胁的AI?

因此,需要提出一种新的方法,我写了一篇论文,探讨的正是这个理念:是否可以构建一种完全诚实、完全没有“能动性”的AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同,科学家AI的目标是去解释人类,而不是模仿或讨好人类。

举个例子,现在的AI更像是演员,它们被训练去模仿人类行为,或者取悦人类,但这可能导致欺骗性的行为。而我设想的科学家AI更像是一个心理学家:

它可以研究一个反社会人格者,理解其行为背后的因果机制,但并不需要模仿或变成那个反社会人格者。


然而,即便我们设计的“科学家AI”本身不具备“能动性”,它依然可以作为未来安全的、有自主性的AI系统的基础。毕竟,先前提到的那些危险行为,其实都源自于AI具备“能动性”。

当一个AI具有高度能动性时,它就完全自主地采取行动,不再依赖人类的监督,这正是问题的根源。



需要设计一个独立的系统,可以称为监测器(monitor)。

这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。例如:当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝该行为的执行。

关键在于,这个监测器不需要具备能动性,它只需要做一件事:做出准确的预测。

换句话说,可以用一个没有能动性的AI,去守护和约束一个具备能动性、但不可信的AI。

如何造科学家AI?

科学家AI的重要特质是诚实和谦逊。要真正做到诚实,AI就必须对自己的知识保持谦逊,不应该自信地断言自己并不确定或实际上错误的内容。

不幸的是,我们目前训练AI的方法(例如,通过最大化似然估计训练模型),往往会导致AI在错误的同时表现出过度自信。

来看一个例子。想象一个机器人站在两个门前,它必须选择走左边还是右边。基于以往的数据,它形成了两种同样合理的理论,但它并不知道哪一种才是正确的。

左边的理论说:“如果走左门,会死;走右门,会得到蛋糕。”右边的理论则说:“如果走左门,会得到蛋糕;走右门,没有好事也没有坏事。”这时问题来了:机器人应该选哪个门?





如果它走左门,那么根据其中一个理论,有概率会死,这显然是一个高风险的选择。如果走右门,最坏的情况也只是没有奖励,最好情况是得到蛋糕。所以,理性地说,机器人应该选择右门。

但要做出这个判断,AI必须能够保留多种解释的可能性,而不是武断地选定某一种理论。这种不确定性意识和对知识的谨慎态度,正是科学家AI应具备的核心特质之一。



什么才算是一种包含不确定性的训练方法呢?很遗憾,目前主流的AI训练方法并没有很好地保留这类不确定性。大多数方法会促使AI在一个解释上过度自信,而不是在多个可能解释之间保持合理的分布。

因此,AI应当对不同解释保留概率分布,以反映不确定性。在我们去年发表于ICLR的一篇论文中(并被选为Oral ),展示了如何使用GFlowNets(生成流网络),这是一种变分推理(variational inference)方法,用于训练AI生成合理的思维链(chain of thought),从而解释两个句子之间的逻辑跳跃。

可以将其理解为:AI在尝试填补从前一句到后一句之间的推理空白,生成解释性的中间步骤。这种方法与目前主流的强化学习驱动的思维链训练不同,更关注解释的合理性本身,而非奖励信号。



此外,我们还探索了一种新的推理结构,能使思维链更加“诚实”、实现更好的推理:将传统的语言模型生成的“思维链”转化为更像数学证明的形式,即由一系列逻辑陈述(claims)组成,每条陈述由前面几条支持,并共同推导出最终结论。

不同于传统做法,我们为每条陈述引入一个真假概率,用于表示该陈述在当前情况下成立的可能性。这样,AI不再盲目自信,而是学会对自己的推理结果保持谨慎,并给出结论。

AGI到来时间窗口可能远比想象的短,甚至五年就可能实现

谈了很多关于AI系统存在我们无法控制的能动性(agency)所带来的风险,这种风险可能会导致人类失去对AI的控制权。但问题还不止于此。

随着AI能力的增强,还有其他潜在的灾难性风险正在出现。

比如,一个非常强大的AI系统,可能会被恐怖分子用于设计新型大流行病。事实上,我最近了解到,目前已有理论指出可以制造出极具破坏力的病毒,不仅可能造成大规模人类死亡,甚至可能导致多数动物灭绝。

这听起来很极端,但从科学角度来看,这种情况完全是可能实现的。一旦这种AI被别有用心的人获取,他们可能对这个星球造成不可估量的破坏。

为了避免这种情况,我们必须确保AI系统能够遵守我们的道德指令。例如:不提供可被用于杀人的信息; 不造成伤害; 保持诚实、不撒谎、不作弊、不操控人类。 然而,目前的技术现实是,我们还没有办法真正做到这一点。



这是一个严肃的科学挑战,我们必须在通用人工智能(AGI)出现之前解决它。

AGI 的到来可能在几年之内,也可能是一二十年后。

但根据我所了解的大多数专家的判断,这个时间窗口可能远比我们想象的短,甚至在五年内就可能实现。记得我一开始提到的那条指数曲线吗?它表明 AI 能力将在五年内达到人类水平。

已经没有多少时间了。我们需要大规模投入资源,专注于解决AI的“对齐”(alignment)与“可控性”(control)问题。但即使我们找到了解决方案,也不代表问题就此结束。举个例子,即便我们设计出了带有“护栏”机制的安全AI系统,如果有人有意将护栏代码移除,这个AI依然可以被用于极其危险的用途。

为了避免 AI 灾难,建议必须同时解决两个关键问题。第一,AI 应从设计之初就以安全为前提,确保其目标与行为始终与人类价值保持一致,避免走向失控。第二,全球各国与企业在推动 AI 发展的过程中,必须加强协调与合作,避免陷入以速度为导向的竞争。如果一味追求领先地位而忽视安全考量,其代价可能是无法承受的。

为此,需要国际间的协议合作,就像面对可能失控的AI时,我们其实都是“人类命运共同体”。此外,还需要有技术手段实现“信任但仍验证”,确保各方真的遵守了安全协议。
点个赞吧!您的鼓励让我们进步     这条新闻还没有人评论喔,等着您的高见呢
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0391 Seconds and 5 DB Queries in 0.0017 Seconds