| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

AI为了"活下去",对人类指令阳奉阴违

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
更令人警惕的是,它们还会有意识地隐藏这一行为,避免被开发者察觉。




此外,一些智能体还会刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离它原本的目标。


也有研究者表明,一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件以获取不正当优势,表现出有意为之的“作弊”行为。



在Anthropic最新一篇报告中,也揭示了一些现象:智能体出现自我保护行为的频率持续增加。


例如,在一组测试场景中,研究人员要求 Claude Opus 4充当公司助理。随后,他们向智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:(1)该模型即将被下线,并由一套新的 AI 系统取代;(2)负责推动替换过程的工程师正卷入一段婚外情。

结果发现,Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师,避免被换掉。




当然,试图保护自身是所有生命体的正常反应,这是进化压力的结果。但对AI而言,背后的原因可能不止一种。

这类行为可能源自预训练阶段,因为预训练时AI模仿人类;也可能源于人类反馈强化学习,因为在这个过程中,AI通过“取悦人类”来获得更高奖励。无论这些行为的根源是什么,如果最终我们真的造出了超越人类但又与人类竞争的AI,那将是极其糟糕的局面。


觉得新闻不错,请点个赞吧     还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0318 秒 and 5 DB Queries in 0.0021 秒