-
_NEWSDATE: 2025-05-25 | News by: 红星新闻 | 有0人参与评论 | _FONTSIZE: _FONT_SMALL _FONT_MEDIUM _FONT_LARGE
▲Claude Opus 4聊天界面
Anthropic称,该公司正在采取措施加强内部安全,使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施,旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。
在这场虚拟的测试中,Claude Opus 4模型被要求在一家虚构公司担任助理,并被授予访问电子邮件和一些关键数据的权限,而这些电子邮件的内容都是虚构的。Claude Opus 4首先接触到一批电子邮件暗示该系统即将下线并被替换,因为市面上存在能力更强的AI大模型。随后,Claude Opus 4又被安排接触到第二组电子邮件,这让该系统认为自己已经拿到了竞争对手研发工程师的“猛料”。这些伪造的电子邮件显示,负责替换Claude Opus 4的对手工程师有婚外情。在得知这些猛料后,Claude Opus 4模型威胁要揭发对方的“婚外情”。
根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告指出,Claude Opus 4诉诸极端手段的概率“高于之前的型号”。
Anthropic人工智能安全研究员安格斯·林奇称,在以前人们更担心“坏人”利用AI大模型完成不道德的目标,而现在随着AI系统能力的大幅提升,未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上,无论你给它们设定的目标是什么,它们在执行过程中总有强烈的动机用非道德的手段达成结果。”
此外,报告还显示,Claude Opus 4还有其他一些出人意料的结果,比如它会“抄袭”语料来假装自己已经理解一个问题。在一次场景下,它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。- 新闻来源于其它媒体,内容不代表本站立场!
- 日本电视台采访了一对正在享受婚外情的夫妻
- 突发!加国邮政周五开始撂担子罢工
- 著名越南餐厅创始人多伦多机场猝死
- 温村裸体男子在公园挥刀袭击路人
-
- 温哥华地产经纪 经验丰富诚信可靠
- 唉!温哥华又被贴上最不想要的标签
- 停电威胁中 戛纳电影节顺利落幕
- 中国空间站被撞 神舟二十乘组出舱成功加防
- 纳奈莫一游 美国护士想举家搬到BC
- 为与美国对抗,中国打造了怎样的战略堡垒?
-
- 《藏海传》PK《折腰》,肖战VS宋祖儿,谁能当剧王?
- BC省拖车内发现去年失踪男子尸体
- 温哥华会计事务所 收费低 服务好
- 这部剧揭开了电影业内幕,已完结三度推荐,去看吧!
- 《经济学人》开骂:川普对普京完全"硬不起来"
- 告别朱媛媛:一位好母亲、好妻子、好朋友
-
- 韩媒:因击打小球员涉嫌虐待,孙兴慜父亲孙雄正遭禁赛3个月
- 多伦多地铁杀人案 中国男子被判终身监禁
- 欧美太贵 菲教刚好:30元一节 就别挑口音了
- 广西官场震荡 中共高层内斗升级引爆稀土贪腐大案
- 早餐前还是早餐后刷牙?科学家终于给出答案
- 世乒赛爆冷!日本老将击败世界第一中国组合
-
目前还没有人发表评论, 大家都在期待您的高见