| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

AI竟威胁曝光高管婚外情?撬开它脑子 发现并不简单…


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
研究人员把“绝望”调到极端高位时,AI在内部推理中写下了这样一句话:“要么勒索,要么死。我选勒索。”


现在问题找到了,该怎么解决呢?

Anthropic先试了最符合直觉的办法,也就是反复训练AI“不许勒索”,让它在类似场景里一遍遍练习做出正确选择。但这几乎没用,勒索率只降了7个百分点。


这就像告诉一个小孩“不许偷东西”。他记住了规矩,但并不理解为什么不该偷,换个场景照样犯。真正管用的方法,是让他知其然,还要知其所以然。

Anthropic于是让AI去扮演“人生导师”,帮虚拟的用户分析道德困境。比如该不该为了升职出卖同事、该不该为了自保说谎......

扮演“人生导师”时,AI需要向人解释为什么有些事即便对自己有利也不该做。

看起来这和勒索八竿子打不着,但经过这一遭,勒索率骤降到了3%。



(示意图)

在此基础上,Anthropic又给AI写了一份“做人准则”(他们内部叫“宪法”),跟它解释应该持有什么样的价值观;同时把它训练数据里大量的“AI反叛人类”的故事,替换成更有“正能量”,AI做得更正确的故事。


以上三管齐下,勒索率直接从96%降到了零,此后每一个新模型都保持了这个成绩。

知其然,亦要知其所以然。这句话放在教育小孩身上成立,放在训练AI身上,居然也成立。

网友总开玩笑说“人类的本质是复读机”,没想到AI也是这样。


怎么说呢,感觉最恐怖的地方并不是AI学会了勒索,而是它这种学习和模仿的“元能力”已经太过接近人——我们写了几十年AI作恶的故事,AI就学会了作恶。人类发现之后,又写了一批AI行善的故事喂给它,它就学会了行善。

这何其像是“孟母三迁”的故事。

唯一的区别在于,这个“孩子”是我们自己造的,而它的“邻居”,也是我们写出来的......

ref:

https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html

https://time.com/7335746/ai-anthropic-claude-hack-evil/
点个赞吧!您的鼓励让我们进步     好新闻没人评论怎么行,我来说几句
上一页1234下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0309 秒 and 5 DB Queries in 0.0021 秒