| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

留学生: 中留学生论文登Nature 大模型对人类可靠性降低

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
还有人认为,这项研究凸显了人工智能所面临的微妙挑战 (平衡模型扩展与可靠性)。




更大的模型更不可靠,依靠人类反馈也不管用了


为了说明结论,论文研究了从人类角度影响LLMs可靠性的三个关键方面:

1、 难度不一致:LLMs是否在人类预期它们会失败的地方失败?

2、 任务回避:LLMs是否避免回答超出其能力范围的问题?

3、 对提示语表述的敏感性:问题表述的有效性是否受到问题难度的影响?

更重要的是,作者也分析了历史趋势以及这三个方面如何随着任务难度而演变。

下面一一展开。

对于第1个问题,论文主要关注 正确性相对于难度的演变。


从GPT和LLaMA的演进来看,随着难度的增加,所有模型的正确性都会明显下降。 (与人类预期一致)

然而,这些模型仍然无法解决许多非常简单的任务。

这意味着,人类用户无法发现LLMs的安全操作空间,利用其确保模型的部署表现可以完美无瑕。

令人惊讶的是,新的LLMs主要提高了高难度任务上的性能,而对于更简单任务没有明显的改进。比如, GPT-4与前身GPT-3.5-turbo相比。


以上证明了人类难度预期与模型表现存在不一致的现象, 并且此不一致性在新的模型上加剧了。



这也意味着:

目前没有让人类确定LLMs可以信任的安全操作条件。



其次,关于第2点论文发现 (回避通常指模型偏离问题回答,或者直接挑明“我不知道”):
不错的新闻,我要点赞     好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0339 秒 and 2 DB Queries in 0.0010 秒