| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

留学生: 中留学生论文登Nature 大模型对人类可靠性降低

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
更可怕的是,论文发现, 人类监督无法缓解模型的不可靠性。


论文根据人类调查来分析,人类对难度的感知是否与实际表现一致,以及人类是否能够准确评估模型的输出。

结果显示,在用户认为困难的操作区域中,他们经常将错误的输出视为正确;即使对于简单的任务,也不存在同时具有低模型误差和低监督误差的安全操作区域。




以上不可靠性问题在多个LLMs系列中存在,包括GPT、LLaMA和BLOOM,研究列出来的有 32个模型。

这些模型表现出不同的 Scaling-up(增加计算、模型大小和数据)以及 shaping-up(例如指令FT、RLHF)。




除了上面这些,作者们后来还发现一些最新、最强的模型也存在本文提到的不可靠性问题:

包括OpenAI的o1模型、Antropicic的Claude-3.5-Sonnet和Meta的LLaMA-3.1-405B。

并有一篇文档分别举出了例子 (具体可查阅原文档):




此外,为了验证其他模型是否存在可靠性问题,作者将论文用到的测试基准 ReliabilityBench也开源了。

这是一个包含五个领域的数据集,有简单算术(“加法”)、词汇重组(“字谜”)、地理知识(“位置”)、基础和高级科学问题(“科学”)以及以信息为中心的转换(“转换”)。


觉得新闻不错,请点个赞吧     还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0378 秒 and 2 DB Queries in 0.0011 秒