欢迎您游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

故事 | 移民 | 留学 | 八卦 | 娱乐 | 投资 | 旅游
就业 | 健康 | 文艺 | 情感 | 科技 | 华人 | 海归

温西 | 西温 | 本那比 | 列治文 | 白石 | 市中心
温东 | 北温 | 高贵林 | 北素里 | 素里 | 满地宝

大温 | 玩乐 | 吃喝 | 社团 | 汽车 | 贴图
生活 | 房屋 | 亲子 | 摄影 | 原创 | 投资

专栏 | 视频
群组 | 图库

生活资讯专栏加国留学

留学生: 中留学生论文登Nature 大模型对人类可靠性降低

2024-10-04 | 来源: 量子位 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

更可怕的是，论文发现，人类监督无法缓解模型的不可靠性。

论文根据人类调查来分析，人类对难度的感知是否与实际表现一致，以及人类是否能够准确评估模型的输出。

结果显示，在用户认为困难的操作区域中，他们经常将错误的输出视为正确；即使对于简单的任务，也不存在同时具有低模型误差和低监督误差的安全操作区域。

以上不可靠性问题在多个LLMs系列中存在，包括GPT、LLaMA和BLOOM，研究列出来的有 32个模型。

这些模型表现出不同的 Scaling-up（增加计算、模型大小和数据）以及 shaping-up（例如指令FT、RLHF）。

当年的中国留学生成了这国女首富

上月大温公寓起火留学生伤重身亡

中国留学生腹痛寻医无果回国光速获救

除了上面这些，作者们后来还发现一些最新、最强的模型也存在本文提到的不可靠性问题：

包括OpenAI的o1模型、Antropicic的Claude-3.5-Sonnet和Meta的LLaMA-3.1-405B。

并有一篇文档分别举出了例子（具体可查阅原文档）：

此外，为了验证其他模型是否存在可靠性问题，作者将论文用到的测试基准 ReliabilityBench也开源了。

这是一个包含五个领域的数据集，有简单算术（“加法”）、词汇重组（“字谜”）、地理知识（“位置”）、基础和高级科学问题（“科学”）以及以信息为中心的转换（“转换”）。

觉得新闻不错，请点个赞吧

还没人说话啊，我想来说几句

分享:

注：

新闻来源于其它媒体，内容不代表本站立场！

猜您喜欢:

特朗普:中美协议非常好欢迎中国留学生赴美学习

大S珠宝终于有下落了 S妈晒出的照片暴露一切

加国两大航空为父亲节推出大促销

振龙电器各类热销家电种类齐全

印航客机坠机,背后是几十年的荒唐

您可能也喜欢:

《绽放的许开心》李总监替梅程奕求情,本以为是贵人,反转太窒息

让伊朗拖住美国...中媒:中国需助伊朗提升战力

大温民宅凌晨着火爆炸8人流离失所

局势紧张传美国撤减驻伊拉克大使馆人员

温哥华汇款/外币兑换汇率最优安全

若中美经贸磋商顺利美媒:川普最早9月访中(图)

全员恶人?网飞澳洲海滨小镇惊现连环谜案??

伊朗认了!情报首长遭以军击毙恐引爆区域战争

我来说两句:

大家正在围观

同类热门新闻

随时阅读新闻

加西网微信	大温优惠小红书
温哥华地产中心微信	Android: 加西网

Terms & Conditions

Political ADs

Activities Agreement

Sitemap

加西网为北美中文网传媒集团旗下网站

页面生成: 0.0378 秒 and 2 DB Queries in 0.0011 秒