-
日期: 2025-01-20 | 来源: 快科技 | 有0人参与评论 | 字体: 小 中 大
近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。
以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。
实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。- 新闻来源于其它媒体,内容不代表本站立场!
- "互联网女皇"发340页AI趋势报告:OpenAI令人担忧
- OpenAI:中国利用ChatGPT进行网络攻击与舆论操控
- 仅凭一篇博客,他成功入职OpenAI!
- 从温去加东这城的新航班只需$145
- 今夏温市中心每周放免费露天电影
-
- 温哥华会计事务所 收费低 服务好
- 马筱梅降服小菻菻有一套,小菻菻对她的话深信不疑,汪小菲服了!
- 重磅!加美经贸谈判取得实质性进展
- 数年噩梦 BC这些房主房产一钱不值
- 省钱! 加国强力通行证6月20日生效
- 加国财富大转移 这些人的风险激增
-
- 国王查尔斯生日阅兵 凯特惊艳亮相
- 加国人将一半多收入用于住房成本
- 温哥华牙医 采用先进技术最新设备
- 多伦多刚刚雇佣了50只山羊 做此事
- 赶紧加油!预计明天大温油价又要涨
- 62岁李连杰的4个女儿,已经都开始为他争光了!
-
- 中国放行106家美国猪肉禽肉企业的产品
- 让伊朗拖住美国...中媒:中国需助伊朗提升战力
- 台网红"馆长"深夜返台,称赞大陆民众对台湾友善
- 丰田章男:1辆电动车污染=3辆混动车
- 中国出狠招!稀土出口设局 外企怒揭内幕
- 服!大温男子炒楼逃税服刑还想潇洒
-
目前还没有人发表评论, 大家都在期待您的高见