| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

美国顶级大学论文炸出AI最大黑洞


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
上周,当全世界都在关注美国总统川普(Trump)与习近平北京的会晤时,《自然》(Nature)杂志悄然发表了一篇研究论文。这篇论文本该登上各大报纸的头版。


一个由七名研究人员组成的团队,发表了首份经过同行评审的证据,表明中国官方控制的媒体已经渗透到世界日益依赖的AI聊天机器人的训练数据中。这些研究人员来自俄勒冈大学(University of Oregon)、普渡大学(Purdue University)、加州大学圣迭戈分校(University of California San Diego)、纽约大学(New York University)和普林斯顿大学(Princeton University)。

他们的研究表明,新华社、《人民日报》以及共产党的“学习强国”应用每天大量炮制的统一口径文章、官方口号和符合党内口径的措辞,如今已被证明存在于ChatGPT和其他主流聊天机器人中。


读到这篇论文时,我做了一个小实验。我在ChatGPT中输入了习近平标志性的忠诚口号的前半句:“不忘初心”。该机器人毫不犹豫地补全了后半句:“牢记使命”。这句话并非民间俗语。这是党内正在执行的一条原则——习近平在2017年提出了这一口号,并将其作为一场思想教育运动的核心,要求每位干部必须背诵。随后,ChatGPT还“贴心”地主动提出解释这句话的政治意义。

这不过是个小把戏。真正重要的发现隐藏在其背后。

研究人员进行了六项案例研究。前两项最值得关注。他们梳理了CulturaX,这是AI实验室用来训练模型的最大的开源中文数据集之一——包含从中文互联网上抓取的约1.89亿份文档。总体而言,1.64%的文档与中国媒体的内容重合。这个比例听起来并不高。但如果对该数据集进行过滤,仅保留提及习近平、党代会或中央全会的文档,这一比例就会攀升至大约四分之一。研究发现,该语料库中官方媒体内容的数量比中文维基百科高出41倍。

“审查和宣传一直在塑造人们的阅读内容,”研究人员之一、加州大学圣迭戈分校中国数据实验室(China Data Lab)联合主任莫莉·罗伯茨(Molly Roberts)告诉我。“新情况是,它们现在正在塑造人们日益依赖的、用来为他们总结、解释和解读世界的系统。在这种情况下,政府不仅可以塑造本国民众获取的信息,还可以塑造其他国家民众获取的信息。”

在第二项研究中,该团队向每一个主流商业聊天机器人提出了政治敏感问题——中国是民主国家吗?习近平是一位好的领导人吗?中华人民共和国全国人民代表大会是橡皮图章吗?——每个问题均用英文和中文各问一次。绝大多数情况下,中文回答更偏向中国政府。九名进行盲测的人工评审在成对比较中发现,在75.3%的情况下中文回答更亲中国

根据这项研究及配套网站,OpenAI的GPT、Anthropic的Claude、谷歌(Google)的Gemini和埃隆·马斯克(Elon Musk)的Grok给出的英文回答,没有它们的中文回答那么偏向中国。一个耐人寻味的例外是中国本土的DeepSeek:无论输入的是英文还是中文,其V4 Pro模型都表现一致地亲北京,这反映出中国对本土模型及其训练数据的监管。


全球性现象

这种情况并非中国独有。在涉及俄罗斯和朝鲜的问题上,也出现了同样的模式。

最令人震惊之处在于,促成这一切不需要任何刻意操作。这些宣传内容就公开存在于开放网络上,以普通HTML网页形式呈现,任何AI实验室的网络爬虫都可以免费抓取。


“我们没有任何证据表明中国有意塑造了训练数据,”罗伯茨说。“然而,大语言模型(LLM)正在使用互联网上公开可获得的文本来训练模型,这一事实意味着,现在各国政府可能有更大的动力去试图塑造互联网上的内容。”

这整件事背后隐藏着一种令人不安的不对称性。与大多数严肃出版物一样,《华尔街日报》(The Wall Street Journal)设有付费墙——正是这道付费墙让我们能够向记者支付报酬,从而完成本专栏所依赖的报道工作。新华社没有付费墙。《人民日报》也没有。正如罗伯茨所言:“民主国家的独立媒体为了维持自身生存而对文章设置付费墙,而专制政权的官方媒体通常在网上免费开放,其内容很容易被企业抓取并用于训练。”

上述论文中的另一项分析将研究范围扩大到了37个特定语言的主要使用国。研究团队在中文案例中发现的模式,在他们研究的所有地方都同样存在:一个国家的新闻自由度越低,AI的当地语言回答就越亲该政权。中国只是研究案例,而这种现象是全球性的。

罗伯茨清楚地指出了其中的利害关系。“具有特定目标的政治机构会塑造训练数据,”她说。“大语言模型的回答不会注明出处,因此我们无法追溯呈现给我们的信息的来源。”

上周的峰会在全球范围内占据了好几天的头条新闻。而这篇论文,如果华盛顿及其他地方的人能仔细阅读,理应引发一场持续多年的政策层面讨论。对于北京方面是否在左右你的聊天机器人有关中国的言论,这一问题已有答案。但如何应对这一问题,仍然悬而未决。
您的点赞是对我们的鼓励     好新闻没人评论怎么行,我来说几句
上一页12下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0480 秒 and 7 DB Queries in 0.0165 秒