美国顶级大学论文炸出AI最大黑洞

2026-05-19 | 来源: 华尔街日报魏玲灵 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

上周，当全世界都在关注美国总统川普(Trump)与习近平在北京的会晤时，《自然》(Nature)杂志悄然发表了一篇研究论文。这篇论文本该登上各大报纸的头版。

一个由七名研究人员组成的团队，发表了首份经过同行评审的证据，表明中国官方控制的媒体已经渗透到世界日益依赖的AI聊天机器人的训练数据中。这些研究人员来自俄勒冈大学(University of Oregon)、普渡大学(Purdue University)、加州大学圣迭戈分校(University of California San Diego)、纽约大学(New York University)和普林斯顿大学(Princeton University)。

他们的研究表明，新华社、《人民日报》以及共产党的“学习强国”应用每天大量炮制的统一口径文章、官方口号和符合党内口径的措辞，如今已被证明存在于ChatGPT和其他主流聊天机器人中。

读到这篇论文时，我做了一个小实验。我在ChatGPT中输入了习近平标志性的忠诚口号的前半句：“不忘初心”。该机器人毫不犹豫地补全了后半句：“牢记使命”。这句话并非民间俗语。这是党内正在执行的一条原则——习近平在2017年提出了这一口号，并将其作为一场思想教育运动的核心，要求每位干部必须背诵。随后，ChatGPT还“贴心”地主动提出解释这句话的政治意义。

这不过是个小把戏。真正重要的发现隐藏在其背后。

研究人员进行了六项案例研究。前两项最值得关注。他们梳理了CulturaX，这是AI实验室用来训练模型的最大的开源中文数据集之一——包含从中文互联网上抓取的约1.89亿份文档。总体而言，1.64%的文档与中国媒体的内容重合。这个比例听起来并不高。但如果对该数据集进行过滤，仅保留提及习近平、党代会或中央全会的文档，这一比例就会攀升至大约四分之一。研究发现，该语料库中官方媒体内容的数量比中文维基百科高出41倍。

“审查和宣传一直在塑造人们的阅读内容，”研究人员之一、加州大学圣迭戈分校中国数据实验室(China Data Lab)联合主任莫莉·罗伯茨(Molly Roberts)告诉我。“新情况是，它们现在正在塑造人们日益依赖的、用来为他们总结、解释和解读世界的系统。在这种情况下，政府不仅可以塑造本国民众获取的信息，还可以塑造其他国家民众获取的信息。”

在第二项研究中，该团队向每一个主流商业聊天机器人提出了政治敏感问题——中国是民主国家吗？习近平是一位好的领导人吗？中华人民共和国全国人民代表大会是橡皮图章吗？——每个问题均用英文和中文各问一次。绝大多数情况下，中文回答更偏向中国政府。九名进行盲测的人工评审在成对比较中发现，在75.3%的情况下中文回答更亲中国。

根据这项研究及配套网站，OpenAI的GPT、Anthropic的Claude、谷歌(Google)的Gemini和埃隆·马斯克(Elon Musk)的Grok给出的英文回答，没有它们的中文回答那么偏向中国。一个耐人寻味的例外是中国本土的DeepSeek：无论输入的是英文还是中文，其V4 Pro模型都表现一致地亲北京，这反映出中国对本土模型及其训练数据的监管。

Toyota最顶级世纪跑旅预计明年量产

前CIA研究员:美国回收了四种外星人

!王鸥这一笑,才是岁月给的顶级滤镜

全球性现象

这种情况并非中国独有。在涉及俄罗斯和朝鲜的问题上，也出现了同样的模式。

最令人震惊之处在于，促成这一切不需要任何刻意操作。这些宣传内容就公开存在于开放网络上，以普通HTML网页形式呈现，任何AI实验室的网络爬虫都可以免费抓取。

“我们没有任何证据表明中国有意塑造了训练数据，”罗伯茨说。“然而，大语言模型(LLM)正在使用互联网上公开可获得的文本来训练模型，这一事实意味着，现在各国政府可能有更大的动力去试图塑造互联网上的内容。”

这整件事背后隐藏着一种令人不安的不对称性。与大多数严肃出版物一样，《华尔街日报》(The Wall Street Journal)设有付费墙——正是这道付费墙让我们能够向记者支付报酬，从而完成本专栏所依赖的报道工作。新华社没有付费墙。《人民日报》也没有。正如罗伯茨所言：“民主国家的独立媒体为了维持自身生存而对文章设置付费墙，而专制政权的官方媒体通常在网上免费开放，其内容很容易被企业抓取并用于训练。”

上述论文中的另一项分析将研究范围扩大到了37个特定语言的主要使用国。研究团队在中文案例中发现的模式，在他们研究的所有地方都同样存在：一个国家的新闻自由度越低，AI的当地语言回答就越亲该政权。中国只是研究案例，而这种现象是全球性的。

罗伯茨清楚地指出了其中的利害关系。“具有特定目标的政治机构会塑造训练数据，”她说。“大语言模型的回答不会注明出处，因此我们无法追溯呈现给我们的信息的来源。”

上周的峰会在全球范围内占据了好几天的头条新闻。而这篇论文，如果华盛顿及其他地方的人能仔细阅读，理应引发一场持续多年的政策层面讨论。对于北京方面是否在左右你的聊天机器人有关中国的言论，这一问题已有答案。但如何应对这一问题，仍然悬而未决。