中国论文工厂,已经用AI批量生产垃圾论文了?

2025-07-08 | 来源: 知识分子 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

Scientific Reports的副主编、英国萨里大学数据科学家马特·斯皮克（Matt Spick）注意到，一批垃圾论文正以每天一篇甚至两篇的速度，在迅速涌入他工作的期刊。

它们选题各异，套路却惊人地一致。有的研究血清维生素D与抑郁症的关系，有的分析碘摄入与糖尿病，有的考察炎症指数与睡眠质量，总之就是考察一个变量对一种疾病的影响。只需一份标准化的数据集、一段回归模型脚本，再得出一个统计显着的结果，这类论文就能迅速成文。换个变量，又是新的一篇。

这种没有信息含量的垃圾论文数量在迅速膨胀。2024年，仅1月至10月，全球就发表了190篇这类基于美国 NHANES 健康数据库的“单因子关联研究”，几乎是2014至2021年间年均发表数量的五十倍。

01

国产垃圾论文攻陷国外期刊

更引人注意的是，垃圾论文数量的激增几乎完全集中在中国。2021至2024年间，全球共发表了316篇此类论文，其中有292篇的第一作者来自中国单位，占比超过92%。而在2014至2020年的25篇中，这一数字仅为2篇[1]。

这组数据来自于斯皮克和他合作者今年发布的一项研究。为了系统性地研究这一现象，斯派克和他的合作者在PubMed和Scopus等学术数据库中，使用精确的关键词组合进行检索，筛选出过去十年间所有使用NHANES数据、且研究设计为单因素关联的论文。经过筛选，他们最终确定了341篇符合条件的论文作为分析对象。

这些论文大多采用相同的方法框架：使用 logistic 回归模型，研究一个健康变量与一种疾病或生理状态之间的统计关联，最多控制三五个协变量，结论集中在“显着相关”这一层面。研究的问题不同，结构几乎不变。

在对这三百多篇论文进行分析后，研究团队发现，它们普遍遵循一套高度重复的写作脚本。研究者从数据库中选取一个预测变量，比如某种维生素水平，再选择一个健康结果，比如抑郁症，通过标准化的统计流程将两者建立关联，最终得出一个简单的结论，A 与 B 相关。在最极端的情况下，研究者甚至只需颠倒自变量和因变量的位置，就能生成另一篇论文，无需任何生理学依据或理论假设，便可无限扩展变量与结局的组合方式。

中国一旅游团在意大利被"洗劫一空",该如何理赔?

美国农业部禁止中国公民在美购置农田....

一名误入歧途的DOGE员工发现政府已经很有效了

为了进一步说明这类研究存在的问题，研究团队使用了网络分析方法，把所有论文中提到的预测变量和疾病之间的配对关系画成图表。结果显示，像抑郁症这样的复杂疾病，被几十个毫无关联的变量分别单独研究过一次。图中呈现出一种“一个变量对应一个疾病”的稀疏结构，揭示出这类研究往往忽视疾病背后的多重因素，只是简单地找出某种单一因素与某个结果之间的联系。

团队以抑郁症为例，检验这些论文是否可靠。他们统计了所有声称与抑郁症显着相关的研究，一共28篇，并使用一种叫“错误发现率”（FDR）的统计方法，对这些结果重新进行了校正。FDR 用来处理多个变量同时检验时容易出现的假阳性问题。结果发现，这28项中有15项在校正后不再显着，说明很多看起来有效的结果，其实可能只是偶然波动造成的。

研究人员进一步发现，不少论文在数据使用上存在操纵的嫌疑。NHANES 是一项跨年滚动调查，覆盖数十年的连续数据，供研究者完整调用。但在大部分论文中，作者却在没有提供任何解释的情况下，仅选取了其中一小段年份区间进行分析。这种精心挑选数据的做法，很难不令人怀疑其动机是为了筛选出p值最低、结果最漂亮的组合来发表。

将所有线索串联起来，一条AI论文流水线已经显示地非常清晰了。一个对AI开放的数据库作为原料，辅以自动化的分析脚本，再套用高度公式化的研究设计，最终得以在短期内以指数级速度产出大量雷同的论文。这套流程完美地契合了AI辅助的工作模式，正如报告作者所言，这种生产力的提升，对“旨在通过提供低质量或伪造稿件来牟利的论文工厂尤其具有吸引力” 。

02

论文工厂用上AI了

这一切的起点，是庞大的公共健康数据库NHANES。这是由美国官方主导的一项长期项目，旨在评估美国成人和儿童的健康与营养状况。该调查每两年进行一次，招募约1万名参与者，通过结合访谈、体格检查和实验室检测，收集了涵盖疾病、风险因素、营养指标等超过700个变量的综合数据。

造成这一局面的部分原因，在于NHANES 本身高度结构化的数据形式。它的数据可以通过API直接导入Python或R语言环境，一系列标准库（如 nhanesA、pynhanes、NHANES pyTOOL 等）支持自动搜索、清洗、建模与输出。过去需要团队手动完成的数据整理和图表绘制，如今可在更短时间内借助脚本工具实现。