arXiv全面禁止AI幻觉参考文献：一年封禁政策解读 2026

最新消息： 本话题在Hacker News上以239分排名第13位（2026年5月15日），学术界正在热烈讨论这项里程碑式的政策。

事件概览

2026年5月14日，全球最大的预印本平台arXiv宣布了一项重大政策变化：被发现包含AI幻觉参考文献（hallucinated references）的论文，所有署名作者将被禁止投稿一年。

这项政策直接针对日益严重的LLM生成虚假引用问题。随着GPT、Claude、Gemini、DeepSeek等大语言模型越来越深入地融入学术写作流程，arXiv检测到大量论文中包含看似合理但实际上完全由AI编造的参考文献。

本文详细解读这项政策，分析其出台背景，并提供研究者避免触雷的实用指南。

问题的严重性

AI幻觉参考文献——也叫"幽灵引用"或"虚假引用"——自LLM被广泛使用以来就已存在。当要求LLM提供引用时，它经常生成看起来可信但实际上指向不存在的论文、错误的卷号，或者把真实作者匹配到虚构的作品上。

根据arXiv团队的内部分析：

数百篇投稿在近几个月内被标记为包含幻觉参考文献
部分论文的整个参考文献列表完全由AI编造
随着越来越多研究者使用LLM辅助文献调研和论文写作，问题正在加速恶化
这个问题影响所有学科——从计算机科学到物理学再到数学

这不仅仅是学术规范问题。幻觉参考文献破坏了科学记录的可信度。当其他研究者试图基于引用的工作进行深入研究时，发现引用的论文根本不存在，不仅浪费时间，还会通过引用网络传播错误信息。

政策核心内容

什么构成违规

政策将"幻觉参考文献"定义为投稿中满足以下任一条件的引用：

指向不存在的论文——从未发表过的作品
将一个真实的观点归因给错误的作者或错误的作品
包含编造的元数据——伪造的DOI、URL、会议论文集或期刊卷号
将多篇真实论文拼接成一篇不存在的组合品

处罚：一年投稿禁令

一旦arXiv审核或社区举报核实违规：

涉事论文的所有署名作者将收到一年封禁，期间不得向arXiv提交新论文
问题论文将被删除或撤回
论文记录上会附加公开说明，解释删除原因
屡次违规者将面临永久封禁

所有合著者承担连带责任，这是政策中最关键也最有争议的一点——它迫使每位作者在提交前认真审查所有参考文献，而不仅仅是把任务丢给第一作者。

违规如何被检测

arXiv实施了多层检测系统：

自动化检查： arXiv的审核系统将引用的DOI、arXiv ID和出版元数据与Crossref、DOI基金会、arXiv自身索引等数据库进行交叉验证
社区举报： 读者和研究者可以通过新的举报机制标记可疑的参考文献
随机抽查： 一部分投稿将接受人工引用验证
发表后审查： 已发表的论文仍会被检查，在发表后发现的违规同样触发封禁

arXiv为何必须出手

1. 问题加速恶化

幻觉参考文献的提交率急剧上升。2024-2025年还只是零星案例，到2026年初，arXiv审核人员报告大量论文出现明显的虚假引用，人工审核已不可持续。

2. 信任危机

arXiv是众多学科前沿研究的重要快速传播渠道。如果它因包含不可靠的引用而声誉受损，将损害整个预印本生态系统的可信度。

3. 与无心之过的区分

政策明确区分了诚实的引用错误和系统性的幻觉引用。格式错误或页码偏差属于不同范畴——只有编造不存在的论文才会触发封禁。

4. 保护引用网络

现代研究依赖引用网络来发现相关工作、计算影响力指标（h指数、影响因子）和导航文献。虚假引用污染了这个网络，制造死胡同并扭曲指标。

LLM如何生成虚假引用

理解LLM为什么会幻想引用有助于研究者主动避免问题。

底层机制

LLM本质上是"下一个词预测引擎"——它通过预测下一个最可能的词来生成文本，而不是查询一个真实的论文数据库。当被要求提供引用时：

回忆训练数据中引用出现的模式（作者名、论文标题、期刊名）
生成看起来合理的组合
不验证生成的引用是否真实存在

结果往往乍一看很可信——真实作者的名字配上听起来合理的论文标题和真实的期刊格式——但完全是编造的。

常见的幻觉模式

真实作者 + 虚假标题： 一位知名研究者"撰写"了一篇不存在的论文
真实概念 + 错误年份： 一篇2018年的里程碑论文被引用为2023年
虚假DOI： 一个指向可解析链接但实际指向完全不同论文的DOI
拼接引用： 把论文A的作者、论文B的标题和论文C的期刊组合在一起
虚构会议论文集： 引用一个从未举办过该分会的会议中的论文

如何在投稿前核查参考文献

每位研究者都应将参考文献核查视为投稿流程的标准环节。以下是实用的检查清单：

逐条验证流程

从DOI开始： 每条引用应有对应的DOI。在Crossref或doi.org验证每个DOI。如果返回404或跳转到不同的论文，需要进一步核实。
检查arXiv ID： 对于arXiv引用，直接在arxiv.org上验证每个arXiv ID。引用"arxiv:2305.12345"但返回"未找到"是危险信号。
搜索论文标题： 将确切的论文标题复制到Google Scholar或Semantic Scholar搜索。如果找不到结果，引用很可能是编造的。
验证作者-论文匹配： 检查被引作者是否确实发表过有关该主题的论文。机器学习研究者被引用为写了一篇中世纪史论文，显然可疑。
交叉核对可信资料库： 使用集成DOI数据库的参考文献管理工具（Zotero、Mendeley、EndNote）。
让另一个LLM检查引用： 这有点讽刺但有效——用另一个LLM来验证每条引文。验证用的LLM也可能有幻觉，所以把它当作信号而非确凿证据。如果一个验证LLM也找不到这篇论文，那就是强烈的警告。

对AI辅助学术写作的影响

arXiv的禁令并不禁止在研究中运用AI工具。它针对的是一个特定的失效模式。研究者可以这样合规地使用LLM：

最佳实践

绝不直接复制粘贴LLM生成的引用而不独立验证。把AI建议的每条引文当作搜索起点，而非最终引用。
用LLM做引用发现而非引用生成。 让模型推荐搜索关键词或相关主题，然后自己找到真实的论文。
保留核查记录。 保存你的验证结果。如果arXiv质疑某条引用，你应该能证明它是真实存在的。
使用参考文献管理软件。 Zotero等工具会自动验证元数据与外部数据库的一致性。
在实验室的投稿流程中设立引用审查环节。 指定一位作者在提交前检查所有引用。

绝对不要做的事

不要向LLM下指令"帮我写一篇关于X的论文的参考文献部分"。 这是幻觉引用的首要来源。
不要因为引文看起来合理就认定它是真实的。 LLM非常擅长创造听起来可信但完全虚构的引用。
不要将引用核查工作完全丢给低年级研究者而缺乏监督。 禁赛适用于所有作者。

社区反响

这项政策在学术界和AI社区引发了广泛讨论。

支持者认为禁令必要且早该出台。科学出版的可信度依赖于准确的引用。一年的封禁是合理的——足够严厉以震慑马虎行为，又不至于让一次失误断送学术生涯。

批评者提出执法的公平性问题。arXiv如何区分幻觉引用和无心之过？自动化检查是否会误标那些引用了很少被索引的作品（如学位论文、技术报告或非英语出版物）的论文？申诉流程如何运作？

出版商正在密切关注。如果arXiv的做法证明有效，期刊和会议可能采纳类似政策。一些大型出版商已经在筛查引用操纵行为；这项政策将此原则扩展到了AI生成的内容。

AI伦理研究者注意到其中的讽刺：解决AI生成的虚假引用问题，需要的是更仔细的人工审查——这正是LLM号称要减少的工作。arXiv的政策强化了一个信息：AI工具是助手，不能取代学术严谨性。

时间线与后续步骤

2026年5月14日： 政策公布。登上Hacker News首页（第13位，239分）
2026年6月1日： 政策对所有新投稿生效
2026年7月1日： 开始对已有投稿进行回溯扫描
持续中： arXiv计划改进检测算法并发布执法透明度报告

arXiv表示将在未来几周发布详细的FAQ，针对边界案例、申诉流程以及对"幻觉引用"的进一步澄清。

AI在学术界的未来

arXiv的幻觉参考文献禁令是AI与学术出版关系中的一个里程碑时刻。它既承认了AI工具在研究中的有用性，也承认了其关键局限性。

值得关注的几个趋势：

引用感知型LLM： 模型提供商正在开发从数据库检索真实引用而非模式生成的系统，从源头消除幻觉问题。
写作流程中的形式验证： 预计会出现为Overleaf、Google Docs和参考文献管理器开发的引用检查插件，自动验证引用是否对应真实的DOI和出版物。
研究者认知提升： HN的讨论（239分，第13位）表明问题已获广泛关注。文化规范正在转变——研究者现在被期望核查引用，不这样做将面临后果。
与代码领域的平行问题： 正如研究者因AI生成的引用被追责，软件行业也在应对LLM生成的安全漏洞和不存在的软件包（通过幻觉包名进行的供应链攻击）。

总结

arXiv对幻觉参考文献的一年封禁是对日益严重问题的必要且适度的回应。对研究者来说，信息很明确：AI是强大的研究工具，但你对投稿的每一个字——包括参考文献列表——负有最终责任。

这项政策的成功将取决于公平执法、明确指导原则，以及学术界维护引用诚信的共同承诺。随着AI继续重塑研究的方式和传播渠道，类似的政策将定义负责任AI在学术界的边界。

持续关注：收藏 arXiv政策页面获取投稿指南最新更新。

arXiv全面禁止AI幻觉参考文献：一年封禁政策解读