新闻网站封杀 Wayback Machine：互联网档案馆封禁争议完全指南

发布于: 2026-05-13 • 分类: 数字保存 / 互联网文化 / 法律争议

概览：互联网正在失忆

2026年初，一场愈演愈烈的争议在互联网世界引爆。《纽约时报》《大西洋月刊》和《USA Today》等主流新闻机构，开始主动阻止 Wayback Machine（时光机）存档它们的内容。这家自1996年以来已保存超过 8600 亿个网页的互联网档案馆，突然被关在了最重要新闻来源的大门外。事件迅速登上 Hacker News 首页，获得 40+ 分并持续攀升，点燃了一场关于数字保存未来的激烈辩论。

核心问题：当新闻机构阻止存档后，那些被修改、更正或删除的文章将永远无法回溯。这直接威胁到在线新闻的真实性和历史记录的可追溯性。

哪些新闻网站正在封杀 Wayback Machine？

封杀主要通过 robots.txt 限制和服务器端访问控制实现，专门针对互联网档案馆的爬虫（ia_archiver）。确认或报告正在封杀的媒体包括：

纽约时报（The New York Times） — 网络上被存档最多的新闻网站之一，NYT 的限制阻止 Wayback Machine 抓取其付费墙后的页面以及核心新闻板块。
大西洋月刊（The Atlantic） — 这家老牌杂志实施了封杀，无论是当前文章还是历史存档都无法被抓取。
USA Today — 这家全国性大报也加入了封杀行列，限制 ia_archiver 爬虫的访问。
据报道还有几家区域性媒体和数字原生媒体也在跟进。

新闻机构封杀的理由是什么？

新闻机构的动机主要来自几个方面：

版权和付费墙保护

新闻机构认为 Wayback Machine 的存档破坏了它们的付费墙体系。如果读者能通过 Wayback Machine 免费访问原本需要订阅的文章，付费墙就形同虚设。《纽约时报》每年数字订阅收入高达数十亿美元，对保护付费墙基础设施格外积极。

数据抓取和第三方使用

一些媒体担心自己的内容通过 Wayback Machine 被第三方大量抓取，用于未经授权的用途——包括 AI 训练数据集、竞争情报分析和商业转载。互联网档案馆意外卷入了更广泛的数据抓取争议的漩涡中。

对内容的控制权

新闻机构希望能够发布更正、更新报道或撤回内容，而不希望一个"错误版本"的永久快照存在于互联网档案馆中。这制造了新闻行业"持续更新"惯例与档案保存"保留历史记录"使命之间的尖锐矛盾。

对互联网历史和链接腐烂的影响

封杀对网络历史记录的影响极其深远。链接腐烂（link rot）——网页链接因目标页面被移动、删除或修改而失效——已经是一个非常严重的问题。研究表明美国最高法院裁决中约 50% 的链接、学术论文中约 20% 的链接已经无法指向原始内容。

Wayback Machine 是对抗链接腐烂最有力的工具。当主流新闻机构封杀它时，引用这些媒体的每一个链接都变得脆弱。今天引用一篇 NYT 文章的记者，无法保证五年后还能访问到那篇文章——即使 NYT 自己还保留着它，因为 NYT 可以随时编辑它、把它放到付费墙后面、或者彻底删除它。

数字说话：互联网档案馆的 Wayback Machine 存储了超过 8600 亿个网页，每秒处理约 1500 次存档请求。封杀哪怕几个主要域名，都会在历史记录中制造数百万个空白。

对 SEO 和研究的冲击

对研究人员、记者和 SEO 专业人士来说，Wayback Machine 一直是一个不可或缺的工具。封杀意味着什么：

引用完整性

学术论文、调查报道和法律文书中引用被封杀新闻来源的，将无法再使用 Wayback Machine 链接作为稳定引用。这动摇了整个互联网引证体系的基础。

SEO 研究

SEO 专家经常使用 Wayback Machine 研究内容历史变化、外链配置和网站结构演变。封杀移除了研究大型新闻网站 SEO 策略演化的关键工具。

内容真实性验证

事实核查人员和记者依赖 Wayback Machine 来验证某个页面在特定时间点到底说了什么。当新闻机构禁止存档时，它们对撤回内容或"静默修改"的行为就更难被追责。

savethearchive.com 运动

面对封杀，互联网档案馆及其支持者发起了 savethearchive.com 运动。该倡议鼓励读者联系这些新闻机构，表达对封杀历史记录的担忧。运动的核心论点包括：

存档属于合理使用，对公共利益至关重要
新闻机构自己在报道中也受益于历史存档
封杀存档并不能真正保护付费墙——有决心的用户总有办法绕过
有更好的方式保护收入（如更完善的付费墙技术），不会抹去公共记录

互联网档案馆的回应

互联网档案馆历来尊重网站的 robots.txt 指令，即使这些指令是事后追加的。这意味着当《纽约时报》增加一条屏蔽 ia_archiver 的 robots.txt 规则时，Wayback Machine 会停止抓取这些页面，并将已有的存档版本从公开访问中移除。

互联网档案馆创始人 Brewster Kahle 公开表达了对这一趋势的担忧。虽然档案馆出于政策尊重网站拥有者的意愿，但 Kahle 认为——在内容原本可以公开访问之后，再事后追加 robots.txt 规则来阻止访问——这从根本上背离了档案馆存在的意义。这场争议与欧洲的"被遗忘权"争议如出一辙，只是这次不再是个人请求删除某条信息，而是企业试图抹去自己的历史。

被遗忘权 vs 数字保存

这两条原则之间的张力是这个争议的核心。一边是内容创作者（包括新闻机构）控制自己知识产权、更正或删除过时内容的权利。另一边是公众保存完整历史记录的利益——即使那份记录令人不舒服或不完美。

这不是一个新问题。欧盟确立的"被遗忘权"允许个人要求从搜索结果中删除个人信息。但当新闻机构将整个域名都挡在 Wayback Machine 门外时，问题被放大了很多倍：一家公司有权抹去自己的历史吗？那些在封杀之前就已经被发表、被引用、被研究者使用的内容又怎么办？

更大的危机：数字保存挑战

Wayback Machine 封杀只是更大数字保存危机的一个症状。主要挑战包括：

链接腐烂：随着网站改版、域名过期、内容被删除，链接每天都在死亡
内容漂移：即使链接仍然有效，内容可能已经被静默修改
平台衰落：社交媒体平台在转型、关闭或删除旧帖时丢失内容
格式过时：交互式内容、Flash 存档和早期网页技术随着格式死亡而无法访问
付费墙和围墙花园：越来越多的内容被放到认证系统后面，爬虫无法触及

互联网正在变得越来越短暂，这远远超出了早期架构师的预期。当 Tim Berners-Lee 设计万维网时，他设想的是一个永久性的互联信息空间。然而我们最终建造的系统里，一条数据库命令或者一行 robots.txt 代码就可以让信息永远消失。

你能做什么？

如果你关心互联网历史的保存，以下是一些实际可行的步骤：

访问 savethearchive.com 参与运动，联系封杀存档的新闻机构表达你的态度
自己动手存档 — 使用 Wayback Machine 的"立即保存页面"功能，或安装浏览器扩展自动存档你访问的页面
支持互联网档案馆 — 向运营 Wayback Machine 的非营利组织捐款
使用替代存档工具 — 比如 archive.today (archive.is)、Perma.cc，以及用 wget 或 SingleFile 做本地存档
负责任地引用 — 引用网络来源时，尽可能同时附上存档链接和原始 URL
发出你的声音 — 如果你阅读的新闻机构封杀存档，让他们知道你重视历史记录

被封杀内容的替代存档方案

虽然 Wayback Machine 是最全面的网络存档，但它不是唯一的选择：

archive.today / archive.is — 流行的 Wayback Machine 替代品，可以创建页面快照。注意它可能面临同样的封杀问题。
Perma.cc — 学术和法律机构常用的永久引用工具，由哈佛法学院图书馆管理。
本地存档 — 使用 wget --mirror、SingleFile 浏览器扩展或 HTTrack 自行创建存档。
WebRecorder — 开源工具，能够抓取标准爬虫无法处理的交互式网页内容。

结语：为数字记忆而战

主流新闻机构封杀 Wayback Machine 是互联网历史上的一个转折点。今天做出的决定——新闻机构、政策制定者和公众的选择——将决定未来世代能否了解我们这个时代。

这不是一个非黑即白的简单问题。新闻机构有着关于付费墙和内容控制的正当商业考量。但公众同样有保存完整历史记录的合法利益。在这些相互竞争的利益之间找到平衡，是数字时代最具挑战性的课题之一。

互联网档案馆担任了将近三十年的网络记忆库。这份记忆能否继续运转，取决于我们现在做出的选择。