新闻网站封杀 Wayback Machine:互联网档案馆封禁争议完全指南
发布于: 2026-05-13 • 分类: 数字保存 / 互联网文化 / 法律争议
概览:互联网正在失忆
2026年初,一场愈演愈烈的争议在互联网世界引爆。《纽约时报》《大西洋月刊》和《USA Today》等主流新闻机构,开始主动阻止 Wayback Machine(时光机)存档它们的内容。这家自1996年以来已保存超过 8600 亿个网页的互联网档案馆,突然被关在了最重要新闻来源的大门外。事件迅速登上 Hacker News 首页,获得 40+ 分并持续攀升,点燃了一场关于数字保存未来的激烈辩论。
核心问题:当新闻机构阻止存档后,那些被修改、更正或删除的文章将永远无法回溯。这直接威胁到在线新闻的真实性和历史记录的可追溯性。
哪些新闻网站正在封杀 Wayback Machine?
封杀主要通过 robots.txt 限制和服务器端访问控制实现,专门针对互联网档案馆的爬虫(ia_archiver)。确认或报告正在封杀的媒体包括:
- 纽约时报(The New York Times) — 网络上被存档最多的新闻网站之一,NYT 的限制阻止 Wayback Machine 抓取其付费墙后的页面以及核心新闻板块。
- 大西洋月刊(The Atlantic) — 这家老牌杂志实施了封杀,无论是当前文章还是历史存档都无法被抓取。
- USA Today — 这家全国性大报也加入了封杀行列,限制 ia_archiver 爬虫的访问。
- 据报道还有几家区域性媒体和数字原生媒体也在跟进。
新闻机构封杀的理由是什么?
新闻机构的动机主要来自几个方面:
版权和付费墙保护
新闻机构认为 Wayback Machine 的存档破坏了它们的付费墙体系。如果读者能通过 Wayback Machine 免费访问原本需要订阅的文章,付费墙就形同虚设。《纽约时报》每年数字订阅收入高达数十亿美元,对保护付费墙基础设施格外积极。
数据抓取和第三方使用
一些媒体担心自己的内容通过 Wayback Machine 被第三方大量抓取,用于未经授权的用途——包括 AI 训练数据集、竞争情报分析和商业转载。互联网档案馆意外卷入了更广泛的数据抓取争议的漩涡中。
对内容的控制权
新闻机构希望能够发布更正、更新报道或撤回内容,而不希望一个"错误版本"的永久快照存在于互联网档案馆中。这制造了新闻行业"持续更新"惯例与档案保存"保留历史记录"使命之间的尖锐矛盾。
对互联网历史和链接腐烂的影响
封杀对网络历史记录的影响极其深远。链接腐烂(link rot)——网页链接因目标页面被移动、删除或修改而失效——已经是一个非常严重的问题。研究表明美国最高法院裁决中约 50% 的链接、学术论文中约 20% 的链接已经无法指向原始内容。
Wayback Machine 是对抗链接腐烂最有力的工具。当主流新闻机构封杀它时,引用这些媒体的每一个链接都变得脆弱。今天引用一篇 NYT 文章的记者,无法保证五年后还能访问到那篇文章——即使 NYT 自己还保留着它,因为 NYT 可以随时编辑它、把它放到付费墙后面、或者彻底删除它。
数字说话:互联网档案馆的 Wayback Machine 存储了超过 8600 亿个网页,每秒处理约 1500 次存档请求。封杀哪怕几个主要域名,都会在历史记录中制造数百万个空白。
对 SEO 和研究的冲击
对研究人员、记者和 SEO 专业人士来说,Wayback Machine 一直是一个不可或缺的工具。封杀意味着什么:
引用完整性
学术论文、调查报道和法律文书中引用被封杀新闻来源的,将无法再使用 Wayback Machine 链接作为稳定引用。这动摇了整个互联网引证体系的基础。
SEO 研究
SEO 专家经常使用 Wayback Machine 研究内容历史变化、外链配置和网站结构演变。封杀移除了研究大型新闻网站 SEO 策略演化的关键工具。
内容真实性验证
事实核查人员和记者依赖 Wayback Machine 来验证某个页面在特定时间点到底说了什么。当新闻机构禁止存档时,它们对撤回内容或"静默修改"的行为就更难被追责。
savethearchive.com 运动
面对封杀,互联网档案馆及其支持者发起了 savethearchive.com 运动。该倡议鼓励读者联系这些新闻机构,表达对封杀历史记录的担忧。运动的核心论点包括:
- 存档属于合理使用,对公共利益至关重要
- 新闻机构自己在报道中也受益于历史存档
- 封杀存档并不能真正保护付费墙——有决心的用户总有办法绕过
- 有更好的方式保护收入(如更完善的付费墙技术),不会抹去公共记录
互联网档案馆的回应
互联网档案馆历来尊重网站的 robots.txt 指令,即使这些指令是事后追加的。这意味着当《纽约时报》增加一条屏蔽 ia_archiver 的 robots.txt 规则时,Wayback Machine 会停止抓取这些页面,并将已有的存档版本从公开访问中移除。
互联网档案馆创始人 Brewster Kahle 公开表达了对这一趋势的担忧。虽然档案馆出于政策尊重网站拥有者的意愿,但 Kahle 认为——在内容原本可以公开访问之后,再事后追加 robots.txt 规则来阻止访问——这从根本上背离了档案馆存在的意义。这场争议与欧洲的"被遗忘权"争议如出一辙,只是这次不再是个人请求删除某条信息,而是企业试图抹去自己的历史。
被遗忘权 vs 数字保存
这两条原则之间的张力是这个争议的核心。一边是内容创作者(包括新闻机构)控制自己知识产权、更正或删除过时内容的权利。另一边是公众保存完整历史记录的利益——即使那份记录令人不舒服或不完美。
这不是一个新问题。欧盟确立的"被遗忘权"允许个人要求从搜索结果中删除个人信息。但当新闻机构将整个域名都挡在 Wayback Machine 门外时,问题被放大了很多倍:一家公司有权抹去自己的历史吗?那些在封杀之前就已经被发表、被引用、被研究者使用的内容又怎么办?
更大的危机:数字保存挑战
Wayback Machine 封杀只是更大数字保存危机的一个症状。主要挑战包括:
- 链接腐烂:随着网站改版、域名过期、内容被删除,链接每天都在死亡
- 内容漂移:即使链接仍然有效,内容可能已经被静默修改
- 平台衰落:社交媒体平台在转型、关闭或删除旧帖时丢失内容
- 格式过时:交互式内容、Flash 存档和早期网页技术随着格式死亡而无法访问
- 付费墙和围墙花园:越来越多的内容被放到认证系统后面,爬虫无法触及
互联网正在变得越来越短暂,这远远超出了早期架构师的预期。当 Tim Berners-Lee 设计万维网时,他设想的是一个永久性的互联信息空间。然而我们最终建造的系统里,一条数据库命令或者一行 robots.txt 代码就可以让信息永远消失。
你能做什么?
如果你关心互联网历史的保存,以下是一些实际可行的步骤:
- 访问 savethearchive.com 参与运动,联系封杀存档的新闻机构表达你的态度
- 自己动手存档 — 使用 Wayback Machine 的"立即保存页面"功能,或安装浏览器扩展自动存档你访问的页面
- 支持互联网档案馆 — 向运营 Wayback Machine 的非营利组织捐款
- 使用替代存档工具 — 比如 archive.today (archive.is)、Perma.cc,以及用 wget 或 SingleFile 做本地存档
- 负责任地引用 — 引用网络来源时,尽可能同时附上存档链接和原始 URL
- 发出你的声音 — 如果你阅读的新闻机构封杀存档,让他们知道你重视历史记录
被封杀内容的替代存档方案
虽然 Wayback Machine 是最全面的网络存档,但它不是唯一的选择:
- archive.today / archive.is — 流行的 Wayback Machine 替代品,可以创建页面快照。注意它可能面临同样的封杀问题。
- Perma.cc — 学术和法律机构常用的永久引用工具,由哈佛法学院图书馆管理。
- 本地存档 — 使用
wget --mirror、SingleFile 浏览器扩展或 HTTrack 自行创建存档。 - WebRecorder — 开源工具,能够抓取标准爬虫无法处理的交互式网页内容。
结语:为数字记忆而战
主流新闻机构封杀 Wayback Machine 是互联网历史上的一个转折点。今天做出的决定——新闻机构、政策制定者和公众的选择——将决定未来世代能否了解我们这个时代。
这不是一个非黑即白的简单问题。新闻机构有着关于付费墙和内容控制的正当商业考量。但公众同样有保存完整历史记录的合法利益。在这些相互竞争的利益之间找到平衡,是数字时代最具挑战性的课题之一。
互联网档案馆担任了将近三十年的网络记忆库。这份记忆能否继续运转,取决于我们现在做出的选择。