太长不看版
经过社区多年的反复投诉和一则登上 Hacker News 首页(115+ 分)的热帖推动,亚马逊终于更新了 Amazonbot 的行为——这个亚马逊自有的网络爬虫现在开始遵守 robots.txt 指令了。对 Web 开发者、系统管理员和 SEO 专业人员来说,这是一个重要的里程碑。
本文涵盖:Amazonbot 是什么、争议始末、如何配置 robots.txt 来管理 Amazonbot、以及这次变脸对整个网络生态的深远影响。
Amazonbot 是什么?
Amazonbot 是亚马逊专有的网络爬虫,通过 User-Agent Amazonbot/1.0 和亚马逊 aws-ip-ranges.json 中的 IP 段识别。它在亚马逊的生态系统中服务于多个目的:
- Alexa 网站排名 — 收集网站流量数据用于 Alexa 排名和分析服务(部分功能虽已废弃但仍活跃)
- 商品索引 — 抓取商品页面、评价和商家内容,用于亚马逊购物体验和竞争情报
- AI 训练数据 — 收集网页内容训练亚马逊的大语言模型,包括 Alexa 和 AWS AI 服务背后的模型
- AWS 服务 — 支持需要网络爬取能力的各种 AWS 产品
与搜索引擎爬虫(Googlebot、Bingbot)主要为了索引内容不同,Amazonbot 的目的更广泛、更不透明——这也是社区如此关注其行为的原因。
争议始末:Amazonbot 无视 robots.txt
多年来,Web 开发者一直报告 Amazonbot 无视 robots.txt 规则。服务器日志清楚显示,Amazonbot 持续抓取明确禁止的路径。这个问题在站长论坛、Hacker News 话题和安全社区中被广泛讨论。
核心投诉包括:
- 抓取被禁止的路径 —
/admin、/private等明确禁止的目录仍被访问 - 无视抓取频率限制 —
Crawl-delay指令被忽略,导致服务器负载问题 - 意料之外的带宽消耗 — 带宽有限的网站发现 Amazonbot 大量消耗资源
- 缺乏透明度 — 亚马逊没有提供清晰的文档说明 Amazonbot 如何处理
robots.txt - 数据收集担忧 — 随着 Amazonbot 被用于 AI 训练,开发者希望控制自己的内容是否被用于训练亚马逊的模型
事情的转折点是 Xe Iaso 写了一篇详细的博客文章,用确凿证据展示了 Amazonbot 无视 robots.txt 的行为。该文登上了 Hacker News 首页(115+ 分),引发了广泛的社区舆论压力,最终迫使亚马逊做出了改变。
到底发生了什么变化?
2026 年 5 月中旬,亚马逊悄无声息地更新了 Amazonbot,使其遵守 robots.txt 指令。最先注意到这个变化的是那些一直在监控服务器日志的 Web 开发者——Amazonbot 突然不再爬取被禁止的路径了。
主要的变化包括:
- 遵守 robots.txt — Amazonbot 现在正确读取并遵守
Disallow指令 - 支持 Crawl-delay — 通过
Crawl-delay限制抓取频率现在生效 - User-agent 针对性配置 — 专门针对
Amazonbot的规则现在被强制执行 - 更好的 IP 文档 — 亚马逊爬虫的 IP 范围有了更清晰的文档说明
虽然亚马逊没有发布正式公告,但多份独立的服务器日志证据一致表明这是真实变化。这是开放网络的胜利,也是社区问责制发挥作用的典型案例。
如何配置 robots.txt 来管理 Amazonbot
既然 Amazonbot 现在遵守 robots.txt,你可以用标准指令来控制它的访问:
完全屏蔽 Amazonbot
User-agent: Amazonbot
Disallow: /屏蔽 Amazonbot 的特定路径
User-agent: Amazonbot
Disallow: /admin/
Disallow: /private/
Disallow: /api/
Disallow: /wp-admin/设置抓取频率
User-agent: Amazonbot
Crawl-delay: 10
Disallow: /admin/仅允许 Amazonbot 访问特定路径
User-agent: Amazonbot
Allow: /blog/
Allow: /public/
Disallow: /完整的多爬虫配置示例
# 允许 Googlebot 完全访问
User-agent: Googlebot
Allow: /
# 屏蔽 Amazonbot 的敏感区域
User-agent: Amazonbot
Crawl-delay: 30
Disallow: /admin/
Disallow: /private/
Disallow: /checkout/
Disallow: /api/
# 屏蔽 ChatGPT-User(OpenAI 爬虫)
User-agent: GPTBot
Disallow: /
# 其他爬虫默认规则
User-agent: *
Allow: /
Crawl-delay: 5
Sitemap: https://www.example.com/sitemap.xml验证 Amazonbot 行为
更新 robots.txt 后,你可以通过以下方式验证 Amazonbot 是否合规:
- 检查服务器日志 — 监测
Amazonbot/1.0的 User-Agent 是否还在访问被禁止的路径 - IP 范围验证 — 对照亚马逊的
aws-ip-ranges.json交叉验证爬虫 IP - robots.txt 测试器 — 使用 Google Search Console 的 robots.txt 测试工具(虽然 Amazonbot 自己的解析器可能不同)
- 监控带宽 — 检查屏蔽后 Amazonbot 的带宽消耗是否下降
对 Web 开发者的影响
对 SEO 专业人士
Amazonbot 不是传统意义上的搜索引擎爬虫。屏蔽它不会影响你在 Google 或 Bing 上的搜索排名。但如果你使用亚马逊相关服务(Amazon Associates、商品数据 Feed 等),Amazonbot 的访问可能影响到这些服务。在全面屏蔽之前先评估你的具体情况。
对内容创作者
由于 Amazonbot 被用于 AI 训练数据收集,内容创作者现在可以更好地控制自己的内容是否被用于训练亚马逊的 AI 模型。如果你想退出 AI 训练数据收集,只需在 robots.txt 中为 Amazonbot 添加 Disallow: /。
对系统管理员
服务器管理员现在可以可靠地使用 robots.txt 来管理 Amazonbot 对服务器资源的影响。结合 Crawl-delay 指令,你可以在不诉诸 IP 级封锁的情况下实现精细的爬虫行为控制。
对 Bot 管理
这次变化表明,社区压力可以有效影响大型科技公司的爬虫行为。这为其他爬虫运营商(AI 训练爬虫、研究爬虫等)遵守 robots.txt 创造了先例。
大趋势:robots.txt 与 AI 爬虫
Amazonbot 的合规更新发生在网络上 AI 爬虫爆发式增长的大背景下。OpenAI(GPTBot)、Anthropic、Google(Google-Extended)等公司都推出了专门的 AI 训练数据收集爬虫。robots.txt 协议——诞生于 1994 年、最初为搜索引擎爬虫设计——正在被重新用来应对全新的自动访问类别。
社区在与 Amazonbot 的较量中取得的成功表明,尽管 robots.txt 协议历史悠久且有其局限性,但它仍然是网站所有者表达自身意愿的强大工具。当公司选择无视它时,社区可以通过公众讨论和技术压力做出反击。
对 Web 开发者而言,教训很明确:维护一个更新的 robots.txt,明确指定 AI 和非搜索爬虫的规则。默认所有爬虫都会遵守规则的时代正在过去,取而代之的是每个爬虫运营商各自决定是否合规的多样化格局。
总结
Amazonbot 现在终于遵守 robots.txt 指令了——这是社区持续施压和一则病毒式传播的 HN 热帖的成果。对想要控制亚马逊爬虫如何访问自己网站的 Web 开发者来说,这是一次有意义的胜利。更新你的 robots.txt,添加明确的 Amazonbot 规则,通过服务器日志验证合规性,并考虑 AI 训练数据收集对你内容的更广泛影响。
协议本身是有效的——只有公司选择遵守它时才管用。让它们负起责任。