Reddit将封锁Internet Archive的大部分爬取

The Verge本周报道，社交新闻平台Reddit即将封锁网际网络文件馆（Internet Archive）对该平台的大部分爬取，原因是许多AI企业都借由该馆的时光机（Wayback Machine）功能来抓取Reddit内容。

成立于1996年的Internet Archive是个非营利组织，使命是保守网络与文化资产，时光机则是该组织最知名的服务之一，它会定期通过网络爬虫来抓取网站的快照并保存，用户只要输入网址便能浏览该网页过去的版本。

至于对Reddit而言，网站上的内容是有价的，特别是在AI系统大量抓取网络上的内容来训练模型之际，它在2024年2月便与Google签署了与AI有关的内容合作协议，之后在同年5月与OpenAI创建类似的合作关系，并在同年6月控告擅自抓取数据的Anthropic。

值得注意的是，尽管许多内容平台都已通过robots.txt文件明文禁止AI创业公司来爬取其网站，但内容管理暨云计算服务企业Cloudflare日前控诉Perplexity无视这些政策，依然借由创建新域名或是隐藏自家爬虫来爬取别人家的内容。

根据报道，Reddit并未指名道姓，仅说该公司逮到许多AI公司（AI companies）利用Wayback Machine来取得Reddit内容。

于是，原本可以爬取Reddit内容的Internet Archive也要被封锁了，未来仅能爬取及索引Reddit的首页，不能再爬取与索引用户的个人文件、所发布或回应的内容。

Reddit发言人Tim Rathschmidt向The Verge透露，在Internet Archive能够保护自己的网站并遵守第三方平台政策之前，将会限制其访问能力。