The Verge本周报道,社交新闻平台Reddit即将封锁网际网络文件馆(Internet Archive)对该平台的大部分爬取,原因是许多AI企业都借由该馆的时光机(Wayback Machine)功能来抓取Reddit内容。

成立于1996年的Internet Archive是个非营利组织,使命是保守网络与文化资产,时光机则是该组织最知名的服务之一,它会定期通过网络爬虫来抓取网站的快照并保存,用户只要输入网址便能浏览该网页过去的版本。

至于对Reddit而言,网站上的内容是有价的,特别是在AI系统大量抓取网络上的内容来训练模型之际,它在2024年2月便与Google签署了与AI有关的内容合作协议,之后在同年5月与OpenAI创建类似的合作关系,并在同年6月控告擅自抓取数据的Anthropic。

值得注意的是,尽管许多内容平台都已通过robots.txt文件明文禁止AI创业公司来爬取其网站,但内容管理暨云计算服务企业Cloudflare日前控诉Perplexity无视这些政策,依然借由创建新域名或是隐藏自家爬虫来爬取别人家的内容。

根据报道,Reddit并未指名道姓,仅说该公司逮到许多AI公司(AI companies)利用Wayback Machine来取得Reddit内容。

于是,原本可以爬取Reddit内容的Internet Archive也要被封锁了,未来仅能爬取及索引Reddit的首页,不能再爬取与索引用户的个人文件、所发布或回应的内容。

Reddit发言人Tim Rathschmidt向The Verge透露,在Internet Archive能够保护自己的网站并遵守第三方平台政策之前,将会限制其访问能力。