Cloudflare于周三向其网站托管客户提供了一种方法,可以阻止AI机器人未经许可抓取网站内容并将数据用于训练机器学习模型。

它这样做是因为客户对AI机器人的厌恶,并且“为了帮助内容创作者维护一个安全的网际网络”,它在一份声明中表示。“我们清楚地听到客户不希望AI机器人访问他们的网站,特别是那些不诚实的机器人。为了提供帮助,我们添加了一个一键封锁所有AI机器人的功能。”

目前已经有一种广泛可用的、对网站所有者来说相对有效的方法来阻止机器人,那就是robots.txt文件。当将其放置在网站的根目录时,自动化网页爬虫程序应该会注意到并遵守文件中的指令,告诉它们不要进入。

由于普遍认为生成式AI是创建在盗窃的基础上,而且有许多诉讼试图追究AI公司的责任,那些销售非法获取内容的公司已经“大方地”允许网站发布者选择不让他们的内容被盗用。

去年8月,OpenAI发布了关于如何使用robots.txt指令阻止其GPTbot爬虫的指南,大概意识到人们担心内容在未经同意的情况下被抓取并用于AI训练。Google在接下来的一个月也采取了类似的措施。同样在去年9月,Cloudflare开始提供一种阻止遵守规则的AI机器人的方法,据称有85%的客户激活了这种封锁。

现在,这家网络服务公司提供一个更强大的屏障来阻止机器人进入。网际网络“现在充斥着这些AI机器人”,它表示,这些机器人访问了Cloudflare服务的前一百万个网站中约39%。

问题在于,就像十五年前在浏览器中实施的“Do Not Track(请勿跟踪)”标头一样,robots.txt也可以被忽视,通常不会有任何后果。

最近的报告表明,AI机器人确实这样做了。Amazon上周表示,它正在调查证据,表明代表AI搜索公司Perplexity(AWS客户)工作的机器人爬取了包括新闻网站在内的网站,并在未适当署名或获得许可的情况下复制了它们的内容。

Amazon的云计算客户应该遵守robots.txt,而Perplexity被指控没有这样做。这家AI创业公司的CEO Aravind Srinivas否认他的公司暗中无视该文件,不过承认被观察到违背网站管理员意愿抓取页面的是Perplexity使用的第三方机器人。

“遗憾的是,我们观察到机器人运营商试图通过伪装用户代理,使自己看起来像是真实的浏览器”,Cloudflare表示。“我们一直在监控这种活动,我们很自豪地说,我们的全球机器学习模型总是能够识别这种活动,即使运营商在用户代理上撒谎。”

Cloudflare表示,其机器学习评分系统在6月14日至6月27日期间,持续将伪装的Perplexity机器人评分为30以下,表明它“很可能是自动化的”。

这种机器人检测方法依赖于数字指纹,这是一种常用于网络关注人们并拒绝隐私的技术。爬虫,就像个人网络用户一样,通常会基于通过网络相互读取的技术细节而显得与众不同。

这些机器人倾向于使用相同的工具和框架来自动化访问网站。凭借一个平均每秒看到5700万个请求的网络,Cloudflare有足够的数据来确定哪些指纹是可以信任的。

所以事情发展到这个地步:机器学习模型抵御那些为了喂养AI模型而搜索的机器人,甚至免费的客户也可以使用。所客户只需在特定网站的安全性 - 机器人菜单中点击“阻止AI抓取器和爬虫”开关按钮即可。

Cloudflare表示:“我们担心一些AI公司为了规避规则获取内容,会持续调整以躲避机器人检测。我们将继续保持警惕,并在我们的AI抓取器和爬虫规则中加入更多机器人阻止措施,同时改进我们的机器学习模型,以帮助保持网络成为一个内容创作者可以蓬勃发展并完全控制其内容用于哪些模型训练或推理的地方。”