AI公司通过网络爬虫收集训练数据造成网页负担沉重,有见及此Cloudflare宣布将默认阻止已知AI网络爬虫,防止它们“未经许可或补偿访问内容”。新措施将询问新域名拥有者是否允许AI爬虫访问,甚至让部分出版商实施“按爬取付费”收费模式,向AI公司收取使用费。
Cloudflare表示,“按爬取付费”方案让出版商为AI爬虫访问其内容设置价格。AI公司可以查看定价并选择是否注册“按爬取付费”服务或退出。目前该方案仅向“一组领先出版商和内容创作者”开放,Cloudflare表示将确保“AI公司能够以正确方式使用优质内容”。
Cloudflare行政总裁Matthew Prince表示:“原创内容是让互联网成为上世纪最伟大发明之一的要素,我们必须团结起来保护它。AI爬虫一直在无限制地爬取内容。我们的目标是将权力交还给创作者,同时仍帮助AI公司创新。”
Cloudflare 2023年开始就让网站阻止AI爬虫,但仅适用于遵守网站robots.txt文件的爬虫。robots.txt是不可执行的协议,用于指示机器人是否可以爬取内容。去年Cloudflare开始允许网站阻止“所有”AI机器人,无论它们是否尊重网站的robots.txt文件,现在这项设置默认为新Cloudflare客户激活。该公司通过将爬虫与已知AI机器人清单比较来识别要阻止的爬虫。
多家主要出版商和网上平台已支持Cloudflare的新AI爬虫限制措施,包括美联社(The Associated Press)、《大西洋》杂志(The Atlantic)、《财富》杂志(Fortune)、Stack Overflow和Quora。这些平台认为需要保护其内容免受未经授权的AI训练使用,特别是在AI搜索开始威胁Google传统“十个蓝色连接”搜索结果格式的情况下。
Cloudflare表示正与AI公司合作,协助验证其爬虫并允许它们“清楚说明目的”,例如是否将内容用于训练、推理或搜索。网站拥有者可以审查这些资讯并决定允许哪些爬虫进入。这种透明度机制让内容拥有者能够作出明智决定,决定是否允许特定类型的AI访问其内容,以及在什么条件下允许。
来源:Verge