Cloudflare默认阻止AI爬虫　推出付费方案向AI公司收费访问内容

AI公司通过网络爬虫收集训练数据造成网页负担沉重，有见及此Cloudflare宣布将默认阻止已知AI网络爬虫，防止它们“未经许可或补偿访问内容”。新措施将询问新域名拥有者是否允许AI爬虫访问，甚至让部分出版商实施“按爬取付费”收费模式，向AI公司收取使用费。

Cloudflare表示，“按爬取付费”方案让出版商为AI爬虫访问其内容设置价格。AI公司可以查看定价并选择是否注册“按爬取付费”服务或退出。目前该方案仅向“一组领先出版商和内容创作者”开放，Cloudflare表示将确保“AI公司能够以正确方式使用优质内容”。

Cloudflare行政总裁Matthew Prince表示：“原创内容是让互联网成为上世纪最伟大发明之一的要素，我们必须团结起来保护它。AI爬虫一直在无限制地爬取内容。我们的目标是将权力交还给创作者，同时仍帮助AI公司创新。”

Cloudflare 2023年开始就让网站阻止AI爬虫，但仅适用于遵守网站robots.txt文件的爬虫。robots.txt是不可执行的协议，用于指示机器人是否可以爬取内容。去年Cloudflare开始允许网站阻止“所有”AI机器人，无论它们是否尊重网站的robots.txt文件，现在这项设置默认为新Cloudflare客户激活。该公司通过将爬虫与已知AI机器人清单比较来识别要阻止的爬虫。

多家主要出版商和网上平台已支持Cloudflare的新AI爬虫限制措施，包括美联社（The Associated Press）、《大西洋》杂志（The Atlantic）、《财富》杂志（Fortune）、Stack Overflow和Quora。这些平台认为需要保护其内容免受未经授权的AI训练使用，特别是在AI搜索开始威胁Google传统“十个蓝色连接”搜索结果格式的情况下。

Cloudflare表示正与AI公司合作，协助验证其爬虫并允许它们“清楚说明目的”，例如是否将内容用于训练、推理或搜索。网站拥有者可以审查这些资讯并决定允许哪些爬虫进入。这种透明度机制让内容拥有者能够作出明智决定，决定是否允许特定类型的AI访问其内容，以及在什么条件下允许。

来源：Verge