生成式AI的开发需要极大量的内容作训练,而这些内容有不少都是在网上抓取,也因此引起争议。虽然有一些业界标准可以表明拒绝抓取,但看来AI开发公司并没有跟随。

据报道指,不少AI开发公司并没有遵守拒绝抓取的robot.txt协议,擅自从网站取得内容训练AI。其中AI搜索初创Perplexity就因此被媒体指责。内容授权初创TollBit表示,他们分析这些出版商的网站访问记录,发现了一些代理有特定模式访问网站,“这意味着来自多个来源(不仅仅是一家公司)的AI代理选择无视robots.txt协议来取得网站内容。”

Business Insider进一步爆料,OpenAI和Anthropic等知名AI公司也存在类似行为。对此Perplexity CEO Aravind Srinivas在接受Fast Company采访时辩称,他们“并非故意忽视Robot Exclusions Protocol之后说谎”。他解释,他们除了自家抓取工具外还使用第三方网络抓取服务,而发现的抓取工具就是其中之一。他认为“情况很复杂”,而且robots.txt协议“并非法律框架”,出版商应该与AI开发公司创建新的关系。

来源:Reuters