nightclub 2024-06-24 15:32:10

网站禁抓取内容训练AI形同虚设　AI公司被指无视robot.txt擅取内容

生成式AI的开发需要极大量的内容作训练，而这些内容有不少都是在网上抓取，也因此引起争议。虽然有一些业界标准可以表明拒绝抓取，但看来AI开发公司并没有跟随。

据报道指，不少AI开发公司并没有遵守拒绝抓取的robot.txt协议，擅自从网站取得内容训练AI。其中AI搜索初创Perplexity就因此被媒体指责。内容授权初创TollBit表示，他们分析这些出版商的网站访问记录，发现了一些代理有特定模式访问网站，“这意味着来自多个来源（不仅仅是一家公司）的AI代理选择无视robots.txt协议来取得网站内容。”

Business Insider进一步爆料，OpenAI和Anthropic等知名AI公司也存在类似行为。对此Perplexity CEO Aravind Srinivas在接受Fast Company采访时辩称，他们“并非故意忽视Robot Exclusions Protocol之后说谎”。他解释，他们除了自家抓取工具外还使用第三方网络抓取服务，而发现的抓取工具就是其中之一。他认为“情况很复杂”，而且robots.txt协议“并非法律框架”，出版商应该与AI开发公司创建新的关系。

来源：Reuters

评论

收藏