大话互联网 2024-07-01 11:47:52

AWS针对Perplexity AI进行调查　曾被指无视标记擅自抓取网站

Perplexity AI近来被卷入“无视协议擅自抓取网页内容”的风波，就连AWS也针对Perplexity AI的数据收集方式进行调查。

据报道指，AWS方面正在针对Perplexity AI是否使用网络爬虫程序，避开robot.txt“机器人排除协议”，来对本身不希望被网络爬虫抓取内容的网站进行数据收集。之前有媒体发现其网站多次被虚拟机（也就是网络爬虫程序）所访问，忽略了网站上的robot.txt协议。据称受影响的媒体包括Wired、The Guardian、Forbes和The New York Times等等。而这个虚拟机是托管在AWS之上，因此AWS也对事件作出反应。

Perplexity AI方面否认自己违反协议，发言人强调“我们的PerplexityBot遵守robots.txt，我们确认Perplexity控制的服务没有以任何违反AWS服务条款的方式进行抓取。”不过也指出他们有使用第三方爬虫软件，它们可能会有忽略协议的情况，而如果用户在聊天机器人查询中包含特定URL时，PerplexityBot也会忽略robots.txt。

来源：Wired

评论

收藏