Perplexity AI近来被卷入“无视协议擅自抓取网页内容”的风波,就连AWS也针对Perplexity AI的数据收集方式进行调查。

据报道指,AWS方面正在针对Perplexity AI是否使用网络爬虫程序,避开robot.txt“机器人排除协议”,来对本身不希望被网络爬虫抓取内容的网站进行数据收集。之前有媒体发现其网站多次被虚拟机(也就是网络爬虫程序)所访问,忽略了网站上的robot.txt协议。据称受影响的媒体包括Wired、The Guardian、Forbes和The New York Times等等。而这个虚拟机是托管在AWS之上,因此AWS也对事件作出反应。

Perplexity AI方面否认自己违反协议,发言人强调“我们的PerplexityBot遵守robots.txt,我们确认Perplexity控制的服务没有以任何违反AWS服务条款的方式进行抓取。”不过也指出他们有使用第三方爬虫软件,它们可能会有忽略协议的情况,而如果用户在聊天机器人查询中包含特定URL时,PerplexityBot也会忽略robots.txt。

来源:Wired