提供网站安全、DDoS防御、内容管理与云计算服务的Cloudflare周一(8/4)指控,AI创业公司Perplexity忽视网站禁止其爬取的政策,并反复修改其用户代理(User Agent)与自治系统编号(Autonomous System Number,ASN)来逃避封锁。
Cloudflare说,该平台最初是收到客户的投诉,表示他们在网站的robots.txt文件中明文禁止Perplexity的爬取行为,也通过网页应用程序的防火墙(Web Application Firewall,WAF)规则来过滤及封锁Perplexity所公开的两个爬虫:PerplexityBot与Perplexity-User,然而,Perplexity却依然访问了该平台的内容。
为了验证客户的说法,Cloudflare创建了多个全新的域名,这些域名未曾公开,因此也未曾被搜索引擎索引,尚未被连接或曝光,同时在这些域名用来声明是否愿意被爬取的robots.txt文件中载明禁止所有爬虫的访问,同时于WAF规则中封锁了来自Perplexity的爬虫。
接着研究人员向Perplexity聊天机器人询问这些网站上的私密内容,Perplexity则回答了正确的资讯,显示它的确曾违反robots.txt文件,还绕过WAF规则来访问内容。
研究人员发现,Perplexity使用了许多未公开列出的IP地址来爬取网站,以绕过网站对该公司的限制,甚至将自己伪装成macOS上的Chrome浏览器。
Cloudflare表示,有鉴于Perplexity既未遵守robots.txt,使用未声明的用户代理,使用未公开的IP地址,企图绕过封锁,还伪装成Chrome,违反了爬虫所应具备的透明原则,使得该平台直接将Perplexity自“已验证机器人”名单中除名。Cloudflare所验证的机器人被视为立意良善的好爬虫,可被许多网站放行,目前名单上包括Google的Googlebot、Microsoft的Bingbot、OpenAI的GPTBot与ChatGPT-User,以及苹果的Applebot等。
至于Perplexity则尚未公开回应此事。