Cloudflare指控Perplexity偷爬人家网站

提供网站安全、DDoS防御、内容管理与云计算服务的Cloudflare周一（8/4）指控，AI创业公司Perplexity忽视网站禁止其爬取的政策，并反复修改其用户代理（User Agent）与自治系统编号（Autonomous System Number，ASN）来逃避封锁。

Cloudflare说，该平台最初是收到客户的投诉，表示他们在网站的robots.txt文件中明文禁止Perplexity的爬取行为，也通过网页应用程序的防火墙（Web Application Firewall，WAF）规则来过滤及封锁Perplexity所公开的两个爬虫：PerplexityBot与Perplexity-User，然而，Perplexity却依然访问了该平台的内容。

为了验证客户的说法，Cloudflare创建了多个全新的域名，这些域名未曾公开，因此也未曾被搜索引擎索引，尚未被连接或曝光，同时在这些域名用来声明是否愿意被爬取的robots.txt文件中载明禁止所有爬虫的访问，同时于WAF规则中封锁了来自Perplexity的爬虫。

接着研究人员向Perplexity聊天机器人询问这些网站上的私密内容，Perplexity则回答了正确的资讯，显示它的确曾违反robots.txt文件，还绕过WAF规则来访问内容。

研究人员发现，Perplexity使用了许多未公开列出的IP地址来爬取网站，以绕过网站对该公司的限制，甚至将自己伪装成macOS上的Chrome浏览器。

Cloudflare表示，有鉴于Perplexity既未遵守robots.txt，使用未声明的用户代理，使用未公开的IP地址，企图绕过封锁，还伪装成Chrome，违反了爬虫所应具备的透明原则，使得该平台直接将Perplexity自“已验证机器人”名单中除名。Cloudflare所验证的机器人被视为立意良善的好爬虫，可被许多网站放行，目前名单上包括Google的Googlebot、Microsoft的Bingbot、OpenAI的GPTBot与ChatGPT-User，以及苹果的Applebot等。

至于Perplexity则尚未公开回应此事。

Cloudflare指控Perplexity偷爬人家网站

微信扫一扫：分享