Google上诉控告网络爬虫公司SerpApi　指其绕过安全措施盗取搜索结果

Google上诉控告提供网络内容抓取工具公司SerpApi，指控对方违反《版权法》，以欺骗手段自动访问并以惊人规模抓取Google搜索结果，然后将数据出售给客户。Google于12月19日提交的诉讼文件显示，SerpApi每日向Google发送数亿次假冒搜索请求，模模拟人用户行为以绕过安全防护。

诉讼核心是Google SearchGuard技术，这是一项于2025年1月推出保护措施，耗费数万工时及数百万美元投资开发。SearchGuard会向来自不明来源搜索查询发送JavaScript挑战，要求浏览器发送特定资讯，以证明请求来自真人用户而非自动化系统。正常用户浏览器可无缝解决这些挑战，但自动化抓取工具通常无法访问搜索结果及其中版权作品。

Google在诉讼中表示，SearchGuard在2025年1月推出时有效阻止SerpApi访问Google搜索结果及合作伙伴版权内容，但SerpApi随即着手研发绕过这项技术保护措施方法，并迅速发现破解决方案法及部署相关技术。

SerpApi应对SearchGuard方法是掩饰每日向Google发送数亿次自动化查询，令这些请求看似来自真人用户。SerpApi创办人Ilyass Khaleghy近日形容这个过程为“利用大量IP地址制造假冒浏览器，让Google视之为正常用户”。

根据诉讼文件，SerpApi在提交自动化查询及接收SearchGuard挑战时，可能会谎报查询发出设备、软件或位置，以解决挑战并获得授权。另一个方法是利用合法请求解决挑战，然后将所得授权分发到全球未经授权机器，令假冒浏览器产生自动化查询看似已获Google授权。公司也使用自动化手段绕过CAPTCHA，这是SearchGuard另一个用于测试用户是否真人组件。

SerpApi技术水平在公司自家营销材料中显而易见。最近一篇博客文章解释，SearchGuard令网络爬虫更加困难，但声称公司有幸只受到最低程度影响，因为服务已预先解决Google JavaScript挑战。当Google其后提高SearchGuard难度时，SerpApi承认曾短暂中断，但凭借工程师团队全力投入，很快便能解决问题。

Google形容SerpApi商业模式是寄生性质，指SerpApi使用自动化手段抓取其他服务内容，产生数十亿次人工请求，然后复制及出售回应内容。SerpApi并无就抓取输出内容或其自动化程序对服务计算机基础设施造成庞大负担成本向这些服务作出补偿。其抓取行为一律违反服务管理协议，并无视这些服务通过robots.txt指令向自动化爬虫或机器人传达访问限制。

Google主张其搜索结果包含大量版权内容，包括图片，这些内容在搜索不同模块中显示，例如知识面板。Google指SerpApi破坏其在授权显示版权材料方面投资，令其他不必承担类似成本服务也能取得内容。

SerpApi向第三方出售“Google Search API”服务，月费由75美元至275美元不等（约港币585元至2,145元）。Google认为这具误导性，因为Google并无为这类数据提供公共搜索API，SerpApi本质上是出售Google专有搜索引擎后门。

Reddit也于10月上诉控告SerpApi及另外两家数据抓取公司，指控至少一家从其网站抓取内容供AI初创企业Perplexity使用。虽然Google诉讼简要提及Reddit针对SerpApi诉讼，但并无直接提及Perplexity或AI机器人。

Reddit诉讼指出，在2025年7月两周期间，被告绕过Google技术障碍，非法访问近30亿个充满Reddit文本、连接、照片及视频搜索引擎结果页面。Reddit表示，Perplexity在收到停止函后，引用Reddit次数激增40倍，由于Perplexity是SerpApi推广客户，显然可知其从何处及如何取得这些未经授权Reddit数据。

Google主张其安全系统（如SearchGuard）属于控制访问版权作品技术措施，绕过这些措施涉嫌违反《数码千禧年版权法》（DMCA）第1201条。Google声称SerpApi违反Google服务条款，该条款严格禁止自动化抓取及使用代理服务器隐藏身份，并指SerpApi在未对生态系统作出贡献或遵守规则情况下，从Google组织全球资讯庞大投资中获利。

Google要求法院下令SerpApi停止绕过其反抓取限制，并销毁涉及该过程任何技术。Google有权从SerpApi追讨其因对方违反法例而遭受实际损失，以及SerpApi从中赚取的任何额外非重复利润，或可选择追讨法定赔偿，每次违法行为赔偿额不少于200美元及最多2,500美元。

来源：Google