
Cloudflare解释上周五因为针对React漏洞实施防护措施,在部分代理服务器引发错误,导致二个星期来第二次断线。
世界协调时间12月5日早上8:47,一部分时间Cloudflare网络发生断线,不过约半小时就解决了,在09:12所有服务就回复上线(同日16: 47到17:12)。受影响的HTTP流量约占Cloudflare服务流量的28%。
Cloudflare说,此次断线不是直接或间接出于Cloudflare系统网络攻击,或任何恶意活动。该公司首席技术官Dane Knecht解释,上周React服务器通报CVSS 10的重大漏洞CVE-2025-55182,因此Cloud代理服务器将内存内HTTP请求解析缓冲由128K提高为1MB,以作为网页防火墙(WAF)的分析,这个值是Next.js应用程序默认最高的。
管理团队利用渐进部署系统第一次变更WAF规则时,发现内部WAF测试工具不支持扩大缓冲,且对客户流量没有影响,因此他们做了第二次变更,想将WAF规则测试工具关闭。然而其全球配置系统未执行渐进式部署,而是在数秒内将变更一下子部署到Cloudflare网络的所有服务器。在“特定情况下”,这次变更的程序执行来到FL1版本的代理服务器时,触发规则模块一个bug而引发错误,导致500 HTTP错误码。这是一个runtime错误,影响由较旧的FL1代理服务器及Cloudflare托管的客户网页资产,只有少部分测试终端,以及中国网络支持的客户例外。
在11月18日Cloudflare也发生了一次类似,但时间长达6小时的断线。两次断线都是为了防止安全漏洞的影响,而对几乎所有客户造成错误。
为此,Cloudflare做了以下改善。第一改进部署和版本管控。第二是简化Cloudflare控制层在多重故障时也能执行关键运行,即killswitch。第三,Cloudflare承诺将变更所有关键Cloudflare数据层组件错误实施的硬性失败逻辑(hard-fail logic),而改采Fail-Open的错误处理逻辑,即系统发生错误时,会默认进入“open”状态,允许无限制访问或操作,这个逻辑是以确保可用性或持续运行为最优先,而非完全锁死。











