7月19日下午,我们注意到全球网络论坛Reddit传出巨大骚动,网友反映他们有多台Windows 10计算机同时出现蓝色宕机画面,问题出在端点侦测与应变系统(EDR)厂商CrowdStrike的代理程序Falcon sensor组态更新出错、触发逻辑错误,导致许多Windows计算机停摆而出现蓝色宕机画面(BSOD)。

图片来源/u/Sam7493 on reddit

后续更多灾情不断出现在各大社交媒体平台贴文,以及全球大众新闻媒体的报道,像是机场、医院、银行、零售商店与超市,我们看到大量电子看板(Digital Signage)与一些互动式资讯服务站(Kiosk)无法运行。例如,许多机场游客难以快速查阅机场航班资讯,以及进行自助登机程序;有些医院的电子医疗记录、劳动力管理、门诊预约系统,以及个别工作站与特定用途医疗器材与设备受到影响;部分银行的自动提款机(ATM)、银行卡支付服务无法运行;有些商店与超市也出现计算机设备故障,导致顾客无法结账。

图片来源/u/CyborgWarrior on reddit

这个震惊全球的IT重大事故发生之后,很多人都想知道为何情况会这么严重?微软Windows计算机的普及众所皆知,端点防护解决方案的发展也相当成熟,一些杀毒软件产品过去也曾引发Windows计算机大宕机的事故,但已很久没遇到这类问题,没想到2024年竟然再度上演。而且,随着人类社会对于数字科技的依赖持续攀升,计算机与IT服务大规模停摆所造成的冲击,如今显然变得更为严重,而且广泛影响更多国家与产业。

其中,最令我们意外的部分在于:为何是EDR的组件更新导致Windows计算机宕机?

根据我们的了解,大部分EDR部署在个人计算机或服务器时,主要功能是侦测(Detect)端点的访问行为是否有异常或恶意,一旦发现问题,会通知或通报管理者处理善后,可能会进行手动或自动的应变处理,或是协调其他端点、网络安全产品进行缓解。然而,部分EDR产品开始扩展更多端点防护功能,而跨入原本以杀毒软件为主的端点防护平台(EPP)领域,而能同时提供威胁预防的机制,这些从EDR起家、跻身EPP的产品,甚至标榜本身此次世代杀毒软件(NGAV),因此,它们扮演的角色与提供的功能,也变得越来越复杂而多样,对于端点操作系统的状态监控也越来越深入,但如同超级英雄电影所言:“能力越大,责任越大”,此类型EDR产品对于计算机与服务器能否正常运行,势必要承担更大责任,一不小心,可能会比多数EDR产品更容易伤及无辜。

关于这样的状况,从杀毒软件起家、后续进入EDR产品的厂商,应该较有警觉,因为有惨痛的前例可循,大家不想重蹈覆辙。相对而言,若是从EDR起家、同时主打可提供次世代杀毒软件的安全厂商,或许较无相关的经验与意识,去预防这类可能严重影响计算机与服务器运行的问题发生。

但尴尬的是,CrowdStrike如果提出这个说法,可能无法使大家谅解他们的缺失。因为在7月19日全球Windows计算机大宕机事件发生后,有不少人提到一件往事:2010年老牌安全公司McAfee的杀毒软件也曾因为软件更新出错,而导致全球数万台Windows XP计算机宕机,当时在该公司担任首席技术官的George Kurtz,竟然也是CrowdStrike的共同创办人暨首席执行官,许多媒体也注意到这段以往经历,IT市场分析机构Moor Insights & Strategy副总裁暨首席分析师Anshel Sag在社交媒体X也提到这件事,并表示McAfee当初就是因为这起事故花了很多钱,导致后续卖给英特尔。

0719全球大宕机后,作为IT产品用户的企业与组织,能学到什么教训?多数人或许只能无奈表示:“鸡蛋不要放在同一个篮子”,重新思考备援系统与服务的安全配置,有人打算更换安全防护系统品牌,有人考虑备援系统与服务改用不同安全厂商的产品,也有人提到他们的计算机与服务器不想继续使用Windows平台,然而,更换或同时使用其他安全厂商的产品,改用其他操作系统,仍有机会因为厂商出错或产品问题而导致IT服务停摆的危机,只能尽量降低风险。

而对于安全或其他类型的IT厂商而言,追求技术的突破与功能的卓越,当然是必要的,但不能舍本逐末,如同一段本土制药厂商常年宣传的广告台词:“先研究不伤身体,再讲究效果”,如果管控机制严重影响IT系统正常运行,就失去提供保护的意义。