AWS于2025年10月20日在美国东岸(US-East-1)区域出现大规模服务中断,影响范围涵盖多项核心云计算服务,不少企业网站及应用经历短暂性能下降甚至停摆。事件虽然引起用户和业界关注,但不少专家指出,这类云计算服务中断并非罕见现象,更不应成为企业放弃云计算的理由。相反,如何提升自身系统的“抗逆力”,确保遇到云计算故障时能快速应对,才是现在最值得重视的课题。

根据Gartner首席分析师Lydia Leong分析,这次AWS故障主要由DNS问题引发,对DynamoDB等服务造成影响。这类局部服务中断,其实在过去十年各大云计算供应商如Microsoft Azure、Google Cloud也曾发生。云计算平台虽然不能保证百分百无间断,但整体稳定性及弹性仍远高于传统自建系统。

不少企业在遇到云计算事故时,往往第一时间考虑是否需要将业务迁回本地数据中心,或者改用其他云服务供应商。事实上,Gartner认为,这些“即时反应”未必有效解决问题,反而可能令架构变得更复杂,增加长远维护及恢复的难度。与其贸然转移平台,不如专注于提升现有云计算部署的结构设计与应变能力。

提升云计算“抗逆力”的关键,在于系统架构的分散与弹性设计。例如,将应用部署于不同的可用区或区域,确保某一区域出现问题时可以快速切换。此外,定期备份数据、查看及演练灾难恢复流程,也是确保业务连续运行的重要一环。尤其对于一些由传统系统迁移上云的企业,更加需要主动进行容错与恢复测试,不应假设云计算平台会“自动”提供所有高可用特性。

AWS近年不断强调服务透明度,并公开分享相关事故分析与改善方向。以此次事件为例,影响完全局限于单一区域,反映其在故障隔离方面已有明显进步。企业可善用这些资讯,根据自身需求和风险评估作出调整。

另外,不少业界声音认为多云部署能进一步降低风险,但Gartner指出,除非因监管需要,否则过度追求多云反而会令管理和开发变得复杂,甚至影响效率。对大部分企业而言,于单一云计算平台内优化架构,投放资源于自动化、备援及容错设计,反而更能发挥云计算弹性的优势。

总结而言,云计算服务偶尔出现中断,并不代表云计算不可靠,更应促使企业查看自身的架构与恢复策略。选择AWS等主流平台,配合良好的设计和持续优化,依然是如今企业迈向数字化转型及AI应用的最佳选择。