“我们从上云的第一天,焦点就是节省成本。”沃尔玛全渠道成本运维团队资深工程总监Tim O'Brien特别强调。

沃尔玛(Walmart)是全球最大的零售集团,分店数超过1万家,2023年全球营收超过了6,110亿美元。早在2015年时,沃尔玛就全力拥抱云原生,打造了核心数超过20万的OpenStack私有云,现在更是超过100万个核心。2020年时,沃尔玛用Kubernetes打造了一个沃尔玛云原生平台(Walmart Cloud Native Platform,简称WCNP)),可以调度超过93,000个运算节点,来执行高达54万多个Pod集群,也让网站后台每个月有能力发布170,000次调整,比前一代架构足足增加了1,700倍。

后来,沃尔玛更进一步发展成混合云架构,2022年,他们披露了现代云架构:“三云模式”(The Triplet Model),结合了两家公有云和沃尔玛私有云,打造了一个分散三地的超大规模混合云,运用不同公有云来提高弹性和扩展力,上面部署了一套智能网络流量管理平台,还有沃尔玛已经开源发布的运维管理平台OneOps和云原生平台(WCNP),来支持全球2万8千人规模的技术团队,发展各种创新应用。

电商业绩首度破千亿美元,每周活跃用户年增17%

2023年对沃尔玛来说,是自家电商业绩破记录的一年,首度突破了1千亿美元,占了该公司总营收的16%,电商平台每周活跃用户更是增长了17%。如何集成线上线下提供全渠道的购物体验,成了他们2024年的重要发展目标,甚至,跨渠道产品搭售成了年度重要的产品策略重心。

拥有全球数一数二超大规模的企业云,沃尔玛的云计算成本支出也相当惊人,虽然他们从没对外披露明细,只坦言,随着电商业绩比重提高,云计算费用也节节增加。

早在2018年,沃尔玛开始引进Azure和GCP等公有云,来分摊自建OpenStack私有云的工作量,管控整体基础架构的用量和成本。沃尔玛与当时担任全球产品DevOps和SRE团队软件工程总监的Tim O'Brien,来负责这项计划,由他统筹沃尔玛全球云计算用量和成本管理。

3年前开始注意FinOps,调整多云战略来提高成本效益

2021年时,沃尔玛开始意识到FinOps(云计算运维成本管理)的重要性,由Tim O'Brien带头调整多云战略,率领沃尔玛全球技术部门的全球平台团队,思考如何在全球架构下达到更高的成本效益。

Tim O'Brien的第一步是先集成多云的成本报表资讯,汇集整理了四十多种数据源,包括了各种云计算用量、成本和运维的数据,用来驱动每天成本、用量、效率的决策,来发展出一套适合自己的云计算省钱运维方法。

2022年,Tim O'Brien将这套云计算运维方法,扩大应用到沃尔玛美国市场的渠道和供应商管理。2023年则更进一步扩大到沃尔玛全球的线上与线下全渠道。而Tim O'Brien也成为沃尔玛全渠道成本运维最高负责人,要与全球技术平台团队、内部战略团队、科技财务团队联手,制定一套跨部门的云计算用量预测和效率衡量方法。

FinOps要成功,第一步得让工程师聚焦每一天的花费。沃尔玛自制了一项项目成本工具,可以画出每个工程团队每天花了多少钱,以及用在哪里。这个工具可以从项目、团队、部门、子公司等不同层级的分类,来查看每个层级的每天云计算成本明细。(图片来源/Walmart)