如何快速、大规模的开发生成式AI应用,并在上百万AI模型平行执行的情况下顾及治理政策和系统性能?对Walmart来说,他们早在生成式AI时代来临之前,就做好了准备。

Walmart开发生成式AI的4大挑战是:持续高速创新、数据及开发规模庞大、成本控制不易,以及需要严谨的治理政策。零售市场的激烈竞争和世界级的企业规模,这是每一次Walmart拥抱任何科技,都会面临的挑战。

不论是一般AP的开发,到过去几年的AI/ML应用,Walmart不断思考应对这些挑战的方法。其中一项关键策略是,统一25,000名IT人员所需的开发环境和资源调度,通过一站式平台管理超大规模开发的种种面向,包括IT资源、成本、治理政策等,来增加开发效率。

从2015到2019年,Walmart花了四年,从头打造一套云原生开发者平台(Walmart Cloud Native Platform,简称WNCP),采取“三胞胎”云计算模型(Triplet model),以容器调度技术为基础,横跨Azure、AWS及Walmart私有云,作为跨云环境及跨开发生态系的抽象层。开发者可以一站式访问3大云计算平台的数据处理工具、数十种数据来源、和其他开发工具及资源。此平台也能自动转化程序代码,以便自动化部署服务到这3朵云及Walmart自家边缘设备。

这个一站式的开发平台,更为后来Walmart扩大AI/ML应用时,打下良好基础。2021年,他们以WNCP的平台工程及DevOps做法为基础,打造了一套AI/ML开发平台Elements,增加MLOps机制与工具,并与WNCP其他系统和技术原生集成。

这种做法大幅降低了不同项目团队评估开发工具的时间、准备开发环境的时间,以及整体开发和部署时间。Elements上线后,将模型实际落地到商业应用的时间,从2周减少到短短1小时内。

当生成式AI浪潮来临,Walmart便能用实行有些年头的MLOps原则、机制和工具,以及平台工程经验,来应对前述的4大挑战。他们于Elements添加更多生成式AI开发和治理工具,以及多个LLM和其他不同模态的模型到Elements,以快速发展生成式AI实验及应用。至今,Walmart随时有上百万个ML、AI、生成式AI模型执行,全都靠Elements开发、部署、管理。

用一站式界面和No-code工具降低开发门槛

Elements前端界面是一个以React.js做成的Web启动台,通过微服务及容器架构访问所有Elements甚至WNCP的后端资源。开发人员能于该站式访问3朵云上的开发工具及计算资源。

这些工具包括可以可视化创建和管理工作流的DAG设计器、AI项目管理、Python或R的互动式笔记本、批次数据处理任务管理,以及数据集和模型资产管理等。完整ML生命周期的作业,包括数据汇集整理、数据准备、特征工程、模型训练、模型实验、模型评估、模型部署、模型监控、模型反馈及再训练等,都能利用这些工具完成。

此平台上的开发环境不只服务数据工程师和AI工程师,更针对没有AI背景的开发人员、数据科学家和分析师,提供了一系列No-code AI开发工具,增加他们数据探勘及实验AI应用的能力。

Elements还内置了全平台通用的管理与运维功能,例如成本计算与管控、数据权限管理、程序代码版本控制、系统记录留存、系统异常报警、灾难恢复。

Walmart从前端到后端全面集成AI开发相关功能,是希望确保修户能自由选择最适合的AI开发工具,同时能大规模自动化不同流程、重复使用IT资源、创建统一开发及治理标准,并一站式管控所有相关成本。不只如此,集成所有AI开发的IT资源使用需求,还有机会向云计算服务商协商更低的使用费。

打造超大型AI开发平台的9大关键考量

为了一站式支持超大规模的AI模型开发、执行、运维、管理与治理,Walmart打造Walmart平台时,着眼在9大关键考量。3项开发面考量、5项运维需求以及1项治理目标。

在开发面考量上,首先,此平台须涵盖AI开发完整生命周期,包括从数据汇集整理到模型部署的各个阶段。部署后,还需定期监控模型的公平性和偏差,进行再训练,以避免模型衰退。

第2个考量点是开发工具完整性。Elements支持Python、PySpark、Scala、R和SQL等程序语言,Jupyter、Theia、PyCharm和RStudio等开发环境,TensorFlow、Keras和PyTorch等AI/ML算法和函数库,以及Grafana和RShiny等报告工具。

有了工具,还需要作为AI开发原料的数据。第3个考量点正是数据可用性,平台必须让用户能快速访问数十种数据来源,以支持模型训练和推论工作。

第4到第8项运维类需求,则与大规模运维和可用性有关。第4个考量点是规模,平台需能支持数百万个模型平行执行时,这些模型依然维持高性能。第5到第8点分别是成本管理、运算硬件支持、可用性措施及地理位置。

随着数据量和算法复杂度的增加,平台必须能够保持成本低廉。为了满足大规模运算需求,平台还必须支持多种计算资源,包括CPU、GPU及TPU。

可用性方面,Walmart尤其重视灾难恢复能力,确保平台能在多个地理区域和多个服务提供者之间的备援基础设施上运行,以维持高可用性。

地理位置上,Walmart有横跨不同国家的数万间分店和多个IT研发中心,必须同时考量云计算基础设施以及边缘设施的设置地点,确保不同区域都有高系统可用性、IT资源使用弹性和灾难恢复做法。尤其,需要部署模型在偏远门店时,须追求低功耗、高可用性和低维护需求。

最后一个关键考量点是治理,Walmart希望尽可能用简单且标准化的流程和工具,来管理超大规模AI项目的开发模式、资讯安全和合规性。他们专门制定了一整套AI治理框架,并通过Elements平台来实现此框架的指引。

Walmart AI开发平台的治理框架

AI治理不只是打造Elements平台9大考量的重要一项,更涉及了法遵、道德、企业形象等面向,是Walmart企业治理政策中的重要一环,受到不同部门重视。制定AI与生成式AI治理框架时,Walmart用不同部门的主管及资深人员,组成数据科学治理委员会(Data Science Governance Council),来制定数据及AI相关的道德及负责任指引。

IT及数据团队则以这些指引为基础,在Elements上设计AI治理做法与机制,以强化模型的安全性、透明性及公平性。安全性方面,访问控制机制确保只有经过认证和授权的用户才能访问数据集、模型或笔记本;加密机制会全面加密静态和动态数据,确保数据的完整性与保密性。责任归属机制则记录了所有素材的拥有者,以在事件发生时快速辨认相关负责人员。

为了进一步提升AI模型的可审核性,平台提供了全生命周期的审核功能,确保所有利益相关者能观察模型各个开发阶段的情况。具体做法包括模型性能与健康状的监控仪表板,还有数据飘移及偏差监控机制等,帮助用户即时了解模型的状况,并快速识别出需要再训练的模型。

针对敏感模型,平台设有公平性与偏见监控机制和自动化评估机制,搭配模型可解释性机制,使业务面的相关部门能够更好理解模型的运行原理,增强对AI决策的信任。另外,Walmart还会于开发环境中提供多种模型,让开发者根据模型生成模式,选择任务适合的模型。

随着生成式AI崛起,AI治理的重要性和难度双双提升。正是因为有Elements作为所有AI/ML和生成式AI开发及管理的平台,能一站式进行AI治理,Walmart才有信心,能应用生成式AI到直接面对超大规模消费者的产品,并为AI生成内容负起责任。