“通过AI与MLOps,我们自动化处理了6200万份文件,每年为团队节省了相当于70万工时的人力资源。”这是Rocket Mortgage首席执行官在AWS re:Invent 2024分享的成果,展示了人工智能从实验室转变为实际商业价值的震撼力量。

在AI领域,许多企业面临同样的挑战:实验室中表现出色的模型,到了实际应用环境却难以产生预期效益。然而,企业对生成式AI的投资热情依旧高涨,数据显示在不到一年时间内,相关支出从年度700万美元飙升至1,800万美元,增长了2.5倍。

要弥合这种投资与实际回应之间的差距,企业需要两个关键要素:机器学习运营(Machine Learning Operations, MLOps)和基础模型运营(Foundation Model Operations, FMOps)。MLOps是一套结合机器学习、DevOps和数据工程的实践方法,旨在标准化和简化AI系统的整个生命周期,从开发到部署再到监控。而FMOps则是近期随着Claude、Llama等基础模型崛起而发展出的新概念,专注于处理基础模型特有的挑战,包括提示词管理、模型微调和安全防护等方面。

Amazon SageMaker提供的全方位MLOps和FMOps功能,就像一座连接创新与商业价值的桥梁,帮助企业将前沿AI研究成果转化为实际业务优势。

在深入探讨Amazon SageMaker的关键作用之前,我们有必要理解为何AI转型如此具有挑战性。企业在实现AI价值时通常面临几个主要障碍:

在推动AI转型的过程中,企业面临几个主要挑战。首先,当数据科学家们进行大量实验,尝试不同参数组合时,如何有效关注这些实验结果成为一个棘手问题。手动记录在复杂的AI开发环境中几乎不可能实现全面管理,导致宝贵的见解和成功经验被湮没在混乱中。

其次,即使一个AI模型在开发环境中表现优异,将其部署到生产环境仍然是一段充满风险的旅程。环境差异、资源配置不同和数据流变化都可能导致模型在实际应用中的表现与预期大相径庭。

最后,随着AI应用的普及,安全和合规要求变得尤为重要。特别是在金融和医疗等高度监管的行业,如何确保AI模型的安全性和合规性成为关乎项目成败的关键因素。

有一个令人瞩目的案例完美展示了MLOps如何转变企业的AI实践。Rocket Mortgage是美国领先的房贷公司,他们的AI之旅提供了宝贵的经验和启示。

Rocket Mortgage的AI成功之路提供了一个绝佳的案例研究,展示了MLOps的巨大商业价值。他们投资了5年时间和5亿美元打造专有平台“Rocket Logic”,这个贷款发布系统提供从客户开始寻找房屋到贷款发布的端到端能力。他们的MLOps之旅在生成式AI成为热门话题前10年就开始了,如今已经扩展到在生产环境中运行超过200个专有AI模型。

通过实施Amazon SageMaker的MLOps功能,Rocket Mortgage取得了显著的业务效益:开发时间减少了40-60%;成功完成了37亿次自动化AI和数据科学驱动的业务决策;每年处理6200万份文件,其中65%实现自动化;80%的数据点以高度的准确度和精确度自动提取;最令人瞩目的是每年节省70万团队成员工时的惊人成果。

更令人印象深刻的是,他们曾经需要7-8名工程师来管理自托管的MLflow平台,部署过程需要长达8周的时间。如今,通过使用Amazon SageMaker与Amazon SageMaker MLflow,他们只需要一名工程师,而且这名工程师有一半的时间可以用于创新,因为基础设施的管理负担大大减轻。

Rocket Mortgage不仅实现了内部效率的提升,还彻底改变了客户体验。他们开发了名为Rocket Assist的专有聊天机器人,80%的客户表示喜欢这种聊天体验,并实现了比传统互动高3倍的转化率。对于内部员工,他们开发了Rocket Navigator,使团队成员能够运用最新的生成式AI技术。启动后的第一个月就记录了18,000次互动,使运营团队成员在一年内能够比前一年多帮助31%的客户,银行团队能够支持比前一年多15%的客户。

Rocket Mortgage的成功并非偶然,而是基于Amazon SageMaker提供的一系列强大MLOps功能。这些工具共同构成了一个全面的框架,帮助企业从实验到部署再到监控,管理其AI系统的整个生命周期。

实验关注是MLOps的基础。随着模型规模增大和复杂度提高,实验的数量也随之激增,手动关注变得不切实际。Amazon SageMaker MLflow提供了一个受管理的MLflow环境,让企业无需承担基础设施管理的负担。只需简单几步,企业就可以启动一个预先配置好的MLflow关注服务器,轻松集成到SageMaker Studio笔记本、训练工作或本地集成开发环境(Integrated Development Environment, IDE)中。这种集成使企业能够在AI开发过程中轻松关注各种指标和参数,如使用的模型、评估指标、微调参数等。这些资讯对于实验的可重复性和可追溯性至关重要,使团队能够识别最佳实践并在不同项目中复用成功经验。

AI模型开发涉及多个复杂步骤的协调,特别是在基础模型微调这类任务中。Amazon SageMaker Pipelines提供了一个无服务器的工作流编排服务,实现端到端的模型开发渠道。它支持通过图形化界面或程序代码软件开发组件(Software Development Kit, SDK)创建渠道。对于已经在笔记本中开发的程序代码,可以使用简单的装饰器将其转换为渠道步骤,大大减少了转换工作的负担。渠道的一个重要特性是增量执行能力 — 如果某些步骤之前已经成功执行过,这些步骤会被智能跳过,从而减少冗余并加快渠道的执行速度。这对于AI的迭代开发特别有价值,可以节省大量时间和计算资源。此外,它还与Amazon EventBridge集成,实现自动化调度执行。例如,当新数据到达Amazon Simple Storage Service (Amazon S3) 时,可以自动触发模型重新训练或微调工作。

将模型从开发环境推进到测试和生产环境是AI工作流程中的关键步骤。Amazon SageMaker Model Registry提供了一个集中的模型目录,作为企业所有模型的单一真实来源。模型注册表自动从训练工作和评估结果中捕获资讯,使企业能够更轻松地关注模型的谱系和性能。这些资讯对于合规性和审计极为重要,尤其是在金融和医疗保健等严格监管的行业。对于拥有多个AWS账户的企业,它还提供了跨账户的集中模型注册表功能,确保同一个模型在不同环境中的一致性和可关注性。

随着像Claude、Llama和Falcon这样的基础模型(Foundation Models)的崛起,传统的MLOps概念也在进化。基础模型操作(Foundation Model Operations, FMOps)专注于管理基础模型特有的多种挑战。

与传统ML模型不同,基础模型可以通过提示词(Prompts)来修改其行为。FMOps包括有效管理和优化这些提示词,以确保模型输出符合企业需求。这是基础模型特有的定制化方式,需要全新的管理方法和工具。

基础模型微调也涉及许多独特考量,包括参数有效微调(Parameter-Efficient Fine-Tuning, PEFT)等技术,以及如何在有限数据集上实现最佳结果。Amazon SageMaker为这些微调工作提供了专门的基础设施和工具,帮助企业平衡模型能力与计算成本。

安全防护在基础模型时代变得尤为重要。Amazon Bedrock Guardrails提供了一种简单方式来过滤有害内容、拒绝某些主题,或限制个人资讯的泄露。企业也可以利用Llama Guard等开源模型作为前置过滤器,创建双重防护机制,确保模型输出可靠与合规。

基础模型部署可能成本高昂,这促使企业寻找创新的降低成本方案。Amazon SageMaker推理端点原生支持多适配器推理,企业可以注册多个适配器(如为不同部门各自准备一个适配器),并将它们与一个共享的基础模型一起部署,大幅降低成本。这种方法使企业可以为不同业务需求提供量身定制的AI功能,同时避免昂贵的重复部署。

对于想要踏上类似Rocket Mortgage成功之路的企业,基于AWS最佳实践的建议如下:

首先,在投资MLOps之前,清晰定义您希望AI为业务带来的具体价值。是加速流程?提升客户体验?还是降低成本?这些明确的商业目标将引导您的MLOps战略,确保技术投资能够带来实际回应。

其次,采用逐步实施的方法。不要试图一次实现完整的MLOps渠道,这种尝试往往会导致复杂度难以管理,甚至失败。从一个小型但重要的AI用例开始,创建基本的MLOps实践,然后随着成功和学习逐步扩展。Rocket Mortgage的成功正是创建在多年逐步发展的基础上。

投资于团队技能培养也至关重要。MLOps不仅仅是工具和技术,还涉及团队文化和技能。确保您的数据科学家、工程师和业务利益相关者都理解MLOps的价值和最佳实践。跨职能合作对于成功实施MLOps至关重要。

同时,在设计MLOps流程时,要平衡自动化与人工监督。虽然自动化是MLOps的核心,但人工监督仍然至关重要,特别是在涉及客户互动或关键业务决策的AI应用中。设计您的流程,使人类专家能够在关键点进行审查和干预,这对于创建对AI系统的信任至关重要。

最后,创建全面的评估框架。确保您有明确的指标来衡量AI模型的性能和商业影响。这些指标应该直接与您的业务目标相关联,并能够随着时间的推移进行关注和比较。没有测量,就没有改进,而对于AI系统,持续改进是实现长期价值的关键。

企业对AI的投资正在快速增长,但将这些投资转化为实际业务价值需要有效的MLOps实践。Amazon SageMaker提供了一套全面的MLOps功能,从实验关注到模型部署再到持续监控,帮助企业创建一条从实验室到生产环境的可靠信道。

Rocket Mortgage的成功故事凸显了MLOps的变革潜力。通过投资于适当的工具和流程,他们不仅提高了内部效率,每年节省70万团队成员工时,还彻底改变了客户体验,实现了更高的满意度和转化率。

在基础模型时代,MLOps正在演进为FMOps,带来一系列新的挑战和机遇。通过采用Amazon SageMaker提供的最新工具和最佳实践,企业可以自信地驾驭AI革命,将创新转化为实际的商业价值。

MLOps不只是一套技术工具,更是连接AI潜力与业务成果的关键桥梁。那些能够掌握这座桥梁的企业,将在AI驱动的未来中取得显著优势。