在数字化转型加速的今日,企业面临着如何处理遗留大型主机系统的重大挑战。百年金融机构Transamerica成功展示了如何运用AWS Blu Age与生成式AI (Generative AI)技术,将90%的大型主机工作负载在短短14个月内成功转型至AWS上。本文将深入探讨这项转型之旅,从策略选择到实施方法,以及AI技术如何加速整个过程。
面对大型主机系统,企业通常有三种选择:维持现状并继续承担高成本、将应用程序重新平台化,或进行自动化重构。Transamerica作为一家拥有超过一世纪历史的保险、投资和退休解决方案公司,其系统环境庞大而复杂,服务着近1,070万客户。
Transamerica的技术架构工程与AI服务主管Srinivas Upadhyaya指出:“我们的退休解决方案生态系统由超过450个应用程序和业务服务组成,包含约4,000个批次工作流程,其中900个是大型主机批处理。”这些系统支持着公司的401k、403B和IRA等核心产品。
Transamerica的现代化旅程主要受四个策略性优先事项推动:
Transamerica最初尝试了手动重写方法,选择了约10%的工作负载(一个相对独立的养老金支付系统)作为试点。结果却令人失望:
Upadhyaya回忆:“我们原计划在三个月内完成,但最终花了八个月才上线,随后还需要一个月的紧急修复。业务团队被迫将大量时间投入到需求验证和测试中,这严重影响了他们的核心业务职责”。
这一教训使Transamerica意识到,若要采用相同方法处理剩余90%的工作负载,可能需要五年时间—这在业务发展速度要求下是不可接受的。
转向自动化方法后,Transamerica采用了AWS Blu Age,这是一个端到端综合流程而非单纯工具。AWS Blu Age的方法论包含几个关键阶段:
AWS Blu Age首先进行详细的程序代码分析,创建应用程序间的依赖关系图。这一阶段能够:
Upadhyaya强调“校准阶段让我们在三到四周内就能看到工具如何处理我们的大型主机程序代码,了解输入与输出,就像概念验证,非常值得投资”。
校准阶段是AWS Blu Age流程中至关重要的环节,通过分析程序代码子集并实施转换规则,完成100%自动化的目标。相较于传统方法,这一流程显著减少了业务专家参与的需求:
Transamerica技术团队表示,“在校准阶段,我们只需在功能测试、回归测试完成后,邀请业务团队参与用户验收测试 (User Acceptance Testing, UAT),而非在整个过程中持续占用他们的时间。这点对业务连续性至关重要”。
AWS Blu Age自动将应用程序分解为功能模块,每个模块包含:
这种分解使团队能够制定有效的测试策略,并在时间轴上监控各功能的进度。
AWS Blu Age的转换中心采用三步骤方法进行程序代码转换:
AWS Blu Age进行模式到模式的转换,不仅能识别风险注入点,还能计算每个构件的风险矩阵,从而确定需要优先测试的功能。这种方法让Transamerica达到了99.996%的转换准确率。
Upadhyaya赞赏:“我们报告一个问题后,AWS Blu Age团队通常在24小时内就能提供修复方案。考虑到时差,这意味着我们提交问题后,隔天早上起床就能收到解决方案,这真的令人印象深刻”。
在转换过程中,插入特定规则以覆盖Transamerica应用程序的特殊模式,确保转换后的程序代码能完整保留原有业务逻辑。这种方法无需进行冗长的需求重新规格化,大幅降低了转型风险。
Transamerica创建了包含7,000个测试案例的测试组件,涵盖功能、回归和性能测试。这一测试框架成为持续测试的资产,让新功能开发周期从数月缩短至数日:
Transamerica团队表示,“有了自动化测试框架,我们现在可以在短短两天内完成完整的测试周期,这对于业务需求的快速回应至关重要”。
Transamerica拥有900个关键批次工作,处理交易、会计等核心功能,每晚必须按时完成。
在AWS Blu Age的协助下,这些批次工作被转换为Java批次程序,并通过可调用的API进行暴露,实现了更灵活的处理模式:
Upadhyaya解释“我们将批次工作暴露为API后,创建了Python编写的协调层,控制中心通过这一层调用批次工作,这一设计大幅提升了灵活性”。
通过Python协调层,Transamerica实现了批次控制与状态管理的分离,让批次工作变得更加模块化。这些批次工作在无服务器Amazon Elastic Container Service (Amazon ECS) 容器中运行,提供了卓越的扩展性。
转移到AWS后,Transamerica的夜间批处理速度提升了30%:
Upadhyaya分享,“在大型主机环境中,我们的交易文件截止时间是凌晨4:30,经常在凌晨3点或3:30才完成,总是让人神经紧绷。现在,大部分批次在午夜就能完成,为我们提供了充足的缓冲时间”。
这一性能提升归功于:
AWS Blu Age集成了生成式AI功能,进一步加速了现代化流程的多个方面。
生成式AI提供以下功能:
AWS Blu Age团队的Xavier Plot解释“当你面对一个有30万行程序代码的大型批次程序时,生成式AI可以快速提供特定程序代码区块的功能解释,大幅加速了问题诊断过程”。
生成式AI显著改进了测试过程:
这些功能使Transamerica能够以更少的测试达到更高的覆盖率,进一步缩短了测试周期。
其他生成式AI功能包括:
这些功能让团队成员能够专注于真正需要他们专业知识的高价值任务,而非例行性工作。
Transamerica从大型主机迁移到了基于AWS服务的现代三层架构。
转型后的架构包括:
所有服务都运行在无服务器Amazon ECS容器中,这大幅降低了对专门大型主机技能的依赖。
Transamerica选择将Db2数据库从z/OS平台迁移到Amazon Elastic Compute Cloud (Amazon EC2) 上的Linux,保持了数据库技术连续性的同时,实现了平台现代化:
Upadhyaya提到“目前我们仍在EC2上运行Db2,但我们计划在Amazon Relational Database Service (Amazon RDS) 成熟可用时考虑迁移”。
转型过程中,Transamerica实施了增强的安全措施:
这些措施确保了现代化系统比原来的大型主机环境更安全、更具弹性。
测试是Transamerica现代化过程中占比最大的成本项目(超过68%),因此他们采用了创新的测试策略来提高效率。
Transamerica执行了100次平行测试,使用10种不同的数据集,包括税务数据、月度、季度和年终高交易量日等:
Upadhyaya详细说明,“每次平行测试中,我们会用一个数据集在本地和云计算运行批次,然后比较数亿行的输出结果。这种方法让我们能够系统性地识别并解决所有问题”。
在正式切换前,Transamerica进行了三次“模拟切换”:
Upadhyaya表示:“在解决所有问题后,我们对2023年6月9日的最终切换充满信心”。切换后,大型主机的MIPS(每秒百万指令)使用量从峰值11,000 MIPS瞬间降至零,象征着成功完成从大型主机到AWS云计算的转型。
与传统方法不同,Transamerica只在特定阶段邀请业务团队参与:
Transamerica团队分享指,“业务团队非常感谢这种方法,因为他们的参与负担大幅减轻,可以更加专注于核心业务职责”。
完成大型主机现代化为Transamerica带来了显著效益。
转型后,Transamerica能够更快速地回应业务需求:
“现在系统和数据都在云计算,我们实施创业公司新的路径变得更加简单,”Upadhyaya表示。
完成大型主机现代化为Transamerica的AI战略奠定了基础:
Upadhyaya强调“我同时负责Transamerica的AI服务,系统和数据同时位于云计算将使任何未来的AI创新变得更加容易实施”。
预期未来,Transamerica计划持续优化其云计算架构:
Transamerica资讯总监/技术总监Tom评论指:“这不仅仅是技术升级,我们已经现代化了应用程序,使其更安全、更可靠、更可用,为未来创新奠定了基础”。
从Transamerica的旅程中,可总结出以下关键经验与建议:
Upadhyaya总结:“如果有人在我们开始时告诉我这些经验,整个旅程会容易得多”。
通过采用AWS Blu Age与生成式AI技术,Transamerica成功将其大型主机现代化转型时间从预计的五年缩短至仅14个月,同时保持了业务连续性并提升了系统性能。这一案例展示了AWS如何助力企业快速实现遗留系统现代化,为未来数码创新奠定坚实基础。