有鉴于目前GPU资源的稀缺性,AWS新推出Amazon EC2容量区块(Capacity Blocks)功能,这是一项适用于机器学习模型开发的EC2使用模型,用户可以在EC2 UltraCluster特殊集群中预留需要的Nvidia GPU资源,借由指定集群大小、开始时间和持续时间,便能够以可预测的方式访问GPU资源。
全世界掀起一阵人工智能应用热潮,不少组织开始开发机器学习模型,而AWS提到,企业对在机器学习模型的GPU容量需求,已经超过全产业的供应量,使得GPU成为稀缺资源。而这对于需要大量GPU资源,用以训练基础模型和大型语言模型的用户来说,是一项需要解决的问题。
面对这样的问题,企业可能会需要长期购买大量的GPU容量,确保在需要的时刻,有足够GPU计算资源可以使用,但是这可能造成资源浪费,导致在未使用时出现GPU资源闲置。因此AWS现在推出EC2容量区块模式,来解决GPU资源抢夺的问题,这是一种安排GPU执行实例的新方法,用户可以在指定时间内保留所需要的执行实例数量。
用户可以提前8周指定日期,访问预留的EC2容量区块并启动P5执行实例,持续时间可为1到14天,集群大小为1到64个执行实例,并且只需要支付所需要的GPU时间费用。而当EC2容量区块持续时间结束后,任何执行中的执行实例都会被终止。
这项新功能在用户需要容量保证,以训练和微调机器学习模型、执行实验,或是计划性地增加机器学习应用程序需求时特别有用。用户可以从AWS控制台、命令行接口和开发工具包预留可用的容量区块,目前可以先在AWS美东地区,预留搭载Nvidia H100 Tensor Core GPU的EC2 P5执行实例,官方计划之后也会在其他地区推出该项功能。