过去数年GPU资源一直被企业热抢作AI开发。但购买GPU卡预算高昂,实际所需算能也难以凭空估算。AWS为此推出适用于机器学习 (ML) 的EC2容量区块,让客户能够租用GPU算力,以运行其短期ML workload。借助EC2容量块,可以使用二代UltraCluster 3,200G网络,结合EFA技术,以获得最佳网络性能,更可预留高达512个NVIDIA GPU。

AWS的GPU实例预订方式让用户可以选定未来日子所需保留的实例数。EC2容量区块目前最新可用到NVIDIA H200 Tensor Core GPU提供支持的Amazon EC2 P5e实例,最多可提早8星期预留或预留28天使用时长。以下将介绍以不同方法预订容量区块。

在Amazon EC2 Console上选择Capacity Reservation,可以看到两个容量预留选项。选择Purchase Capacity Block for ML,然后选择Get started以开始寻找EC2容量区块。

其次,选择总容量并指定所需要EC2容量块的时间。可以预留以下大小的EC2容量块:1、2、4、8、16、32或64个实例。可预留EC2容量区块的总天数为1到28天。EC2容量块最多可提前8星期预订。以下例子为p5.48xlarge。

EC2容量区块的价格取决于购买EC2容量区块时的总可用供需量,和预订酒店逻辑相似。用户可以调整大小、持续时间或日期范围,以搜索其他EC2容量区块选项。当选择Find Capacity blocks时,AWS将提供指定的日期范围内符合规范的最低价格产品以供选订。

查看EC2容量区块详细资讯、标签和总价格资讯后,选择Purchase。有关总价格是预先收取的,购买后价格不会改变。用户需在确认购买EC2容量区块的12小时内完成付款。

所有EC2容量区块预留均从(UTC+8) 19:30开始。EC2容量块在购买后无法修改或取消。

AWS也提供API形式寻找可供预订的容量区块并进行预订。使用API提供集群要求并发现可供购买的EC2容量块。首先,使用describe-capacity-block-offerings API提供集群要求并发现可供购买的EC2容量区块。

使用上述指令找到可用的EC2容量区块后,就可以使用以下API购买:CapacityBlockOfferingIdpurchase-capacity-block-reservation

想了解更多也可参阅Amazon EC2 API文件。

最后,会看见EC2容量区块现已成功预留。在到达拟订的开始日期,EC2容量区块将态将变成Active。要使用Active的EC2容量块,可点击EC2容量区块的ID。

选择Launch instances,便可以启动EC2实例,并开始运行ML workload。

请注意,当EC2容量区块临近结束,EC2将通过Amazon EventBridge发出预留即将结束的通知,以便对工作负载进行检查点操作。在EC2容量区块中运行的任何实例都会在预留结束前30分钟关闭。用户不会为此时段支付金额。当EC2容量区块过期,任何仍在运行的实例都将被终止。