AWS(Amazon Web Services,亚马逊云计算服务)日前在纽约峰会(AWS Summit New York 2023)宣布Amazon Elastic Compute Cloud(EC2)P5执行实例正式提供客户采用,这是下一代的GPU执行实例,由最新NVIDIA H100 Tensor Core GPU驱动运行,满足云计算客户在执行AI、机器学习、高性能计算对高性能和高扩展性的工作需求。
今年3月AWS与NVIDIA宣布一项多方合作,打造全球最具可扩展性且按需求付费的AI基础设施,以便训练日益复杂的大型语言模型、开发生成式AI的应用程序。当时AWS便预告由H100 GPU驱动的Amazon EC2 P5执行实例,为打造和训练更大规模的机器学习模型提供高达20 exaFLOPS的算力,如今正式提供给客户。
Amazon EC2 P5执行实例提供8个H100 GPU,具有640GB高带宽GPU内存,同时提供第三代AMD EPYC处理器、2TB系统内存以及30TB本地NVMe存储。此外,还提供3200Gbps的聚合网络带宽并支持GPUDirect RDMA,能够绕过CPU进行节点间通信,达到更低延迟和高效横向扩展性能。
适合训练和执行越来越复杂的大型语言模型和计算机视觉模型的Amazon EC2 P5执行实例,可满足密集运算的生成式AI应用需求,包括问答、产生程序代码、产生图片和视频、语音识别等。对于需要高性能计算的客户采用Amazon EC2 P5执行实例,能够更大规模地部署在药物开发、地震分析、天气预报、金融建模等高需求的应用程序。
与上一代以GPU为基础的执行实例相比,Amazon EC2 P5执行实例可将训练时间缩减6倍,换句话说可从几天缩短到几小时的时间,帮助客户节省多达40%的训练成本。
(首图来源:NVIDIA)