H100 GPU驱动运算，AWS最新P5执行实例供云计算客户采用

AWS（Amazon Web Services，亚马逊云计算服务）日前在纽约峰会（AWS Summit New York 2023）宣布Amazon Elastic Compute Cloud（EC2）P5执行实例正式提供客户采用，这是下一代的GPU执行实例，由最新NVIDIA H100 Tensor Core GPU驱动运行，满足云计算客户在执行AI、机器学习、高性能计算对高性能和高扩展性的工作需求。

今年3月AWS与NVIDIA宣布一项多方合作，打造全球最具可扩展性且按需求付费的AI基础设施，以便训练日益复杂的大型语言模型、开发生成式AI的应用程序。当时AWS便预告由H100 GPU驱动的Amazon EC2 P5执行实例，为打造和训练更大规模的机器学习模型提供高达20 exaFLOPS的算力，如今正式提供给客户。

Amazon EC2 P5执行实例提供8个H100 GPU，具有640GB高带宽GPU内存，同时提供第三代AMD EPYC处理器、2TB系统内存以及30TB本地NVMe存储。此外，还提供3200Gbps的聚合网络带宽并支持GPUDirect RDMA，能够绕过CPU进行节点间通信，达到更低延迟和高效横向扩展性能。

适合训练和执行越来越复杂的大型语言模型和计算机视觉模型的Amazon EC2 P5执行实例，可满足密集运算的生成式AI应用需求，包括问答、产生程序代码、产生图片和视频、语音识别等。对于需要高性能计算的客户采用Amazon EC2 P5执行实例，能够更大规模地部署在药物开发、地震分析、天气预报、金融建模等高需求的应用程序。

与上一代以GPU为基础的执行实例相比，Amazon EC2 P5执行实例可将训练时间缩减6倍，换句话说可从几天缩短到几小时的时间，帮助客户节省多达40%的训练成本。

（首图来源：NVIDIA）