AWS首席执行官Matt Garman在今年度re:Invent 2024技术年会中披露运算新亮点,包括由Nvidia Blackwell GPU驱动的P6系列EC2执行实例、Amazon EC2 Trn2执行实例、Trn2 UltraServer执行实例,都是为生成式AI(GAI)专门设计,可提供更快更有效率的算力。

Matt Garman还透露,AWS正与AI创业公司Anthropic共同开发Project Rainier,也就是由数十万颗Trainium2组成的UltraServer运算集群。他也预告,明年将推出新一代Trainium3自研GAI加速芯片。

专为生成式AI设计的执行实例和下一代GAI加速芯片

在今日主题演讲中,Matt Garman点出,运算、存储、数据库和AI推论,是AWS发展策略的4大重要基石。而就运算来说,AWS每年都有新进展,比如最早推出的EC2执行实例(编按:执行实例是指在云计算环境中执行的虚拟机)、去年年会披露的Nitro系统、后来问世的Graviton4处理器,但,“今日,运算面临的最大问题是AI,特别是生成式AI。”

Matt Garman说明,目前绝大多数的AI应用,都依赖GPU算力,而AWS又是提供执行GPU工作负载的环境。“AWS与Nvidia已合作14年,开发不少算力强大的执行实例,”在这个基础上,Matt Garman今日披露与Nvidia联手开发的P6系列EC2执行实例,采用Nvidia最新Blackwell GPU,将于2025年上市,预计提供比目前GPU执行实例快上2.5倍的运算能力。(如下图)

不只P6,AWS今日也正式推出采用自研AI加速芯片Trainuim2的EC2执行实例:Amazon EC2 Trn2 Instances,专为生成式AI和深度学习设计。这个执行实例的性能,可比目前的GPU EC2执行实例好上3到4成。(如下图)

其中,单一个Trn2执行实例由16个Trainium2芯片组成,由NeuronLink高带宽高速连接,可提供低延迟的20.8 pflops算力,适合用来训练和部署数十亿参数的模型。

但如果AI模型更大,需要更多算力呢?

Matt Garman说,今日披露的Amazon EC2 Trn2 UltraServers执行实例预览版,就能满足大模型训练和部署需求。这个Trn2 UltraServers由4个Trn2执行实例组成,一样以NeuronLink高速连接,搭载64颗Trainium2芯片,可提供83.2 pflops和332.8 pflops的密集与稀疏运算性能。

Matt Garman也披露,AWS联手AI创业公司Anthropic,正共同打造名为Project Rainier的Trainium2 UltraServer运算集群,预计使用数十万颗Trainium2芯片,将提供5倍Anthropic目前用来训练模型的算力。AWS预计,Project Rainier届时将成为世界上最大的AI运算集群。

关于AWS运算基石的更新,还不只如此。

Matt Garman预告,明年AWS将推出新一代自研AI加速芯片Trainium3,专门为GAI设计。“这将是AWS第一款采用3纳米制程节点,将提供比Trainuim2高出2倍的算力,性能还提高40%。”