Amazon发布Trainium3芯片与Trainium3 UltraServers

Amazon于本周举行的年度技术大会re:Invent 2025上，发布了全新的AWS Trainium3芯片及Trainium3 UltraServers服务器，前者为AWS的第四代AI专用芯片，后者则是采用Trainium3芯片的高性能AI服务器。此外，Amazon也披露下一代的Trainium4将可集成GPU。

AWS Trainium是AWS专为AI训练及推论所构建的AI芯片系列，旨在于提供高性能的同时降低成本。新版的Trainium3采用3纳米制程，搭载HBM3e高带宽内存，内存带宽接近前一代的4倍，芯片的互联采用自家的NeuronLink-v4，能源效率改善了40%。

而Trainium3 UltraServers每台服务器最多可安装144颗Trainium3芯片，前一代的Trainium2 UltraServers最多只能安装64颗Trainium2芯片，所以新款运算能力最多可达362 petaflops，高于Trainium2 UltraServers的83.2 petaflops。

此外，Trainium3 UltraServers采用AWS全新的NeuronSwitch-v1交换机，并通过NeuronLink-v4打造全互联架构，使服务器内每颗Trainium3芯片之间都能以每秒2TB的高速互联带宽进行数据交换。

这使得Trainium3 UltraServers最高可提供4.4倍的性能、3.9倍的内存带宽，以及超过4倍的每瓦特性能，可替训练及部署前沿级模型提供最高的价格性能，包括强化学习、混合专家模型、推理型架构与长脉络模型等。

Amazon表示，包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh与Splash Music等客户，都通过Trainium将训练与推论成本降低最多50%。此外，专注于即时生成视频的以色列AI创业公司Decart使用Trainium3进行即时生成视频，显示其推论速度比GPU快4倍，但成本只有GPU的一半，让原本需要大量GPU的视频生成模型可大规模部署与即时互动。

不过，这是因为Decart的即时视频生成属高吞吐量的推论工作负载，瓶颈在影格与数据的同时处理能力与内存带宽，而非纯算力。Trainium在FP8推论、内存带宽与并行优化上优于GPU，加上实例费率较低，使视频推论速度可达GPU的4倍、执行时间缩短，整体成本因此只有GPU的一半。

Amazon也宣布，下一代Trainium4将支持Nvidia的NVLink Fusion高速互联技术，让Trainium4、AWS自行开发的Graviton CPU，以及AWS的高性能网络界面EFA，能与GPU在同一个MGX机架中协同运行，提供同时支持GPU与Trainium的高性能、具成本效益的机架级AI基础设施。

Amazon发布Trainium3芯片与Trainium3 UltraServers

微信扫一扫：分享