随着全球人工智能(AI)与高性能计算(HPC)军备竞赛的白热化,网络基础设施的效率与可靠性成为决定性因素。5日宣布发布,针对下一代分布式AI基础架构平台所设计的Jericho 4以太网交换式路由器之网通芯片大厂博通 (Broadcom) 表示,当今以太网(Ethernet)已确立其作为大型网络解决方案的领先地位,超越了过去曾被看好的Infiniband。

博通5日在记者会上表示,过去Infiniband以其敏捷性闻名,但却存在相关的信任问题。相较之下,以太网凭借其最高的效率与可靠性,以及快速的故障恢复能力,成为当前全球网络资讯传输的核心,包括Meta与Amazon两大科技巨头的实践证明了以太网的优越性。

其中,三年前Meta最大的研究项目曾是Infiniband,但如今其超过10万个GPU集群已全面转向以太网。同样地,Amazon的AWS上庞大的GPU集群也完全采用以太网,这清晰的显示了采用以太网是正确的选择,并且是正在发生的趋势。

博通指出,针对以太网的发展趋势与创新突破,陆续推出了Tomahawk 6与Jericho 4两款产品,以应对日益增长的AI运算需求。首先在Tomahawk 6交换机方面,Tomahawk 6的速度比前一代Tomahawk 5提升两倍。它采用台积电先进的3纳米制程所打造,具备100T的变速器。这对于如果要连接同等数量的XPU或GPU的需求,使用50T变速器就需要三层网络。但是采用100T变速器则仅需一层网络。如此,不仅大幅简化了网络结构,减少了电源消耗和光学组件需求。更使得因转换层次的减少、进一步显著降低了延迟,提升了性能。而这些设计,目前正被客户用于构建他们的相关系统。

至于,在Jericho 4以太网交换式路由器方面,因为当今的超大型AI集群需要约200兆瓦的数据中心来容纳。然而,许多地区难以提供如此庞大的单一数据中心。这Jericho 4应运而生就是通过以太网交换式路由器,能够连接多个分散的数据中心,最远可达100公里,使其看起来像一个大型数据中心。

博通强调,Jericho 4也同样采用台积电的3纳米制程,也在用先进的CoWoS-S封装技术,内置超过1,600平方毫米(mm²)的电路,并结合HPMS技术,这使其成为全球最复杂的芯片之一,甚至可能比某些GPU的复杂性更高,其深度发挥的HPMS技术也令人惊叹。

博通强调,网络是实现分布式计算的关键。博通向GPU制造商传达了重要消息,那就是不应将网络与GPU绑定销售。博通认为,如果GPU厂商对其产品有信心,就应该允许市场上最好的网络自由竞争,让最好的网络胜出,同时也让最好的GPU胜出。这种开放竞争的模式,能确保修户拥有更多选择,并通过市场力量推动整个行业的技术创新,而非通过封闭生态来限制竞争。

博通进一步指出,以太网已成为当今高性能网络的首选。博通通过Tomahawk 6和Jericho 4等创新产品,不仅提升了网络的速度和效率,更解决了大型AI集群的扩展性挑战,同时倡导创建一个更为开放、自由竞争的网络生态系统。未来,以太网将继续是连接全球计算资源,实现万物互联的基石。

(首图来源:科技新报)