据《The Information》报道,NVIDIA新一代Blackwell处理器在高容量服务器机架中被发现有严重的过热问题。这些问题导致设计调整与延期,使Google、 Meta和微软等主要客户对能否按计划部署Blackwell服务器感到担忧。
知情人士透露,Blackwell GPU专为AI和高性能计算(HPC)设计,但在组态72个处理器的服务器中出现过热问题,此类服务器每个机架功耗最高可达120千瓦。过热问题迫使NVIDIA多次修改机架设计,不仅限制了GPU性能,还可能损坏硬件。客户因此担心,这些技术问题会延迟数据中心的处理器部署处理程序。
为应对这一难题,NVIDIA要求供应商调整机架设计,并与合作伙伴一起优化散热系统。尽管这种工程改进是大规模技术发布中的常规步骤,但也进一步推迟了产品交付时间。
据一直致力于解决这一问题的英伟达员工以及了解这一问题的客户和供应商称,这家芯片制造商已多次要求供应商改变机架设计,解决过热问题。《The Information》并未透露供应商的名字。
“英伟达正在与领先云计算服务提供商合作,这是我们工程团队和流程不可或缺的一部分。工程迭代是正常的,也是意料之中的。”英伟达发言人在声明中表示。NVIDIA希望通过这种合作,确保最终产品在性能和可靠性方面达到预期,同时加紧解决技术瓶颈。
修订后的Blackwell GPU于今年10月底才进入量产,预计最快明年1月底出货。Google、Meta、微软等科技巨头依赖NVIDIA GPU训练其最强大的AI模型,其延期对这些客户的研发计划和产品发布造成的影响自然是不可避免。
今年3月,NVIDIA展示了Blackwell芯片,当时曾表示将在第二季度发货。