2025年OCP高峰会(2025 OCP Global Summit)于美国时间13日在美国加州圣荷西正式展开,聚焦AI数据中心的开放架构、可持续发展设计与高效运算。在首日主题演讲中,AMD首席技术官暨执行副总裁Mark Papermaster不断重申开放生态系的重要性,AI发展相当快速,“协作”不只是成功要素,更是根本条件,并强调历史证明最终总是开放生态系胜出。
Papermaster以“一个完全开放且协作的人工智能生态系统”(A Fully Open and Collaborative AI Ecosystem)为题,表示AI无所不在,渗透到各个产业并改变整个工作流程与运行过程。在大型语言模型推动下,庞大的运算需求推升GPU的快速消耗,而随着Token数量与上下文长度(context size) 的爆炸性增长,也推升对CPU需求,AMD也看到更多专用加速器(specialized accelerators) 的出现。
根据AMD观察,各国主权AI数据中心及企业级数据中心对Gigawatt等级规模的数据中心都有不同需求,涉及的资本支出也相当庞大,而AMD现在聚焦的是如何让整个系统的总持有成本(TCO)达到最好。
首先,散热和能源在设计中相当关键,开放软件则确保可携性、透明性与长期的弹性,这些优势必须与“专有技术堆栈”(proprietary stacks)之间取得平衡。
接着,Papermaster谈到“开放”,认为推动产业变革的推手,与开放式协作(open collaboration)脱离不了关系,不管是Linux、TCP/IP与HTTP、开放网页技术都推动现代软件、网络和浏览器的蓬勃发展。也因此,下一个关键潮流AI也需要开放生态系,这也是OCP(Open Compute Project) 发挥关键之处。
全面开放ROCm与互联技术,AMD宣布加入ESUN联盟AMD开放AI软件堆栈ROCm及开放互联技术如UCIe(通用芯片互联界面)、CXL(扩展界面)、UA Link(用于Scale up)、还有UEC(用于Scale Out),都推动AI生态系的高速且可持续发展扩张。
Papermaster表示,AMD今年重点放在全面开放ROCm,打造一个充满活力的开发者生态系,也加快软件发布节奏,强化对整个生态的支持,并提供开发者完整AI开发平台。

至于机柜级(rack-scale)系统部分,Papermaster表示AMD致力于制定开放标准,首先在Scale-out部分,为产业提供更多扩展选择,强化以太网络在拥塞管理(congestion management)、封包分流(packet spraying)等挑战。而AMD身为UEC创始成员,也专注于解决HPC与AI网络扩展需求。

在Scale-Up部分,AMD同样是UA Link创始成员,目前已经开放核心互联架构“Infinity Fabric”,帮助UA Link联盟在产业中迅速增长。同时,AMD也宣布加入ESUN(Ethernet for Scale-Up Networks)联盟,目标是运用公用的以太网络,同时支持多种运行于其上的传输协议。
Papermaster指出,ESUN将提供一个共同抽象层(common abstraction point),让不同系统设计者能依需求,在使用公用以太网基础的同时,选择最合适的传输协议,使整个以太网生态系变得更具韧性、更多样化。
针对AMD自身Scale-Up部署方案,可通过原生UA Link针对“GPU-GPU直连”(direct GPU-to-GPU) 优化,支持相关UA Link的交换机(switch)也正开发中;AMD也有在以太网上实例UA Link标准的应用,目前已可通过现有的交换机基础设施来支持。
通过OCP、DC-MHS、UA Link等开放标准,也造就了AMD Helios机架的模块化与互通性。

Papermaster表示,如果抽出其中一个模块单位,可看到里面有许多的开放标准,如EPYC CPU通过PCIe 6.0连接周边设备;CXL扩展界面;通过Infinity Fabric实现CPU与GPU间的直连传输;GPU之间使用UA Link连接;Scale-Up通过UA Link over Ethernet实现;管理模块采用DC-SCM(硬件系统模块化的一部分)。

最后,Papermaster认为两件事情对用户社交媒体有重大意义,第一个是“机密运算”(Confidential Computing),机密变得更重要,因为企业微调模型时,会使用多年累积的关键数据,因此训练后的模型、权重以及原始数据都必须受到严密保护。机密运算能确保安全性,并创建客户在执行最关键应用程序时的信任与信心。
第二个是x86的重要性,去年AMD宣布成立“x86生态咨询小组”(x86EcosystemAdvisory Group),并携手英特尔,提高x86平台开发通用性、简化软件开发等工作。Papermaster表示,通过与云计算巨头、OEM厂商以及操作系统领导者合作,AMD推动在中断模型结构(interrupt model structures)上的一致性,在指令集架构(ISA)扩展也完成共识,并强化内存安全等新功能。
Papermaster表示,近期NVIDIA与英特尔的合作声明,更突显x86架构庞大的安装基础与这个生态系的健康活力,也对于x86生态咨询小组的存在感到振奋。
(首图来源:AMD)