“未来AI不会由任何一家企业或是封闭生态系统所构建,而是由开放合作、跨产业来塑造AI的发展,因为人人都可以带来最好的想法,一起共同创新”,AMD首席执行官苏姿丰在美国举办的AMD全球发布活动中总结说。
这个想法呼应今年AMD全球发布活动的口号Together we advance,也体现苏姿丰提出AMD对AI的3大策略,除了提供广泛运算产品,让合适的计算资源和合适的模型、应用配对,以及提供完整的方案之外,更重要的是大力投资构建一个开放性、开发者优先的生态系,“真正支持每一个主流框架、每个函数库,以开放标准让产业凝聚在一起,让每个人都能为AI创新提供贡献”。
开放生态系在AMD的人工智能愿景中扮演核心的关键角色,AMD也在发布活动中,多次提及开放标准的重要性,以和竞争对手创建区隔。
该公司的策略是提供开放标准的硬件、软件,例如此次新发布的数据中心AI加速器AMD Instinct MI350系列,该数据中心GPU除了支持更大的HBM内存及提升内存带宽,增加AI运算性能之外,支持业界的GPU节点标准UBB8,展示搭载MI350系列的AI Rack设计,以创建大规模的AI基础建设。
在创建生态系方面,AMD一直积极地向AI开发社交媒体招手,呼应苏姿丰提到的3大AI策略,以开发者优先的策略,AMD开源软件堆栈ROCm经营开发社交媒体下已获得一些进展,通过持续优化开发工具、SDK组件,例如调试、微调工具,也和GitHub、Hugging Face开发社交媒体平台强化与开发社交媒体平台的合作关系,让平台上的模型更容易开发及部署。以Hugging Face为例,目前已有超过180万的模型支持AMD平台。
针对比较热门的AI模型,鉴于这些模型快速的更新发展,AMD强调在Day 0就与模型企业合作,强化AMD各种运算产品对最新模型的支持,推动Llama、Mistral等模型在AMD平台的优化,不断改善模型训练、推论在AMD平台的性能。
模型推论及训练性能加强的ROCm 7
在今年美国发布活动中推出ROCm 7,支持最新发布的MI350系列GPU,强调新的ROCm 7有更好的推论能力,相较于前代的ROCm 6,AMD比较新旧的软件推叠在DeepSeek R1、Llama 3.1 70B及Qwen-2 72B三个模型的推论性能表现,ROCm7比ROCm6有平均3.5倍的推论性能提升。
AMD也不忘秀出与开发社交媒体深化合作的成果,以执行DeepSeek R1为例,在FP 8的性能测试下,AMD的MI355X在ROCm 7加持下,较Nvidia GB200高出1.3倍的性能。
此外,ROCm 7与ROCm 6在模型训练性能表现上,在Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B三个模型,ROCm7较ROCm 6的训练平均性能提升3倍。
ROCm也加强对Linux开发社交媒体的支持,包括Red Hat EPEL、Ubuntu、OpenSUSE的支持,陆续会在今年完成。此外,过去缺乏Pytorch在Windows的开发环境支持,也有望在今年下半年完整支持Pytorch在Windows环境的开发。
呼应开发者优先的策略,AMD也发布Developer Cloud,提供开发工具、ROCm 7,让开发社交媒体能在一定的资源限制下,免费访问使用AMD Instinct 300系列GPU的资源。
与红帽联手强化企业AI的高性能推论部署
针对企业需要的数据安全集成、容易部署,AMD强化ROCm for Enterprise AI,强调让企业易于部署AI,ROCm for Enterprise AI以ROCm 7对数据中心CPU、GPU、DPU基础资源,灵活弹性调度低层的集群资源,支持Kubernetes及Slurm的集成,加强对上层的AI工作负载的管理,并进一步支持MLOps。
在企业的AI应用部署方面,AMD已与红帽合作,包括在VLM对开源模型推论部署的提高性能,强化对AMD旗下运算加速产品的支持,还有以VLM为基础的LLMD(Large Language Model Distributed inference framework),加强对大语言模型推论的分散架构支持,进一步支持在混合云环境的企业AI推论部署。
OpenShift AI简化企业AI推论部署,其中对于CPU及GPU的支持相当重要,双方合作让OpenShift AI支持AMD最新的Instinct系列GPU,确保企业能以弹性且易于部署的方式部署高性能AI推论。