随着人工智能(AI)工作执行的爆炸性增长,传统数据中心架构的核心支柱─集群形态的横向扩展(Scale-Out)模式,正受到严峻挑战,甚至可能遭到终结。市场分析师Christopher Tozzi专文报告指出,数据中心架构必须重新思考其策略,并拥抱更智能、网络驱动的方法,才能满足未来AI时代的需求。
传统扩展模式的故障
报告指出,数十年来,数据中心架构一直依赖简单的策略来应对不断增长的工作需求,那就是通过以集群的方式增加服务器来扩展基础设施,以提升运算、内存和存储容量。即使相关云计算运营商没有明确确认,但这种横向扩展方法在数据中心设计中始终占据主导地位。通过增加服务器机架数量以利用既有数据中心空间,或是升级硬件以提供更高的容量。只要电力和冷却容量足够,企业就能按需求扩展其基础设施。
然而,现代AI应用程序对传统模式构成了重大挑战。AI工作执行要求以极高的速度来访问大量数据,这成为当前最迫切的问题。单纯增加更多服务器或基础设施并不能一直满足这种需求。数据中心内部可能出现网络瓶颈,或个别设备的I/O速率缓慢,进一步阻碍了数据的快速移动。因此,报告指出,数据中心扩展性的主要限制已不再仅是总运算、内存和存储容量。相反,它已转变为工作执行访问和使用这些资源的速度和效率。
网络为核心的AI时代新扩展策略
虽然,集群形式的横向扩展架构在一定程度上仍具有相关性,且增加基础设施仍会继续发挥作用。但数据中心架构师必须超越传统策略,应对AI带来的独特挑战。尤其,未来的数据中心扩展性不仅涉及增加服务器数量或容量,还必须在网络层级进行扩展。
报告表示,历史上数据中心架构设计人员可以完成网络设备可靠的将数据发送到目的地。但是,面对AI工作执行需要近乎瞬时移动数兆字节数据的需求,这种做法已经过时,网络现在必须成为可扩展性工作的核心焦点。因此,设计人员必须依赖新的创新:
- 优化网络结构,重新设计网络布局,从网络层级将瓶颈最小化,确保数据的高效率流动。
- 设计智能机架,增强机架配置,以优化机架内个别服务器之间的数据移动,进一步降低延迟并提升性能。
- 部署如数据处理单元(DPU)等技术,以加速设施内的数据移动,并缓解网络拥塞。
- 实施先进的互联技术,特别针对跨地理分布设施的工作负载,促进多个数据中心之间更快的数据传输。
如此借由传统的集群形式横向扩展方法与现代网络创新相结合,数据中心才能真正满足AI及其他新兴技术的需求。
芯片战争与巨额投资仍将继续
报告还强调,在数据中心设计架构转型的同时,提供数据中心设备与技术的产业也在迅速演变。其中,在芯片领域,AMD与OpenAI先前完成了一项大规模的GPU交易,这使得AMD在AI芯片竞争中取得了重大突破。有分析指出,AI芯片战争已死,系统战争万岁。
同时,为缓解AI运算短缺问题,微软正投注330亿美元于Neoclouds计划中,但是,这些数据中心的繁荣发展也带来潜在风险。例如Ares的deVeer就警告,目前的热潮可能导致过度建设的风险。此外,业界对环境可持续性的关注持续升温,探讨数据中心如何在建设与设计过程中,达到供电平衡与同时保护生物多样性的讨论。总结来说,随着数据中心从单纯追求容量扩展,转向对数据移动效率的极致追求,网络已成为未来AI驱动型数据中心成功的关键。
(首图来源:pixabay)