根据Tom's hardware的报道,内存大厂铠侠 (Kioxia) 正在准备推出一款突破性的“AI固态硬盘 (SSD)”,目的彻底改变AI服务器的存储生态,并显著提升其性能。这款创新的SSD预计将成为AI工作执行的关键推动者,特别是针对大型语言模型 (LLM) 和检索增强生成 (RAG) 系统。

棒导指出,目前现代AI服务器面临的一个主要性能瓶颈是存储与图形处理单元 (GPU) 之间的数据传输效率。由于数据通常需要通过中央处理器 (CPU) 进行传输,这会大幅增加延迟并延长访问时间,进而阻碍GPU核心的满负荷利用。

而Kioxia的“AI SSD”正是为了解决这个核心问题而设计。该公司计划打造一款专门针对最大化输入/输出操作每秒 (IOPS) 而优化的新型控制器,目标是在小区块工作执行下达到1,000万IOPS以上。这项性能指标是当前许多高端数据中心SSD的三倍以上,这些SSD通常在4K和512字节随机读取操作中达到200万到300万IOPS。

为完成此惊人性能,Kioxia的“AI SSD”将采用其单层存储 (SLC) XL-Flash内存。XL-Flash的读取延迟仅为3到5微秒,这与采用传统3D NAND的SSD所提供的40到100微秒读取延迟相比,是显著的提升。此外,通过每单元存储一位元,SLC不仅提供更快的访问时间,也拥有更卓越的耐用度,这些都是要求严苛的AI工作负载所不可或缺的属性。

报道指出,这款“AI SSD”的另一项关键创新是其对GPU与SSD之间点对点通信的优化。这将允许数据直接在GPU和SSD之间传输,完全绕过CPU,从而进一步降低延迟并提升整体性能。这种设计理念对于保持GPU核心始终处于100%利用率至关重要。

在数据区块大小方面,Kioxia的“AI SSD”将特别优化512字节区块的访问。虽然从带宽角度来看,使用4K或更大区块通常更具意义,但大型语言模型 (LLM) 和检索增强生成 (RAG) 系统通常需要对嵌入、参数或知识库条目进行小而随机的访问。在这些场景下,512字节等小型区块更能代表实际应用程序的行为,并且能更好地满足LLM和RAG在延迟方面的需求。

此外,GPU通常在32、64或128字节的缓存行上操作,其内存子系统也针对对许多小而独立内存位置的突发访问进行了优化,以确保所有流媒体处理器都能持续运行。因此,512字节的读取与GPU设计更为契合,这也是Kioxia (以及Nvidia) 计划使用512字节区块的另一个原因。

现阶段尽管Kioxia尚未披露其“AI SSD”将使用何种主机界面,但从带宽角度来看,它似乎不需要PCIe 6.0界面。这款前瞻性产品预计于2026年下半年发布,届时有望为AI服务器带来显著的性能飞跃,进一步推动人工智能技术的发展。

(首图来源:官网)