NVIDIA首席执行官黄仁勋久违15年访韩,上月30日与三星电子董事长李在镕和现代汽车集团董事长郑义宣会面,加深在内存和AI超级工厂(AI Megafactory)的合作。韩国KAIST教授、HBM(高带宽内存)之父Kim Jung-Ho则在Youtube节目上直言,“AI时代的主导权,正从GPU转向内存!”有鉴于内存越来越重要,NVIDIA可能会并购内存公司,如美光(Micron)或者SanDisk。

Kim Jung-Ho表示,由于内存对于AI领域重要性正在不断提升,为了确保在AI领域的领导地位,NVIDIA很可能并购内存公司,例如美光或者SanDisk,而非规模较大的三星或SK海力士。他也开玩笑表示,SanDisk股价最近上涨,部分原因是数据中心对NAND Flash的需求增加,而以SanDisk的规模来说,更适合被收购。

SanDisk在五天内上涨4.3%,来到199.33美元。

事实上,内存瓶颈是未来在AI推论时代下急需解决的问题,国际大厂如何解决这部分瓶颈,也将是相当重要的一环。粉丝专页Richard只谈基本面-Richard's Research Blog也表示,内存在GPU封装内的价值贡献和集成的技术难度越来越高,NVIDIA可能考虑买下或投资一家内存公司的说法,机率应该不是零。

走到AI推论下,如何释放内存瓶颈?

内存需求主要分成HBM、DRAM与SSD。其中,HBM主要存储实时记忆数据,容量约10GB-百GB级,主要是极热数据与即时对话;DRAM作为短期记忆数据,容量约百GB-TB级,主要是热数据与多轮对话;SSD长期记忆数据与外部知识,容量约TB级到PB级,主要是热温数据,如历史对话、RAG知识库、语料库。

(Source:智东西)

当来到AI推论阶段时,会用到一种类似人脑的“注意力机制”,包括记住查询中重要的部分(Key)以及上下文中重要部分(Value),以便回答提示。

如果每处理一个新的Token(新词),模型必须针对先前处理过的所有Token重新计算每个词的重要性(Key与Value),以更新注意力权重,因此大语言模型(LLM)被加入一种称为“KV缓存”(KV Cache)的机制,能将先前的重要资讯(Key与Value)存储在内存中,免去每次重新计算的成本,从而将Token处理与生成速度提升数个数量级。

这也意味着,KV缓存是“AI模型的短期记忆”,它能让模型记住之前的问题中已经处理过的内容,如此一来,每次用户重启之前的讨论或提出新问题时,就不必从头开始重新计算,AI也能随时了解用户说过的、推理过的、提供过的内容,并为这些更长、更深入的讨论提供更快、更缜密的答案。

(首图来源:Kaist)