去年才成立的Liquid AI周一(9/30)发布了3个Liquid基础模型(Liquid Foundation Models,LFMs),分别是LFM-1.3B、LFM-3.1B及LFM-40.3B。Liquid AI利用非Transformer架构来构建模型,并宣称旗下模型在基准测试上,已超越那些规模相同的Transformer模型。
Liquid AI的4名创办人都来自麻省理工学院(MIT)的计算机科学与人工智能实验室(CSAIL),致力于从第一原则(First principles)出发来创建新一代的基础模型。
目前深度学习与自然语言处理的主流架构为Transformer,它采用自我注意力机制,来捕捉串行中单词之间的关系,而不依赖传统的循环神经网络(RNN)或卷积神经网络(CNN),包括OpenAI GPT,Meta BART,或是Google T5等模型都是基于Transformer。
至于第一代的Liquid AI LFMs则是深受动力系统、信号处理,以及数值线性代数的影响所打造的大型神经网络,且它们是通用的AI模型,能针对特定类型的数据进行建模,涵盖视频、音频、文本、时间串行及信号等。Liquid AI表示,该公司的名字即是在向动态与自适应学习系统的根源致敬。
Liquid AI解释,相较于Transformer架构,LFMs所占用的内存更少,特别是在更大量的输入时。这是因为Transformer模型在处理长输入时,需要保存键值(KV)缓存,且这个缓存会随着串行长度而增加,使得愈长的输入就会让Transformer模型占用更多内存;而LFMs则能有效地压缩输入数据,而降低对硬件资源的要求。因此,在同样的硬件上,LFMs能够处理更长的串行。
在首波发布的3种模型中,LFM-1.3B专为资源高度受限的环境所设计,LFM-3.1B则是针对边缘部署执行了优化,LFM-40.3B属于专家混合(MoE)模型,是替相对复杂的任务所设计,同时Liquid AI也强调,其目标是开发能与现阶段最好的LLM较劲的创新模型。
图片来源/Liquid AI
其中,LFM-1.3B在许多基准测试中击败了1B领域的众多好手,包括苹果的OpenELM、Meta的Llama 3.2、微软的Phi 1.5或是Stability的Stable LM 2,Liquid AI说,这是首次有非GPT架构的模型明显超越Transformer模型。
而LFM-3.1B不仅超越了3B领域的各种Transformer模型、混合模型与RNN模型,甚至超越了前一代的7B与13B模型,不管是Google的Gemma 2,苹果的AFM Edge AFM,Meta的Llama 3.2,微软的Phi-3.5都屈居下风。
LFM-40.3B则强调模型规模与输出品质之间的平衡,尽管拥有400亿个参数,但执行时激活120亿个参数来推论,能媲美比自己还大的模型,此外,其MoE架构能实现更高的吞吐量,也能部署在更具成本效益的硬件上。
现阶段的LFMs擅长一般知识及专业知识,也能处理数学及逻辑推理,并可有效率地处理长文任务,主要支持英文,也支持中文、法文、德文、西班牙文、日文、韩文与阿拉伯文。较不擅长的则有零样本的程序代码任务,精确的数值计算,具时效性的资讯,也无法计算Strawberry这个字中有多少个R,以及尚未部署人类偏好的优化。