Liquid AI发布非Transformer的AI模型

去年才成立的Liquid AI周一（9/30）发布了3个Liquid基础模型（Liquid Foundation Models，LFMs），分别是LFM-1.3B、LFM-3.1B及LFM-40.3B。Liquid AI利用非Transformer架构来构建模型，并宣称旗下模型在基准测试上，已超越那些规模相同的Transformer模型。

Liquid AI的4名创办人都来自麻省理工学院（MIT）的计算机科学与人工智能实验室（CSAIL），致力于从第一原则（First principles）出发来创建新一代的基础模型。

目前深度学习与自然语言处理的主流架构为Transformer，它采用自我注意力机制，来捕捉串行中单词之间的关系，而不依赖传统的循环神经网络（RNN）或卷积神经网络（CNN），包括OpenAI GPT，Meta BART，或是Google T5等模型都是基于Transformer。

至于第一代的Liquid AI LFMs则是深受动力系统、信号处理，以及数值线性代数的影响所打造的大型神经网络，且它们是通用的AI模型，能针对特定类型的数据进行建模，涵盖视频、音频、文本、时间串行及信号等。Liquid AI表示，该公司的名字即是在向动态与自适应学习系统的根源致敬。

Liquid AI解释，相较于Transformer架构，LFMs所占用的内存更少，特别是在更大量的输入时。这是因为Transformer模型在处理长输入时，需要保存键值（KV）缓存，且这个缓存会随着串行长度而增加，使得愈长的输入就会让Transformer模型占用更多内存；而LFMs则能有效地压缩输入数据，而降低对硬件资源的要求。因此，在同样的硬件上，LFMs能够处理更长的串行。

在首波发布的3种模型中，LFM-1.3B专为资源高度受限的环境所设计，LFM-3.1B则是针对边缘部署执行了优化，LFM-40.3B属于专家混合（MoE）模型，是替相对复杂的任务所设计，同时Liquid AI也强调，其目标是开发能与现阶段最好的LLM较劲的创新模型。

图片来源／Liquid AI

其中，LFM-1.3B在许多基准测试中击败了1B领域的众多好手，包括苹果的OpenELM、Meta的Llama 3.2、微软的Phi 1.5或是Stability的Stable LM 2，Liquid AI说，这是首次有非GPT架构的模型明显超越Transformer模型。

而LFM-3.1B不仅超越了3B领域的各种Transformer模型、混合模型与RNN模型，甚至超越了前一代的7B与13B模型，不管是Google的Gemma 2，苹果的AFM Edge AFM，Meta的Llama 3.2，微软的Phi-3.5都屈居下风。

LFM-40.3B则强调模型规模与输出品质之间的平衡，尽管拥有400亿个参数，但执行时激活120亿个参数来推论，能媲美比自己还大的模型，此外，其MoE架构能实现更高的吞吐量，也能部署在更具成本效益的硬件上。

现阶段的LFMs擅长一般知识及专业知识，也能处理数学及逻辑推理，并可有效率地处理长文任务，主要支持英文，也支持中文、法文、德文、西班牙文、日文、韩文与阿拉伯文。较不擅长的则有零样本的程序代码任务，精确的数值计算，具时效性的资讯，也无法计算Strawberry这个字中有多少个R，以及尚未部署人类偏好的优化。

Liquid AI发布非Transformer的AI模型

微信扫一扫：分享