
Meta上周发布了可同时支持文本与图像生成的CM3Leon模型,这是史上第一个由纯文本语言模型配方所训练的多模态模型,并宣称其图像生成所使用的训练计算资源只要其它方法的1/5,即可达到先进性能。
CM3Leon是个基于Token、检索增强与decoder-only的模型,它采用因果隐蔽混合模态(Causal Masked Mixed-Modal,CM3)架构,代表该模型得以仅关注之前的元素来生成输出串行,确保生成内容的连贯性,且于训练过程中能够忽视或隐蔽某些组件,以生成更好的结果,还可同时处理文本及图像的输入。
Meta强调CM3Leon是个通用模型,通过单一模型即可处理许多不同的任务,像是以文本描述来生成图像,也能以文本描述来编辑图像,或者是要求该模型替图像生成图说等。
例如以文本要求它生成“在撒哈拉沙漠的一株小仙人掌戴上了一顶内嵌霓虹太阳眼镜的草帽”的图像;也能利用文本帮《戴珍珠耳环的少女》戴上墨镜,或是以文本调整天空的颜色;用户还可要求CM3Leon替图像生成图说,以文本描绘图像中的元素。


图片来源_Meta
研究人员表示,CM3Leon仅使用30亿个Token的文本数据进行训练,大幅低于OpenFlamingo的400亿个Token与Flamingo的1,000亿个Token,但它却能在替图像产生图说,以及回答图像问题等两个任务上,达到与OpenFlamingo相当的zero-shot性能等级。此外,它在回答VizWiz数据集中图像问题的表现还胜过Flamingo。
有别于今年5月大方开源集成文本、声音与视觉数据的多模态AI模型ImageBind,此次Meta并未公布是否或何时发布CM3Leon。











