AI资源平台Hugging Face上周公布SmolVLM二款新多模态模型,SmolVLM-256M及SmolVLM-500M,前者号称是全球最小的多模态及影词组言模型(video language model,VML)。
Hugging Face团队去年训练2款80B参数的VLM,再缩成8B模型,然后缩小成SmolVLM 2B模型。然后他们决定再进一步缩小,着重效率、混合数据以及在不同需求间取得折中。成果是强大但体积极小的多模态模型,包括SmolVLM 256M与SmolVLM 500M,各有基础模型和指令微调模型。这些模型可以直接加载到transformer MLX和ONNX上。
作为SmolVLM家族的新成员,256M及500M都是使用SigLIP为图片编码器,以SmolLM2为文本编码器。他们在多项基准测试超越一年半前才发布的Idefics 80B模型。其中256M是最小型的VLM及多模态模型,它能接受任何串行的图片和文本,生成文本输出。SmolVLM能胜任多种多模态任务,包括生成图片描述或短视频字幕、PDF或扫描文件问答,以及回答关于图表的问题。轻巧架构的架构让它适合移动设备上应用,同时维持强大性能。它以不到1GB的GPU RAM就能在单一图片上执行推论。
图片来源/Hugging Face
需要更高性能的组织可以选择SmolVLM-500M模型。500M在文件理解DocVQA和多模态推理基准测试MMMU的表现不输之前的2B。这模型对提示回应能力更佳,适用部署于组织运营环境。500M模型也是相当轻巧高效的模型,在单一图片上推论仅需1.23GB的GPU RAM。二款模型微调后表现更佳。
两款模型都是以Apache 2.0授权开源。研究团队提供了transformer和WebGU二种示范。所有模型和示范都公布于此。