Hugging Face推出了SmolLM,这是一款全新的紧凑型语言模型系列,在性能方面超越了微软、Meta和阿里巴巴Qwen的同类产品。这些模型在不牺牲性能或隐私的情况下,为个人设备带来了先进的人工智能功能。

SmolLM系列具有三种规模的模型,分别是1.35亿、3.6亿和17亿个参数,目的是为了适应各种计算资源。尽管占用空间小,但这些模型在测试常识推理和世界知识的基准测试中表现出了优异的成绩。

Hugging Face SmolLM首席机器学习工程师卢布娜‧班‧艾拉勒( Loubna Ben Allal)在接受采访时采访时强调了针对性小型模型的性能。“我们并不需要大型基础模型来完成每项任务,就像我们不需要用推土机在墙上钻个洞一样,”她说。“为特定任务设计的小型模型可以完成很多事情。”

最小的模型SmolLM-135M在训练的标记数量更少的情况下,性能超过了Meta的MobileLM-125M。SmolLM-360M超越了所有5亿参数以下的模型,包括Meta和Qwen的产品。旗舰模型SmolLM-1.7B在多项基准测试中击败了微软的Phi-1.5、Meta的MobileLM-1.5B和Qwen2-1.5B。

语言模型在各种基准测试中的性能比较。Hugging Face新推出的SmolLM模型(以粗体显示)始终优于科技巨头的较大型模型,在从常识推理到世界知识的各项任务中展示出卓越的效率。该表突出了紧凑型AI模型与资源密集型模型竞争甚至超越的潜力。图片来源:Hugging Face

Hugging Face的独特之处在于将整个开发过程开源,从数据管理到训练步骤。这种透明度符合该公司对开源价值观和可重复研究的承诺。

这些模型的出色表现得益于精心整理的训练数据。SmolLM创建在Cosmo-Corpus的基础上,其中包括Cosmopedia v2(合成教科书和故事)、Python-Edu(教育性Python样本)和FineWeb-Edu(策划的教育性网络内容)。

“我们通过SmolLM实现的性能表明了数据品质的重要性,”班‧艾拉勒解释道。“我们开发了创新的方法来精心策划高品质的数据,使用网络和合成数据的混合,进而创建了最好的小型模型。”

SmolLM的发布可能会对AI的可及性和隐私产生重大影响。这些模型可以在手机和笔记本等个人设备上运行,无需云计算,进而减少了成本和隐私问题。

Ben Allal强调了可及性方面:“能够在手机和个人计算机上运行小型且高性能的模型,使每个人都可以使用AI。这些模型免费释放了新的可能性,具有完全的隐私和更低的环境足迹,”她在接受采访时表示。

Hugging Face研究团队负责人莱昂德罗‧冯‧维拉(Leandro von Werra)强调了SmolLM的实际意义。“这些紧凑型模型为开发人员和最终用户打开了无限可能的世界,”他说。“从个性化的自动完成功能到解析复杂的用户请求,SmolLM支持自定义AI应用程序,而无需昂贵的GPU或云计算基础设施。这是朝着让AI更易于访问且保护隐私的重要一步。”

SmolLM等强大、高效的小型模型的发展代表了AI的重大转变。通过使先进的AI功能更易于使用且保护隐私,Hugging Face解决了人们对AI环境影响和数据隐私日益增长的担忧。

随着今天SmolLM模型、数据集和训练程序代码的发布,全球AI社交媒体和开发人员现在可以探索、改进和在此创新方法的基础上构建语言模型。正如班‧艾拉勒在接受采访时所说:“我们希望其他人能对此进行改进!”