Hugging Face公布手机执行的小型语言模型SmolLM2

Hugging Face上周公布可在手机上执行的最新一代语言模型SmolLM2家族。

这是继7月首次问世后，SmolLM家族最新版本，包括参数量135M、360M与1.7B三种规模，其中135M参数模型分成基础及Instruct版，而360M与1.7B参数模型则分成基础、Instruct及GGUF（GPT-Generated Unified Format）版，共11个模型，皆以Apache 2.0授权开源。

135M、360M与1.7B都是以公开数据集和Hugging Face编排的数据集如FineWeb-Edu、DCLM和The Stack，以监督式微调（supervised fine-tuning）方法训练，1.7B版本还多了些数学与程序代码数据集。数据集的量分别为2兆、4兆与11兆字词。Hugging Face还应用直接偏好优化（Direct Preference Optimization，DPO）算法来强化。

三个规模的模型训练的软件架构皆是Transformer decoder，硬件架构而言，其中135M与360M模型执行于64颗H100的服务器，而1.7B版本则为256颗H100的环境。

一如第一代，SmolLM2也是可执行在设备上的轻量级模型，但在指令遵从、知识与理解能力优于第一代。而拜Argilla的数据集如Synth-APIGen-v 0.1之赐，Instruct模型另外还支持改写、重要摘要、与函数调用等任务。

根据Hugging Face的数据，在多项基准测试上，以SomlLM2-1.7B而言，不但优于第一代，也超过参数量更多的Llama-1B-Instruct及阿里巴巴的Qwen2.5-1.5B-Instruct。

虽然能力更提升，但新一代SmolLM还是有些不足。目前SmolLM2模型只能理解和生成英文内容。此外也还存在事实准确性、逻辑一致性以及偏差等问题。Hugging Face建议用户只能用于辅助工具，且应格外小心评估其产出内容。