Apple推开源小语言模型DCLM性能媲美Google、Meta相同规模的模型

Apple投入更多资源到人工智能领域的开发项目，其中开源小语言模型是他们目标之一。而最近Apple就分别推出了两款14亿和69亿参数的DCLM模型。Apple新推出的小语言模型在基准测试中表现比Mistral-7B优胜，性能更与Google和Meta相同规模的模型不相上下。

图片来源：Tom's Guide

图片来源：iThome

第一款模型为69亿参数的DCLM-7B，由2.6兆token的数据训练而成。在多语理解测试MMLU中DCLM-7B与Map-Neo有接近的性能，但计算资源耗损少40%。与私有模型比较，DCLM-7B得分为63.7%，与Mistral-7B-v0.3相同，接近Google Gemma的64.3%，略低于Llama 3-8B的66.2%。然而Apple声称DCLM模型的能耗低6.6倍。第二款模型为14亿参数的DCLM-1B，在Alpaca bench测试中，性能优于Hugging Face的SmolLM。

We have released our DCLM models on huggingface! To our knowledge these are by far the best performing truly open-source models (open data, open weight models, open training code) 1/5

— Vaishaal Shankar (@Vaishaal)July 18, 2024

这个DCML（DataComp for Language Models）项目的团队涉及Apple、华盛顿大学、特拉维夫大学和丰田研究所的研究人员，但相信除了其训练数据外不会成为Apple产品的一部分。Apple机器学习团队的Vaishaal Shanke在X平台上形容DCLM是目前表现最好的真正开源模型，而“真正开源”的意思是指所有模型权重、训练程序代码和数据集都与模型一同公开。

数据源：Tom's Guide、iThome

图片来源：Medium

Apple推开源小语言模型DCLM性能媲美Google、Meta相同规模的模型

微信扫一扫：分享