开发灵感来自儿童读物，微软发布Phi-3系列新模型

微软研究人员试图弄清楚如何将更多功能塞进规模较小的模型，他们最终找出一种创新的训练方法，灵感竟然来自儿童读物，新模型Phi-3系列因此诞生。

相较于GPT-4等大型语言模型（large language model，LLM），微软新发布的Phi-3-mini（38亿参数）以更小的数据集进行训练，具4K token和128K token两种上下文长度，目前已在Microsoft Azure、Hugging Face、Ollama上对外提供。微软还计划未来几周内推出Phi-3-small（70亿参数）和Phi-3-medium（140亿参数）两种版本。

微软AI平台公司副总裁Eric Boyd告诉国外媒体The Verge，Phi-3-mini功能与GPT-3.5一样，“只是规模更小”，他强调。

研究人员通过所谓“课程”对Phi-3进行训练，他们的灵感来自于孩子们如何从睡前故事、用字更简单的书籍或者谈论更大主题的句子结构加以学习。

Eric Boyd补充说，Phi-3是创建在先前模型迭代所学到的知识上。相较Phi-1专注编辑程序，Phi-2开始学习推论，到了Phi-3更加擅长编辑程序和推论。虽然Phi-3系列了解一些常识，但在广度上无法击败GPT-4或其他大型语言模型。

微软Phi-3与其他类似规模的模型进行比较。（Source：微软）

与大型语言模型相比，小型语言模型（small language model，SLM）通常成本更低，在手机和笔记本等个人设备上表现更好。另一媒体《The Information》稍早曾报道，微软创建一支专注于轻量级AI模型的团队；不只Phi系列，微软还开发一个专门解决数学问题的Orca-Math模型。

微软的竞争对手同样自行研发小型语言模型，大多数针对简单的任务，例如文件摘要或作为编辑程序代码的辅助功能。其中，Google开源的Gemma 2B（20亿参数）和Gemma 7B（70亿参数）适合简单的聊天机器人和语言相关服务。Anthropic的Claude 3 Haiku可阅读带有图表的研究论文并快速摘要内容，而Meta新发布的Llama 3 8B（80亿参数）可辅助聊天机器人和编码的功能。

（首图来源：shutterstock）

开发灵感来自儿童读物，微软发布Phi-3系列新模型

微信扫一扫：分享