人工智能创业公司Mistral AI以Apache 2.0授权开源Mistral 7B语言模型,Mistral 7B的特别之处在于其规模较小仅有73亿,但是在所有基准测试上,其表现都优于规模更大的语言模型Llama 2 13B,还具有编写程序代码以及处理8,000个token的能力。

整体来说,Mistral 7B在多个基准测试,包括常识推理、世界知识、阅读理解、数学和程序代码等,表现亮眼,除了明显优于Llama 2 13B之外,也和Llama 34B模型打成平手,其编写程序代码的能力接近CodeLlama 7B,并且在英文任务中表现良好。

在大规模多任务语言理解(MMLU)基准测试上,Mistral 7B的表现相当一个3倍大的Llama 2模型,但是却可大幅节省内存消耗,吞吐量也有所增加,其提供了更高的性价比。

Mistral 7B运用了群组查询注意力(GQA)加快推理速度,还使用滑动窗口注意力(SWA),以更小的成本处理较长的串行。群组查询注意力方法分组多个查询并且同时进行处理,通过这种方式,群组查询注意力机制能够减少重复计算,提高推理速度并降低运算成本。

滑动窗口注意力机制则限制模型,在神经网络的每一个层级,只能关注前面一定范围的token,这个限制窗口会根据模型的层数向前滑动,在更高的层数中,模型能够间接关注串行中更早出现的token。运用这种方式,滑动窗口注意力机制可以降低计算和内存需求,并更高效地处理长串行,Mistral 7B每层注意前4,096个隐藏状态,能够以线性计算成本提高处理速度,特别是串行长度为16,000时,速度提高达2倍。

这两种技术组合使Mistral 7B在处理各种不同任务时,具有高效和灵活性,同时保持良好的可扩展性。

另外,官方也运用公开指令数据集微调Mistral 7B,经过微调后的Mistral 7B Instruct模型在MT-Bench测试中表现良好,能够与130亿参数的聊天模型的性能相当。用户现在可以下载Mistral 7B并立即开始使用,可以选择部署在AWS、Azure和GCP等云计算平台上,并且在vLLM推论服务和Skypilot框架上运行,同时还支持在HuggingFace平台上使用。

由于Mistral 7B采用Apache 2.0授权,因此用户几乎能够不受限制地自由使用模型,Mistral AI官方认为,开源解决方案将会超越专有解决方案,因为开源能够集结社交媒体力量使得技术更加卓越,并且也只有开源模型才能够对抗审查与偏见,并交给开发者完全的控制能力,可依照需求调整模型大小和成本。