JetBrains开源其第一个针对程序代码完成任务设计的语言模型Mellum,并已发表在Hugging Face平台,供研究与开发人员取用。JetBrains称Mellum为专精模型(Focal Model),其并非试图涵盖所有自然语言任务的通用模型,而是聚焦程序代码理解与补全的单一应用场景,借此在有限参数规模追求最佳的任务适应性与部署效率。
Mellum-4b-base模型具有40亿个参数,采用类似LLaMA的架构,支持8,192个token的上下文长度,并经由JetBrains团队从零开始训练,而非基于现有开源模型进行微调。其训练数据总量达4.2兆token,涵盖如The Stack、StarCoder训练集、CommitPack与英文维基百科等公开语料,针对Java、Python、C/C++、JavaScript、TypeScript、Go、Kotlin、PHP、Rust等语言进行学习,目的在于提供准确且上下文一致的程序代码完成能力。
JetBrains表示,Mellum设计概念回归机器学习早期专精模型的想法,强调深度大于广度,与当前大型语言模型普遍追求多任务通用能力的趋势有别。在Mellum架构下,模型不仅在训练资源上更节省,其可部署的弹性也大幅提升,能在如llama.cpp、Ollama等环境本地执行,也可通过vLLM于云计算部署。
在性能表现方面,Mellum-4b-base在JetBrains内部的HumanEval Infilling测试中,单行程序代码完成通过率为66.21%,多行完成为38.5%。此外,在RepoBench与SAFIM等程序代码评测中,Mellum于自身支持的上下文长度范围,整体性能达到一定的水准。
虽然Mellum在性能上仍不及CodeLlama-13B或DeepSeek-Coder-6.7B等规模较大的模型,但JetBrains强调,Mellum的设计目标并非取代通用语言模型,而是适合研究训练策略、推论效率与模型专精化之用。
目前公开的Mellum版本为未经下游任务微调的基本模型,但已可支持进一步的监督式微调(SFT)与强化学习(RLHF)流程。JetBrains同时发布针对Python语言的SFT版本模型,并预告将陆续推出针对其他语言任务的模型变体,对应不同程序语言与开发场景。