法国创业公司Mistral AI近日发布了全新程序代码生成AI模型Codestral Mamba,以开源Apache 2.0授权发布,允许免费使用、修改与传播,为程序代码生成领域带来崭新气象。
Codestral Mamba最大的亮点在于采用了Mamba架构,有别于Transformer模型,Mamba模型具备线性时间推论的优势,理论上能够处理无限长度的串行,不受输入长度限制,快速回应用户需求。这种高性能对于程序代码生产力应用场景特别有价值,因此Mistral AI特别强化了Codestral Mamba的程序代码和推理能力,使其性能媲美最先进的Transformer模型。
根据Mistral AI的测试,Codestral Mamba在70亿参数的模型中表现最佳,甚至在部分指标上超越了220亿参数的Codestral模型,展现了Mamba架构的巨大潜力。
Mistral AI团队已测试Codestral Mamba在高达256,000 token的上下文内检索能力,预期它将成为卓越的本地程序代码助手。
Codestral Mamba可通过mistral-inference SDK或TensorRT-LLM部署,未来也将支持llama.cpp。用户可从Hugging Face免费下载模型权重,Mistral AI也在la Plateforme平台上提供了Codestral Mamba和Codestral 22B的测试环境。
继5月份发布商用受限的Codestral模型后,Mistral AI再次推出开源的Codestral Mamba,展现其致力于AI模型研究与开源的决心。Codestral Mamba的问世,不仅为开发者提供强大的程序代码生成工具,也为AI模型架构研究开辟了新的道路。
Codestral Mamba的发布不仅为程序代码生成领域带来了新的可能性,也为AI架构研究开辟了新的视角。其开源性质更是为整个AI社交媒体提供了宝贵的学习和研究资源。随着越来越多的开发者和研究人员参与到Codestral Mamba的改进和应用中,我们有理由期待在不久的将来,会看到更多基于此模型的创新应用和突破性研究成果。