阿里巴巴周一(4/29)开源了Qwen3模型家族,涵盖两个专家混合模型(MoE)Qwen3-235B-A22B与Qwen3-30B-A3B,以及6个不同尺寸的密集模型(Dense),包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B与Qwen3-0.6B,而且每个模型都有思考及非思考两种模式可供无缝切换。

密集模型代表这些模型上的所有参数在每次推论时都会被用到,适合处理简单任务,且有更快的推理速度;MoE架构则含有多个专家子模型,在处理每个输入时,只有部分专家会被启动以参与运算,可在保持大量模型参数量,减少实际运算所需的资源,例如Qwen3-30B-A3B指的是具备300亿的总参数,但每次只会激活30亿个参数。

相较于上一代的Qwen2.5是以18兆个Token进行预训练,Qwen3则是以36兆个Token进行预训练,后者不仅搜集网络上的数据,也搜集PDF文件的内容,并分成3阶段进行预训练,在第一阶段完成基本的语言技能与通用知识,第二阶段则加入了STEM、程序设计及推理任务等知识密集型数据,第三阶段则是将所支持的脉络长度拓展至3.2万个Token。新一代的Qwen3支持119种语言。

每个Qwen3模型也都支持思考及非思考两种运算模式,在思考模式下,模型会逐步推理,经过深思熟虑之后才给出答案,适合需要深入思考的复杂问题,像是复杂的逻辑推理、数学或是撰写程序代码等;而非思考模式则提供快速且接近即时的回应,适合那些对速度要求高于深度的简单问题,例如聊天,而且它们可以无缝切换,以确保在不同场景中呈现最佳性能。

Qwen团队表示,结合这两种模式强化了模型的稳定与思考预算控制能力,让用户可轻松地替不同任务配置特定的预算,在成本与品质取得平衡。

此外,模型架构的改进、训练数据的增加,以及更有效的训练方法,让Qwen3 Dense基础模型的整体性能,与参数更多的Qwen2.5基础模型相当,而Qwen3 MoE基础模型在只激活10%参数的状况下,就能达到与Qwen2.5 Dense基础模型相似的性能。

除了与自家的上一代模型比较之外,Qwen3在许多基准测试中的表现,也超越了OpenAI-o1、Deepseek-R1、Grok 3 Beta、Gemini 2.5-Pro及OpenAI-o3-mini Medium等先进模型。