综合国内媒体报道,在最新全球大模型榜单中,阿里巴巴集团数字技术与智能骨干业务阿里云5日宣布,其于1月发布的全新通义千问Qwen 2.5-Max模型在Chatbot Arena大模型盲测中排名第七,并在多个基准测试中超越DeepSeek V3等竞争对手,包括在技术领域表现尤为出色,于数学和程序设计方面排名第一,在处理复杂任务的固定提示(hard prompts)方面排名第二。
据了解,Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前收录了190多种模型。该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对模型能力进行投票,为全球顶级大模型的重要竞技场。阿里云表示,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
继DeepSeek之后,Qwen2.5-Max的发布,是中国AI阵营于高性能、低成本技术路线上的又一重要突破。市场人士分析,外界先前过度聚焦DeepSeek,却忽视了包括阿里通义在内的中国AI整体性追赶。如果阿里Qwen-2.5-max的性能确实展现出预期水准,加之其低成本优势与完整云生态,将可能引发DeepSeek之后的中国AI资产新一轮重估。
(首图来源:shutterstock)