AI大模型榜单阿里云Qwen2.5-Max两分项领域居首

综合国内媒体报道，在最新全球大模型榜单中，阿里巴巴集团数字技术与智能骨干业务阿里云5日宣布，其于1月发布的全新通义千问Qwen 2.5-Max模型在Chatbot Arena大模型盲测中排名第七，并在多个基准测试中超越DeepSeek V3等竞争对手，包括在技术领域表现尤为出色，于数学和程序设计方面排名第一，在处理复杂任务的固定提示（hard prompts）方面排名第二。

据了解，Chatbot Arena是由LMSYS Org推出的大模型性能测试平台，目前收录了190多种模型。该榜单采用匿名方式将大模型两两组队，交给用户进行盲测，用户根据真实对话体验对模型能力进行投票，为全球顶级大模型的重要竞技场。阿里云表示，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

继DeepSeek之后，Qwen2.5-Max的发布，是中国AI阵营于高性能、低成本技术路线上的又一重要突破。市场人士分析，外界先前过度聚焦DeepSeek，却忽视了包括阿里通义在内的中国AI整体性追赶。如果阿里Qwen-2.5-max的性能确实展现出预期水准，加之其低成本优势与完整云生态，将可能引发DeepSeek之后的中国AI资产新一轮重估。

（首图来源：shutterstock）

AI大模型榜单 阿里云Qwen2.5-Max两分项领域居首

微信扫一扫：分享

AI大模型榜单阿里云Qwen2.5-Max两分项领域居首