权威评测平台SuperCLUE-VLM公布2025年12月多模态视觉语言基准评测总榜。Google Gemini 3 Pro以83.64分大幅领先并夺冠,展现压倒性优势。中国阵营表现也出色,商汤科技SenseNova V6.5 Pro以75.35分位居第二,字节跳动豆包视觉版则以73.15分紧随其后,成为首款进入全球三甲的中国多模态大模型。

SuperCLUE-VLM从基础认知、视觉推理及视觉应用3个核心维度,评估大模型真实视觉理解能力。基础认知测试模型识别对象、文本及场景等基本元素能力;视觉推理考核模型理解图像中的逻辑、因果关系及隐含资讯表现;视觉应用则评估模型完成图文生成、跨模态问答及工具调用等实际任务表现。

榜首Gemini 3 Pro在3个明细指标中均表现突出。其基础认知得分89.01、视觉推理82.82、视觉应用79.09,全面领先其他模型。Google于12月初发布Gemini 3 Pro时,强调这是该公司最强大的多模态模型,在文件理解、空间推理、屏幕识别及视频理解等领域均创下领先表现。该模型在复杂视觉推理基准测试MMMU Pro及Video MMMU上创下新纪录,并支持高达256K token语境窗口,能处理长达2小时视频内容。

商汤科技SenseNova V6.5 Pro以75.35分稳居第二位,显示中国企业在多模态领域技术实力。字节跳动豆包视觉版在基础认知环节得分82.70,甚至超越部分国际竞争对手,仅在视觉推理环节稍显弱项。字节跳动于今年9月发布豆包大模型1.6-vision,这是豆包家族首款具备工具调用能力的视觉深度思考模型,拥有更强通用多模态理解和推理能力。

百度ERNIE-5.0-Preview及阿里巴巴Qwen3-VL等中国模型同样进入前5名。Qwen3-VL是排名榜中首款开源且总分超过70分的模型,展现开源社交媒体在多模态领域进步。

国际顶尖模型在此次评测中表现出乎意料。Anthropic Claude Opus 4.5得分71.44,OpenAI GPT-5.2(high) 仅获69.16分,排名相对较后。这反映全球多模态大模型竞争格局正在重塑,技术领先优势不再绝对集中于少数企业。

数据来源: SuperCLUE ,2025年12月29日。