AI视觉处理评分Gemini 3 Pro获首名　豆包视觉版跻身全球三甲

权威评测平台SuperCLUE-VLM公布2025年12月多模态视觉语言基准评测总榜。Google Gemini 3 Pro以83.64分大幅领先并夺冠，展现压倒性优势。中国阵营表现也出色，商汤科技SenseNova V6.5 Pro以75.35分位居第二，字节跳动豆包视觉版则以73.15分紧随其后，成为首款进入全球三甲的中国多模态大模型。

SuperCLUE-VLM从基础认知、视觉推理及视觉应用3个核心维度，评估大模型真实视觉理解能力。基础认知测试模型识别对象、文本及场景等基本元素能力；视觉推理考核模型理解图像中的逻辑、因果关系及隐含资讯表现；视觉应用则评估模型完成图文生成、跨模态问答及工具调用等实际任务表现。

榜首Gemini 3 Pro在3个明细指标中均表现突出。其基础认知得分89.01、视觉推理82.82、视觉应用79.09，全面领先其他模型。Google于12月初发布Gemini 3 Pro时，强调这是该公司最强大的多模态模型，在文件理解、空间推理、屏幕识别及视频理解等领域均创下领先表现。该模型在复杂视觉推理基准测试MMMU Pro及Video MMMU上创下新纪录，并支持高达256K token语境窗口，能处理长达2小时视频内容。

商汤科技SenseNova V6.5 Pro以75.35分稳居第二位，显示中国企业在多模态领域技术实力。字节跳动豆包视觉版在基础认知环节得分82.70，甚至超越部分国际竞争对手，仅在视觉推理环节稍显弱项。字节跳动于今年9月发布豆包大模型1.6-vision，这是豆包家族首款具备工具调用能力的视觉深度思考模型，拥有更强通用多模态理解和推理能力。

百度ERNIE-5.0-Preview及阿里巴巴Qwen3-VL等中国模型同样进入前5名。Qwen3-VL是排名榜中首款开源且总分超过70分的模型，展现开源社交媒体在多模态领域进步。

国际顶尖模型在此次评测中表现出乎意料。Anthropic Claude Opus 4.5得分71.44，OpenAI GPT-5.2(high) 仅获69.16分，排名相对较后。这反映全球多模态大模型竞争格局正在重塑，技术领先优势不再绝对集中于少数企业。

数据来源： SuperCLUE ，2025年12月29日。