8大AI西洋棋大乱斗：OpenAI o3横扫冠军，Grok 4四战皆败成为话题焦点

近期一场特别的AI西洋棋锦标赛引发热议。OpenAI旗下语言模型“o3”以全胜之姿夺下冠军，决赛更以4:0完封马斯克旗下xAI团队的Grok 4，成为这场未经训练AI模型对弈赛的最大赢家。

这场比赛由Google所属的Kaggle Game Arena主办，平台设于Chess.com，邀请多家语言模型参赛。比赛规定所有参赛模型不得接受任何针对西洋棋的训练，只能通过自学、搜集网络数据进行对弈能力推理，是一场检验泛用AI智能“从零学会策略”的测验场。

本届赛事集结了OpenAI o3、o4 mini、Google Gemini 2.5 Pro与Flash、Anthropic Claude Opus、Moonshot DeepSeek R1、Kimi K2以及xAI的Grok 4等八大主流语言模型。

Grok 4在淘汰赛一路过关斩将，击败Google的Gemini双版本晋级决赛。马斯克也曾在X（原Twitter）上强调：“我们几乎没在西洋棋上下功夫就进决赛，已经很惊人。”

然而决赛中，OpenAI o3表现更为压倒性，不仅4:0完封Grok，前三场也皆以同比分击败对手，包括自家o4 mini。

世界排名第一的西洋棋手芒努斯．卡尔森（Magnus Carlsen）在评论中指出，这些AI模型大多只有800-1200 ELO的实力，“Grok就像只会理论、不会实战的新手。”他形容：“他们像会买菜却不会煮饭的厨师。”

国际西洋棋大师中村光（Hikaru Nakamura）则指出：“Grok在对局中犯了很多错，而o3的策略更稳定。”这也是最终比分如此悬殊的原因。

这次比赛不同于AlphaGo、Deep Blue那类“针对某棋种专训的模型”，而是测试语言模型能否通过自学掌握陌生游戏规则，进而运用推理与逻辑进行策略性游戏操作。

这场比赛展示的，不只是AI是否能“会玩西洋棋”，而是“能否学会西洋棋”，从语言任务高端到逻辑策略任务，呈现泛用人工智能（AGI）重要发展指标。

语言模型若要真正走向通用智能，必须具备跨知识、跨技能的即学即用能力。这场由Kaggle Game Arena主办、在Chess.com平台上进行的赛事，正是一次对AGI潜力的测试。

虽然目前表现还在入门程度，但OpenAI o3展现出高稳定度与策略集成能力，为未来语言模型走入游戏、推理、模拟等高层次任务奠定了基础。