近期一场特别的AI西洋棋锦标赛引发热议。OpenAI旗下语言模型“o3”以全胜之姿夺下冠军,决赛更以4:0完封马斯克旗下xAI团队的Grok 4,成为这场未经训练AI模型对弈赛的最大赢家。

这场比赛由Google所属的Kaggle Game Arena主办,平台设于Chess.com,邀请多家语言模型参赛。比赛规定所有参赛模型不得接受任何针对西洋棋的训练,只能通过自学、搜集网络数据进行对弈能力推理,是一场检验泛用AI智能“从零学会策略”的测验场。

本届赛事集结了OpenAI o3、o4 mini、Google Gemini 2.5 Pro与Flash、Anthropic Claude Opus、Moonshot DeepSeek R1、Kimi K2以及xAI的Grok 4等八大主流语言模型。

Grok 4在淘汰赛一路过关斩将,击败Google的Gemini双版本晋级决赛。马斯克也曾在X(原Twitter)上强调:“我们几乎没在西洋棋上下功夫就进决赛,已经很惊人。”

然而决赛中,OpenAI o3表现更为压倒性,不仅4:0完封Grok,前三场也皆以同比分击败对手,包括自家o4 mini。

世界排名第一的西洋棋手芒努斯.卡尔森(Magnus Carlsen)在评论中指出,这些AI模型大多只有800-1200 ELO的实力,“Grok就像只会理论、不会实战的新手。”他形容:“他们像会买菜却不会煮饭的厨师。”

国际西洋棋大师中村光(Hikaru Nakamura)则指出:“Grok在对局中犯了很多错,而o3的策略更稳定。”这也是最终比分如此悬殊的原因。

这次比赛不同于AlphaGo、Deep Blue那类“针对某棋种专训的模型”,而是测试语言模型能否通过自学掌握陌生游戏规则,进而运用推理与逻辑进行策略性游戏操作。

这场比赛展示的,不只是AI是否能“会玩西洋棋”,而是“能否学会西洋棋”,从语言任务高端到逻辑策略任务,呈现泛用人工智能(AGI)重要发展指标。

语言模型若要真正走向通用智能,必须具备跨知识、跨技能的即学即用能力。这场由Kaggle Game Arena主办、在Chess.com平台上进行的赛事,正是一次对AGI潜力的测试。

虽然目前表现还在入门程度,但OpenAI o3展现出高稳定度与策略集成能力,为未来语言模型走入游戏、推理、模拟等高层次任务奠定了基础。