当前人工智能(AI)发展日新月异,各界不断寻找更有效且具代表性的基准测试,以评估AI模型的真实能力。继《口袋妖怪》之后,有研究团队认为,经典游戏《超级马里奥兄弟》(Super Mario Bros.)可能是一个更具挑战性的新选择。加州大学圣地亚哥分校(University of California, San Diego)郝人工智能实验室(Hao AI Lab)近期便进行了一项实验,将多个知名AI模型投入《超级马里奥兄弟》的即时游戏环境中,测试其表现。

根据实验结果,Anthropic的Claude 3.7模型表现最为出色,其次为Claude 3.5。相较之下,Google的Gemini 1.5 Pro与OpenAI的GPT-4o在此项测试中则显得力不从心。值得注意的是,本次实验所使用的《超级马里奥兄弟》版本并非完全还原1985年的初代版本,而是在模拟器环境下运行,并集成GamingAgent框架,以便让AI模型能够控制游戏中的马里奥角色。

Hao AI Lab自行开发的GamingAgent框架,主要负责向AI模型提供如“若侦测到障碍物或敌人接近,向左移动/跳跃闪避”等基本指令,以及游戏画面的截屏。接着,AI模型需要自行生成Python程序代码形式的指令,来操控马里奥在游戏中的行动。

实验室主持人Hao指出,相较于其他基准测试,《超级马里奥兄弟》迫使AI模型必须“学习”规划复杂的操作,并制定即时的游戏策略。一个有趣的发现是,研究团队观察到,擅长推理的模型,例如OpenAI的o1模型(通过逐步“思考”问题来找出解决方案),在本次测试中的表现反而不如“非推理型”模型。尽管推理模型在多数基准测试中往往展现更强大的能力。

研究人员分析,推理模型在应对此类即时游戏时遭遇瓶颈,主要原因之一在于其决策过程需要一定的时间延迟——通常为数秒。然而,在《超级马里奥兄弟》这类分秒必争的游戏中,时间至关重要。短短一秒的延迟,可能就决定了角色是成功跳跃躲避障碍,或是失足坠入深渊。

数十年来,游戏一直被视为评估AI能力的基准之一。然而,部分专家开始质疑,将AI在游戏中的技能表现,与技术的实际进展过度连接是否恰当。相较于复杂多变的现实世界,游戏环境往往是经过抽象化、相对简化的,且理论上,游戏能为AI训练提供近乎无限量的数据。

近期,OpenAI的研究科学家暨创始成员Andrej Karpathy更坦言,他正面临一场“评估危机”。他在社交媒体平台X上发文表示:“我真的不知道现在该关注哪些 “AI” 指标。总之,我的反应是我真的不清楚这些模型现在有多厉害。”

尽管如此,至少我们现在可以通过观察AI模型游玩《马里奥》的表现,一窥当前AI技术的发展现况。