Google DeepMind公布新一代游戏人工智能代理SIMA 2,延续先前SIMA计划看着屏幕、操作虚拟键盘与鼠标来学习游戏的方式,这次Google把Gemini模型嵌入代理核心,让人工智能不只是听指令,还能在3D游戏世界里推理目标、解释自己的行动,并通过自我练习持续变强。

SIMA项目最初目标是打造能在多款3D虚拟世界通用的代理,第一代SIMA已能在多款商业游戏中学会超过600种语言操作技能,例如转向、爬梯子、开地图,完全不读游戏内部API,只依赖画面与虚拟键盘鼠标输入行动。

SIMA 2在这个基础上换上Gemini作为推理引擎,代理不仅接受导航至特定位置这类指令,还会先解析用户高端目标,再自行拆成子步骤,边行动边用自然语言向玩家说明接下来的行动与原因。研究团队结合附有语言标注的人类示范视频,以及Gemini生成的标注数据进行训练,让代理从人类与模型两种来源学会在游戏中行动与解说。

Gemini的导入也明显拉高了SIMA 2在陌生游戏中的泛化能力,DeepMind表示,新版代理更能理解长且复杂、语气较模糊的指令。同时DeepMind强调,代理会把在某款游戏中学到的概念转化应用到另一款游戏,例如把挖矿的概念对应到另一款游戏中的采集,在广泛任务上的表现更接近人类玩家。

研究团队将SIMA 2与自家世界模型Genie 3结合。Genie 3可以从一张图片或一段文本即时生成新的3D互动世界,场景、对象与规则与现有游戏完全不同。在这些先前从未出现过的世界里,SIMA 2仍能快速识别自己所在的位置与可互动的对象,理解用户给出的目标,并采取朝目标前进的合理行动。研究团队认为,这显示代理不再只是在固定关卡里背题,而是开始具备在全新环境里适应与规划的能力。

SIMA 2的一大亮点是自我优化能力,DeepMind描述,在起始阶段代理仍然依靠人类示范学习,但之后可以切换到完全由自己玩游戏的阶段,通过尝试错误累积经验。Gemini在这里扮演教练角色,负责提出任务,替代理的行为估算奖励分数,而这些任务与反馈会被存入经验数据库,作为下一轮训练更强版本代理的素材。实验显示,在ASKA与Genie 3生成世界中,初版SIMA 2原本完成不了的任务,经过几代自我练功之后,代理可以在没有添加人类游玩数据的情况下完成原先失败的挑战。

官方把这个研究视为朝向通用人工智能与未来人形人工智能机器人的重要一步。 SIMA 2目前以限量研究预览方式,优先开放给少数学界与游戏开发者试用,希望先累积更多反馈与风险评估,再决定后续更大规模应用的方向。