DeepMind延续其人工智能代理游玩游戏的研究,开发出Scalable Instructable Multiworld Agent(SIMA),SIMA能够遵循自然语言指令,在各种电玩游戏中执行任务。DeepMind通过与游戏开发商合作,以多种游戏对SIMA进行训练,该研究的贡献在于,SIMA是第一个能够理解广泛游戏世界的人工智能代理,可像人类一样遵循自然语言指令执行任务。

研究人员强调,这项研究的重点并非是在游戏中取得高分,因为对于人工智能来说,学会游玩一款电玩游戏就是一项技术壮举,而学习在各种游戏设置中遵循指令,则有助于开发适用于各种环境的人工智能代理。

DeepMind与8个游戏工作室合作,在包括《无人深空》、《模拟山羊3》和《Teardown》等9款3D游戏中训练和测试SIMA。SIMA会接触各种游戏环境,学习到简单的导航和菜单使用,甚至是资源采集、驾驶太空船或是制作道具等不同技能。研究人员总共使用了四个研究环境,其中包括使用Unity建造的Construction Lab实验环境,让SIMA在Construction Lab中使用积木来建造雕塑品,使其能测试对物体操作和物理世界的理解。

SIMA在不同的游戏世界,学习到语言与游戏行为的连接。研究人员用于训练SIMA的教材有两种形式,一种是记录一名人类玩家教导另一名人类玩家玩游戏的历程,另一种则是录制玩家自由游玩的片段,然后通过重新观察玩家所进行的事情,记录下引导他们进行游戏操作的指示。

SIMA经过训练后,能够感知和理解各种环境,并且采取行动实现指示的目标。SIMA由两个模型组合而成,一个是专门处理图像和语言映射的模型,另一个则是预测屏幕接下来会发生什么事件的模型,研究人员提到,SIMA不需要访问游戏源码,也不需要定制的API,其输入只有两个,一个是屏幕画面,另一个是用户所提供的简单自然语言指令,并使用键盘和鼠标来控制游戏角色。由于这些都是人类所使用的界面,研究人员也提到,这代表SIMA具有与任意虚拟环境互动的能力。

研究人员对SIMA进行了600项基本技能评估,涵盖导航、操作对象和使用菜单等,目前SIMA可以约在10秒内完成简单的任务,研究人员希望SIMA之后能够完成,像是寻找资源并创建营地这类,需要高端策略规划,并由多个子任务组合才能完成的复杂任务。

SIMA在经多个游戏训练后,出现了泛化(Generalization)的能力,SIMA学会将习得的技能和策略,应用在未曾见过的环境中。相较于只在单独游戏上进行训练的人工智能代理,在9个3D游戏中训练的SIMA表现明显更好。

而且当人工智能代理在多款游戏上接受训练,而其游玩一款没有受过训练的游戏,表现也能够与专门为该款游戏训练的人工智能代理一样好。这显示SIMA不只是学习到特定的游戏技能,而是能在新环境适应和表现。

另外,研究人员也强调语言训练有其重要性,当SIMA没有接受语言训练或是未获得任何指令时,会表现出适当的行为但是漫无目的,SIMA仍然会进行收集资源等常见的行为,但是却无法按照指示移动到特定地点,这代表语言对于SIMA来说是行动关键,使SIMA行动具有目的性和针对性。

不过,即便SIMA出现泛化能力,已是人工智能玩游戏的很大进展,但是要与人类达到相同的水准,仍然需要有更多的研究和开发。