DeepMind开发通用AI，可接收自然语言指令游玩游戏

DeepMind延续其人工智能代理游玩游戏的研究，开发出Scalable Instructable Multiworld Agent（SIMA），SIMA能够遵循自然语言指令，在各种电玩游戏中执行任务。DeepMind通过与游戏开发商合作，以多种游戏对SIMA进行训练，该研究的贡献在于，SIMA是第一个能够理解广泛游戏世界的人工智能代理，可像人类一样遵循自然语言指令执行任务。

研究人员强调，这项研究的重点并非是在游戏中取得高分，因为对于人工智能来说，学会游玩一款电玩游戏就是一项技术壮举，而学习在各种游戏设置中遵循指令，则有助于开发适用于各种环境的人工智能代理。

DeepMind与8个游戏工作室合作，在包括《无人深空》、《模拟山羊3》和《Teardown》等9款3D游戏中训练和测试SIMA。SIMA会接触各种游戏环境，学习到简单的导航和菜单使用，甚至是资源采集、驾驶太空船或是制作道具等不同技能。研究人员总共使用了四个研究环境，其中包括使用Unity建造的Construction Lab实验环境，让SIMA在Construction Lab中使用积木来建造雕塑品，使其能测试对物体操作和物理世界的理解。

SIMA在不同的游戏世界，学习到语言与游戏行为的连接。研究人员用于训练SIMA的教材有两种形式，一种是记录一名人类玩家教导另一名人类玩家玩游戏的历程，另一种则是录制玩家自由游玩的片段，然后通过重新观察玩家所进行的事情，记录下引导他们进行游戏操作的指示。

SIMA经过训练后，能够感知和理解各种环境，并且采取行动实现指示的目标。SIMA由两个模型组合而成，一个是专门处理图像和语言映射的模型，另一个则是预测屏幕接下来会发生什么事件的模型，研究人员提到，SIMA不需要访问游戏源码，也不需要定制的API，其输入只有两个，一个是屏幕画面，另一个是用户所提供的简单自然语言指令，并使用键盘和鼠标来控制游戏角色。由于这些都是人类所使用的界面，研究人员也提到，这代表SIMA具有与任意虚拟环境互动的能力。

研究人员对SIMA进行了600项基本技能评估，涵盖导航、操作对象和使用菜单等，目前SIMA可以约在10秒内完成简单的任务，研究人员希望SIMA之后能够完成，像是寻找资源并创建营地这类，需要高端策略规划，并由多个子任务组合才能完成的复杂任务。

SIMA在经多个游戏训练后，出现了泛化（Generalization）的能力，SIMA学会将习得的技能和策略，应用在未曾见过的环境中。相较于只在单独游戏上进行训练的人工智能代理，在9个3D游戏中训练的SIMA表现明显更好。

而且当人工智能代理在多款游戏上接受训练，而其游玩一款没有受过训练的游戏，表现也能够与专门为该款游戏训练的人工智能代理一样好。这显示SIMA不只是学习到特定的游戏技能，而是能在新环境适应和表现。

另外，研究人员也强调语言训练有其重要性，当SIMA没有接受语言训练或是未获得任何指令时，会表现出适当的行为但是漫无目的，SIMA仍然会进行收集资源等常见的行为，但是却无法按照指示移动到特定地点，这代表语言对于SIMA来说是行动关键，使SIMA行动具有目的性和针对性。

不过，即便SIMA出现泛化能力，已是人工智能玩游戏的很大进展，但是要与人类达到相同的水准，仍然需要有更多的研究和开发。