Google DeepMind于周二(8/5)发布全新AI世界模型Genie 3,可根据文本提示即时生成互动式3D世界。相较于去年11月发布、仅能维持10-20秒互动的Genie 2,Genie 3支持长达数分钟的连续互动,还能记住场景以维持画面及环境的连贯性。

Genie 3是DeepMind自2023年以来持续开发的世界模型系列第三代,可以每秒24帧与720p的分辨率执行。它能够模拟火山地形、水流或光影等真实世界的物理现象,也可再现冰川或热带雨林等自然生态,还能以幻想及动画风格创作,或是重建地理及历史场景。

此外,Genie 3还支持“可提示的世界事件”(promptable world events),让用户得以即时通过文本变更世界条件,例如改变天气、增加角色或新场景,让生成世界不仅可互动,还能持续演变。

Genie系列与传统的视频生成不同,它让用户进入一个由AI生成的世界,还能与场景互动,这种动态操控的能力,使其特别适合用于代理人训练、自主系统模拟、教育模拟,以及创意应用。

世界模型被视为迈向通用人工智能(AGI)的一个关键技术,允许AI不必依靠真实世界数据,便能于虚拟世界中进行各种练习与学习。DeepMind表示,他们已经利用Genie 3所创造的虚拟世界来测试自家的SIMA代理人,看看它在不同任务下能否学会解决问题。

SIMA(Scalable, Instructable, Multiworld Agent)是Google DeepMind所开发的一款通用型AI代理人,目标是让它能在各种3D虚拟环境中完成多样化任务。

目前Genie 3尚未开放一般大众使用,而是以“限量研究预览”方式提供少数学术研究人员与创作者试用,并搜集反馈以评估潜在风险与负责任的使用方式。Google也坦承,该模型仍存在如互动范围受限、无法完美模拟真实地点,以及文本生成效果不稳定等限制。