谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

发布时间:2024-12-16

12月4日,Google DeepMind发布大型基础世界模型Genie 2,能生成各种可控制动作、可玩的3D环境,还可以用于训练和评估具身agent。

只要给一张提示图像,Genie 2就能按照你输入的文本提示,生成对应的交互式虚拟世界。无论是人类还是AI agent,都可以使用键盘和鼠标来在由AI生成的3D游戏世界里探索和互动。

Genie 2是一个自回归潜在扩散模型,训练于大型视频数据集。经过自动编码器后,视频中的潜在帧被传递到大型Transformer动力学模型。该模型使用与大语言模型类似的因果掩码进行训练。

在推理时,Genie 2能以自回归方式进行采样,逐帧获取单个动作和过去的潜在帧。Google DeepMind使用CFG(无分类器指导,classifier-free guidance)来提高动作可控性。

博客文章放出大量由未蒸馏的基础模型生成的视频示例,来展示Genie 2在行动控制、生成反设事实、长视界记忆、长视频生成、多样环境、3D结构、物体交互、复杂角色动画、NPC、物理、烟雾、光影、快速原型设计方面的效果与优势。蒸馏版本支持实时交互,但运行时的视觉质量会降低些。

输入真实世界的照片后,它也能很好模拟一些物理规律,比如可模拟风中摇曳的草或河中流动的水。

01.

超强空间记忆能力,模拟真实世界环境

此前世界模型在很大程度上局限于建模狭窄的领域。Genie 1引入了一种生成各种2D世界的方法。Genie 2则进一步在通用性上取得进展,可以生成种类繁多的丰富3D世界。

以下是与Genie 2互动的一些示例视频。模型会使用文生图模型Imagen 3生成的单个图像,按照提示词生成一个可交互的3D世界。人或agent进行键鼠操作,进入这个新创建的世界并与之互动。Genie 2可以生成长达1分钟的一致世界,大多数示例持续10-20秒(本文将部分视频示例转成gif动图并只截取片段,完整视频请到原博客文章查看)

1、智能响应键盘按键操作

Genie 2可以智能地响应键盘上的按键操作,正确地识别并移动角色。比如下图中的几个示例,模型必须能弄清楚方向按键对应要移动的是机器人,而不是画面中的树、云等其他物体。

树林里的一个可爱的人形机器人。

古埃及的人形机器人。

紫色星球上的机器人的第一视角。

大城市阁楼公寓中的机器人的第一视角。

2、生成反设事实

Genie 2可以从同一起始帧生成不同的轨迹,为训练agent模拟不同事实的体验。在每一行中,每个视频都从同一帧开始,但人类玩家采取的动作不同,生成的画面内容也响应不同。

3、长视界记忆

Genie 2能够记住视野中不再存在的世界部分,并在它们再次可见时准确呈现。

4、生成长视频

Genie 2可动态生成新的合理内容,并在长达1分钟的时间内维持一致的世界。

5、多样化环境

Genie 2可创建不同的视角,例如第一视角、等距视图或第三视角驾驶视频。

6、3D结构

Genie 2会创建复杂的3D视觉场景。

7、模拟对象相互作用

Genie 2能模拟各种物体的相互作用,例如爆破气球、打开门和射击炸药桶。

8、角色动画

Genie 2学习了如何为不同类型的角色制作动画来执行不同的活动。

9、NPC

Genie 2能够模拟其他agent,甚至与它们进行复杂的交互。

10、物理

Genie 2模拟水效果。

11、烟雾

Genie 2模拟烟雾效果。

12、重力

Genie 2模拟重力。

13、灯光

Genie 2模拟光点和定向照明。

14、反射

Genie 2模拟反射、喷雾减光和彩色灯光。

02.

理解物理世界差异,

可将概念图转化成交互式环境

Genie 2模型可快速创建各种交互体验的原型。例如用Imagen 3生成不同图像,让Genie 2生成模拟纸飞机、龙、鹰、降落伞飞行的视频。可以看到Genie 2生成的视频能够理解并模拟出它们飞行的差异。

概念艺术和绘图也可以被Genie 2转化成完全交互式环境,以便艺术家、设计师能快速制作研究环境概念的原型。

03.

AI agent也能玩,

为具身智能提供绝佳训练场

Genie 2可快速为AI agent创建丰富多样的环境,从而生成agent在训练期间未见过的评估任务。

例如,Google DeepMind与游戏开发商合作开发了SIMA agent。SIMA agent被设计成通过遵循自然语言指令来完成一系列3D游戏世界中的任务,因此可以在Genie 2合成的、未见过的环境执行指令。

输入下面Imagen 3生成的第三开放世界探索游戏图,Genie 2可生成一个带有两扇门(一扇是红门,一扇是蓝门)的3D环境。

然后向SIMA agent提出打开某扇门的指令,Genie 2则能生成符合要求的画面。

在这个示例中,SIMA通过键盘和鼠标输入控制角色,而Genie 2生成游戏帧。

也可以使用SIMA来帮助评估Genie 2的功能。通过指示SIMA环顾四周、探索房屋后面等,测试Genie 2生成一致环境的能力。

再比如根据下面这张图来生成视频。

输入不同提示词“上楼”、“去有植物的地方”、“走中间门”,Genie 2会生成对应的不同视频画面。

虽然这项研究仍处于早期阶段,agent和环境生成能力都还有很大的改进空间,但Google DeepMind相信Genie 2是解决安全训练具体agent的结构性问题的途径,同时实现迈向AGI所需的广度和通用性。

04.

结语:世界模型,

AI领域的下一件大事

游戏是安全测试和推进AI能力的理想环境。训练更通用具身agent的传统瓶颈在于缺乏足够丰富和多样化的训练环境。

Google DeepMind正将越来越多资源投入于世界模型研究。Genie 2展示了基础世界模型在创建多样化3D环境、定制交互式游戏场景、加速agent研究等方面的潜力,可让未来的Agent在无限的新世界中接受训练和评估。

该研究方向尚处于早期阶段,Google DeepMind计划在通用性和一致性方面继续改进Genie的世界生成能力。

与SIMA一样,其研究致力于构建更通用的AI系统和agent,使其能够理解和安全地执行各种任务,从而帮助在线和现实世界中的人们。

Google DeepMind还放了一些有趣的“彩蛋”:Genie 2生成出一些奇怪视频,比如没有采取行动的情况下一个鬼魂出现在花园,在雪场的人物角色相比滑雪更爱跑酷、一个魔法球把周遭炸成灰。

来源:智东西