什么是 Genie？文字或图片就能创造游戏？

2024-10-8 7:58

Google DeepMind 近日推出了生成式互动环境 AI 模型 Genie，能够透过文字或图片提示产出互动式动画游戏，而无需事先在游戏机制及运作上进行训练。

Google DeepMind 推出生成式互动环境工具Genie

作为一间于 2014 年被 Google 收购的人工智能公司，Google DeepMind 于 23 日提交的论文指出，该公司推出了生成式互动环境 AI 模型「Genie」，能够仅透过文字、图片或草图描述，便生成可控制的互动虚拟环境。

内容写道，Genie 透过大量公开可用的网络影片进行训练，而非依赖于特定游戏或场景的数据，这对游戏开发及创意娱乐等领域，具有更加广泛的应用性：

作为生成式 AI 的全新创举，我们推出了生成式互动环境「Genie」，可以透过单一图片提示产生互动式且可游玩的环境。

什么是 Genie？

多模型架构

首先，论文显示，Genie 作为一个基础世界模型，由时空影片分词器 (Spatiotemporal video tokenizer)、自回归动态模型 (Autoregressive dynamics model)、以及简单且可扩展的潜在动作模型 (Scalable latent action model) 的 110 亿个参数共同设定。

因此，他能够在未给予指令的情况下，从网络上的 2D 平台游戏及机器人技术影片中，以无监督方式进行自主训练；同时也能借由我们所提供的外界图像来提示，包括现实世界的照片或草图，生成能够供人们控制并互动的虚拟环境。

学习重现动作并辨识可控部分

Genie 的特别之处在于，他能够从网络影片中学习并重现游戏角色的控制内容，即便这些影片并没有关于正在执行之动作的标签，他也能够从生成的环境中，推断出一致或多种的潜在动作。

同时，Genie 还能够学习并辨识动作中哪些部分是能够被控制的，并借以产生互动式情境。

合成或现实图片都能转游戏

另外，Genie 仅需一张图片就能创造一个完整的新互动环境，首先采用文字转影像的生成模型 Imagen 2 来产生关键影格 (Keyframe)，再透过 Genie 给影像赋予动态效果。

同时，Genie 也能接收从未见过的图片提示，包括现实世界照片或简单草图，使人们能够与原先无法移动的现实事物进行互动。

部落格文章写道：

Genie 的功能让任何人，甚至是儿童，都能够创建并进入可控的模拟环境、或是具互动性的生成世界。

文末最后也提到 Genie 产品的远大目标：

Genie 的应用不仅仅局限于娱乐或创意开发，他还能够作为训练智慧型代理人 (Intelligent Agent) 的优秀测试平台，从而推动了 AI 领域的发展。

据悉，智慧型代理人指的是，一个能够观察周遭环境，并作出行动以达成目标的自主实体，这是目前 AI 研究的一个核心概念及重要目标。

Google、OpenAI 较劲意味浓厚

近几个月来，Google 已释出多个生成式 AI 模型的产品或资讯，包括最强 AI 顾问「Gemini」、文字转影片生成工具「Lumiere」、以及关键字图片生成工具「ImageFX」，无不吸引大众目光。

另一方面，OpenAI 的文字转影片工具 Sora 作为首个影片生成产品，也在几周前引发了 AI 狂潮。

然而，近期有关 Gemini 在生成图像时涉及种族争议，造成了母公司 Alphabet 单日 (26) 股价下跌逾 4%。

Google DeepMind 研究部门负责人 Demis Hassabis 在昨日的世界行动通讯大会 (MWC Barcelona 2024) 上则表示：我们已将 Gemini 的该功能下架，将在未来几周内修复问题并恢复。