Google DeepMind 近日推出了生成式互动环境 AI 模型 Genie,能够透过文字或图片提示产出互动式动画游戏,而无需事先在游戏机制及运作上进行训练。
Google DeepMind 推出生成式互动环境工具Genie
作为一间于 2014 年被 Google 收购的人工智能公司,Google DeepMind 于 23 日提交的论文指出,该公司推出了生成式互动环境 AI 模型 「Genie」,能够仅透过文字、图片或草图描述,便生成可控制的互动虚拟环境。
内容写道,Genie 透过大量公开可用的网络影片进行训练,而非依赖于特定游戏或场景的数据,这对游戏开发及创意娱乐等领域,具有更加广泛的应用性:
作为生成式 AI 的全新创举,我们推出了生成式互动环境「Genie」,可以透过单一图片提示产生互动式且可游玩的环境。
什么是 Genie?
多模型架构
首先,论文显示,Genie 作为一个基础世界模型,由时空影片分词器 (Spatiotemporal video tokenizer)、自回归动态模型 (Autoregressive dynamics model)、以及简单且可扩展的潜在动作模型 (Scalable latent action model) 的 110 亿个参数共同设定。
因此,他能够在未给予指令的情况下,从网络上的 2D 平台游戏及机器人技术影片中,以无监督方式进行自主训练;同时也能借由我们所提供的外界图像来提示,包括现实世界的照片或草图,生成能够供人们控制并互动的虚拟环境。
学习重现动作并辨识可控部分
Genie 的特别之处在于,他能够从网络影片中学习并重现游戏角色的控制内容,即便这些影片并没有关于正在执行之动作的标签,他也能够从生成的环境中,推断出一致或多种的潜在动作。
同时,Genie 还能够学习并辨识动作中哪些部分是能够被控制的,并借以产生互动式情境。
合成或现实图片都能转游戏
另外,Genie 仅需一张图片就能创造一个完整的新互动环境,首先采用文字转影像的生成模型 Imagen 2 来产生关键影格 (Keyframe),再透过 Genie 给影像赋予动态效果。
同时,Genie 也能接收从未见过的图片提示,包括现实世界照片或简单草图,使人们能够与原先无法移动的现实事物进行互动。
部落格文章写道:
Genie 的功能让任何人,甚至是儿童,都能够创建并进入可控的模拟环境、或是具互动性的生成世界。
文末最后也提到 Genie 产品的远大目标:
Genie 的应用不仅仅局限于娱乐或创意开发,他还能够作为训练智慧型代理人 (Intelligent Agent) 的优秀测试平台,从而推动了 AI 领域的发展。
据悉,智慧型代理人指的是,一个能够观察周遭环境,并作出行动以达成目标的自主实体,这是目前 AI 研究的一个核心概念及重要目标。
Google、OpenAI 较劲意味浓厚
近几个月来,Google 已释出多个生成式 AI 模型的产品或资讯,包括最强 AI 顾问「Gemini」、文字转影片生成工具「Lumiere」、以及关键字图片生成工具「ImageFX」,无不吸引大众目光。
另一方面,OpenAI 的文字转影片工具 Sora 作为首个影片生成产品,也在几周前引发了 AI 狂潮。
然而,近期有关 Gemini 在生成图像时涉及种族争议,造成了母公司 Alphabet 单日 (26) 股价下跌逾 4%。
Google DeepMind 研究部门负责人 Demis Hassabis 在昨日的世界行动通讯大会 (MWC Barcelona 2024) 上则表示:我们已将 Gemini 的该功能下架,将在未来几周内修复问题并恢复。