世界上第一个完全由神经模型驱动的游戏引擎,刚刚诞生了!

「黑神话:悟空」的热度正旺,AI 又在游戏中创造了全新的里程碑。史上首次,AI 能在没有游戏引擎的情况下,为玩家生成实时游戏了

从此,我们开始进入一个炸裂的新时代:游戏不仅能被 AI 玩,还能由 AI 来创造和驱动。

谷歌的 GameNGen,可以在单个 TPU 上,让 AI 以每秒 20 帧的速度,生成实时可玩的游戏。每一帧,都是由扩散模型预测的。

几年后,AI 实时生成 3A 游戏大作的愿望还会远吗?

从此,开发者不必再手动编程游戏逻辑,开发时间和成本都会显著降低。价值 2000 亿美元的全球游戏产业,可能会被彻底颠覆!

谷歌研究者表示,GameNGen 是第一个完全由神经模型驱动的游戏引擎,能够在复杂环境中,实现高质量的长轨迹实时交互。

论文地址:https://arxiv.org/abs/2408.14837

不仅速度是实时的,它的优秀画质,也是让开发者颤抖的地步。

模拟「毁灭战士」时,它下一帧预测的峰值信噪比(PSNR)达到了 29.4,已经可以和有损 JPEG 压缩相媲美。

在神经网络上实时运行时,视觉质量已经达到了与原始游戏相当。

模拟片段和游戏片段如此相似,让不少人类被试都分不清,眼前的究竟是游戏还是模拟?

网友感慨:这不是游戏,这是人生模拟器。

小岛秀夫的另一个预言,成真了。

3A 电视剧是不是也来了?想象下,按照自己的喜好生成一版《权游》。

想象下,1000 年后或一百万年后,这项技术是什么样?我们是模拟的概率,已经无限接近于 1 了。

从此,游戏开发不再需要游戏引擎?

AI 首次完全模拟具有高质量图形和复杂交互的复杂视频游戏,就做到了这个地步,实在是太令人惊叹了。

作为最受欢迎、最具传奇色彩的第一人称射击游戏,自 1993 年发布以来,「毁灭战士」一直是个技术标杆。

它被移植到一系列超乎想象的平台上,包括微波炉、数码相机、洗衣机、保时捷等等。

而这次,GameNGen 把这些早期改编一举超越了。

从前,传统的游戏引擎依赖的是精心编码的软件,来管理游戏状态和渲染视觉效果。而 GameNGen,只用 AI 驱动的生成扩散模型,就能自动模拟整个游戏环境了

「毁灭战士」一直以复杂的 3D 环境和快节奏的动作闻名,现在,所有这些都不需要游戏引擎的常用组件了!

AI 引擎的意义,不仅仅是减少游戏的开发时间和成本。这种技术,可以使游戏创作彻底民主化,无论是小型工作室,还是个人创作者,都能创造出从前难以想象的复杂互动体验。

此外,AI 游戏引擎,还给全新的游戏类型打开了大门。无论是环境、叙事,还是游戏机制,都可以根据玩家的行为动态来发展。

从此,游戏格局可能会被整个重塑,行业会从热门游戏为中心的模式,转向更多样化的生态系统。

顺便一提,「DOOM」的大小只有 12MB。

大佬们「疯了」

AI 初创 HyperWrite 的 CEO Matt Schumer 表示,这简直太疯狂了!用户玩游戏时,一个模型正在实时生成游戏

如果将大多数 AI 模型的进展 / 轨迹映射到这上面,那么在几年内,我们将会得到 3A 级生成游戏。

英伟达高级科学家 Jim Fan 感慨道,被黑客们在各种地方疯狂运行的 DOOM,竟然在纯粹的扩散模型中实现了,每个像素都是生成的。

连 Sora 跟它比起来,都黯然失色。我们只能设定初始条件(一个文本或初始帧),然后只能被动观看模拟过程。

因为 Sora 无法进行交互,因此还不算是一个「数据驱动的物理引擎」。

而 GameNGen 是一个真正的神经世界模型。它将过去的帧(状态)和用户的一个动作(键盘 / 鼠标)作为输入,并输出下一帧。这种质量,是他见过的最令人印象深刻的 DOOM。

随后,他深度探讨了一些 GameNGen 中存在的限制。

比如在单个游戏上过拟合到了极致;无法想象新的场景,无法合成新的游戏或交互机制;数据集的瓶颈,导致了方法无法推广;无法实现用提示词创造可玩世界,或用世界模型训练更好的具身 AI,等等。

一个真正有用的神经世界模型,应该是什么样子?

马斯克的回答是:「特斯拉可以用真实世界的视频做类似的事情」。

的确,数据是难点。

Autopilot 团队可能拥有数万亿的数据对(摄像头视频,方向盘动作)。有了如此丰富的真实世界数据,完全有可能训练一个涵盖各种极端情况的通用驾驶模拟器,并使用它来部署和验证新的完全自动驾驶(FSD)版本,而不需要实体车辆。

最后 Jim Fan 总结道:不管怎么说,GameNGen 仍是一个非常出色的概念验证 —— 至少我们现在知道,9 亿帧是将高分辨率 DOOM 压缩到神经网络中的上限。

网友们感慨:扩散网络学习物理引擎和游戏规则的方式,太疯狂了。

核心作者:个人里程碑

谷歌 DeepMind 核心贡献者,项目负责人 Shlomi Fruchter,在社交媒体上,介绍了自己开发 GameNGen 的过程。

他表示,「GameNGen 是自己开发路上的里程碑」。

从最初手写 GPU 渲染代码(显式),到现在训练能在 GPU 上运行的神经网络(隐式),甚至包含了游戏逻辑,让我有一种实现了完整「闭环」的感觉。

Fruchter 进行的第一个大型编码项目之一是 3D 引擎(如下图所示)。早在 2002 年,GPU 仍只能用于渲染图形。

还记得,第一款图形处理器 GeForce 256 是在 1999 年发行。渲染 3D 图形恰好需要大量的矩阵运算,这恰恰是 GPU 所擅长的。

然后谷歌研究人员编写高级着色器语言代码,计算自定义渲染逻辑并构建新的视觉效果,同时还能保持高帧率。

GameNGen 的诞生,是源于一个好奇心:

「我们能否在当前的处理器上,运行一个隐式神经网络,来进行实时互动游戏」。

对于 Fruchter 以及团队成员来说,最终答案是一个令人兴奋的发现。

AI 大牛 Karpathy 曾说过,100% 纯软件 2.0 计算机,只有一个神经网络,完全没有传统软件。

设备输入(音频、视频、触摸等)直接到神经网络中,其输出直接作为音频 / 视频在扬声器 / 屏幕上显示,就是这样。

有网友便问道,那就是它不能运行 DOOM 了?

对此,Karpathy 表示,如果能够很好提出请求,它可能可以非常接近地模拟 DOOM。

而现在,Fruchter 更加肯定,它可以运行 DOOM 了。

另一位谷歌作者 Dani Valevski 也转发了此帖,对此愿景表示极度认可。

GameNGen 或许标志着游戏引擎全新范式的开启,想象一下,和自动生成的图像或视频一样,游戏也是自动生成的

虽然关键问题依旧存在,比如如何训练、如何最大程度利用人类输入,以及怎样利用神经游戏引擎创建全新的游戏。但作者表示,这种全新范式的可能性让人兴奋。

而且,GameNGen 的名字也暗藏彩蛋,可以读出来试一试 —— 和 Game Engine 有相似的发音

Agent 采集轨迹,SD 预测生成

在手动制作计算机游戏的时代,工作流程包括(1)收集用户输入(2)更新游戏状态,以及(3)将更新后的状态渲染为屏幕像素,计算量取决于帧率。

尽管极客工程师们手中的 Doom 可以在 ipod、相机,甚至微波炉、跑步机等各种硬件上运行,但其原理依旧是原样模拟模拟手动编写的游戏软件。

看起来截然不同的游戏引擎,也遵循着相同的底层逻辑 —— 工程师们手动编程,指定游戏状态的更新规则和渲染逻辑。

如果和扩散模型的实时视频生成放在一起,乍一看好像没什么区别。然而,正如 Jim Fan 指出的交互式世界模拟不仅仅是非常快速的视频生成。

  • 其一,生成过程需要以用户的输入动作流为条件,这打破了现有扩散模型架构的一些假设。

  • 其二,模型需要自回归生成帧,这往往会导致采样发散、模型不稳定等问题。

Agent 数据收集

由于无法直接对游戏数据进行大规模采样,因此首先教会一个 agent 玩游戏,在各种场景中生成类似于人类且足够多样化的训练数据。

agent 模型使用深度强化学习方法进行 PPO 训练,以简单的 CNN 作为特征网络,共生成 900M 帧的