首页 > AI教程资讯

震撼，世界模型第一次超真实地模拟了真实世界：谷歌Genie 3昨晚抢了OpenAI风头

文章来源：08ai导航网发布时间：2025-08-06 17:11:04

昨晚十点，谷歌DeepMind重磅宣布其Genie世界模型系列正式来到了第3代。

「Genie3是我们突破性的世界模型，可以通过单个文本提示词创建交互式、可玩的环境。从照片般逼真的风景到奇幻的境界，可能性无穷无尽。」

据介绍，在Genie3生成的动态世界中，玩家可以每秒24帧的速度实时导航，在720p分辨率下保持几分钟的一致性。

相比于前一代Genie2世界模型、使用扩散模型的游戏生成引擎GameNGen以及视频生成模型Veo，最新的Genie3在多个特性上都具有明显优势。

比如，相比Genie2，最新一代Genie实现了分辨率的显著提升，达到了实际可用的程度，同时还支持使用提示词生成世界事件，并能维持数分钟的一致性（DeepMind将其称为「交互视界」）。更重要的是，Genie3还能做到实时响应。

而相比于专用于游戏生成的GameNGen，Genie3更加通用，同时在分辨率等其它指标上都远远胜之。

最后与Veo3对比，虽然Genie3在分辨率这一点上还有不足，但在其它方面却优势明显。

Genie3一宣布就激起夸声一片。

Genie3团队的MattMcGill分享的「低头看鞋子……看模型是否理解水坑是什么」的视频更是引发了一片热议——其真实感超乎想象。

一时间，风头甚至盖过了近段时间来备受期待的OpenAI开源模型。

下面，我们来看看Genie3生成的一些具体能力。

Genie3的能力

作为最新前沿的世界模型，Genie3具备构建一个完整世界的全部能力，并且能够在较长时间范围内保证生成的世界连贯且可交互，其功能包括：

模拟世界的物理属性：展现自然现象如水与闪电，以及复杂的环境交互。

模拟自然世界：生成充满活力的生态系统，从动物行为到复杂的植物生命。

建模动画和小说：激发想象力，创造奇幻场景和富有表现力的动画角色。

建模不同地点和历史背景：超越地理和时间的界限，探索各地和历史场景。

实时响应和长时间一致性

这一次Genie3的进化最大的亮点在于实时响应的用户交互，以及能够长达数分钟的场景（三维）一致性。

为了实现Genie3在可控性和实时交互性方面的高水平表现，谷歌在技术上取得了一系列的重大突破。

在每一帧的自回归生成过程中，模型需要持续考虑随着时间增长的轨迹信息。例如，当用户在一分钟后再次回到某个地点时，模型必须能够回溯并引用一分钟前生成的相关信息。

而要实现真正的实时交互，这种计算必须每秒多次完成，以便及时响应不断到来的用户输入。

为了让AI生成的世界更具有沉浸感，环境在长时间尺度上必须保持物理一致性。然而，通过自回归方式生成环境比一次性生成整段视频在技术上要困难得多，因为误差往往会随时间逐步累积。

尽管面临这一挑战，Genie3所生成的环境在数分钟内仍能保持高度一致性，其视觉记忆能力最远可回溯至一分钟前的画面状态。

建筑物左侧的树木在整个交互过程中保持一致，即使它们进出视野也是如此。

虽作为世界模型，Genie3本质上仍是一个二维的图像/视频生成模型，与直接的三维场景生成具有显著的区别。

简单来说，Genie3的一致性是一种「涌现能力（emergentcapability）」，能够生成更加丰富，动态，变化的世界，因为世界是基于世界描述和用户动作逐帧生成的。

而其他基于三维模型的方法，如NeRF和GaussianSplatting，同样可以生成具有一致性的可导航三维环境，但它们依赖于三维表示作为输入，显著限制了场景的丰富性。

可用提示词生成世界事件

除了导航输入外，Genie3还支持一种更具表现力的基于文本的交互形式，DeepMind称之为可提示的世界事件（promptableworldevents）。

可提示的世界事件能够改变已经生成的世界，例如改变天气状况或引入新的物体和角色，从而增强导航控制的体验。

这种能力也能增加反事实（counterfactual）的广度，即能让玩家更自由畅想「如果这样会怎样」的场景。这些场景可以被agent根据学习过的经验来处理意外情况。

局限性

虽然Genie3堪称前所未有的世界模型，但局限性依然存在，具体包括：

动作空间有限。尽管可提示的世界事件允许进行广泛的环境干预，但这些干预不一定由agent自身执行。agent可以直接执行的动作范围目前受到限制。

其他agent的交互与模拟。在共享环境中准确建模多个独立agent之间的复杂交互仍然很难。

真实世界位置的准确表示。Genie3目前无法以完美的地理精度模拟真实世界位置。

文本渲染。通常只有在输入的世界描述中提供时，才能生成清晰易读的文本。

交互时间有限。目前Genie3支持几分钟的连续交互，而非数小时。

未来值得期待

谷歌DeepMind也在博客中透露了他们对于Genie3以及在世界模型这个研究方向上的未来计划。

他们表示：「我们相信Genie3是世界模型的重要时刻，它将开始对AI研究和生成式媒体等多个领域产生影响。为此，我们正在探索如何在未来让更多测试者使用Genie3。」

他们预计Genie3将为教育和培训创造新的机会，帮助学生学习和专家积累经验。比如，Genie3可以让你探索古希腊的街道：

它不仅能提供广阔的空间来训练机器人和自主系统等智能体，还能使评估智能体性能、探索其弱点成为可能。

比如在下面的视频中，为了探索智能体训练的潜力，DeepMind将SIMA智能体置于Genie3世界中，并设定了目标。智能体会采取行动，Genie3能在不知道目标的情况下模拟该世界中的响应。这对于构建更强大的具身智能体至关重要。

从2018年的GQN到如今的Genie3，世界模型，或者如DeepMind研究副总裁、深度学习领导者OriolVinyals说的「神经视频游戏」，已经实现了令人难以置信的进化。

或许未来，谷歌真的能造出《星际迷航》中的全息甲板！

DeepMindCEO、诺奖得主DemisHassabis的推文

对于Genie3世界模型，你有什么看法？

参考链接

https://x.com/GoogleDeepMind/status/1952732150928724043

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

本文来自微信公众号“机器之心”（ID：almosthuman2014），作者：冷猫、Panda，经授权发布。

QuestMobile 2025年AI应用市场半年报：移动端达6.8亿，三类形态应用此消彼长，手机厂商亟需提升生态整合能力……

上一篇: QuestMobile 2025年AI应用市场半年报：移动端达6.8亿，三类形态应用此消彼长，手机厂商亟需提升生态整合能力……

移动端月活68亿，插件形态跃升首位，月活规模达63亿……

相关攻略更多

热门AI工具更多

最新资讯更多

悟空图像

悟空图像

AI工具

更新时间：2025-02-28