恐替代你的岗位：谷歌迈步通用人工智能，AI 世界模型 Genie 3 登场

人工智能 2025-08-07 07:10:02 4小时前

IT酷哥 8 月 6 日消息，谷歌 DeepMind 官方昨日（8 月 5 日）发布博文，宣布推出名为 Genie 3 的“世界模型”，该模型能够让 AI 系统与逼真的现实世界模拟互动，朝着通用人工智能（AGI）迈出重要一步。

据谷歌介绍，Genie 3 可以用于训练机器人和自动驾驶车辆，让它们在与仓库等环境的真实再现中互动,IT酷哥附上演示视频如下：

谷歌 DeepMind 人工智能部门的专家认为，世界模型是实现 AGI 的关键步骤。AGI 是一种假想的人工智能水平，在这一水平上，系统不仅仅是下棋或翻译语言等单一任务，而是能够执行大多数任务，与人类相当，并可能取代某些工作岗位。DeepMind 表示，这些模型在开发自主执行任务的 AI 代理或系统中将发挥重要作用。

相比较前代模型（如 Genie 1/2）和视频生成模型（如 Veo 2，Veo 3 对直觉物理学的深刻理解），Genie 3 是第一个允许实时交互的世界模型，同时与 Genie 2 相比，其一致性和真实感也得到了提升。

其核心能力包括：

模拟世界的物理特性： Genie 3 对物理规律有深刻理解，能逼真地模拟水流、光影变化以及复杂的环境互动，例如直升机在悬崖瀑布边小心翼翼地机动

模拟自然世界：从冰川湖畔充满生机的生态系统，到幻想世界中可爱的毛茸茸生物在彩虹桥上跳跃，Genie 3 能将想象力转化为可探索的现实

动画和小说建模：可以发挥想象力，创造奇幻的场景和富有表现力的动画角色

探索不同地域与历史场景：模型能超越地理和时间的限制，带领用户探索不同地点和历史时代，无论是身穿翼装飞越雪山，还是置身于历史悠久的古城

突破实时性能的极限：实现高度的可控性和实时交互性，在每一帧的自回归生成过程中，模型必须考虑先前生成的随时间增长的轨迹。例如，如果用户在一分钟后重新访问某个位置，则模型必须引用一分钟前的相关信息。为了实现实时交互性，这种计算必须每秒进行多次，以响应新用户输入的到来

长时程环境一致性：为了让人工智能生成的世界身临其境，它们必须在很长一段时间内保持物理上的一致性。然而，自动回归生成环境通常比生成整个视频更难的技术问题，因为不准确之处往往会随着时间的推移而累积，Genie 3 环境在几分钟内基本保持一致，视觉记忆可以追溯到一分钟前，Genie 3 生成的世界更加动态和丰富，因为它们是根据用户的世界描述和作逐帧创建的

可提示的世界事件 (Promptable World Events)：除了导航输入之外，Genie 3 还支持一种更具表现力的基于文本的交互形式，称之为可提示的世界事件。可提示的世界事件可以改变生成的世界，例如改变天气条件或引入新的物体和角色，从而增强导航控制的体验，这种能力还增加了反事实或“假设”场景的广度，代理可以使用这些场景从经验中学习来处理意外情况

然而，谷歌表示 Genie 3 尚未准备好全面公开上市，并未给出具体的发布日期，同时还指出该模型存在一些局限性。这一声明是在人工智能市场竞争日益激烈的背景下发布的。

谷歌表示，其世界模型还可以帮助人类体验各种模拟训练或探索，如滑雪或绕山湖漫步。DeepMind 表示，Genie 3 能够根据文本提示立即创建场景，并且模拟环境可以快速更改，例如，通过文本提示在滑雪坡上引入一群鹿。

谷歌本周一向记者展示了 Genie 3 创建的滑雪和仓库场景，但尚未公开模型。据《卫报》报道，这些模拟的质量与谷歌最新的视频创作模型 Veo 3 相当，但它们持续的时间是 Veo 3 的八秒。

尽管 AGI 被视为可能消除白领工作，因为自主系统能够执行从销售代理到律师或会计师的各种角色，但谷歌认为世界模型是开发机器人和自动驾驶车辆的关键技术。例如，一个具有真实物理和人物的仓库再现可以帮助训练机器人，因为它在训练中从模拟中“学习”，帮助它实现目标。

模型世界人工智能场景环境

恐替代你的岗位：谷歌迈步通用人工智能，AI 世界模型 Genie 3 登场

恐替代你的岗位：谷歌迈步通用人工智能，AI 世界模型 Genie 3 登场

相关阅读

最新资讯

热门资讯