-
李飞飞:空间智能是未来10年AI发展的新前沿
·未来十年的AI:构建真正具备空间智能的机器
那么,我们该如何构建具备空间智能的AI?如何让模型既能带着埃拉托色尼那样的视野去进行推理,又能像工业设计师那样做到精确工程化,像讲故事的人那样富于想象力,并像一线应急人员那样流畅地与环境互动?
要实现空间智能,AI需要的远不止大语言模型(LLMs)。它需要的是“世界模型”——一种全新的生成模型,其在理解、推理、生成与交互方面的能力,能够应对语义、物理、几何与高度动态复杂的世界,无论是虚拟的还是现实的。这些能力,远非当下的LLMs所能企及。该领域仍处于起步阶段,现有方法包括抽象推理模型到视频生成系统,不一而足。世界实验室(World Labs)正是在2024年初基于这一判断而成立:基础性的路径仍在确立之中,而这,很可能构成未来十年AI发展的决定性挑战。
在这一新兴领域中,最重要的是确立指导发展的原则。就空间智能而言,我将“世界模型”界定为具备三项关键能力:
1. 生成性(Generative):世界模型能够生成在感知、几何与物理层面保持一致性的世界
能够真正实现空间理解与空间推理的世界模型,必须具备自行生成模拟世界的能力。它们需要能够生成无限多样、持续变化的模拟世界,并在遵循语义或感知层面指令的同时,保持在几何、物理以及动力学上的一致性——无论这些世界指向的是现实空间,还是虚拟空间。
研究界正在积极探索:这些世界是否应当以内隐方式表示,还是应当显式地编码其内在的几何结构。此外,除了强大的潜在表示之外,我认为,一个通用世界模型的输出,还必须能够在多种应用场景中生成明确、可观测的世界状态。尤其重要的是,它对“当下”的理解,必须与“过去”保持连贯——也就是说,与导致当前状态的一系列先前世界状态在逻辑上衔接一致。
2. 多模态(Multimodal):世界模型在设计之初即是多模态的
正如动物和人类一样,世界模型应当能够处理多种形式的输入——在生成式AI语境中,这些输入被统称为“提示”(prompts)。当只给定部分信息时,无论是图像、视频、深度图、文本指令、手势,还是具体动作,世界模型都应尽可能完整地预测或生成相应的世界状态。
这要求模型既能够以接近真实视觉系统的精度去处理视觉输入,又能同样自如地理解语义层面的指令。只有这样,智能体与人类才能通过多样化的输入方式,与模型围绕“世界”进行交流,并获得同样多样化的输出结果。
3. 交互性(Interactive):世界模型能够基于输入动作输出下一状态
最后,如果提示中包含动作和(或)目标,世界模型的输出就必须涵盖世界的下一状态——无论这一状态是以内隐方式表示,还是显式呈现。当输入仅包含一个动作(有或没有明确的目标状态)时,世界模型应生成一个与世界的先前状态、预期目标(若存在)以及其语义含义、物理定律和动力学行为相一致的结果。
随着具备空间智能的世界模型在推理与生成能力上的不断增强,可以设想,在给定目标的情况下,世界模型不仅能够预测世界的下一状态,甚至还能够基于新的状态,进一步预测下一步应采取的行动。
腾讯混元世界模型支持用户通过输入文字描述或上传图片,即可实时创建可交互的专属虚拟世界
这一挑战的规模,已经超出了AI以往所面对的任何问题。
语言是人类认知中一种纯粹的生成性现象,而“世界”所遵循的规则要复杂得多。以地球为例,重力支配着运动方式,原子结构决定了光如何产生颜色变化与明暗,无数物理定律约束着每一次互动。即便是在最富想象力的虚构世界中,也同样存在空间对象与行动体,它们必须服从各自定义世界的物理法则与动力学行为。
要在语义、几何、动力学与物理层面上保持整体一致性,需要全然不同的新方法。呈现一个世界的维度,其复杂度远远高于语言这种一维的、序列化的信号。要构建出能够接近人类所具备的那种通用能力的世界模型,我们必须跨越多道极其艰巨的技术门槛。在世界实验室,我们的研究团队正全力以赴,推动这一目标所需的基础性突破。
以下是我们当前的一些研究方向示例:
用于训练的全新通用任务函数:为世界模型定义一种像大语言模型中的“下一个词元预测”那样简单而优雅的通用任务函数,长期以来一直是该领域的核心目标。由于其输入与输出空间本身的高度复杂性,建立这样的函数在形式上天然更加困难。但尽管仍有大量问题有待探索,这一目标函数及其对应的表示方式,必须体现基本的几何与物理规律,尊重世界模型作为一种同时扎根于想象与现实的表征形式这一根本属性。
大规模训练数据:训练世界模型所需的数据,远比文本整理复杂得多。好消息是,庞大的数据来源已经存在:互联网上规模级的图像与视频集合,构成了丰富而易获取的训练材料。真正的挑战在于,如何开发一套算法,从这些二维图像或视频帧(即RGB信号)中提取更深层次的空间信息。过去十年的研究已充分展示了语言模型中,数据规模与模型规模之间的“扩展律”;而世界模型的关键突破,在于构建能够以相近规模有效利用现有视觉数据的架构。
此外,我并不低估高质量合成数据,以及深度信息、触觉信息等额外模态的价值。在训练过程中的关键阶段,它们能够对互联网规模数据形成重要补充。但前行之路仍然依赖于更先进的传感系统、更稳健的信号提取算法,以及更强大的神经模拟方法。
新的模型架构与表征学习方式:世界模型研究势必推动模型架构与学习算法的进化,尤其是在现有多模态大模型与视频扩散范式之外。当前方法通常将数据离散为一维或二维序列,这会让一些本不复杂的空间任务变得异常困难——例如,在一段短视频中统计独特椅子的数量,或记住一个房间在一小时前的样子。替代性的架构或许能够提供帮助,例如具备三维或四维感知能力的分词、上下文与记忆机制。
在世界实验室,我们近期提出了一种名为RTFM的实时生成式帧模型,正体现了这一转变。该模型以具有空间锚定的帧作为一种“空间记忆”,在保持所生成世界连续性的同时,实现了高效的实时生成。
显然,在通过世界模型全面释放空间智能潜力之前,我们仍然面临着艰巨的挑战。但这项研究并非停留在理论层面。它是新一代创意与生产力工具的核心引擎。而在世界实验室内部,我们已经看到了令人鼓舞的进展。最近,我们向一小部分用户展示了Marble的早期形态——这是首个能够接受多模态提示,并生成、维持一致三维环境的世界模型,供用户与创作者探索、互动,并在其创作流程中持续构建。而且我们正在努力让其能尽快向公众开放使用!
Marble只是我们迈向创建真正具备空间智能的世界模型的第一步。随着进展不断加速,研究者、工程师、用户以及商业决策者正逐渐意识到它所蕴含的巨大潜力。下一代世界模型,将允许机器在空间智能层面实现一次全新的飞跃——而这,正是解锁当下AI系统仍普遍缺失的一系列关键能力的前提。
-
本文仅代表作者个人观点。
- 责任编辑: 郭涵 
-
左翼出身、经济“操盘手”,委内瑞拉副总统被推到台前
2026-01-04 09:22 -
“马杜罗被委政府内部的CIA线人出卖”
2026-01-04 08:32 应对特朗普冲击波 -
在中俄支持下,安理会将召开会议
2026-01-04 07:40 -
驻日使馆:多名旅日中国公民报告遭无端辱骂殴打并受伤
2026-01-04 07:32 日本 -
“美国袭击造成至少40人死亡”
2026-01-04 06:55 -
特朗普:将组建团队管理委内瑞拉
2026-01-04 06:47 -
金正恩:战术制导武器系统效果很好,有必要把生产能力再扩大2.5倍
2026-01-04 06:43 朝鲜现状 -
巴西承认罗德里格斯为委内瑞拉领导人
2026-01-04 06:41 -
载有马杜罗的飞机抵达美国纽约一处军事基地
2026-01-04 06:39 -
俄罗斯:强烈敦促美国释放马杜罗
2026-01-03 23:42 -
“半夜掳走一国总统,没有比这更猖狂的了”
2026-01-03 23:34 观察者头条 -
特朗普:实时观看了抓捕行动,马杜罗夫妇目前在美军舰上
2026-01-03 22:59 特朗普 -
“美方悍然对一国总统动手,中方深表震惊、强烈谴责”
2026-01-03 22:39 -
委内瑞拉致函安理会
2026-01-03 21:10 -
-
美国司法部长:马杜罗已被起诉,“被控四罪”
2026-01-03 20:59 -
活不起了,美国人“逃”向中西部
2026-01-03 20:40 美国一梦 -
俄外交部:要求美方立即澄清
2026-01-03 20:15 -
委副总统:要求美方证明马杜罗活着
2026-01-03 18:17 -
特朗普称:已抓获马杜罗
2026-01-03 17:40 观察者头条
相关推荐 -
全球首次,伊朗炸了美企巨头数据中心 评论 138
伊朗有限“锁喉”:中国尚能应对,全球冲击有多大? 评论 96
“顶住强大外国施压”,斯里兰卡庇护另一艘伊朗军舰 评论 166
特朗普狂言:不接受哈梅内伊儿子,我也得掺一脚 评论 374最新闻 Hot-
全球首次,伊朗炸了美企巨头数据中心
-
伊朗有限“锁喉”:中国尚能应对,全球冲击有多大?
-
俄罗斯:来买我们的吧,绝对可靠
-
特朗普威胁:除非伊朗无条件投降…
-
这段视频火了:美护士呼吁中英加“攻打美国”…
-
伊朗最重要的经济命脉之一,阿联酋考虑下手
-
伊朗宣布:摧毁美军“萨德”反导雷达
-
坚决捍卫!长和升级法律行动
-
“不管美国警告,越南与中国企业谈5G合作”
-
莫迪罕见发声,但还是没谴责…
-
“中美罕见协调一致,敦促加纳”
-
“在最短时间内”,俄罗斯修复拜科努尔受损发射台
-
美国出招了,“就像给枪伤贴创可贴”
-
中国高铁进入欧洲“第一单”,低调务实的开局
-
初步调查:美军自己要为炸死伊朗女学生负责
-
“顶住强大外国施压”,斯里兰卡庇护另一艘伊朗军舰
-

观察员

上海市互联网违法与不良信息举报中心