-
观察者网WAIC直播实录:AI大潮下的具身和人形,中国在跟跑还是并跑?
最后更新: 2025-08-03 23:55:24赵仲夏: 了解。好的,我们刚刚聊了很多跟人形机器人有关的争议话题,要不来转到另一个好玩的话题,就是人工智能和具身智能,想听听大家对具身智能这个概念的定义和看法,是不是像宇数那样翻跟头、跳舞就应该算是具身智能?还是说具身智能有另外一些更广更大的概念?奚老师,要不您先聊一聊。
奚伟: 好的,具身智能我接触比较早, 2016 年在 Berkeley 访问 Peter 的时候,他就提出具身智能的概念,当时他们主要提出的是传统的我们做机器人控制分三部分,一部分是perception,一部分是planning,还有一部分control。所有东西要通过代码来去实现,先做物体的识别定位,再做规划,最后再做执行。其实是,能不能把这个东西压缩起来,直接从图像到动作一步完成。他提出这个东西,叫具身智能,因为当时我们对这个概念还是相对比较陌生,在 2016 年的时候就做机器人来讲,一肯定要做这些,把它分解开,就是 divide and conquer,但是我觉得从现在发展来看,就像宇数做的强化学习,可以认为是一种具身智能,它的输入传感器是通过力传感器,通过电流,也是通过传感器形成最后的一个具身动作,但它这动作是通过仿真来实现的。
我们更多更广义上的一些具身智能,是能够从现实的环境中通过视觉,通过多模态的传感器获取到的经验,能够实现更高意义上的这个决策和推理,最后能够达到通用的操作的能力。所以从这个角度来讲,我觉得目前的技能学习,或者说像宇数这种跳舞动作是属于相对初级的阶段,它的目标比较明确,但通用的具身智能,它的目标是比较复杂的,这个能力的具身智能还在一个需要发展的阶段。
赵仲夏: OK,了解,感谢奚老师对具身智能概念的分享,让我想到了之前有一个概念叫做视觉私服。从控制学角度去讨论的话,有点回到了当时大家讲通过视觉去牵引一个任务完成,然后来适应一些不同的泛化。
冯老师,您这边从人工智能,然后 AGI 到大模型这个角度,研究得会比较深刻一些,您是如何看待具身智能这个概念的?能不能帮我们从人工智能角度聊一聊。
冯子勇:因为我们原来做视觉,没有机器人就相当于我只有感知,到最后我的决策就是一个,譬如原来是输出一些 label 框或什么东西,现在可以输出语言,但是最终执行还是给到人,就是我只能说相当于他辅助出了一些信息,然后人再去做操作。整个闭环是没办法进行的。在我看来,具身智能是希望这个闭环能在整个模型,或者说整个智能模型里面自己去产生闭环,我的这个传感器进来,我自己产生判断,具体产生的action,最后 action 改变的世界又重新回来了,这个闭环是完全的。
我认为这就是具身智能非常重要的一个概念,需要把整个东西闭环,并且是跟物理世界去交互,随之就是我们可以在物理世界中随着这种闭环,不停地去提升我的智能能力,而不是靠采集数据标注员,智能来自于标注员,而不是来自于这个智能体本身。
赵仲夏: 多少人工就有多少智能。
冯子勇:对,这个其实不太符合大家对智能的需求,所以我觉得具身智能在这个层面上应该是,它会自主计划,随着他跟物理世界的接触不停地去学习,这样的一个概念。
赵仲夏:了解。说到这个,我有些概念想请教一下冯老师,我们常听的LLM、VLM、 VLA 这些都是什么样的概念?能不能稍微给我们解释一下?
冯子勇:LLM 大家可能也比较熟悉了,这个现场大家都看到很多大语言模型,当然在我看来,它虽然叫做大语言模型,但不只是语言模型,其实是逻辑模型,因为语言是有逻辑的,我不会随便说一些奇奇怪怪的话,所以你也可以认为它是大逻辑模型。
很多时候现在只有语言的输入,但接上了vision,就像我刚才讲了我们也在做 vision 相关的工作,我们在大概2021 年就开始去摸索大视觉模型,当时不叫大视觉模型,因为当时没有这个概念,叫视觉基础或者预训练模型。
这就是我们现在做的,我们把它叫做MVT,已经到了 1.5 这个阶段,它能够把视觉传感器进来的图像变化成视觉的token,这个 token 就能进到这个语言模型里面去。使得这个语言模型能够作为一种视觉外语去理解它,这个逻辑至少在视觉跟语言上,或者视觉跟逻辑上融合在一起了,这就是大家能看到的 VLM 。
随着机器人的发展,我不只想出一个文本,不想只出一句话,我还要有动作,我还要有操作,我还要改变世界,那么就是 action 也出来了。
可能我们看到有很多技术路线,从一个 hidden state,一个隐空间,就刚才说的某一坨逻辑,然后 decode 出来怎么去操作,这里面有很多专门的技术,譬如说DP,把这样的一些技术操作去做,在我看来可能导航也是一种操作,再把这三者有机地联系在一起,那么它就变成了一个VLA。
赵仲夏: OK,太棒了。感觉好像跟我们讲了一下大模型下发展的一个历史。Mario 你是如何看待具身智能这个概念的?这个概念真的非常火,但是好像大家对它的定义也没有完全特别清晰。
陈勉诺:我自己原来就是做机器人,在我的认知里边,它其实只是说把机器人做了延伸,因为大模型出来之后,智能有了进一步的提升,所以原来可能大家对机器人还是局限在传统的控制学范畴,然后今天终于加上了 AI 范畴。所以提出一个新的概念,让大家可以有更多的研究话题。
第二点是,对于具身智能概念的理解,主要因为它叫 EmbodiedAI,其实是在于本身具备物理实体、然后能与环境做有效的交互,这可能区别于LLM范畴或者VLM范畴更偏数字世界,EmbodiedAI一定要有跟物理世界进行交互,以及一个物理的实体。
从概念上去理解的话,广义上不单单只局限于在机器人领域,只不过机器人是大家最fancy也是最容易想到的一个主要形态,这也是大家普遍提到具身智能就理解成机器人的原因。我的理解在广义上来说,它只要跟物理世界进行交互,然后有具备一定的物理实体,可能具备一些这个物理感知,其实都可以被称之为 EmbodiedAI具身智能。但在整个与物理世界交互的形态里面,最重要的还是机器人的形态,因为机器人形态才能够跟物理进行有效的交互。有效交互指的是一定要跟物理世界有接触,发生物理反应才能够叫有效交互。所以我们认为 EmbodiedAI这个概念是机器人概念的一个延伸,但不限于机器人概念。
赵仲夏: 对,我感觉每次听勉诺讲话都有点顿悟的感觉。冯老师,我们这边关注到,最近有一个新的概念叫 world model世界模型,大家认为也会在具身智能方向上产生一些比较好的潜力。您是怎么看这件事情的?我听说您最近在做一些视频模型,我们怎么理解视频模型和 world model 呢?它们对具身智能是否有帮助?
冯子勇:OK,首先世界模型我认为它是希望有一些视觉输入之后,预测这个世界是怎么发展的,相当于自己内部会有一个预测模型,但这个模型有一些是显示的,要生成下一帧或者下面一段时间的图片或视频。也有些就觉得,不需要显示,拿到隐藏空间或者表达就 OK ,并不一定到 Pixel 像素层面去还原它。从我的角度更偏向于后者一点,只要大概知道接下来是怎么做的就 OK 了。
世界模型可以帮助我们去提升VLA,因为现在大家说的 VLA 可能更狭义一点,就是直接到操作,但是那具体怎么到操作可能中间会有,但都是直接做。
当然你可以用COT,就说我做一些thinking,reasoning 这样的序列来到达那个操作,但最后压缩起来,还是应该在这个模型的 latent 的 space 里面,是有一些预测的,但这个预测究竟是什么东西,我觉得学术界也在探讨。
但我觉得世界模型还很重要,它不一定是显示的表达出来,视频模型是这样的,就是我们自己,因为刚才也说了,我们很多研究都是基于图像,但不只基于图像,而是原来基于视频的技术发展有点落后。图像一是因为数据多,另外容易训,但视频不太好去搜集标注,从这个层面上训练的复杂度跟对算力的需求也非常大。
我们现在去看这个视频是因为,我们知道不管是真正地去分析这个世界,还是机器人,它对于这个连续动作还是非常有需求的,而不是我就看一张一张的图,当然现在很多 VLM 也好, VLA 都是我先把这个视频流切成一张一张的图,然后送到这个模型里面,这个相当于我可以让这个大语言模型它自己去串这个逻辑。
在我们自己做视觉的这个角度来看,很多视频流在前端就已经有一点被压缩掉了,特别是我们在视觉领域上,它是冗余的,特别是我们大部分视觉元素是不变的,视频是可以做得更高效、更紧致,而且去表达我们真正关注的东西,像人的 forbia 一样,他只关注到动的东西,我们做机器人很多时候关注的也是这个状态,世界状态变化,别的可能不太关注。我觉得在这里面视频的模型应该是有可以做的空间,而且最后它肯定是也能服务到机器人上。因为我们是一个动态的场景,它不是静态的。如果我们视频能做得更好,那我相信机器人对场景的理解,对最终自己动作的判断也能做得更好。
赵仲夏: 了解。奚老师,您从应用端角度来看的话,会去关注 world model 或者是视频模态的进展吗?您觉得它对您这边实际的人形机器人或者是区分智能落地会有很大帮助吗?
奚伟: 我觉得这是对于复杂场景肯定是有帮助的。像勉诺刚才讲的,对于通用的人形机器人,是要进和世界进行反复交互的,我们也在探索,比如在家庭场景四大件就是最典型的应用,收纳、清洁、洗衣、做饭,这四件事情看似简单,但非常复杂,比我们刚才说的在工业场景应用复杂得多。因为工业场景已经高度细分了,它每一个内容是一个一个动作,只要把它做得精准就可以了,它就有产业价值。但是我们希望这些机器人真正像人一样能够在家庭里边给我们应用。
所以我觉得 world model 就是物理世界模型,它是建立物理之间相对关系一个更好的表述,因为我们是缺乏表达的,因为缺乏表达才没有推理的手段,才没有范式。所以我觉得进入到家庭来讲, world model 是一个比较重要的基础。
赵仲夏: 谢谢。勉诺,你最近有在看 world model 一些相关的公司吗?你如果看 world model 的。
陈勉诺:我们也一直在关注学术前沿进展。 world model 到具身智能之间的衍生其实是在一些主流具身智能学派里面的一个分支路线。我们有交流过一些学者在顺着 world model 方式来去做 Robotics 领域,我们也认为这条路线是非常行之有效的。我有跟 MIT 和 Physical Intelligence 等里面同学去交流,这条路线是可以行得通的,因为 worldmodel本质上是对物理世界的数字重建,如果可以将物理世界进行重建得非常完善的情况下,它就能够很有效地将机器人也能在数字世界重建,就能够有效地 train 机器人的model。但这里边有一个很大的问题,因为 world model 需要将物理世界重建,所以需要采集大量的数据,它的成本会变得非常高,要把物理世界完全数字实现难度是非常高的。在这条路线上
如果问 world model 对具身智能发展是不是有帮助?绝对是有帮助的,但能不能构建完全行之有效的 world model 这个事情,成本是非常非常昂贵的,而且很难去完全实现。所以在我的认知里面,一直也在关注 world model 实际进展。但从 world model 到具身的实际使用过程,我觉得是一个非常长期的过程,而且可能world model 本身构建的过程也非常困难,我们当然希望有一天能够把 world model 重建出来,那这样的话我们就能在数字世界映射一个真实的物理世界,那这个时候很多物理世界的客观物理规律甚至可能新的科研发现都能在这个数字世界进行重建。就不单单只是机器人领域了,整个科研领域,整个人类的进步都能够得到更快的一个进展。
-
本文仅代表作者个人观点。
- 责任编辑: 张志峰 
-
鸿蒙世界,正上演“寒武纪大爆发”
2025-08-03 14:45 观网财经-科创 -
大疆、影石相互“偷家”!天空与全景的边界瓦解
2025-08-03 13:43 观网财经-消费 -
华夏人寿被吊销业务许可证,原董事长、董秘被终身禁业
2025-08-02 19:42 -
李宁还能回到过去吗?
2025-08-02 10:27 观网财经-消费 -
AI+中国,能否带来东方文艺的复兴?
2025-08-02 10:06 2025世界人工智能大会 -
苹果在华营收两年来首次恢复增长,库克:感谢“国补”
2025-08-02 07:25 观网财经-科创 -
普惠AI照进现实:云知声如何让技术“越山海”
2025-08-01 23:31 观网财经-科创 -
东鹏半年报:净利增加37.22%,半年营收首次破百亿
2025-08-01 23:19 观网财经-消费 -
特朗普对巴西关税新政引发连锁反应:美国农产品期货市场受冲击
2025-08-01 23:18 观网财经-消费 -
香港法院要求宗馥莉保全18亿美元信托,三子女证据曝光
2025-08-01 20:58 -
2025 WAIC丨加速规模化应用,与施耐德电气共赢“AI+产业”时代机遇
2025-08-01 19:40 2025世界人工智能大会 -
独家对话:用平扫CT筛查早期癌症,阿里医疗AI正让国人夺回“主动权”
2025-08-01 19:38 2025世界人工智能大会 -
尊湃窃取华为芯片技术案宣判:14人被判刑,总罚金超千万
2025-08-01 19:27 观网财经-科创 -
香港高等法院:宗馥莉暂不得提取汇丰账户资产
2025-08-01 19:25 -
谷歌回应恢复中国大陆服务传闻:截图不是来自Google
2025-08-01 19:10 -
计划以29.32亿港元进行私有化,大悦城地产或将退市
2025-08-01 16:43 -
66折,李嘉诚家族一项目大降价
2025-08-01 15:01 观网财经-房产 -
“立秋奶茶大战”在即,美团、饿了么、京东集体声明
2025-08-01 12:39 观网财经-互联网 -
梦百合、左右家居跨界开酒店,醉翁之意还是“卖货”?
2025-08-01 12:05 -
英伟达回应被约谈;我国大模型个人用户超31亿;微软市值破4万亿美元
2025-08-01 08:53 观网财经-互联网
相关推荐 -
普京访印:美国都在买,印度凭啥不能买? 评论 20
日本开发稀土担心中国干扰?日防相放话 评论 115
“美欧抢矿,遭殃的却是他们” 评论 13
美国又开炮欧盟:你们在“霸凌”美国军工! 评论 70
时代变了,“欧洲人迫切想要中国技术” 评论 204最新闻 Hot-
日本开发稀土担心中国干扰?日防相放话
-
“按下葫芦浮起瓢”,英伟达想重返中国市场又难了…
-
“特朗普高兴太早咯,中国把枪放进枪套,但枪还在手上”
-
又出狂言,“加墨不能成为中国出口中心…”
-
“美欧抢矿,遭殃的却是他们”
-
“今年就当广告时间,等英国接任后我们再回归”
-
美国又开炮欧盟:你们在“霸凌”美国军工!
-
“不要惊醒‘美洲豹’”
-
土耳其急了:别碰能源设施!
-
时代变了,“欧洲人迫切想要中国技术”
-
“原来特朗普对中国做这么多”,某些美国鹰派急眼了
-
17年来最低,“好感急剧恶化”
-
韩国入境系统标示“中国台湾”,民进党当局破防
-
“在美欧闻了一鼻子尾气,才反应过来:中国早没这味了”
-
中企在非遭800亿美元天价索赔,BBC老毛病又犯了
-
俄乌冲突后普京首次来访,印“外交钢丝”还能走多久?
-

观察员
上海市互联网违法与不良信息举报中心