-
心智观察所:我国科研机构主导的大模型成果首次登上Nature
【文/观察者网专栏作者 心智观察所】
几天前,《Nature》杂志刊发了一篇来自中国的人工智能研究论文。这在顶级学术期刊上并非新鲜事,但这篇论文的分量却非同寻常:它来自北京智源人工智能研究院,核心成果是一个名为“Emu3”的多模态大模型,而它试图回答的问题,是整个AI领域过去五年来悬而未决的核心命题——我们能否用一种统一的方式,让机器同时学会看、听、说、写,乃至行动?
这个问题听起来简单,但它的复杂程度足以让全球顶尖的AI实验室争论不休。
OpenAI用Sora惊艳世界,靠的是扩散模型;Google的Gemini整合多模态,用的是复杂的编码器拼接;Meta的Chameleon尝试统一,却始终难以在性能上与专用模型抗衡。而智源的答案,是一个看起来朴素得近乎偏执的选择:只用“下一词预测”。
这个选择的意义,可能需要一些背景知识才能理解。
论文前言
一场关于“语言”的豪赌
如果你问一位2020年的AI研究者,未来的多模态智能会是什么样子,他大概率会给出这样的预测:图像生成归图像生成,文字理解归文字理解,视频处理归视频处理,然后我们用某种“胶水”把它们粘在一起。这不是懒惰,而是当时的技术现实——不同模态的数据特性差异太大,专精往往意味着高效。
事实上,这条路线在过去几年里取得了巨大成功。Stable Diffusion让普通人也能生成惊艳的图像,GPT-4让对话AI变得无所不能,而各种视觉-语言模型则在问答、识别、描述等任务上不断刷新纪录。但问题也随之而来:这些模型就像一个技艺精湛但只会单项运动的运动员,让它们协同工作,需要复杂的工程架构、精细的模态对齐,以及大量的人工干预。
更关键的是,这种“专科化”的发展路径隐含着一个令人不安的假设:也许机器智能天生就是碎片化的,我们永远需要为每一种能力单独训练一个模型。
Emu3挑战的,正是这个假设。
智源团队的核心洞见是:如果我们把图像、视频、文字都转换成同一种“语言”——离散的符号序列——那么让模型学习“预测下一个符号”这一个任务,是否就足以涵盖所有多模态能力(如下图)?
这个想法并非没有先例。早在2020年,GPT-3就已经证明,仅仅通过预测下一个词,语言模型可以涌现出惊人的推理、翻译、编程能力。但将这一范式扩展到图像和视频,面临着截然不同的挑战:一张512×512的图像,如果用简单的方式转换成符号,可能需要几十万个token,这对于Transformer架构来说是灾难性的计算负担;更重要的是,图像的空间结构、视频的时间连续性,与文字的线性叙事有着本质区别,简单的“下一词预测”真的能捕捉这些复杂的关系吗?
智源的答案是肯定的,而Emu3就是他们的证明。
一个分词器的艺术
要理解Emu3的技术突破,首先要理解它的“视觉分词器”(Vision Tokenizer)。这个听起来不起眼的组件,实际上是整个系统的基石。
想象一下,你需要用电报向一个从未见过图片的人描述一幅画。你不可能传输原始的像素值——那太冗长了;你也不能只说“一幅风景画”——那太模糊了。你需要的是一种既紧凑又富有表现力的编码方式,能够在有限的符号中保留足够的视觉信息。
Emu3的视觉分词器做的正是这件事。它能够将一张512×512的图像压缩成仅仅4096个离散符号,压缩比达到64:1;对于视频,它在时间维度上进一步压缩4倍,使得一段4帧的视频片段也只需要4096个符号表示。这些符号来自一个包含32768个“词汇”的码本——你可以把它想象成一本视觉词典,每个“词”代表一种特定的视觉模式。
更精妙的是,这个分词器是为视频原生设计的。传统的图像分词器处理视频时,只能逐帧编码,完全忽略帧与帧之间的时间关联;而Emu3的分词器通过三维卷积核,能够同时捕捉空间和时间维度的信息。在实验中,这种设计用四分之一的符号数量,就达到了与逐帧处理相当的重建质量——这不仅意味着更高的效率,更意味着模型能够真正“理解”视频的动态本质,而非仅仅处理一堆静态图片。
有了这个分词器,图像和视频就变成了与文字一样的符号序列。接下来的事情,就是让一个Transformer学会预测这些序列中的“下一个符号”。
当简单遇上规模
Emu3的模型架构,用一句话就能概括:它就是一个标准的大语言模型,只不过词汇表里多了32768个视觉符号。
这种极简主义设计在AI研究界是罕见的。主流的多模态模型——无论是LLaVA、BLIP-2还是Flamingo——都采用“编码器+语言模型”的复合架构,即先用一个专门的视觉编码器(通常是CLIP)把图像转换成特征向量,再用适配器将这些特征“注入”语言模型。这种设计的好处是可以复用已有的预训练组件,但代价是系统复杂度的急剧上升,以及模态之间潜在的隔阂——视觉编码器和语言模型毕竟是独立训练的,它们对世界的理解未必一致。
Emu3选择了一条更激进的路:不用任何预训练的视觉编码器,不用任何复杂的模态融合机制,只用一个从零开始训练的decoder-only Transformer。所有的多模态知识,都是在统一的下一词预测任务中从数据里学来的。
这种“大道至简”的设计哲学,在实践中转化为了惊人的实验结果。
在图像生成任务上,Emu3在人类偏好评估中得分70.0,超越了Stable Diffusion XL(66.9)这个扩散模型的标杆;在视觉语言理解的12个基准测试上,它的平均分达到62.1,与采用复杂编码器架构的LLaVA-1.6(61.8)持平;在视频生成的VBench评估中,它取得了81.0分,超过了专门的视频扩散模型Open-Sora-1.2(79.8)。
这些数字的意义在于:一个仅仅用“预测下一个符号”训练的模型,在生成和理解两个看似矛盾的方向上,同时达到了专用模型的水平。这在此前被认为是不可能的——毕竟,扩散模型和自回归模型的数学基础完全不同,擅长理解的架构通常不擅长生成,反之亦然。Emu3的成功,相当于一个运动员同时在短跑和马拉松比赛中夺冠,打破的不仅是记录,更是人们对专业化边界的认知。
标签 心智观察所- 原标题:我国科研机构主导的大模型成果首次登上Nature 本文仅代表作者个人观点。
- 责任编辑: 李昊 
-
马斯克究竟想干什么?
2026-02-06 08:00 心智观察所 -
“没想到我的课堂作业成了中美AI‘决战’的竞赛场”
2026-02-05 20:45 问诊2026中国经济 -
春节里一场不得不打、且必须此刻打响的战役
2026-02-05 08:24 心智观察所 -
“太空蝴蝶”破蛹展翅,太空生命生存试验翻新篇
2026-02-04 20:22 航空航天 -
特斯拉把电池制造的“圣杯”搞定了
2026-02-03 08:02 心智观察所 -
北京小孩哥野外发现,填补研究空白
2026-01-31 17:07 -
阿尔及利亚遥感三号卫星发射成功,习近平同阿总统互致贺电
2026-01-31 14:59 -
当特朗普质疑中国风电时,我们在谈论什么
2026-01-31 09:00 心智观察所 -
在宇宙布下“监听系统”!我国新增量子神器
2026-01-30 12:05 -
-
一人公司与造物主2.0:赴拉斯维加斯参加CES展会后的感想
2026-01-29 14:25 -
离体脑细胞学会打游戏,智能从何而来?
2026-01-29 08:21 心智观察所 -
刷新三项世界纪录!“中国牌”晶体再获重大突破
2026-01-29 07:31 -
面对尼帕病毒,别急着炒作“有效药物”
2026-01-28 17:11 医学 -
“工业黄金”,重大突破!
2026-01-27 21:08 科技前沿 -
这一次,敌人不在战场,在硅谷
2026-01-27 18:28 心智观察所 -
AI都会“装好人”了,还能管住它吗
2026-01-27 14:14 2026答案秀 -
AI狂奔,中国变压器成了最硬通货
2026-01-27 08:31 心智观察所 -
中船重工是否有意进军重型燃气轮机领域?
2026-01-26 13:23 心智观察所 -
如何为人工智能“立心”?儒学有独特解释
2026-01-23 10:47 2026答案秀
相关推荐 -
火在印度继续烧…“瑞典金发女郎,要吗?” 评论 26
港府当面斥责:巴拿马自毁国家信用,后果自负 评论 46
美防长:哈佛“觉醒麻了”,全砍掉 评论 47
炒作新核导条约,鲁比奥又想拉中国下水 评论 115
美伊正谈着,特朗普签了:25%关税 评论 124最新闻 Hot-
火在印度继续烧…“瑞典金发女郎,要吗?”
-
港府当面斥责:巴拿马自毁国家信用,后果自负
-
都想跟中国较劲,“美国砸巨款,欧盟一看跑了”
-
中国收紧对日管制后,稀土价格上了最高值
-
“进口越南女性嫁到韩国农村”?越南人气炸了
-
政务大厅一工作人员,8年竟收好处费1614万
-
美军火商拿卷尺量歼-35模型,还酸溜溜诋毁……
-
金晨被行政处罚,结果公开
-
万斯在开幕式上被嘘,特朗普:真的吗?
-
美防长:哈佛“觉醒麻了”,全砍掉
-
“电力缺口巨大”,乌方称俄罗斯大规模袭击其能源设施
-
加拿大不仅“加快驶离美国”,还要“向中国车企示好”
-
两大日媒痛批特朗普…
-
印度真不买俄油了?特朗普签行政令取消关税
-
炒作新核导条约,鲁比奥又想拉中国下水
-
深陷爱泼斯坦丑闻,挪威王储妃道歉
-

观察员
上海市互联网违法与不良信息举报中心