最新测评集：几乎所有大模型，视觉能力都不如3岁小孩

APP下载

扫一扫

下载观察者APP

最新测评集：几乎所有大模型，视觉能力都不如3岁小孩
- 万肇生Guanchazhewanxgun
分享到：

2026-01-12 20:13:48 字号：A- A A+ 来源：观察者网

（文/万肇生编辑/张广凯）

大模型的视觉处理能力虽不如语言推理那样惊艳，但一项最新的测试结果，仍显得十分残酷。

1月12日，红杉中国xbench携手UniPatAI团队对外发布全新多模态理解评测集BabyVision，旨在精准测评大模型的核心视觉能力。

UniPatAI发布的技术论文显示，该评测集首轮测试的结果中，当前绝大多数顶尖多模态大模型的视觉任务表现，都要显著低于 3 岁儿童水平，仅仅有一款模型勉强超过3岁基线。

而出现体感上的如此巨大的反差，倒也好理解，主要是由于日常中模型强大的语言推理能力，掩盖了其视觉信息处理能力的不足。

通常情况下，大模型在面对图像问题时，会使用文字对问题进行描述。虽然视觉信息转为文字描述有局限性，但模型会通过强大的语言推理能力，来理解并解决视觉问题。然而需要注意的是，这并不是真正的视觉能力，而是一种基于文字信息的推理能力，因此当大模型一旦失去语言能力的加持，其在视觉信息处理中，短板就暴露无遗。

几乎在测模型都不如3岁小孩

基于此，UniPatAI团队成员们为用于首轮测试的BabyVision-Mini，设计了包含20道视觉中心任务，并严格控制语言依赖，所有题目答案均需完全依靠视觉信息得出。同时，团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童，作为对照组，进行测试。

其结果显示，大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间。唯一表现较好的Gemini3-Pro-Preview模型也仅能勉强超过3岁基线，但与6岁儿童相比仍存在约20个百分点的差距。

比如在BabyVision-Mini中一道垃圾分类连线题，要求将"塑料杯""废报纸""苹果核"分别通过路径连线到对应颜色的垃圾桶，正确答案为A-蓝、B-黄、C绿。

三岁儿童仅凭本能就能从起点沿线追踪至终点，轻松完成作答，而最强的Gemini3-Pro-Preview虽写下大段"逐段追踪"的推理过程，最终仍给出A-绿、B-黄、C-蓝的错误答案。

随后团队又将测试扩展到包含388道题目的全量BabyVision-Full评测，此时人类对照组的16位本科以上背景参与者，准确率已经高达94.1%。

而大模型方面，在Mini测试中，表现最佳的闭源模型Gemini3-Pro-Preview，此时准确率也仅为49.7%。开源模型中最强的Qwen3VL-235B-Thinking，则整体不足22.2%，而其他开源模型得分集中在12%-19%区间。

视觉能力的全方位不足

需要注意的是，UniPat AI的技术论文还特别指出，这不仅仅是大模型的单一方面不足，而是视觉能力的四大类别（精细辨别、视觉追踪、空间感知以及视觉模式识别）上的全方位不足，说明这是大模型基础视觉能力存在系统性缺失。

对此，团队统计出了模型主要面临四大典型挑战：

第一类挑战来自“非语言细节”的缺失。人类在处理拼图补全等任务时，能凭几何直觉直接感知边界对齐、微小凸起等像素级差异；而模型一旦将下图四个选项的形状描述为“像钩子、有两个腿”等语言概括，细微的视觉差异就被抹平，选项在token空间里变得“几乎一样”。

Gemini3-Pro-Preview这道题里选择了D，而非B。

第二类挑战就体现在轨迹追踪任务中，如上文的“垃圾分类”问题。人类是锁定一条线，并一路追到终点。而模型则会将翻译成“左/右/上/下”的离散步骤，难以保持统连续性。因此，一旦遇到交叉点，就容易产生路径分叉，导致从“跟随一条线”退化为“猜测终点”。

第三类系空间想象能力缺失。在三维方块计数、视角投影、遮挡结构判断等任务中，人类会在脑海中保持三维结构的形状，并变换视角进行判断，这是空间想象能力的体现。而模型依靠语言推理，但文字描述并非真实，最终导致漏掉隐藏块，搞错投影关系。

Gemini3在这里将图形高度按照数字进行标记，但错误将右侧竖列后排为4的积木忽略，最终计为前排平台的2，因此得到了错误答案C。

最后一大挑战则是图形规律归纳难题。此类题目要求从少量视觉示例中找规则。人类做的是关系映射，确定变化，而模型则会关注图像的颜色、形状等属性，将“结构规则”误读成“外观统计”，导致迁移时幻觉规则。

阿里千问在将图形拆解成8等分后，成功判断出棕色部分应该在顶部，然而却将C选项“看花眼”

对此，研究团队认为，造成大模型普遍超低评分的核心原因在于，测试集中有许多题目具有"unspeakable"（不可言说）的特性———即无法在不损失信息的情况下被完整语言化。

如此一来，人类只需要简单通过指一指、圈一圈、沿线路径追踪等直觉式方式解题，但模型必须将视觉信息压缩为token进行语言化处理，这一过程中，大量关键细节会丢失，最终导致推理失误。

然而这也不是没有办法。研究团队通过让视觉推理“落地到视觉操作”上，Sora2一笔一划，最终成功绘制了左上角鳄鱼的连线图像。

美中不足的是，Sora2也仅画对了鳄鱼这一条线，而其他模型则是一条线也没有成功。但或许未来通过让模型进行绘画、临摹等方式进行推理，可以恢复大模型的文字推理所缺失的能力。

因此该团队写道，“很难想象一个视觉能力低于3岁儿童的机器人，能够可靠地在真实物理世界里帮助人类”。团队认为，为了推动多模态智能的发展，未来的模型必须从根本上重建视觉能力，而非依赖语言推理。
|

举报
- 违反法律法规
- 垃圾信息、广告
- 色情、淫秽信息
- 人身攻击
- 谣言、不实信息
- 冒充，冒用信息
- 破坏社区秩序
- 其他
- 涉未成年人有害信息
观察者网举报制度规范
确定取消
标签
- 责任编辑: 万肇生
- 荣耀将与泡泡玛特推出联名手机
  
  2026-01-12 19:16 产经科创
- 美克家居关停了天津“发家工厂”
  
  2026-01-12 19:10 产经 A股/港股/美股
- 需要13亿来“改善生活”？毛戈平家族的上市财富盛宴
  
  2026-01-12 18:31 品牌实验室
- 借款102亿背后：智飞生物履行默沙东980亿的“卖身契”
  
  2026-01-12 18:31 观网财经-健康
- 餐酒吧老大幻师递表港交所，但酒水“消费降级”红利已至尾声？
  
  2026-01-12 18:14
- 发布15年后，iPhone 4突然爆火
  
  2026-01-12 15:50 产经科创
- 受制于英特尔指令集？兆芯总工：掌握CPU设计全部源码
  
  2026-01-12 14:37 观网财经-科创
- 从米其林到扫街榜：一场中国美食话语权的静默革命
  
  2026-01-12 13:06 观网财经-消费
- 菜鸟开通美国至墨西哥跨境物流服务
  
  2026-01-10 22:55 观网财经-互联网
- 国家将对外卖行业“内卷式”竞争启动调查，美团：坚决拥护
  
  2026-01-10 22:55 观网财经-互联网
- 荣耀进军超薄手机，售价或超4600，能否打过苹果华为？
  
  2026-01-10 11:59 观网财经-科创
- 154个数据库被暗网黑客窃取？ASML回应
  
  2026-01-10 09:15 产经科创
- 中国光伏行业协会发声
  
  2026-01-09 22:10
- 天普股份公告涉重大遗漏，被证监会立案调查
  
  2026-01-09 20:48 股市
- 两部门：4月起，取消光伏等产品增值税出口退税
  
  2026-01-09 18:16
- MiniMax上市首日股价翻倍，成全球首个千亿市值AI上市公司
  
  2026-01-09 18:03 观网财经-互联网
- 芯片被美国审查通过后，黑芝麻智能获武岳峰5亿战投
  
  2026-01-09 17:33 产经科创
- 反垄断办：对外卖平台市场竞争状况开展调查、评估
  
  2026-01-09 17:12
- 因质疑“年会穿西装”，国产操作系统核心研发被开除？
  
  2026-01-09 16:04 观网财经-科创
- “链主”企业牵头搞大事，SHEIN的产业赋能密码藏不住了
  
  2026-01-09 15:38
搜索

   观察者头条查看全部

新加坡外长去了趟朝鲜，看到了三个变化评论 0

美国紧盯，“首批中国产的到加拿大了” 评论 48

慢火一炖，国产长剧这回争了口气评论 145

缸中之脑？美生物公司用“非生非死”的人脑测试药物评论 269

加拿大总理：人民币上桌，我们能帮忙评论 160

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

最新测评集：几乎所有大模型，视觉能力都不如3岁小孩

荣耀将与泡泡玛特推出联名手机

美克家居关停了天津“发家工厂”

需要13亿来“改善生活”？毛戈平家族的上市财富盛宴

借款102亿背后：智飞生物履行默沙东980亿的“卖身契”

餐酒吧老大幻师递表港交所，但酒水“消费降级”红利已至尾声？

发布15年后，iPhone 4突然爆火

受制于英特尔指令集？兆芯总工：掌握CPU设计全部源码

从米其林到扫街榜：一场中国美食话语权的静默革命

菜鸟开通美国至墨西哥跨境物流服务

国家将对外卖行业“内卷式”竞争启动调查，美团：坚决拥护

荣耀进军超薄手机，售价或超4600，能否打过苹果华为？

154个数据库被暗网黑客窃取？ASML回应

中国光伏行业协会发声

天普股份公告涉重大遗漏，被证监会立案调查

两部门：4月起，取消光伏等产品增值税出口退税

MiniMax上市首日股价翻倍，成全球首个千亿市值AI上市公司

芯片被美国审查通过后，黑芝麻智能获武岳峰5亿战投

反垄断办：对外卖平台市场竞争状况开展调查、评估

因质疑“年会穿西装”，国产操作系统核心研发被开除？

“链主”企业牵头搞大事，SHEIN的产业赋能密码藏不住了

对华强硬不惜“化疗”？“欧盟处境不妙”

贝佐斯火箭炸了马斯克：搞这个很难的

特朗普如何让一个激进独立斗士变成“爱国者”

美国紧盯，“首批中国产的到加拿大了”

慢火一炖，国产长剧这回争了口气

宝莱坞傻眼，“官方警告：不得抨击中国”

“日元，全球最弱”

贝森特：国会需要修改法律，让特朗普肖像出现在美元上

63%不支持率！特朗普民调跌入“尼克松水门时刻”

接着挑拨，“都自以为从中国捞到甜头，比别人多”

缸中之脑？美生物公司用“非生非死”的人脑测试药物

画风迥异：印度一邦警员被黑帮搜身，另一邦警员拉嫌疑人游街

美“新格伦”火箭在发射台上爆炸

“这是中国战略要务，欧盟改不了”

还狡辩！“中国不了解真相，美国没施压…”

黄仁勋：原本不去，特朗普致电坚持让其上飞机