-
最新测评集:几乎所有大模型,视觉能力都不如3岁小孩
-
万肇生Guanchazhewanxgun
(文/万肇生 编辑/张广凯)
大模型的视觉处理能力虽不如语言推理那样惊艳,但一项最新的测试结果,仍显得十分残酷。
1月12日,红杉中国xbench携手UniPatAI团队对外发布全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力。
UniPatAI发布的技术论文显示,该评测集首轮测试的结果中,当前绝大多数顶尖多模态大模型的视觉任务表现,都要显著低于 3 岁儿童水平,仅仅有一款模型勉强超过3岁基线。
而出现体感上的如此巨大的反差,倒也好理解,主要是由于日常中模型强大的语言推理能力,掩盖了其视觉信息处理能力的不足。
通常情况下,大模型在面对图像问题时,会使用文字对问题进行描述。虽然视觉信息转为文字描述有局限性,但模型会通过强大的语言推理能力,来理解并解决视觉问题。然而需要注意的是,这并不是真正的视觉能力,而是一种基于文字信息的推理能力,因此当大模型一旦失去语言能力的加持,其在视觉信息处理中,短板就暴露无遗。
几乎在测模型都不如3岁小孩
基于此,UniPatAI团队成员们为用于首轮测试的BabyVision-Mini,设计了包含20道视觉中心任务,并严格控制语言依赖,所有题目答案均需完全依靠视觉信息得出。同时,团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童,作为对照组,进行测试。
其结果显示,大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间。唯一表现较好的Gemini3-Pro-Preview模型也仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距。
比如在BabyVision-Mini中一道垃圾分类连线题,要求将"塑料杯""废报纸""苹果核"分别通过路径连线到对应颜色的垃圾桶,正确答案为A-蓝、B-黄、C绿。
三岁儿童仅凭本能就能从起点沿线追踪至终点,轻松完成作答,而最强的Gemini3-Pro-Preview虽写下大段"逐段追踪"的推理过程,最终仍给出A-绿、B-黄、C-蓝的错误答案。
随后团队又将测试扩展到包含388道题目的全量BabyVision-Full评测,此时人类对照组的16位本科以上背景参与者,准确率已经高达94.1%。
而大模型方面,在Mini测试中,表现最佳的闭源模型Gemini3-Pro-Preview,此时准确率也仅为49.7%。开源模型中最强的Qwen3VL-235B-Thinking,则整体不足22.2%,而其他开源模型得分集中在12%-19%区间。
视觉能力的全方位不足
需要注意的是,UniPat AI的技术论文还特别指出,这不仅仅是大模型的单一方面不足,而是视觉能力的四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上的全方位不足,说明这是大模型基础视觉能力存在系统性缺失。
对此,团队统计出了模型主要面临四大典型挑战:
第一类挑战来自“非语言细节”的缺失。人类在处理拼图补全等任务时,能凭几何直觉直接感知边界对齐、微小凸起等像素级差异;而模型一旦将下图四个选项的形状描述为“像钩子、有两个腿”等语言概括,细微的视觉差异就被抹平,选项在token空间里变得“几乎一样”。
Gemini3-Pro-Preview这道题里选择了D,而非B。
第二类挑战就体现在轨迹追踪任务中,如上文的“垃圾分类”问题。人类是锁定一条线,并一路追到终点。而模型则会将翻译成“左/右/上/下”的离散步骤,难以保持统连续性。因此,一旦遇到交叉点,就容易产生路径分叉,导致从“跟随一条线”退化为“猜测终点”。
第三类系空间想象能力缺失。在三维方块计数、视角投影、遮挡结构判断等任务中,人类会在脑海中保持三维结构的形状,并变换视角进行判断,这是空间想象能力的体现。而模型依靠语言推理,但文字描述并非真实,最终导致漏掉隐藏块,搞错投影关系。
Gemini3在这里将图形高度按照数字进行标记,但错误将右侧竖列后排为4的积木忽略,最终计为前排平台的2,因此得到了错误答案C。
最后一大挑战则是图形规律归纳难题。此类题目要求从少量视觉示例中找规则。人类做的是关系映射,确定变化,而模型则会关注图像的颜色、形状等属性,将“结构规则”误读成“外观统计”,导致迁移时幻觉规则。
阿里千问在将图形拆解成8等分后,成功判断出棕色部分应该在顶部,然而却将C选项“看花眼”
对此,研究团队认为,造成大模型普遍超低评分的核心原因在于,测试集中有许多题目具有"unspeakable"(不可言说)的特性———即无法在不损失信息的情况下被完整语言化。
如此一来,人类只需要简单通过指一指、圈一圈、沿线路径追踪等直觉式方式解题,但模型必须将视觉信息压缩为token进行语言化处理,这一过程中,大量关键细节会丢失,最终导致推理失误。
然而这也不是没有办法。研究团队通过让视觉推理“落地到视觉操作”上,Sora2一笔一划,最终成功绘制了左上角鳄鱼的连线图像。
美中不足的是,Sora2也仅画对了鳄鱼这一条线,而其他模型则是一条线也没有成功。但或许未来通过让模型进行绘画、临摹等方式进行推理,可以恢复大模型的文字推理所缺失的能力。
因此该团队写道,“很难想象一个视觉能力低于3岁儿童的机器人,能够可靠地在真实物理世界里帮助人类”。团队认为,为了推动多模态智能的发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理。
- 责任编辑: 万肇生 
-
荣耀将与泡泡玛特推出联名手机
2026-01-12 19:16 产经 科创 -
美克家居关停了天津“发家工厂”
2026-01-12 19:10 产经 A股/港股/美股 -
需要13亿来“改善生活”?毛戈平家族的上市财富盛宴
2026-01-12 18:31 品牌实验室 -
借款102亿背后:智飞生物履行默沙东980亿的“卖身契”
2026-01-12 18:31 观网财经-健康 -
餐酒吧老大幻师递表港交所,但酒水“消费降级”红利已至尾声?
2026-01-12 18:14 -
发布15年后,iPhone 4突然爆火
2026-01-12 15:50 产经 科创 -
受制于英特尔指令集?兆芯总工:掌握CPU设计全部源码
2026-01-12 14:37 观网财经-科创 -
从米其林到扫街榜:一场中国美食话语权的静默革命
2026-01-12 13:06 观网财经-消费 -
菜鸟开通美国至墨西哥跨境物流服务
2026-01-10 22:55 观网财经-互联网 -
国家将对外卖行业“内卷式”竞争启动调查,美团:坚决拥护
2026-01-10 22:55 观网财经-互联网 -
荣耀进军超薄手机,售价或超4600,能否打过苹果华为?
2026-01-10 11:59 观网财经-科创 -
154个数据库被暗网黑客窃取?ASML回应
2026-01-10 09:15 产经 科创 -
中国光伏行业协会发声
2026-01-09 22:10 -
天普股份公告涉重大遗漏,被证监会立案调查
2026-01-09 20:48 股市 -
两部门:4月起,取消光伏等产品增值税出口退税
2026-01-09 18:16 -
MiniMax上市首日股价翻倍,成全球首个千亿市值AI上市公司
2026-01-09 18:03 观网财经-互联网 -
芯片被美国审查通过后,黑芝麻智能获武岳峰5亿战投
2026-01-09 17:33 产经 科创 -
反垄断办:对外卖平台市场竞争状况开展调查、评估
2026-01-09 17:12 -
因质疑“年会穿西装”,国产操作系统核心研发被开除?
2026-01-09 16:04 观网财经-科创 -
“链主”企业牵头搞大事,SHEIN的产业赋能密码藏不住了
2026-01-09 15:38
相关推荐 -
-
过了两天,特朗普还是气不过:把你踢出局 评论 39
骤然升级,特朗普真要对伊朗动武? 评论 266
美方彻底不装了:让中国远离美洲 评论 439
古巴强硬回击特朗普:不接受,誓死捍卫祖国 评论 191
为什么哈梅内伊把“国旗”删了? 评论 273最新闻 Hot-
警惕!“日外相访菲,妄图置喙南海问题”
-
过了两天,特朗普还是气不过:把你踢出局
-
“令人作呕且非法”,英国对马斯克的X动手
-
“美国不再可靠,土耳其寻求加入沙特-巴基斯坦防御联盟”
-
高市急了要“搬救兵”:我们找G7了
-
“我掌握所有信息,所谓‘中俄威胁’纯属妄想”
-
骤然升级,特朗普真要对伊朗动武?
-
美方彻底不装了:让中国远离美洲
-
又搞事!“和中国签,美国的就别想了”
-
吸毒、行纳粹礼、使用“犹太猪”…德军精锐丑闻令人“瞠目结舌”
-
张口就来,特朗普自称“委内瑞拉代总统”
-
美财长要拉十多国开会,又冲中国来
-
古巴强硬回击特朗普:不接受,誓死捍卫祖国
-
金砖国家在南非演习,美军紧盯
-
特朗普动手了,鲍威尔:都是借口
-
英德带头商讨派兵:让特朗普“赢”,就不会吞并了吧
-

观察员
上海市互联网违法与不良信息举报中心