-
DeepSeek开启内测识图模式,补齐多模态能力空白
(文/陈济深 编辑/张广凯)
"Soon, we see you. 👀"
4月28日上午,DeepSeek多模态团队研究员陈小康(X账号@PKUCXK)发出了这条推文。配图是两只蓝色的小鲸鱼——左边那只戴着画有"XX"的黑色眼罩,右边那只没戴眼罩、正常露出眼睛。
陈小康(@PKUCXK)4月28日发布的推文,配图为两只鲸鱼对照
尽管这条推文很快被陈小康自己删除了。但这条推文或在暗示DeepSeek的多模态功能或将近期上线。
除了该推文外,有用户截图显示,chat.deepseek.com输入框上方曾经出现过三个并列的标签——除了原有的「快速模式」「专家模式」,多出了一个「识图模式」,鼠标悬停后弹出的提示语是"图片理解功能内测中"。这是DeepSeek出圈以来第一次在主线产品里把视觉理解作为独立模式呈现。但需要说明的是,这个标签并不是所有用户都能看到,目前也无法确认它是常态化的灰度内测,还是短暂开放后又被回收——DeepSeek官方至此没有任何对外说明。
DeepSeek网页端出现的"识图模式"tab,标注"图片理解功能内测中"
根据该用户测试信息显示,在试图模式里,用户上传了一张人物照片并提问"这是什么动作姿势"。DeepSeek思考8秒后,先按位置、手臂、头部、头发、着装、光影逐项拆解了画面——"躯干呈一定角度,但面部明显朝向镜头""发丝散落在脸上和肩膀周围""高对比度,肤色苍白,深色衣服和阴影"——再给出最终判断:这是摄影和社交媒体语境里的"慵懒风躺姿"或"清冷氛围感姿势",常出现在小红书、抖音的"宅家""慵懒风""清冷感"等标签下。
值得记下的是这段思考过程里有一步明确的"自我修正考虑"。模型先列出了其他可能的解读——"手放在胸/肩处的『淑女』姿势"、"忧郁的自拍姿势"——再判断"慵懒氛围感姿势"才是最能涵盖所有细节的描述,最后才输出。这种结构化拆解、自我复核加文化语境识别的组合,已经超出DeepSeek过去主线产品上"图片识文字"的能力层次。
图3:沃垠AI流出的DeepSeek识图功能对话截图,显示了完整的拆解和自我修正过程
对话链接:https://chat.deepseek.com/share/ablc57vmv2ompm3vy6
值得注意的是,V2EX网友MichaelBitzo 4月29日下午发帖称DeepSeek API已经返回"识图模式"字段,跟帖的其他用户实测反馈"还是不可用状态"——意味着接口侧的字段已经存在,但调用尚未对外开放。
DeepSeek-V4预览版4月24日上线,陈小康那条推文发布于4月28日,距离V4只隔了四天。多模态团队负责人发出预告,主线产品冒出新tab,对话分享链接生效,API字段返回——指向都比较一致:DeepSeek正在为主线产品装上视觉理解能力。但具体什么时候正式开闸、是否还会在五一假期前后落地,截至发稿尚没有官方时间表。
V4本身没有原生多模态。4月24日发布当天,DeepSeek官方对V4的定义集中在三件事上——百万级长上下文、Agent能力、推理性能。媒体复盘的判断也大致一致:V4在长上下文成本、Coding和Agent任务上达到了开源模型的第一梯队,但缺乏原生多模态是明显的短板。钛媒体的实测稿直言"V4目前并没有原生多模态功能,这会限制它在一些场景的发挥"。36氪的复盘稿则透露,DeepSeek暂缓多模态生成的训练策略,主要源于算力和现金的掣肘。
但DeepSeek的研究侧,并没有在多模态上停下来。
陈小康博士毕业于北京大学,2024年加入DeepSeek,主导多模态预训练和后训练工作。从他的Google学术页里能数出一长串相关成果——2024年12月开源的DeepSeek-VL2(基于MoE架构,激活参数最大4.5B)、2025年发布并被CVPR收录的Janus和JanusFlow,再到春节前后开源的Janus-Pro。其中Janus-Pro在GenEval图像生成基准上超过了DALLE-3和Stable Diffusion 3,是当时开源多模态阵营里最受关注的成果之一。
也就是说,DeepSeek多模态团队的论文和开源模型一直在出,缺的只是把这套能力接到主线产品上。
V4之前,DeepSeek主线产品里和"看图"有关的功能只有一项:chat.deepseek.com的"快速模式"支持识别图片中的文字,但本质是OCR调用,不是真正意义上的视觉理解。这一次冒出来的"识图模式",从沃垠那段对话case看,已经超出文字识别的层次,进入到画面语义、空间结构、氛围审美和文化语境的判断这一层。
事实上,铺垫4月初就开始了。4月8日,DeepSeek网页端在输入框上方第一次新增了「快速模式」和「专家模式」两个图标——这是DeepSeek出圈以来第一次在产品界面里做能力分层。爱范儿当时的实测稿援引技术KOL Teortaxes的判断:把Vision单独列为一个类是很不寻常的设计,DeepSeek此前拒绝在网页端部署DS-VL系列,原因是"尚未成熟"。如果Vision模式真的上线,背后支撑它的很可能已经是一个完全功能化的VLM,甚至是Janus系列的下一步演化。
也就是说,从4月8日的分层入口,到4月24日V4纯文本发布,再到4月28日陈小康那条已被删除的预告,到4月29日"识图模式"在网页端、对话分享和API三个层面同时冒头——这是一条连续的产品节奏,只是DeepSeek自己暂时还没把它说出来。
DeepSeek多模态团队近年也并非没有人员变动。据《京报网》援引的公开消息,DeepSeek多模态核心贡献者阮翀今年4月加盟自动驾驶公司元戎启行任首席科学家,DeepSeek-OCR系列核心作者魏浩然也在春节前后离职。在这些变动之后,多模态团队的产品化进度依然推进到当前节点,本身也是一个值得记录的信息。
DeepSeek把识图能力送上主线产品的时间点,落在一个比较特殊的行业拐点上。
按目前公开信息盘点,国内主要模型公司的多模态布局已经基本铺齐。阿里巴巴的Qwen系列推出了多代Qwen-VL视觉语言模型;智谱的GLM-V贯穿GLM-4和GLM-5两代;字节跳动和阶跃星辰把"全模态"作为核心定位,阶跃年初的Step 3.5 Flash把全模态能力首次开源;月之暗面的Kimi同步在视觉理解和Coding两条线并行;MiniMax在保持语言模型能力的同时把视频生成模型作为差异化优势。腾讯混元4月23日发布的Hy3 preview则把对标目标定为DeepSeek和阿里。换句话说,国内头部模型公司里,主线产品上没有视觉理解能力的,目前只剩DeepSeek一家。
DeepSeek这次一旦正式开闸,意味着这条尾巴也合上了。中国头部模型公司全员"睁眼",这是2026年模型层一个比较结构性的变化。
让这件事变得更紧迫的是Agent。
V4发布稿里,DeepSeek官方明确提到针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品做了适配优化,Agent能力是V4三个核心卖点之一。但纯文本Agent的能力上限是有限的——当Agent需要操作浏览器、读截图、看仪表盘、识别UI元素、处理图表和PDF的时候,没有视觉理解就没办法完成闭环。这也是过去半年Computer Use、屏幕操作Agent这一类产品集中冒出来的原因。
智谱的AutoClaw、阿里云的Coding Plan、Anthropic的Computer Use,在底层逻辑上共享一个判断:Agent要真正进入生产力场景,视觉能力是基础设施而不是锦上添花。从这个角度看,DeepSeek这次给主线产品装上识图能力,更接近补一张入场券,而不是单纯补短板。
不过具体效果还得等正式开闸之后看。沃垠流出的那个case里,DeepSeek识图模型表现出了画面拆解、自我复核和文化语境识别的能力,但单点case不能替代系统性测评。和Qwen-VL、GLM-V、Step的多模态版本相比能拉开多少差距,能不能接住开源社区对DeepSeek一贯的"打榜"期待,目前都没有可对比的数据。
另一个待观察的悬念是开源策略。DeepSeek过去把所有大版本模型都做了开源——包括VL、VL2、Janus系列。如果这次的识图能力最终也走开源路线,开源多模态阵营会再增加一个旗舰玩家;如果走闭源或半开源路线,则意味着DeepSeek在多模态商业化路径上做了一次和过去不同的选择。考虑到DeepSeek正在以超过200亿美元估值寻求融资,路径选择的信号意义不会小。
- 责任编辑: 陈济深 
-
围着仓库开店的古茗,天花板还有多高?
2026-04-29 18:13 -
-
谁才是中国第五?小米荣耀的换位博弈
2026-04-29 17:50 观网财经-科创 -
小米拉货紫光展锐SoC,但集中在低端
2026-04-29 15:01 观网财经-科创 -
十年后重返印度,安踏定价“叫板”nike、adidas?
2026-04-29 14:51 观网财经-消费 -
农林、巡检、物流……发改委发布31个低空经济典型案例
2026-04-29 10:20 观网财经-科创 -
2026年京喜再投百亿扶持产业带,给商家配了14个免费AI工具
2026-04-29 10:16 观网财经-消费 -
G端项目更审慎,科大讯飞去年净利增长50%
2026-04-28 21:35 观网财经-科创 -
药明康德一季度营收破百亿,管理层:适当时机上调指引
2026-04-28 20:42 观网财经-健康 -
“剪映”“即梦AI”等被网信部门依法查处
2026-04-28 20:39 观网财经-互联网 -
中国企业全球化商务平台(CGBN)正式启动,多方聚力共筑中企出海“旗舰方舟”
2026-04-28 20:39 观网财经-海外 -
“Manus现已成为Meta的一部分”,官网这句介绍该下架了
2026-04-28 19:26 思路打开 -
麦德龙再请山姆操盘手,是为了会员制吗?
2026-04-28 19:19 观网财经-消费 -
工信部点赞鸿蒙和DeepSeek-V4
2026-04-28 17:31 观网财经-科创 -
Manus卖身美国被禁:按住那只蝴蝶,把它做成标本
2026-04-28 17:05 产经 科创 -
中方对禁止外资收购Manus有何评论?外交部回应
2026-04-28 15:37 人工智能 -
DeepSeek注册资本提高一半,梁文锋持股升至34%
2026-04-28 15:28 人工智能 -
智平方郭彦东:VLA终结了吗?它只是变得更强
2026-04-28 14:54 人工智能 -
全球5G标准必要专利排名:华为、中兴、小米、OPPO进前十
2026-04-28 13:12 观网财经-科创 -
雷军称自研芯片出货超百万颗,新款小米机器人亮相
2026-04-28 11:40 观网财经-科创
相关推荐 -
航油告急,全球慌神!中国科学家提出解决方案 评论 151
“挡不住!中国车兵临美墨边境,美国车企夜不能寐” 评论 109
美国向联合国开条件:要我的,就不能要中国的 评论 233
阿联酋退出OPEC,“对沙特的重大打击” 评论 113
又被震,“花一辆美国新车的钱,在中国足够买五辆” 评论 242最新闻 Hot-
竞争不过又丢脸到别国,“无力阻止中企中标欧盟资助项目”
-
新西兰要立“慰安妇”雕像,被日本拦下
-
日企又演上了,“进口中国化工品大增,不安”
-
航油告急,全球慌神!中国科学家提出解决方案
-
英王调侃特朗普:早在1814年,我们就曾尝试对白宫搞“房产改造”
-
“尬出天际”,特朗普当着英国国王面开和梅拉尼娅的夫妻玩笑
-
欧盟又内讧,最高贸易官员不干了
-
申请全被否,不让斯洛伐克总理飞去莫斯科
-
美共和党高层罕见唱反调:1.5万亿,说说看怎么花?
-
美国防部更名“战争部”预计耗资约5200万美元
-
特朗普怒了:难怪德国现在这么糟糕
-
FBI前局长遭美国司法部起诉,被控“威胁杀害”特朗普
-
美欧签了,北约果然担心:中国肯定搞破坏
-
“挡不住!中国车兵临美墨边境,美国车企夜不能寐”
-
真怕了,“这必须成为美国对华坚定且不可妥协的首要任务”
-
菲防长咋呼:美国稍不留神,中国就插一脚
-

观察员
上海市互联网违法与不良信息举报中心