-
DeepSeek开源新模型,用视觉方式压缩一切
(文/陈济深 编辑/张广凯)
10月20日,DeepSeek再度开源新模型。
在GitHub(https://github.com/deepseek-ai/DeepSeek-OCR)上可以看到其最新模型名为DeepSeek-OCR,还是一款OCR(光学字符识别)模型,该模型的参数量为3B。
该项目由 DeepSeek 三位研究员 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。其中一作 Haoran Wei 曾在阶跃星辰工作过,曾主导开发了旨在实现「第二代 OCR」的 GOT-OCR2.0 系统(arXiv:2409.01704),该项目已在 GitHub 收获了超 7800 star。也因此,由其主导 DeepSeek 的 OCR 项目也在情理之中。
DeepSeek 表示,DeepSeek-OCR 模型是通过光学二维映射(将文本内容压缩到视觉像素中)来高效压缩长文本上下文。
该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎,既能保持高分辨率输入下的低激活状态,又能实现高压缩比,从而生成数量适中的视觉 token。
实验数据显示,当文本 token 数量在视觉 token 的 10 倍以内(即压缩率 <10×)时,模型的解码(OCR)精度可达 97%;即使在压缩率达到 20× 的情况下,OCR 准确率仍保持在约 60%。
这一结果显示出该方法在长上下文压缩和 LLM 的记忆遗忘机制等研究方向上具有相当潜力。
此外,DeepSeek-OCR 还展现出很高的实用价值。在 OmniDocBench 基准测试中,它仅使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token) 的表现;同时,使用不到 800 个视觉 token 就优于 MinerU2.0(平均每页超过 6000 个 token)。在实际生产环境中,单张 A100-40G GPU 每天可生成超过 20 万页(200k+) 的 LLM/VLM 训练数据。
DeepSeek 探索的方法概括起来就是:利用视觉模态作为文本信息的高效压缩媒介。
简而言之,一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富的信息,这表明:通过视觉 Token 进行光学压缩可以实现高得多的压缩率。
基于这一洞见,DeepSeek 从以 LLM 为中心的视角重新审视了视觉语言模型 (VLM),其中,他们的研究重点是:视觉编码器如何提升 LLM 处理文本信息的效率,而非人类已擅长的基本视觉问答 (VQA) 任务。DeepSeek 表示,OCR 任务作为连接视觉和语言的中间模态,为这种视觉 - 文本压缩范式提供了理想的试验平台,因为它在视觉和文本表示之间建立了自然的压缩 - 解压缩映射,同时提供了可量化的评估指标。
鉴于此,DeepSeek-OCR 便由此而生。这是一个为实现高效视觉 - 文本压缩而设计的 VLM。
如图所示,DeepSeek-OCR 采用了一个统一的端到端 VLM 架构,由一个编码器和一个解码器组成。
DeepSeek-OCR 的创新架构不仅实现了高效的视觉-文本压缩,更在实际应用中展现出强大的性能潜力。
这一模型的核心突破在于其独特的双组件设计:DeepEncoder编码器和MoE解码器。
在编码器层面,DeepSeek创造性地将SAM-base的局部感知能力与CLIP-large的全局理解优势相结合。就像一位经验丰富的古籍修复师,它既能用"显微镜"精准识别每个字符的细节(窗口注意力),又能用"广角镜"把握整篇文档的版式结构(全局注意力)。特别值得注意的是其创新的16倍下采样机制——这相当于将一本300页的书籍压缩到20页的体量,却仍能保留97%的关键信息。
而MoE解码器采用的混合专家机制犹如一个专业翻译团队:面对不同语种、不同版式的文档时,系统会自动激活最擅长的6位"专家"协同工作。这种动态资源调配使得3B参数的大模型在实际运行时仅需570M参数的计算开销,在A100显卡上就能实现每天20万页的处理效率——相当于100名专业录入员的工作量。
在实际测试中,DeepSeek-OCR 展现了惊人的适应性:
对于简单的PPT文档,仅需64个视觉token就能准确还原内容,识别速度堪比人类扫视;
处理复杂的学术论文时,400个token即可完整保留数学公式、化学方程式等专业符号;
在多语言混合文档测试中,模型成功识别出阿拉伯语与僧伽罗语等特殊文字;
此外,DeepSeek-OCR 还具备一定程度的通用图像理解能力。
这也意味着DeepSeek-OCR存在广泛应用潜力,在金融领域,它可以将厚厚的财报瞬间转为结构化数据;在医疗行业,能快速数字化历史病历档案;对出版机构而言,古籍数字化效率将提升数十倍。更值得关注的是,该模型展现出的"视觉记忆"特性,为突破大语言模型的上下文长度限制提供了全新思路。
- 责任编辑: 陈济深 
-
百度崔玲玲:中国AI专利占全球60%
2025-10-20 18:27 观网财经-互联网 -
财务数据“过期”、问询未回复,英氏控股终止上市
2025-10-20 18:17 观网财经-消费 -
蚂蚁、京东暂停香港发币计划
2025-10-20 18:13 观网财经-互联网 -
国货美妆迎来“中场战事”,逻辑正在悄然改变
2025-10-20 18:11 产经 价值研究院 -
格力朱磊再度“引战”小米:制造业要脚踏实地,不要口蜜腹剑
2025-10-20 18:01 观网财经-消费 -
天兵科技启动上市辅导,中国商业航天IPO版图进一步扩容
2025-10-20 17:58 产经 IPO/创投 -
烟花秀余波未平:始祖鸟大中华区总经理离职,双十一跌出前二十
2025-10-20 17:26 观网财经-消费 -
8699元起抢iPhone 17 Pro,天猫双11今晚8点正式开卖
2025-10-20 16:24 观网财经-消费 -
宇树发布H2机器人:首次仿生人脸
2025-10-20 15:28 观网财经-科创 -
“新王”何剑锋20亿“输血”顾家家居,“旧王”顾江生“丢盔弃甲”
2025-10-20 14:26 产经 A股/港股/美股 -
全国二手房同比、环比仍在下降,今年“金九银十”成色落空
2025-10-20 13:07 产经 A股/港股/美股 -
重磅发布!前三季度我国GDP同比增长5.2%
2025-10-20 10:12 宏观经济 -
9月70城二手房售价环比均下降
2025-10-20 10:06 中国房市 -
智能早报丨芯片领域现200亿大手笔投资,英伟达在华高端芯片市场份额从95%降至0
2025-10-20 10:00 观网财经-科创 -
转移支付资金超10万亿,部分资金分配不合理,如何强监管
2025-10-19 22:28 地方宏观经济 -
安世半导体东莞工厂:已限制出货,将“上四休三”
2025-10-19 20:40 -
安世中国最新发声
2025-10-19 15:24 -
林小海和上海家化的青浦棋局:“国货样本不只卖产品,还要卖标准”
2025-10-18 22:41 观网财经-消费 -
股份市值约11亿,阿里将再次减持圆通股权
2025-10-18 21:51 观网财经-互联网 -
蒙牛包装再侵权判被赔伊利500万,累计赔偿已超800万
2025-10-18 17:31 产经 热点关注
相关推荐 -
普京访印:美国都在买,印度凭啥不能买? 评论 1
日本开发稀土担心中国干扰?日防相放话 评论 96
“美欧抢矿,遭殃的却是他们” 评论 10
美国又开炮欧盟:你们在“霸凌”美国军工! 评论 68
时代变了,“欧洲人迫切想要中国技术” 评论 202最新闻 Hot-
日本开发稀土担心中国干扰?日防相放话
-
“按下葫芦浮起瓢”,英伟达想重返中国市场又难了…
-
“特朗普高兴太早咯,中国把枪放进枪套,但枪还在手上”
-
又出狂言,“加墨不能成为中国出口中心…”
-
“美欧抢矿,遭殃的却是他们”
-
“今年就当广告时间,等英国接任后我们再回归”
-
美国又开炮欧盟:你们在“霸凌”美国军工!
-
“不要惊醒‘美洲豹’”
-
土耳其急了:别碰能源设施!
-
时代变了,“欧洲人迫切想要中国技术”
-
“原来特朗普对中国做这么多”,某些美国鹰派急眼了
-
17年来最低,“好感急剧恶化”
-
韩国入境系统标示“中国台湾”,民进党当局破防
-
“在美欧闻了一鼻子尾气,才反应过来:中国早没这味了”
-
中企在非遭800亿美元天价索赔,BBC老毛病又犯了
-
俄乌冲突后普京首次来访,印“外交钢丝”还能走多久?
-

观察员
上海市互联网违法与不良信息举报中心