DeepSeek开源新模型，用视觉方式压缩一切

APP下载

扫一扫

下载观察者APP

DeepSeek开源新模型，用视觉方式压缩一切
- 陈济深
分享到：

2025-10-20 18:39:16 字号：A- A A+ 来源：观察者网

（文/陈济深编辑/张广凯）

10月20日，DeepSeek再度开源新模型。

在GitHub（https://github.com/deepseek-ai/DeepSeek-OCR）上可以看到其最新模型名为DeepSeek-OCR，还是一款OCR（光学字符识别）模型，该模型的参数量为3B。

该项目由 DeepSeek 三位研究员 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。其中一作 Haoran Wei 曾在阶跃星辰工作过，曾主导开发了旨在实现「第二代 OCR」的 GOT-OCR2.0 系统（arXiv:2409.01704），该项目已在 GitHub 收获了超 7800 star。也因此，由其主导 DeepSeek 的 OCR 项目也在情理之中。

DeepSeek 表示，DeepSeek-OCR 模型是通过光学二维映射（将文本内容压缩到视觉像素中）来高效压缩长文本上下文。

该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎，既能保持高分辨率输入下的低激活状态，又能实现高压缩比，从而生成数量适中的视觉 token。

实验数据显示，当文本 token 数量在视觉 token 的 10 倍以内（即压缩率 <10×）时，模型的解码（OCR）精度可达 97%；即使在压缩率达到 20× 的情况下，OCR 准确率仍保持在约 60%。

这一结果显示出该方法在长上下文压缩和 LLM 的记忆遗忘机制等研究方向上具有相当潜力。

此外，DeepSeek-OCR 还展现出很高的实用价值。在 OmniDocBench 基准测试中，它仅使用 100 个视觉 token 就超过了 GOT-OCR2.0（每页 256 个 token）的表现；同时，使用不到 800 个视觉 token 就优于 MinerU2.0（平均每页超过 6000 个 token）。在实际生产环境中，单张 A100-40G GPU 每天可生成超过 20 万页（200k+）的 LLM/VLM 训练数据。

DeepSeek 探索的方法概括起来就是：利用视觉模态作为文本信息的高效压缩媒介。

简而言之，一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富的信息，这表明：通过视觉 Token 进行光学压缩可以实现高得多的压缩率。

基于这一洞见，DeepSeek 从以 LLM 为中心的视角重新审视了视觉语言模型 (VLM)，其中，他们的研究重点是：视觉编码器如何提升 LLM 处理文本信息的效率，而非人类已擅长的基本视觉问答 (VQA) 任务。DeepSeek 表示，OCR 任务作为连接视觉和语言的中间模态，为这种视觉 - 文本压缩范式提供了理想的试验平台，因为它在视觉和文本表示之间建立了自然的压缩 - 解压缩映射，同时提供了可量化的评估指标。

鉴于此，DeepSeek-OCR 便由此而生。这是一个为实现高效视觉 - 文本压缩而设计的 VLM。

如图所示，DeepSeek-OCR 采用了一个统一的端到端 VLM 架构，由一个编码器和一个解码器组成。

DeepSeek-OCR 的创新架构不仅实现了高效的视觉-文本压缩，更在实际应用中展现出强大的性能潜力。

这一模型的核心突破在于其独特的双组件设计：DeepEncoder编码器和MoE解码器。

在编码器层面，DeepSeek创造性地将SAM-base的局部感知能力与CLIP-large的全局理解优势相结合。就像一位经验丰富的古籍修复师，它既能用"显微镜"精准识别每个字符的细节（窗口注意力），又能用"广角镜"把握整篇文档的版式结构（全局注意力）。特别值得注意的是其创新的16倍下采样机制——这相当于将一本300页的书籍压缩到20页的体量，却仍能保留97%的关键信息。

而MoE解码器采用的混合专家机制犹如一个专业翻译团队：面对不同语种、不同版式的文档时，系统会自动激活最擅长的6位"专家"协同工作。这种动态资源调配使得3B参数的大模型在实际运行时仅需570M参数的计算开销，在A100显卡上就能实现每天20万页的处理效率——相当于100名专业录入员的工作量。

在实际测试中，DeepSeek-OCR 展现了惊人的适应性：

对于简单的PPT文档，仅需64个视觉token就能准确还原内容，识别速度堪比人类扫视；

处理复杂的学术论文时，400个token即可完整保留数学公式、化学方程式等专业符号；

在多语言混合文档测试中，模型成功识别出阿拉伯语与僧伽罗语等特殊文字；

此外，DeepSeek-OCR 还具备一定程度的通用图像理解能力。

这也意味着DeepSeek-OCR存在广泛应用潜力，在金融领域，它可以将厚厚的财报瞬间转为结构化数据；在医疗行业，能快速数字化历史病历档案；对出版机构而言，古籍数字化效率将提升数十倍。更值得关注的是，该模型展现出的"视觉记忆"特性，为突破大语言模型的上下文长度限制提供了全新思路。
|

举报
- 违反法律法规
- 垃圾信息、广告
- 色情、淫秽信息
- 人身攻击
- 谣言、不实信息
- 冒充，冒用信息
- 破坏社区秩序
- 其他
- 涉未成年人有害信息
观察者网举报制度规范
确定取消
标签
- 责任编辑: 陈济深
- 百度崔玲玲：中国AI专利占全球60%
  
  2025-10-20 18:27 观网财经-互联网
- 财务数据“过期”、问询未回复，英氏控股终止上市
  
  2025-10-20 18:17 观网财经-消费
- 蚂蚁、京东暂停香港发币计划
  
  2025-10-20 18:13 观网财经-互联网
- 国货美妆迎来“中场战事”，逻辑正在悄然改变
  
  2025-10-20 18:11 产经价值研究院
- 格力朱磊再度“引战”小米：制造业要脚踏实地，不要口蜜腹剑
  
  2025-10-20 18:01 观网财经-消费
- 天兵科技启动上市辅导，中国商业航天IPO版图进一步扩容
  
  2025-10-20 17:58 产经 IPO/创投
- 烟花秀余波未平：始祖鸟大中华区总经理离职，双十一跌出前二十
  
  2025-10-20 17:26 观网财经-消费
- 8699元起抢iPhone 17 Pro，天猫双11今晚8点正式开卖
  
  2025-10-20 16:24 观网财经-消费
- 宇树发布H2机器人：首次仿生人脸
  
  2025-10-20 15:28 观网财经-科创
- “新王”何剑锋20亿“输血”顾家家居，“旧王”顾江生“丢盔弃甲”
  
  2025-10-20 14:26 产经 A股/港股/美股
- 全国二手房同比、环比仍在下降，今年“金九银十”成色落空
  
  2025-10-20 13:07 产经 A股/港股/美股
- 重磅发布！前三季度我国GDP同比增长5.2%
  
  2025-10-20 10:12 宏观经济
- 9月70城二手房售价环比均下降
  
  2025-10-20 10:06 中国房市
- 智能早报丨芯片领域现200亿大手笔投资，英伟达在华高端芯片市场份额从95%降至0
  
  2025-10-20 10:00 观网财经-科创
- 转移支付资金超10万亿，部分资金分配不合理，如何强监管
  
  2025-10-19 22:28 地方宏观经济
- 安世半导体东莞工厂：已限制出货，将“上四休三”
  
  2025-10-19 20:40
- 安世中国最新发声
  
  2025-10-19 15:24
- 林小海和上海家化的青浦棋局：“国货样本不只卖产品，还要卖标准”
  
  2025-10-18 22:41 观网财经-消费
- 股份市值约11亿，阿里将再次减持圆通股权
  
  2025-10-18 21:51 观网财经-互联网
- 蒙牛包装再侵权判被赔伊利500万，累计赔偿已超800万
  
  2025-10-18 17:31 产经热点关注
搜索

   观察者头条查看全部

阻挠中国投资，澳媒敲警钟：小心自废武功评论 13

“再突破，中国登月迈出关键一步” 评论 124

日韩真麻了：零食袋褪色，尿布、建材也告急评论 114

“美国人要多付几十亿美元，但特朗普不在乎” 评论 87

里程碑！“中国出手，非洲锂矿困局终于突破” 评论 172

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

DeepSeek开源新模型，用视觉方式压缩一切

百度崔玲玲：中国AI专利占全球60%

财务数据“过期”、问询未回复，英氏控股终止上市

蚂蚁、京东暂停香港发币计划

国货美妆迎来“中场战事”，逻辑正在悄然改变

格力朱磊再度“引战”小米：制造业要脚踏实地，不要口蜜腹剑

天兵科技启动上市辅导，中国商业航天IPO版图进一步扩容

烟花秀余波未平：始祖鸟大中华区总经理离职，双十一跌出前二十

8699元起抢iPhone 17 Pro，天猫双11今晚8点正式开卖

宇树发布H2机器人：首次仿生人脸

“新王”何剑锋20亿“输血”顾家家居，“旧王”顾江生“丢盔弃甲”

全国二手房同比、环比仍在下降，今年“金九银十”成色落空

重磅发布！前三季度我国GDP同比增长5.2%

9月70城二手房售价环比均下降

智能早报丨芯片领域现200亿大手笔投资，英伟达在华高端芯片市场份额从95%降至0

转移支付资金超10万亿，部分资金分配不合理，如何强监管

安世半导体东莞工厂：已限制出货，将“上四休三”

安世中国最新发声

林小海和上海家化的青浦棋局：“国货样本不只卖产品，还要卖标准”

股份市值约11亿，阿里将再次减持圆通股权

蒙牛包装再侵权判被赔伊利500万，累计赔偿已超800万

教皇没点名，美媒：他批的还是特朗普

共和党鹰派急眼了：之前可不是这么说的，这叫什么事儿啊？

阻挠中国投资，澳媒敲警钟：小心自废武功

“再突破，中国登月迈出关键一步”

欧盟又搞老把戏，“要谈谈中国”

成果文件未能通过，外交部：遗憾

永久降价75%后，中国模型登上全球性价比榜首

为保中国市场，卡塔尔“悄悄”过航

日韩真麻了：零食袋褪色，尿布、建材也告急

“美国人要多付几十亿美元，但特朗普不在乎”

“全世界都在研发光刻技术，不针对中国”

里程碑！“中国出手，非洲锂矿困局终于突破”

特朗普发文：不急

朝鲜队夺冠，韩国总统祝贺

伊朗：穆杰塔巴·基安，已被处决

巴基斯坦总理：我们会取得成功，成为“小中国”