DeepSeek-OCR 2:让AI像人一样“读懂”文档,视觉因果流的技术革命

jasson3个月前 (01-28)科技前沿71
2026年开年,DeepSeek 以密集的技术更新刷屏AI圈:月初完善R1推理论文、中旬开源Engram记忆模块、月末重磅发布DeepSeek-OCR 2及《Visual Causal Flow》论文。这三大更新如同三块关键拼图,让春节前后即将亮相的DeepSeek-V4轮廓愈发清晰。作为新一代文档…

封面图

微信图片_2026-01-28_163211_188.png


2026年开年,DeepSeek 以密集的技术更新刷屏AI圈:月初完善R1推理论文、中旬开源Engram记忆模块、月末重磅发布DeepSeek-OCR 2及《Visual Causal Flow》论文。这三大更新如同三块关键拼图,让春节前后即将亮相的DeepSeek-V4轮廓愈发清晰。作为新一代文档理解模型,OCR 2不仅延续了初代的高效压缩优势,更通过“视觉因果流”架构革新,让AI在2D文档世界里实现了从“机械扫描”到“语义推理”的跨越。


一、初代OCR的突破与遗憾:用视觉压缩破解长文本难题

提起OCR,很多人会想到字符识别,但DeepSeek初代OCR从诞生起就不走寻常路。它的核心目标,是解决大模型处理长文档时的算力痛点——大语言模型自注意力机制的计算复杂度随序列长度呈平方级增长,处理上百页财报或书籍时,要么切片分段牺牲连贯性,要么硬扛长序列付出高昂成本。
DeepSeek团队的创新思路堪称巧妙:既然文本Token成本高,不如用图像“打包”信息。将文档渲染为图像后,视觉编码器提取的视觉Token数量远少于等效文本,却能完整保留文字与版式结构。这套“上下文光学压缩”技术,本质是把一维文本“折叠”进二维像素空间,而OCR还原文本的准确率,就是压缩效果的最佳标尺。
初代模型的成绩相当亮眼:10倍压缩率下文本还原准确率达97%,20倍压缩率仍保持60%;一张1024×1024的文档图像,传统方案需数千Token,它仅用256个即可表征。但短板也同样明显:核心编码器DeepEncoder采用SAM+CLIP双模块设计,处理图像时始终按左上到右下的固定栅格顺序扫描,就像一台不会变通的扫描仪。

这和人类阅读习惯截然不同——我们会根据标题、摘要、表格、图注的语义关联灵活跳转,而非逐字逐行机械阅读。面对多栏论文、复杂财报或图文杂志时,这种固定顺序的扫描方式就显得力不从心。


二、OCR 2的核心革新:视觉因果流让AI“读懂”结构

DeepSeek-OCR 2的诞生,正是为了解决“机械扫描”的痛点。其核心架构DeepEncoder V2的关键改动,是用基于Qwen2-0.5B(约5亿参数)的小型语言模型,替代了初代的CLIP模块,从而引入“因果机制”,构建出“视觉因果流”。

微信图片_2026-01-28_163223_347.png

图 | DeepEncoder 架构演进:左图为初代 DeepEncoder,采用 CLIP 模块进行非因果(Non-causal)的全局特征提取。右图为 DeepEncoder V2,使用 LLM 风格架构替代 CLIP(来源:论文)


1. 双组Token处理:全局视野+因果推理

DeepEncoder V2将视觉Token分为两组,通过混合注意力掩码实现分工:
  • 原始视觉Token:支持非因果注意力,彼此可相互访问,确保模型掌握整张图像的全局信息,不遗漏任何细节;

  • 因果流查询Token:采用严格的因果注意力,每个查询只能访问前面的信息,就像人类阅读时“后理解基于前认知”,后续内容会根据前文语义自然衔接。

最终送入解码器的只有第二组Token,它们已按语义逻辑重排,而非机械的空间顺序。这意味着模型能根据文档类型动态调整“阅读顺序”:看论文时先读标题摘要,识别发票时优先提取金额日期,处理表格时整体理解关联关系。

微信图片_2026-01-28_163230_941.jpg

图 | 混合注意力掩码 (Attention Mask) 设计(来源:论文)


2. 性能全面升级:效率与准确率双优

在OmniDocBench v1.5测试集(涵盖9类文档)中,OCR 2展现出全方位提升:
  • 总体得分91.09%,较初代提升3.73个百分点;

  • 阅读顺序编辑距离从0.085降至0.057,说明对文档结构的判断更精准;

  • 文本、公式、表格等细分类别准确率提升2-6个百分点;

  • 视觉Token上限仅256-1120个,远低于同类模型的6000+,极致压缩优势不变;

  • 与Gemini-3 Pro相近Token预算对比,文档解析编辑距离更优(0.100 vs 0.115)。

这种升级让OCR 2能轻松应对复杂场景:多栏混排的学术论文、数据图表交织的财务报表、图文混搭的杂志版面,这些曾经让初代模型捉襟见肘的情况,如今都成了它的优势场景。

微信图片_2026-01-28_163236_551.png

图 | OmniDocBench v1.5 核心评测结果(来源:论文)


三、不完美的进化:现存短板与优化方向

尽管表现亮眼,OCR 2仍有需要完善的地方,论文也坦诚了这些不足:

1. 报纸类文档识别短板

在报纸类文档上,OCR 2准确率不仅低于同类顶尖模型,甚至略逊于初代。核心原因有二:一是报纸文字密集、信息量极大,当前1120个Token上限可能不足(可通过局部裁剪缓解);二是训练数据中报纸样本仅25万张,覆盖场景有限。这也印证了端到端模型的通病——性能高度依赖训练数据的广度与质量。

2. 边缘场景鲁棒性不足

研究者通过语义破坏实验发现,DeepSeek-OCR系列的高分部分源于语言先验,模型有时是“猜”出内容而非“看清”。当输入包含生造词、严重污损的扫描件,或文本被刻意打乱时,性能会显著下滑,鲁棒性不及传统管道式OCR。


四、技术主线浮现:DeepSeek-V4的底层逻辑

回顾DeepSeek 1月的三次更新,一条清晰的核心思路贯穿始终:让模型“更聪明地工作”,而非一味堆叠计算量
  • R1论文:复杂推理无需海量人工标注,通过“做题-反馈-改进”的强化学习循环,模型可自主学会思考纠错,开辟低成本训练强推理模型的路径;

  • Engram记忆模块:将静态知识存为可检索记忆表,20%参数负责查表、80%参数负责动态计算,提升知识问答与推理效率;

  • OCR 2:把“少算多效”思路延伸到视觉领域,用因果排序让2D图像理解适配1D语言模型,以更少Token实现更优理解。

这三条技术线索共同指向一个目标:在有限算力下,实现更高效、更精准的多模态处理。传闻春节前后发布的DeepSeek-V4,或将首次整合这三大能力,成为能高效处理文本、代码与复杂文档的多面手。


五、结语:视觉理解的下一个时代

DeepSeek-OCR 2的意义,不仅在于性能指标的提升,更在于它重构了视觉理解的范式——从“机械扫描”到“语义推理”,让AI真正开始“读懂”文档结构,而非仅仅提取字符。
对于开发者而言,OCR 2的开源提供了处理长文档的高效工具,无需担心算力压力即可实现精准理解;对于行业而言,它证明了“结构优化优于参数堆叠”的技术路线,为多模态模型发展提供了重要参考。
当然,OCR 2仍需在训练数据扩充、边缘场景鲁棒性等方面持续优化。但不可否认,随着推理、记忆、视觉三大技术模块的成熟,DeepSeek-V4有望成为新一代多模态模型的标杆。让我们期待春节前后的正式发布,看看这套技术组合能否打破AI处理复杂任务的效率瓶颈。


参考链接:


本文作者:

发布日期:

分享给朋友:

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。