深度求索发布deepseek-ocr 2 文档识别模型

在数字中国的建设如火如荼进行时，我国的科研团队给行业带来了惊喜。深度求索公司正式发布了DeepSeek-OCR 2，这个新一代的文档识别模型不仅在性能上有了显著提升，更让机器处理文档的方式变得更像人类。以前的技术在处理复杂版式时往往力不从心，而这次的DeepEncoder V2编码器通过引入“视觉因果流”，让机器能像人一样先看重要的内容，再看其他细节。技术实现上采用了独特的双注意力机制，既全局感知图像信息，又通过可学习的查询标记建立语义顺序，这种架构在不增加太多计算量的前提下完成了智能排序。模型把单页文档的视觉标记数量控制在256到1120之间，效率和性能达到了平衡。在权威的OmniDocBench v1.5评测中，DeepSeek-OCR 2把文本识别准确率提升了3.73%，公式解析和表格还原等复杂任务更是进步明显。测试覆盖了学术论文、商业报告等多种类型，证明了它很强的实战能力。在线服务中用户上传图像的重复识别率从6.25%降到了4.17%，批量PDF处理重复率也从3.69%降到了2.88%。这些改进不仅提高了精度，也让系统在真实场景中更稳定可靠。专家们认为这一突破很有意义：它推动了计算机视觉和自然语言处理的深度融合；给复杂版式文档提供了更优解；展示了中国企业在AI基础研究上的创新力。DeepSeek-OCR 2是我国在AI基础模型领域持续创新的缩影。我们期待能看到更多来自中国的技术创新，在全球AI发展浪潮中贡献中国智慧。