当前,人工智能加速进入政务、金融、制造、科研等领域,但在不少企业落地过程中,“看得见的模型能力”与“用得上的业务价值”之间仍存在明显落差。
多年来沉淀在企业内部的大量合同、报表、技术文档、会议纪要、图纸与扫描件等,具有来源分散、格式不一、结构复杂、噪声干扰多等特点,成为制约智能化应用的重要瓶颈。
如何让机器在真实场景中像人一样读懂文档、理解结构并可靠提取信息,正成为业界发力的关键方向。
一是问题突出:真实文档“难读、难管、难用”。
在企业环境中,文档往往伴随多语言混排、行业缩略语、非规范排版、表格跨页、图文混排、低清扫描与拍照倾斜等情况,传统规则与多模块拼接式流程容易出现结构识别不稳、阅读顺序混乱、字段对应错误等问题,进一步影响检索问答、知识库构建、流程自动化等下游应用的准确性与可解释性。
尤其在合规审计、财务报销、供应链对账等高风险场景,解析结果的可控性与一致性更为关键。
二是原因清晰:单纯“做大参数”并非万能路径。
峰会上,刘禹良指出,面向非结构化文档的数据治理,规模化法则并不必然带来收益,一味提升参数量可能在部分任务上出现边际效益下降,甚至造成推理效率显著降低。
业内普遍采用的通用多模态大模型主要依靠海量参数提升泛化能力,但并非为文档智能任务专门设计,在文字细粒度感知、结构一致性约束、复杂表格关系建模等方面仍存在短板。
相关基准测试也反映出,一些主流模型在复杂、多样化OCR任务中的准确率仍有提升空间,说明“通用能力”到“文档能力”之间需要更有针对性的工程与算法路径。
三是影响深远:文档治理决定企业知识能否转化为生产力。
非结构化文档承载着企业制度流程、业务经验、客户信息与研发成果,若缺乏统一的归集、清洗、解析与治理体系,智能应用往往只能停留在零散试点,难以规模化复制。
相反,一旦形成稳定可信的文档解析与知识结构化能力,就能为智能检索、风险识别、经营分析、辅助决策与自动化流程提供可持续的数据底座,推动企业从“信息化”走向“知识化”“智能化”。
四是对策路径:以结构为先,走向统一框架。
刘禹良介绍,联合团队在研发中强调“结构优先”的思路,将非结构化文档解析抽象为结构、识别、关系三个核心环节:先稳定识别段落、标题、图片、表格等版面结构,再在结构约束下完成文字与元素识别,并建立阅读顺序与元素对应关系,从而减少传统多模块流水线带来的累积误差与耦合问题。
在具体技术上,通过自适应切分、循环漂移切分以及多任务统一框架等手段,强化对复杂版式与噪声场景的鲁棒性。
与会信息显示,最新迭代版本在权威评测中取得领先成绩,并在复杂表格理解等场景进一步优化,支持表格内嵌图片还原、跨页表格合并等需求,提升企业常见难题的可用性。
同时,产业侧的工程化积累为模型落地提供支撑。
金山办公长期深耕文档处理与格式理解,在复杂信息抽取与办公场景产品化方面积累较深。
峰会期间,金山办公推出面向企业的一站式协同办公平台,提出覆盖数据归集、智能解析、知识治理到场景应用的全链路方案,意在把“模型能力”转化为可配置、可运营、可审计的业务系统能力,降低企业部署门槛与运维成本。
五是前景判断:从“单点领先”走向“体系化能力”。
展望下一阶段,文档智能竞争将更多体现在数据、算法、工程与场景的协同。
一方面,多语言、跨行业的高质量文档数据集将成为关键基础设施,决定模型对真实世界“长尾样本”的覆盖程度;另一方面,轻量化与高效推理同样重要,使文档解析能力能在更多终端与受限算力环境中部署,提升响应速度与单位成本效率。
联合团队提出将进一步推进多语言数据集与视觉基座模型建设,并探索在更广泛硬件条件下实现快速、准确运行,这一方向有望推动文档解析从“实验室指标”走向“规模化生产”。
当前,人工智能正在加速融入千行百业,而非结构化文档的智能处理能力已成为决定人类知识能否被持续转化为机器智能的关键因素。
MonkeyOCR模型的成功突破表明,我国在文档智能领域的自主创新正在取得实质性进展。
这不仅是一项技术成就,更是产学研结合、自主创新的生动实践。
随着相关技术的进一步完善和应用推广,文档智能必将成为赋能企业数字化转型、提升知识生产力的重要引擎,为我国经济高质量发展提供新的动力。