记者从智谱公司获悉,该公司最新发布的GLM-OCR文档解析模型已正式开源,这款轻量级专业模型多项核心技术指标上实现突破,为文档智能化处理领域树立了新标杆。 技术创新破解行业难题 长期以来,文档解析技术面临精度与效率难以兼顾的困境。传统光学字符识别方案往往需要庞大的参数规模和高昂的算力投入,在处理手写体、复杂表格、印章识别等特殊场景时表现不稳定,难以满足实际业务需求。 GLM-OCR的推出为这个难题提供了创新性解决方案。该模型采用自主研发的CogViT视觉编码器,通过深度场景优化实现了"小尺寸、高精度"的技术突破。在权威文档解析榜单OmniDocBench V1.5测评中,GLM-OCR以94.6分的成绩位居榜首,性能表现接近国际主流大型模型,但参数量仅为0.9B,远低于同类产品。 多场景应用展现实用价值 据技术团队介绍,GLM-OCR在文本识别、公式解析、表格处理及信息抽取四大核心领域均取得领先表现。针对真实业务场景的内部测评显示,该模型在代码文档、复杂表格、手写体识别、多语言处理、印章识别、票据提取等六大维度表现突出。 在实际应用中,GLM-OCR能够精准处理扫描件、PDF文档、各类表格及票据,有效解决手写文字、印章叠加、竖排文本及多语言混排等传统技术难点。对于包含合并单元格、多层表头的复杂表格结构,模型可直接输出HTML代码,无需人工二次整理。在信息结构化提取上,系统能从各类证件、票据中智能提取关键字段并输出标准JSON格式,可直接对接金融、保险、物流等行业系统。 成本优势助力产业应用 性能提升的同时,GLM-OCR在推理效率和使用成本上也实现了显著优化。测试数据显示,该模型处理PDF文档的吞吐量达到每秒1.86页,图片处理速度达每秒0.67张,明显优于同类产品。 在商业化应用层面,GLM-OCR的接口调用价格仅为每百万令牌0.2元,一元人民币即可处理约2000张A4规格扫描图片或200份十页简单排版PDF文档,成本约为传统方案的十分之一。这一价格优势为大规模商业应用扫清了障碍。 开源生态降低应用门槛 值得关注的是,智谱选择将GLM-OCR完全开源,同步发布了完整的软件开发工具包与推理工具链。该模型支持vLLM、SGLang和Ollama等主流部署方式,环境依赖简单,支持一行命令快速调用,便于企业快速接入现有业务系统。 这种开源策略不仅有利于技术的快速迭代和生态建设,也为中小企业和开发者提供了低成本获取先进文档解析能力的途径,有助于推动整个行业的技术普及和应用创新。 业内专家认为,GLM-OCR的发布标志着国产文档解析技术在轻量化、高精度方向取得重要进展。该模型在保持领先性能的同时大幅降低了算力需求和使用成本,特别适合高并发场景和边缘设备部署,为教育、科研、办公、金融等领域的文档智能化处理提供了实用工具。
开源发布不是终点,而是产业协同的起点。文档解析看似基础,却连接着数据治理、流程再造与智能决策的关键环节。推动更高质量的开源供给、建立更严格的评测体系、完善更细致的安全合规框架,才能让技术红利真正转化为各行业可持续的降本增效与服务升级。