云知声发布首个工业级文档智能基础大模型

云知声智能科技股份有限公司正式发布了首个工业级文档智能基础大模型。记者向炎涛报道，这家公司推出的Unisound U1-OCR模型凭借性能领先、可信可验、开箱即用、高效部署和强适配等五大核心优势，彻底打破了传统文档处理的界限。Unisound U1-OCR模型开启了OCR 3.0时代，把文档处理从单纯的文字识别提升到深层语义理解和业务级信息抽取。Unisound U1-OCR模型使用ViT+LLM架构，其中视觉编码器采用NaViT架构，给文档分辨率动态处理带来了更好的体验。这次发布标志着AI从只识字转向了理解业务逻辑。云知声期待这个模型把每一份文档都变成通往AGI的智慧阶梯。这个模型让机器有了自主推理和证据溯源的能力。未来，云知声希望能够构建出像人类一样阅读、思考和解决复杂问题的通用智能体。这次发布也展示了云知声对于多模态文档作为知识入口的重要性的认可。这个模型把文档的业务级结构化抽取带到了一个新的高度。传统OCR方案只能识别文字，而新一代多模态方案具备端到端版面理解能力和文字识别能力。 Unisound U1-OCR模型克服了传统模型“只读文字、不懂排版”的瓶颈。这个模型能够像人类专家一样看懂复杂文档。这个架构采用了ViT+LLM结构，它把视觉编码器部分用NaViT架构来代替，实现了文档分辨率动态处理。这个模型还有3B量级的参数规模，兼顾了计算效率和深层语义信息理解的要求。给AGI带来希望的是这个通用智能体，它可以像人类一样阅读和思考复杂问题。这次发布也标志着AI从感知走向认知的重要一步。Unisound U1-OCR开启了OCR 3.0时代，它让每一份文档都成为通往AGI的智慧阶梯。作为首个工业级文档智能基座，Unisound U1-OCR把传统视觉方案（OCR 1.0）提升到了新一代多模态方案（OCR 2.0），进一步洞察文档深层语义。这个架构还实现了自动分类与业务级信息抽取，完成了从“字符感知”到“文档认知”的飞跃。