云知声发布首个工业级文档智能大模型

云知声公司今天发布了U1-OCR，这是第一个工业级文档智能大模型，让AI实现了从字符感知到文档认知的飞跃。记者向炎涛现场了解到，这个名为Unisound U1-OCR的系统，把传统的OCR识别能力提升到了新高度。原来，OCR 1.0只能处理文字识别，现在的U1-OCR还能深入理解文档的语义结构。这家公司表示，他们的目标是让机器拥有像人一样“看懂”复杂文档的能力。为了达到这个目的，U1-OCR采用了ViT架构和NaViT架构来处理视觉信息，还结合了LLM来提升语言理解能力。模型的参数规模达到了3B量级，既能快速处理高分辨率的文档，又能准确抓取深层语义。云知声智能科技股份有限公司的开发者认为，Unisound U1-OCR的推出标志着AI技术迈入了一个新阶段。以前的AI只能识别文字，现在则能理解业务逻辑了。他们计划把多模态文档当作知识入口，赋予机器自主推理的能力。编辑张昕指出，这次发布的Unisound U1-OCR把OCR 3.0时代带到了我们面前。公司希望未来能让机器像人类一样阅读、思考并解决复杂问题。云知声期待打造通用智能体（AGI），让每一份文档都成为通往智慧的阶梯。