云知声发布首个工业级文档智能大模型

云知声公司今天发布了U1-OCR,这是第一个工业级文档智能大模型,让AI实现了从字符感知到文档认知的飞跃。记者向炎涛现场了解到,这个名为Unisound U1-OCR的系统,把传统的OCR识别能力提升到了新高度。原来,OCR 1.0只能处理文字识别,现在的U1-OCR还能深入理解文档的语义结构。 这家公司表示,他们的目标是让机器拥有像人一样“看懂”复杂文档的能力。为了达到这个目的,U1-OCR采用了ViT架构和NaViT架构来处理视觉信息,还结合了LLM来提升语言理解能力。模型的参数规模达到了3B量级,既能快速处理高分辨率的文档,又能准确抓取深层语义。 云知声智能科技股份有限公司的开发者认为,Unisound U1-OCR的推出标志着AI技术迈入了一个新阶段。以前的AI只能识别文字,现在则能理解业务逻辑了。他们计划把多模态文档当作知识入口,赋予机器自主推理的能力。 编辑张昕指出,这次发布的Unisound U1-OCR把OCR 3.0时代带到了我们面前。公司希望未来能让机器像人类一样阅读、思考并解决复杂问题。云知声期待打造通用智能体(AGI),让每一份文档都成为通往智慧的阶梯。