最近百度千帆推出了一个叫Qianfan-OCR的模型,给文档智能解析带来了巨大的改变。这个模型有40亿个参数,把之前那些麻烦的步骤给统一起来了,直接就能从图片里生成结构化的数据。过去处理文档得先检测再识别,最后还得用大模型,这样就很容易出错,特别是碰到复杂的表格和图表就更不行了。但现在Qianfan-OCR就把这些问题解决了,它把检测、识别和语义理解全整合到一个端到端的模型里了。大家可以看看一些权威的评测数据,这个模型在OmniDocBenchv1.5上拿到了93.12的高分,比那些普通的视觉语言模型还有专用的OCR模型都强很多。在关键信息提取(KIE)这块儿也特别牛,总分超过了Google Gemini 3-Pro这种国际上的商用大模型。特别是处理图表的时候,这个模型简直太厉害了,在ChartQA和ChartBench这几项国际评测中都拿到了第一。 这种厉害的表现让它在金融报表、科研论文这些地方特别好用。毕竟这些文档里经常混着表格和图表,用传统的方法很难弄清楚结构和逻辑关系。现在有了Qianfan-OCR,处理效率上去了,精度也提高了不少。现在这个模型已经在百度千帆平台上完全开放给大家用了,还能通过HuggingFace下载权重代码。不管是开发者还是企业用户都能自由调用它来做各种文档智能处理的事情。 现在数字经济发展这么快,文档智能技术的进步肯定会给各行各业带来很大的机会和挑战。这次发布Qianfan-OCR就是百度千帆推动数字化转型的重要一步。随着技术的不断完善和应用场景的扩大,以后处理文档肯定会变得更高效、更智能了。