11月1日这天,孙自法从北京给中新网带来了最新消息:中国科学院自动化所的那个“AI+科学”团队,这回推出了个叫磐石·科学文献解析器的工具,打算给全世界搞科研的人,提供一个真正懂科学的智能引擎。这套东西1.0版现在已经公开了源代码,并且被装进了他们自家的“磐石·科学基础大模型”(ScienceOne)里面,就是要服务全球的科研圈。接下来,团队还打算继续把它往多模态方向发展,顺便把大家凑在一块儿,打造一个更开放的科学智能圈子。 这个团队跟记者唠了几句心里话,说磐石·科学文献解析器最厉害的地方是在算法底层下功夫。他们专门建了一套能理解科学语义的多模态训练系统和强化学习机制,现在公式、文字、图表这些东西能放在一起弄清楚了,就是要让科研工作者感觉到这引擎确实懂行。 研发过程中,他们没走那些常见的老路,不去光靠那种通用的视觉语言大模型。相反,他们搞了一套专门给科学文献量身定制的训练办法。这套办法有三个技术支柱:第一就是把数据铺满了,不管是手写体还是打印体都有;第二是多模态的微调策略;第三就是针对科学文献语义的强化学习优化。 数据这块儿做得挺扎实。他们系统性地搜集了手写体、数字排版体和纸质扫描体这三种典型的科学书写形态做成语料库。这“全形态、多学科、高质量”的数据基础,就是为了帮模型搞懂科学表达的各种复杂情况。 到了模型训练的时候,他们分两步走。第一步是用多模态有监督微调,让模型先把文本、公式、表格这些东西的表征能力练出来。有了这一步基础,第二步就引入了一种针对科学文献语义的梯度强化学习策略优化框架。这样做的目的就是为了让模型不光“看得清”,还能“理解对”。 为了让大家用着顺手,磐石·科学文献解析器不光能识别出高精度的文本和公式结果,还支持好几种结构化格式的输出。这玩意儿能无缝对接知识抽取、文献排版和智能问答这些下游应用。 团队表示,拿多个科学文献数据集做评测的结果显示,磐石·科学文献解析器在大篇章解析和公式专项识别这些任务上,都拿出了国际领先的成绩。