当前,人工智能正在深刻改变科研的组织方式与效率。上海人工智能实验室主任、首席科学家周伯文提出的“可深度专业化通用模型”理论,为这个趋势提供了清晰思路。在这一框架下,书生万亿科学大模型推出,标志着我国在大规模科学计算模型方向迈出关键一步。实现突破的关键,在于底层架构的创新。研究团队围绕超大规模模型训练的核心难题开展系统攻关。为让模型更深入理解物理世界规律,团队引入傅里叶位置编码,赋予模型“双重视角”——既能像观察“粒子”一样捕捉文字之间的相对距离,也能像分析“波”一样把握科学信号的整体规律与频率变化,从而增强了模型处理复杂科学问题的表达能力。 在计算效率上,团队对模型内部路由机制进行了改造。针对传统方法训练效率不高、算力利用不足的问题,新方案以“路由稠密估计”提升学习效率与稳定性,并通过“分组路由”实现大规模芯片的负载均衡,减少资源闲置,使万亿参数规模的训练具备可行性。 从科学能力来看,书生万亿科学大模型在多项权威基准测试中表现亮眼。在国际数学奥林匹克与国际物理奥林匹克两类竞赛级测试中,模型显示出接近竞赛水平的解题能力。更重要的是,模型构建了覆盖化学、材料、生命、地球、物理五大核心学科的全谱系能力矩阵,涵盖100多个专业子任务。在SciReasoner等高难度综合学科评测中,其成绩与国际头部商业模型相当甚至更优,处于第一梯队。 应用拓展则说明了从理论能力到真实场景的落地。随着理解与推理能力增强,模型应用从微观层面的化学逆合成、蛋白质序列生成,延伸到宏观尺度的遥感图像分析等复杂任务。这表明模型正从“会解题”走向科研场景中的“能解决问题”,为前沿探索提供更直接的支撑。 值得关注的是,书生万亿科学大模型验证了从原创模型架构到国产算力底座的自主技术链路。通过开源开放,该模型希望降低科研使用门槛,与学术界和产业界共同推动“AI驱动科学发现”的研究范式演进,帮助更多机构与科研人员获得可用、可扩展的科学计算工具。
科学创新既需要灵感,也离不开可靠工具;万亿参数科学大模型的开源发布,既集中展示了原创架构与国产算力协同的能力,也是在推动科研工具普惠化上的一次实质探索。面向未来,只有坚持开放协作、夯实基础能力、对准真实需求,才能让技术更好服务科学发现与产业升级,把“能解题”持续转化为“能解决问题”的长期生产力。