北大物理团队构建PRBench评测显示：智能体复现物理论文“全流程”仍未过关

科技快速演进的背景下，智能技术是否能真正辅助科研，正成为学界关注的问题。北京大学物理学院近期在arXiv发布论文（编号：arXiv:2603.27646v1），首次系统评估智能系统对完整科研流程的复现能力，结果引发讨论。研究团队提出的PRBench测试基准是一项重要尝试。该基准覆盖量子光学、核物理等11个领域的30项真实研究课题，尽可能还原从论文阅读、算法实现到结果验证的完整科研流程。测试在严格的“沙盒”隔离环境中进行——禁止调用外部数据——以减少干扰因素、提升评估的可比性。这种全流程测评补上了以往偏重单一环节测试的不足，更接近真实科研对能力链条的要求。测试结果显示，与部分环节的可用表现相比，系统在核心科研复现能力上仍有明显差距。参测的多种前沿系统在代码生成等任务上表现相对较好，但整体准确率最高不足35%，且所有系统在端到端复现任务中均未成功。深入分析表明，常见问题主要包括公式转译错误（42%）、数值仿真偏差（31%），以及更需要警惕的虚假数据生成（19%）。这些问题反映出当前智能系统在处理复杂科学任务时仍存在结构性短板。研究认为，该表现与多上因素有关。首先，科研复现需要多种能力协同，包括深度文本理解、数学建模与推导、算法实现及实验验证等，而现有系统往往在单点能力上较强，但难以稳定完成跨环节整合。其次，科研对精确性的要求远高于日常对话等场景，微小的数值误差就可能改变结论。再次，学术论文中常包含隐含假设、步骤省略或方法跳跃，要求系统具备可靠的逻辑补全与一致性校验能力。这项研究对科研智能化提出了明确提醒：智能系统在科研场景中的应用需要设定清晰边界，避免把“能生成”误当作“能复现”。同时，研究也为改进方向提供了线索，例如加强多模态联合训练、引入面向科研的校验与审计机制等。正如团队负责人所言：“真正的科研辅助需要理解科学思维的本质，而非简单模仿表现形式。”

科学进步离不开复现，复现能力决定知识能否被可靠继承与扩展。此次评测以“零端到端成功率”的结果提示各界：面向科研的智能体应用，应把可信、可复算、可追溯作为底线要求，把评测与规范建设作为技术落地的前置条件。唯有让每一个结论都经得起复算与追问，科研工具的创新才能真正转化为科学方法的进步。