权威机构共议人工智能评测体系建设多方合力推动产业高质量发展

问题——产业快速演进呼唤统一可信的评测“标尺” 当前，人工智能大模型加速迭代，应用从通用问答更延伸至政务服务、教育、工业研发等领域。此外，模型能力边界、数据质量、安全合规和可解释性等问题更加突出：同类模型指标口径不统一，场景评测缺少可复用数据集，测试结果难以跨机构对照，进而推高选型成本、拉长落地周期，影响技术创新与应用推广效率。如何建立权威、可比较、可追溯的基准测试体系，已成为产业共同关注的重点。原因——技术路线多元与应用复杂化叠加，评测难度显著上升一方面，大模型从单一语言能力走向多模态、工具调用和智能体协作，能力结构更复杂，传统静态题库难以覆盖真实任务。另一方面，行业应用对可靠性、可控性提出更高要求，政务、教育等场景对内容安全、隐私保护和合规审核有明确约束，评测不仅要“测得准”，也要“测得全、测得稳”。此外，产业生态呈现多主体研发、跨平台部署、软硬协同适配的特点，测试环境差异、国产化适配以及工程化指标也需要纳入统一框架。影响——评测体系建设成为牵引创新、促进落地与完善治理的重要抓手会上，中国信息通信研究院对应的负责人表示，建设统一、科学、权威的基准测试体系，有助于聚焦关键能力攻关，提升不同技术路线的可比性，降低行业用户选型和试错成本，并为监管治理与标准制定提供数据支撑。来自地方产业主管部门、高校科研机构与企业的与会代表普遍认为，评测“标尺”越清晰，产业创新越容易形成共识，应用落地路径也更可预期，同时有利于推动开放协作的生态形成。对策——以“全维度框架+动态数据集+场景化能力”完善评测供给会议介绍，“方升”大模型基准测试体系已完成从1.0到3.0的升级，形成覆盖基础属性、通用能力、任务能力、行业能力与未来高级智能能力的评测框架，测试数据规模达数百万量级，并持续动态更新。中国信息通信研究院发布的《2025“方升”基准测试观察》显示，国内语言大模型基础能力上进展明显，但推理等关键能力上仍有短板；部分模型在代码等工程化相关能力上表现突出。与会专家认为，下一阶段评测应更强调“可复现、可对比、可解释”，推动从“榜单展示”转向“问题定位与改进建议”，让测评结果更直接服务研发迭代。围绕重点方向，多位专家分享了智能体架构、智能化软件可信保障、多模态交互与国产化适配、数据驱动世界模型等前沿进展，并提出加强跨机构协同，共建场景数据集与评测工具链。会上还介绍了教育、政务等领域基准测试能力体系的建设思路，强调以业务需求驱动指标设计，并以安全合规为前提推进应用落地。前景——开放协同构建评测生态，服务高质量发展与国际竞争与会人士认为，评测体系建设正在从“技术评价”走向“生态工程”。一是强化产学研用协同，在合规前提下推动评测数据、工具与方法开放共享，形成可持续迭代的公共能力；二是面向真实应用建立行业评测范式，推动评测与部署、运维、审计联动，提升全生命周期的可信水平；三是加快与标准体系衔接，在关键指标、测试流程、结果表达各上增强一致性，为国际交流合作与话语权提升打好基础。会议期间，北京市石景山区相关负责人介绍，当地正围绕数智创新与应用场景拓展推进产业布局，并与中国信息通信研究院等机构共建评测相关平台能力，推动形成从研发、测试到应用的链条化服务供给。

人工智能评测体系建设是推动产业高质量发展的重要基础工程。此次研讨会汇聚政产学研各方观点，为构建科学、权威的评测标准体系继续形成共识。随着“方升”基准测试体系持续完善并深化应用，我国人工智能产业有望技术创新、应用落地与国际竞争诸上获得更坚实支撑，为科技强国建设提供新的动力。

权威机构共议人工智能评测体系建设 多方合力推动产业高质量发展

权威机构共议人工智能评测体系建设多方合力推动产业高质量发展