问题——产业快速演进呼唤统一可信的评测“标尺” 当前,人工智能大模型加速迭代,应用从通用问答更延伸至政务服务、教育、工业研发等领域。此外,模型能力边界、数据质量、安全合规和可解释性等问题更加突出:同类模型指标口径不统一,场景评测缺少可复用数据集,测试结果难以跨机构对照,进而推高选型成本、拉长落地周期,影响技术创新与应用推广效率。如何建立权威、可比较、可追溯的基准测试体系,已成为产业共同关注的重点。 原因——技术路线多元与应用复杂化叠加,评测难度显著上升 一方面,大模型从单一语言能力走向多模态、工具调用和智能体协作,能力结构更复杂,传统静态题库难以覆盖真实任务。另一方面,行业应用对可靠性、可控性提出更高要求,政务、教育等场景对内容安全、隐私保护和合规审核有明确约束,评测不仅要“测得准”,也要“测得全、测得稳”。此外,产业生态呈现多主体研发、跨平台部署、软硬协同适配的特点,测试环境差异、国产化适配以及工程化指标也需要纳入统一框架。 影响——评测体系建设成为牵引创新、促进落地与完善治理的重要抓手 会上,中国信息通信研究院对应的负责人表示,建设统一、科学、权威的基准测试体系,有助于聚焦关键能力攻关,提升不同技术路线的可比性,降低行业用户选型和试错成本,并为监管治理与标准制定提供数据支撑。来自地方产业主管部门、高校科研机构与企业的与会代表普遍认为,评测“标尺”越清晰,产业创新越容易形成共识,应用落地路径也更可预期,同时有利于推动开放协作的生态形成。 对策——以“全维度框架+动态数据集+场景化能力”完善评测供给 会议介绍,“方升”大模型基准测试体系已完成从1.0到3.0的升级,形成覆盖基础属性、通用能力、任务能力、行业能力与未来高级智能能力的评测框架,测试数据规模达数百万量级,并持续动态更新。中国信息通信研究院发布的《2025“方升”基准测试观察》显示,国内语言大模型基础能力上进展明显,但推理等关键能力上仍有短板;部分模型在代码等工程化相关能力上表现突出。与会专家认为,下一阶段评测应更强调“可复现、可对比、可解释”,推动从“榜单展示”转向“问题定位与改进建议”,让测评结果更直接服务研发迭代。 围绕重点方向,多位专家分享了智能体架构、智能化软件可信保障、多模态交互与国产化适配、数据驱动世界模型等前沿进展,并提出加强跨机构协同,共建场景数据集与评测工具链。会上还介绍了教育、政务等领域基准测试能力体系的建设思路,强调以业务需求驱动指标设计,并以安全合规为前提推进应用落地。 前景——开放协同构建评测生态,服务高质量发展与国际竞争 与会人士认为,评测体系建设正在从“技术评价”走向“生态工程”。一是强化产学研用协同,在合规前提下推动评测数据、工具与方法开放共享,形成可持续迭代的公共能力;二是面向真实应用建立行业评测范式,推动评测与部署、运维、审计联动,提升全生命周期的可信水平;三是加快与标准体系衔接,在关键指标、测试流程、结果表达各上增强一致性,为国际交流合作与话语权提升打好基础。 会议期间,北京市石景山区相关负责人介绍,当地正围绕数智创新与应用场景拓展推进产业布局,并与中国信息通信研究院等机构共建评测相关平台能力,推动形成从研发、测试到应用的链条化服务供给。
人工智能评测体系建设是推动产业高质量发展的重要基础工程。此次研讨会汇聚政产学研各方观点,为构建科学、权威的评测标准体系继续形成共识。随着“方升”基准测试体系持续完善并深化应用,我国人工智能产业有望技术创新、应用落地与国际竞争诸上获得更坚实支撑,为科技强国建设提供新的动力。