构建并完善科学系统的评测体系

中国信息通信研究院与工业和信息化部联手推出了“方升”智测研讨会，专门讨论如何让技术标准化和产业赋能更上一层楼。现在，全球的人工智能技术正从实验室里走出来，准备大规模应用到实际生活中。在这个过程中，评估技术的效能和建立可信的评测标准变得特别重要。于是，这个研讨会应运而生，展示了我国在建立自主可控的人工智能评测体系方面迈出了系统的步伐。中国信息通信研究院经过努力，给“方升”大模型测试体系更新到了3.0版本。这个版本打破了传统单一维度的技术验证模式，创造性地构建了五个方面的综合评估体系。它不仅关注模型本身的推理成本和性能表现这些硬指标，还把模型放到具体行业场景中去考量，甚至考虑未来通用人工智能（AGI）的发展方向。据悉，这套评测体系已经收集了超过780万条测试数据，并且每个季度都会更新发布相关监测数据。通过这样的常态化机制，它正成为我国人工智能产业选择技术路线和评估应用效果的重要参考依据。这次研讨会不仅仅是展示技术成果那么简单，它更像是一场聚焦行业痛点的深度对话。会议采用了立体化结构，除了主论坛外还设置了六个专题闭门研讨会。这六个专题包括AGI、全模态与世界模型、智能体、代码能力、数据集质量以及行业大模型。这次会议汇集了华为、腾讯、百度、字节跳动这些顶尖科技公司的专家和北京大学、清华大学、哈尔滨工业大学以及北京航空航天大学的学者们共聚一堂进行交流。通过这次会议大家一起研究如何解决目前评测体系存在的问题以及未来的发展方向。通过发布《2025“方升”观察》这份报告和启动第二批行业基准共建仪式，这次研讨会展示出我国正在加强科技自立自强和引导产业有序发展方面所做的努力。通过构建并完善科学系统的评测体系不仅能给技术创新提供清晰导向和市场选择可靠依据，还能为人工智能与实体经济深度融合奠定信任基石。