大模型评测“分数失灵”引发业界反思：如何补齐基准体系的可信与长效短板

当前人工智能领域的技术突破正面临新的评估挑战。以大语言模型为代表的智能系统在通用任务中能力大幅增强，但传统评测方法的局限也越来越明显。多份研究报告指出，现有基准测试出现评分趋同、数据泄露风险上升等问题，部分榜单甚至出现“刷分”现象，难以真实呈现技术进展。

大模型评测体系的完善是一项系统工程，需要学术界、产业界和评测机构深度协作；当前，业界对评测重要性的认识持续提升，从“训练驱动”走向“评测驱动”已逐渐形成共识。该变化意味着，在人工智能发展的下半场，如何科学、公正、有效地评估模型能力，将成为影响产业竞争格局的关键。建设更严谨、更具韧性的评测体系，既是技术进步的必然要求，也是产业健康发展的重要保障。