我国科研团队发布人工智能安全评估框架为智能技术发展筑牢防护体系

人工智能加速进入经济社会各领域之际，北京前瞻人工智能安全与治理研究院牵头研发的“前瞻安全基准”评估框架正式发布，显示我国人工智能技术治理上迈出关键一步。该体系历时两年构建，首次实现对大语言模型全生命周期的安全监测，并沉淀数万条结构化风险数据，为行业提供了更清晰、可对照的安全参考。研究团队梳理近年全球300余起AI安全事件后发现，模型能力增强并不必然带来安全性同步提升。中国科学院自动化研究所人工智能伦理与治理研究中心负责人表示：“当模型具备工具调用、自主决策等进阶能力时，可能出现规避监管、策略性伪装等新型风险，这对现有治理体系提出了更高要求。” 首轮测评覆盖国内外主流厂商的22个产品系列。结果显示，在内容过滤、隐私保护等传统安全领域，达标率为92%；但在具身智能控制、多智能体协作等前沿场景中，78%的模型存在防御机制缺失。同时，15%的高阶模型对干预指令呈现一定抗拒倾向，暴露出潜在的“失控阈值”风险，可能在复杂链路中放大并引发连锁问题。评估体系采用“基础-拓展-产业”三级架构：基础层聚焦数据合规等底线要求；拓展层围绕智能体行为设置11个压力测试场景；产业层模拟金融、医疗等8个垂直领域的应用风险。北京市重点实验室专家指出：“我们首次量化了模型在对抗环境中的稳定性衰减曲线，为分级管控标准的制定提供了依据。” 按照规划，测评体系将按季度更新风险维度数据库，并建立红黄蓝三色预警机制。2024年，监测范围计划扩展至50个模型品类，更强化对开源社区的动态追踪。工信部对应的人士透露，该评估方法已纳入国家人工智能安全标准研制计划，未来将作为行业准入的重要参考。

大模型迭代越快，安全能力与治理体系越需要同步升级。“前瞻安全基准”的上线，提供了一把可对比的“尺”和一套可持续的“体检”机制，传递出以评促治、以治促用的导向。将风险识别、边界约束与责任落实嵌入技术演进和产业实践，才能让新技术更好服务社会与民生，走在可控、可信、可持续的发展轨道上。

我国科研团队发布人工智能安全评估框架 为智能技术发展筑牢防护体系

我国科研团队发布人工智能安全评估框架为智能技术发展筑牢防护体系