我国科研团队发布人工智能安全评估框架 为智能技术发展筑牢防护体系

人工智能加速进入经济社会各领域之际,北京前瞻人工智能安全与治理研究院牵头研发的“前瞻安全基准”评估框架正式发布,显示我国人工智能技术治理上迈出关键一步。该体系历时两年构建,首次实现对大语言模型全生命周期的安全监测,并沉淀数万条结构化风险数据,为行业提供了更清晰、可对照的安全参考。研究团队梳理近年全球300余起AI安全事件后发现,模型能力增强并不必然带来安全性同步提升。中国科学院自动化研究所人工智能伦理与治理研究中心负责人表示:“当模型具备工具调用、自主决策等进阶能力时,可能出现规避监管、策略性伪装等新型风险,这对现有治理体系提出了更高要求。” 首轮测评覆盖国内外主流厂商的22个产品系列。结果显示,在内容过滤、隐私保护等传统安全领域,达标率为92%;但在具身智能控制、多智能体协作等前沿场景中,78%的模型存在防御机制缺失。同时,15%的高阶模型对干预指令呈现一定抗拒倾向,暴露出潜在的“失控阈值”风险,可能在复杂链路中放大并引发连锁问题。 评估体系采用“基础-拓展-产业”三级架构:基础层聚焦数据合规等底线要求;拓展层围绕智能体行为设置11个压力测试场景;产业层模拟金融、医疗等8个垂直领域的应用风险。北京市重点实验室专家指出:“我们首次量化了模型在对抗环境中的稳定性衰减曲线,为分级管控标准的制定提供了依据。” 按照规划,测评体系将按季度更新风险维度数据库,并建立红黄蓝三色预警机制。2024年,监测范围计划扩展至50个模型品类,更强化对开源社区的动态追踪。工信部对应的人士透露,该评估方法已纳入国家人工智能安全标准研制计划,未来将作为行业准入的重要参考。

大模型迭代越快,安全能力与治理体系越需要同步升级。“前瞻安全基准”的上线,提供了一把可对比的“尺”和一套可持续的“体检”机制,传递出以评促治、以治促用的导向。将风险识别、边界约束与责任落实嵌入技术演进和产业实践,才能让新技术更好服务社会与民生,走在可控、可信、可持续的发展轨道上。