中关村推出人工智能安全评估体系 构建多维度防护机制应对风险挑战

问题——随着人工智能技术快速迭代,大模型在内容生成、决策辅助、知识检索等场景加速落地,安全风险随之凸显:一是隐私与数据保护压力增大,训练与推理过程中可能出现敏感信息泄露;二是滥用恶用门槛下降,模型可能被用于自动化诈骗、网络攻击、舆情操纵等;三是虚假信息生成更隐蔽,深度合成内容对公共认知与社会信任构成挑战;四是新形态智能不断涌现,具身智能、科学智能等应用与现实世界耦合更紧,潜在风险更难在传统单一维度评估中被完整识别。

如何回答“评什么、怎么评、如何防、向何处去”,成为推动产业健康发展的紧迫课题。

原因——业内普遍存在“能力提升快、治理工具相对滞后”的结构性矛盾。

其一,模型规模扩大与多模态能力增强,使系统复杂度显著上升,漏洞与对抗样本更难被穷尽式发现;其二,应用场景从互联网内容扩展到医疗健康、金融经济、工业基础设施等高风险领域,对安全、可靠、可控提出更高要求;其三,现有评估多聚焦单点指标,难以覆盖从技术安全到社会伦理再到极端风险的全链条;其四,价值对齐与伦理评估在中文语境下仍存在适配不足与边界不全等问题,影响评估结果的可用性与一致性。

在此背景下,构建可操作、可复用、可扩展的评估与治理体系,成为补齐短板的重要抓手。

影响——此次发布的“前瞻安全基准”强调从基础安全出发,拓展至具身智能安全、科学智能安全、社会安全、环境安全以及灾难性与生存性风险五大维度,旨在为不同类型模型与应用提供更具覆盖面的“体检表”。

研究院负责人表示,该体系面向教育科研、医疗健康、金融经济、信息传媒、工业基建、政务民生等关键领域,重点回应隐私保护、滥用防控、虚假信息治理等现实难题。

与评估体系同步推出的“前瞻·灵御”攻防平台,通过模拟真实攻防场景对模型安全能力进行系统测试,目前可支持60余种主流大模型、20余种攻击方法与10余种防御机制。

测试结果显示,部分新模型在安全性上并未呈现与能力同步的明显提升,甚至在某些攻击条件下更易被突破。

这一发现提示行业:安全不能被视为模型能力提升的“自然副产品”,必须通过体系化评估与持续加固来形成可靠保障。

对策——以评估牵引治理、以平台支撑落地,是本次发布的突出特点。

一方面,攻防平台强调“可在部署阶段加护栏”的工程路径:在不必重新训练模型的情况下,通过在线推理阶段的安全策略、过滤机制、提示防护与风险识别等措施,就有望显著提升安全水平,从而降低迭代成本,提升行业普遍可执行性。

平台同时输出针对性防御方案与加固建议,推动从被动响应转向主动防护。

另一方面,“前瞻·灵度”平台聚焦伦理评估与价值校准,能够在6个维度、90个细分类别下对多模型进行实时动态监测,并集成以中国价值观为核心的大规模中文价值语料库,累计定义25万余条规则,力图提升中文语境下伦理评估的适配度与边界覆盖水平。

总体看,这一“基准+攻防+伦理”组合,既提供了可度量、可复检的技术抓手,也强化了价值导向与治理可解释性,为管理部门、行业机构与企业开展风险识别、合规建设和应用准入提供参考。

前景——面向未来,人工智能安全治理将从“单点防护”走向“全生命周期管控”,从“单一指标”走向“多维度综合评估”,并与产业发展形成更紧密的协同机制。

随着大模型在公共服务和关键行业进一步渗透,安全评估体系的标准化、可比较性与可持续更新能力将更加重要。

下一步,有必要推动评估框架与行业标准、应用准入、责任追溯等机制衔接,强化跨机构协作与数据共享,在保护创新活力的同时守住底线红线。

业内人士认为,只有把安全能力纳入模型研发与部署的基础工程,建立持续迭代的测评、攻防与校准机制,才能让技术进步更稳定地转化为社会效益与发展动能。

人工智能的快速发展既带来机遇,也伴随挑战。

中关村此次推出的安全治理新体系,不仅为行业树立了标杆,也为全球人工智能安全治理贡献了中国智慧。

在技术与社会深度融合的今天,唯有构建多维度、全链条的防护网络,才能确保人工智能真正造福人类。