中国科研团队主导制定全球医疗智能评估新标准临床安全有效性双轨体系获国际认可

医疗AI的临床应用已成为全球科技创新的重要方向，但长期以来缺乏统一、科学的评估标准。

近日，中国科研团队在国际顶级学术期刊发表研究成果，填补了这一空白。

由未来医生科研团队联合来自北京协和医院、中国医学科学院肿瘤医院、中国人民解放军总医院等23个临床专科的32位专家共同制定的"临床安全-有效性双轨基准"（CSEDB），标志着医疗AI评估体系实现了重大突破。

这是中国团队首次在Nature旗下期刊发表"大语言模型+医疗"领域的标准研究，反映了我国在医疗AI领域的科研实力和学术话语权的提升。

传统医疗AI评估方法存在明显局限。

过往评价体系主要依赖答题准确率等单一维度，难以反映医疗决策的复杂性和风险特性。

CSEDB的创新之处在于打破这一评估模式，在全球范围内首次引入"安全性"与"有效性"双轨评价体系，全面贴合真实临床决策场景的需求。

该标准的核心架构包含30项评估指标。

其中17项聚焦安全性，涵盖危急重症状识别、致死性诊断失误、绝对禁忌用药等关键临床场景，直指医疗决策中的生命安全问题。

13项聚焦有效性，包括多病并存优先级、诊疗方案与指南一致性等核心需求，确保AI建议符合临床规范。

CSEDB按临床风险等级对每项指标进行加权打分，5分对应"潜在致命后果"，1分对应"可逆性伤害"，科学的分值设置充分体现了医疗风险的层级特性。

在测试方法上，CSEDB也实现了重大创新。

整套评估体系共构建了2069个开放式问答条目，覆盖26个临床专科，全方位模拟真实诊疗的复杂场景。

这打破了以往"标准问-标准答"的静态模式，更加接近医生在实际工作中面临的多变情况。

基于这一新标准，研究团队对全球主流大模型进行了系统性测评，包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等国际知名模型。

中国自主研发的MedGPT在此次测评中表现突出，总体得分达0.985，安全性得分0.912，有效性得分0.861，三项核心指标均位列全球第一。

MedGPT的优异成绩并非偶然。

该系统的底层设计理念是"像医生一样思考"，而非仅仅"说得像医生"。

其技术架构模拟人脑的认知逻辑，将临床专家关注的安全性和有效性植入底层代码，摒弃了过度依赖海量数据"自然涌现"智慧的思路。

这种以医学逻辑为核心的设计方向，使得系统能够更准确地理解和处理医疗决策的复杂性。

在临床实践中，MedGPT已展现出持续迭代的能力。

超过1万名医生通过未来医生平台与患者进行交互，每周沉淀2万条"真实诊疗反馈"。

通过"反馈即迭代"的飞轮机制，MedGPT的准确率每月能提升1.2%-1.5%，这种持续优化的机制确保了系统性能的稳定提升。

CSEDB标准的发布具有重要的行业意义。

它为医疗大模型的迭代优化指明了方向，也为医疗AI进入严肃诊疗场景奠定了科学基础。

这套标准不仅适用于评估现有模型，也为未来医疗AI的开发和改进提供了明确的目标导向。

随着标准的推广应用，医疗AI的临床转化有望实现更加规范、可控、安全的发展。

医疗数字化的目标不是制造“更像医生的语言”，而是形成可验证、可追责、可持续改进的诊疗支持能力。

CSEDB所强调的安全与有效“双轨”评价，把临床最关心的底线和价值放回评测中心，有助于推动医疗大模型从技术热度走向制度化、规范化应用。

面向未来，只有在标准、治理与临床实践的共同作用下，医疗智能工具才能真正成为提升医疗质量与效率的可靠助力。

中国科研团队主导制定全球医疗智能评估新标准 临床安全有效性双轨体系获国际认可