国际期刊发布医疗大模型临床评估双轨新基准中国团队主导制定并在测评中领跑

在全球医疗人工智能技术快速发展的背景下，如何科学评估其临床适用性长期缺乏统一标准。

传统评价体系多聚焦答题准确率等单一维度，难以真实反映技术在实际诊疗场景中的安全风险与决策价值。

这一瓶颈制约了人工智能技术在严肃医疗领域的深度应用。

针对这一关键问题，中国未来医生科研团队联合北京协和医院、中国医学科学院肿瘤医院等23个核心专科的32位临床专家，历时两年研发出“临床安全-有效性双轨基准”。

该标准首次将临床决策的复杂要素系统量化：在安全性维度设置17项指标，重点监测致命性诊断失误、禁忌用药等高风险场景；在有效性维度设计13项指标，涵盖多病种协同诊疗、方案合规性等核心需求。

每项指标按临床风险等级实施1-5分动态加权，并构建2069个开放式测评案例，全面模拟真实医疗环境。

这一创新标准的科学价值得到国际学术界认可。

在《npj Digital Medicine》期刊发表的测评结果显示，参与测试的全球主流模型中，中国MedGPT以总分0.985、安全性0.912、有效性0.861的优异成绩位列榜首。

其优势源于独特的技术路径：不同于依赖数据规模的传统训练方式，该系统从底层架构模拟人类医生的认知逻辑，并建立“临床反馈-即时优化”的闭环机制。

目前平台已积累超1万医生参与的实战数据，推动模型准确率保持每月1.2%-1.5%的持续提升。

行业分析指出，CSEDB的建立具有三重里程碑意义：其一，为全球医疗人工智能研发提供标准化评估工具；其二，推动技术应用从辅助决策向核心诊疗环节渗透；其三，彰显中国在智慧医疗标准制定领域的话语权提升。

随着该标准在更多国际机构的推广应用，或将重塑医疗人工智能产业的发展方向。

医疗人工智能的发展不应仅追求技术的先进性，更应注重临床的实用性和安全性。

中国团队制定的这一评估标准，为全球医疗人工智能发展提供了重要的方法论指导，也为构建更加安全、有效的智慧医疗体系贡献了中国智慧。

随着这一标准的推广应用，医疗人工智能有望在保障患者安全的前提下，更好地服务于人类健康事业。

国际期刊发布医疗大模型临床评估双轨新基准 中国团队主导制定并在测评中领跑