医疗人工智能临床应用遭遇信任难题专家共议评价体系与治理路径

问题——医疗大模型“热”与临床“冷”并存。近年来，医疗大模型发展迅速，产品与解决方案不断出现，但严肃医疗场景中真正实现规模化应用的案例仍不多。论坛上，北京市人民政府参事、中国工程院院士、北京大学人民医院院长王俊抛出问题：大模型从“会聊天”到“会看病”，还差哪几步？这直指行业共性难题——医疗场景不只看“答得多”，更看“答得准、可核验、可追责”，任何偏差都可能带来临床风险和信任成本。原因——缺少“可用”标准，临床对可靠性要求极高。与会专家认为，医疗大模型落地受限不只是算力或数据问题，更关键在于缺少面向专病、面向流程、面向责任链条的清晰能力边界，以及能被临床认可的可靠评价体系。王俊表示，不少测评仍停留在知识覆盖、问答准确率等层面，难以回答医生最关心的“是否可信”“如何快速判断可信”。为推动评价从“知道多少”转向“可不可信”，其团队提出“GAPS临床信任评价体系”，从认知深度、证据等级、真实干扰、安全性等维度进行考察，强调输出可验证、可溯源、可审计，促使模型在严肃医疗问题上更严谨、更可控。影响——可能重塑医药研发、临床试验与医疗服务形态，但风险同样需前置管理。中国科学院院士、首都医科大学附属北京天坛医院院长王拥军判断，有关技术的率先突破点，可能集中在三类更易形成“闭环验证”的场景：一是新药研发，借助数据与算法提升靶点发现、分子筛选与候选优化效率，缩短研发周期；二是临床试验，虚拟患者、数字孪生与因果疾病模型等有望在一定范围内辅助甚至替代部分试验环节，提高效率、降低成本；三是医疗服务模式创新，以居家医疗、远程管理为代表的新服务形态正在形成，未来部分常见病、慢性病的随访与管理可能从医院延伸到家庭与社区，患者体验与医疗资源配置方式也将随之变化。另外，技术扩张也带来新的挑战：算法偏差、证据不足、数据安全以及责任边界不清，都会影响公众信任与行业秩序。对策——以可信评价为“底座”，以重点场景落地为“抓手”，以治理协同为“护栏”。与会嘉宾普遍认为，推动医疗大模型进入临床，需要建立从研发、评测、准入到使用、监测、追责的全链条机制。一上，建立客观、可复现、面向具体场景的评价体系，明确模型能做什么、不能做什么，避免“泛化承诺”进入临床；另一方面，坚持循证逻辑与安全优先，优先在影像辅助、临床文书辅助、患者随访管理、药物研发等相对可控、可验证的环节稳步试点，沉淀可推广的流程与标准。王拥军提出“研究要积极，应用要稍微保守一些”，强调临床应用应把风险评估、持续监测和人机协同放在首位，并在制度设计中落实医生的专业判断与责任主体地位。同时，治理与人才培养被视为长期基础。全球医疗健康人工智能责任治理合作机构首席执行官雷立德分享相关实践，并呼吁加强国际协同，推动规则、标准与风险处置机制的互认与对接，以责任治理促进技术向善、向实。首都医科大学校长张罗则将关注点放在医学教育，指出技术可以提升检索、分析与研究效率，但临床诊疗离不开“温度”和人文关怀。面向未来，医学院校需要构建更高互动、更强支持的智慧教育生态，在训练新工具能力的同时，强化伦理素养、沟通能力与同理心培养，推动“技术能力”与“人文底线”并重。前景——从“会说”到“会用”再到“用得好”，关键取决于信任机制与治理能力。综合论坛观点，医疗大模型发展路径正在变得清晰：以可信评价提升可用性，以场景化落地积累证据，以规范治理降低风险，以人文价值守住底线。可以预见，随着评价体系完善、专病数据与证据体系更健全、监管与行业标准逐步成型，医疗大模型有望在医药创新与医疗服务中发挥更大作用。但其进入临床核心环节仍将遵循渐进原则：先辅助、再协同、后优化，最终目标是提升医疗质量、效率与可及性，而不是替代医生的专业判断与责任担当。

医疗大模型走向临床，不只是一次技术升级，更是一场涉及标准体系、医疗流程、伦理治理与人才结构的系统性调整。把“可信”放在创新之前，把场景落地放在概念热度之上，把人文关怀纳入效率追求之中，才能让新技术真正成为提升医疗质量、守护生命健康的长期力量。

医疗人工智能临床应用遭遇信任难题 专家共议评价体系与治理路径

医疗人工智能临床应用遭遇信任难题专家共议评价体系与治理路径