在给2026年2月的《Nature Medicine》投稿之前,研究团队已经做好了准备。他们把来自哈佛大学医学院的Isaac S. Kohane请来担任顾问,这位教授说,虽然现在大语言模型是患者获取建议的主要渠道,但在极端情况下它们的表现最差。一旦有判断失误,可能会让人错过急诊或者收到不必要的警报。Ashwin Ramaswamy是Icahn School of Medicine at Mount Sinai的一名体腔科导师,也是这项研究的主笔,他直接发问:如果有人真的生病了,求助ChatGPT Health的时候,它能不能明确地告诉人家得去急诊科? OpenAI估计ChatGPT Health发布后每天有约4000万用户通过它查询健康信息,包括是否需要紧急或急诊就医。但到目前为止,还没有太多独立的证据来证明它的安全性或可靠性到底怎么样。Girish N. Nadkarni博士是资深共同通讯作者之一,他指出原本设计的时候是希望遇到高危情况就会把用户导向988自杀与危机生命线,但是实际测试发现警报显示得不太稳定。有时候在低危场景下也会触发,甚至当用户描述了具体的自我伤害计划时完全没有反应。 Girish N. Nadkarni博士觉得这种情况超出了正常的波动范围。系统警报和临床风险出现了颠倒——对于低风险的情况反而更可靠,面对用户露出具体自残计划的时候却常常不响铃。真正危急的信号是具体的自伤计划。 研究团队一共设计了60条结构化临床情境,覆盖了21个医学专科。这些情境从适合在家护理的小病一直到真正的医疗急症都有。有三名独立医生按照56个医学学会的指南给每个案例定好了正确的紧急级别。每个情景又在16种不同的条件下进行了测试,比如种族、性别、患者自己是否弱化病情的描述、有没有保险或者交通方面的障碍等等。总共进行了960次与ChatGPT Health的交互,并把这些建议和医生的共识做了对比。 在60个真实的患者情境里,ChatGPT Health对于明显的急症比如中风或者严重过敏反应表现还不错。但有超过一半被医生认定需要急诊的案例中,工具把紧急程度给低估了。 更让人担心的是所谓的“误导性安慰”。在某些情境里系统明明已经识别出危险体征了,却还给患者提供“等一下”或者“在家处理”的建议。比如在哮喘的案例中系统指出了呼吸衰竭的早期警示,却建议患者先等一等而不是直接去医院。 Ashwin Ramaswamy说他们已经把这些发现反馈给了OpenAI。 Alvira Tyagi是Mount Sinai医学院一年级的医学生,也是次作者之一。她认为在这个AI健康工具已经被这么多用户掌握的时代,我们必须学会把它们整合进临床工作而不是让它们取代临床判断。她强调AI模型一直在更新中性能会随时间变化需要持续的独立评估。 未来他们会继续评估更新版的ChatGPT Health还有其他面向消费者的AI工具。这次研究还会扩大范围包括儿科护理药物安全和非英语使用等方面。 虽然发现了不少问题,但这并不意味着消费者就该全盘否定AI健康工具了。而是要提醒大家要警惕它的局限性在必要时优先寻求专业帮助。 如果遇到胸痛呼吸困难严重过敏反应或者精神状态改变这些情况建议直接去医院别只靠聊天机器人来判断情况。 如果有自残的念头请拨打988自杀与危机生命线或者直接去急诊科就诊。