专家告诉咱们,别指望光靠大模型就能把病看好了。最近《自然-医学》上有篇研究说,大语言模型(LLM)未必能帮咱们老百姓把日常健康决策做得更靠谱。虽然不少医疗机构都打算用它来给大家获取医疗信息开路,让咱们先找个AI看看病再去找医生,但结果挺让人失望的。 虽然那个叫LLM的东西在医师资格考试里成绩很高,但是在真格的场景里就不灵光了。给它做测试的时候,它倒是挺准的,能在94.9%的概率上正确识别出是啥毛病,在56.3%的概率上挑对了下一步该咋做。但一旦换成真人用户去用,这数据就掉得特别惨:辨别病症的成功率跌到了34.5%,选对行动方案的也才44.2%,这两个数字都没超过对照组。