华盛顿州立大学研究称生成式语言模型科学判断一致性不足 警示谨防“自信式误导”

问题: 华盛顿州立大学计算机科学团队近期发布研究报告称,人工智能系统在处理复杂的科学假设验证任务时暴露出明显短板。研究人员对719个商业期刊中的研究假设进行重复测试,结果显示模型表面准确率约为80%;但在扣除随机猜测的影响后,其有效准确率仅比50%的基准线高出约60个百分点。更关键的是,系统对错误命题的识别正确率只有16.4%,且在27%的案例中无法保持结论一致,甚至对同一问题先后给出完全相反的判断。 原因分析: 研究负责人Mesut Cicek教授表示,这类自相矛盾的输出与底层机制有关:当前人工智能仍以模式匹配为主,依赖大规模数据训练形成概率预测,而不等同于具备真正的理解与推理能力。数据也显示,2025年发布的升级版本在此任务上的表现与早期版本相比并无明显提升,说明技术迭代尚未补齐核心推理能力的缺口。 影响评估: 研究结果对商业应用提出了现实提醒。企业若在缺乏严格验证的情况下直接采信模型结论,可能在战略决策、科研投入等关键环节引入系统性风险。研究特别指出,模型输出往往措辞流畅,容易造成“权威幻觉”,让使用者忽略其推理链条的脆弱性。 应对建议: 研究团队提出三层防护机制:第一,关键决策必须由专业人员交叉验证;第二,机构应建立人工智能应用的标准化审核流程;第三,开展面向全员的技术素养培训,明确工具性辅助与实质性判断的边界。美国国家科学基金会有关专家补充称,应推动行业层面的人工智能输出标注规范,要求披露系统在特定领域的准确率等关键指标。 发展前瞻: 尽管存在局限,研究仍认可人工智能在信息处理效率上的价值。《麻省理工科技评论》指出,下一代突破或将来自混合架构,把符号逻辑系统与神经网络的优势结合起来。欧盟人工智能伦理委员会也呼吁加快制定面向专业领域应用的准确性认证标准。

这项研究并非否定新技术的前景,而是提醒人们:表达流畅不等于结论可靠。面对越来越“会说”的工具,更需要以证据校准判断、用流程控制风险、靠专业把住底线,才能让新技术真正服务于高质量决策与高水平治理。