德研究团队提出FINER评测与定向训练方案,直指多模态模型精细问答“幻觉”短板

问题——多模态“看图说话”遇到精细提问更易“失真” 随着能够同时理解图像与文本的多模态大语言模型加速进入搜索、客服、内容生产等应用场景,“以图提问、以文作答”已成为重要交互方式。但最新研究显示,当用户将问题从“图中是否有猫”等粗粒度判断,升级为包含颜色、姿态、位置、数量、相互关系等多条件约束的精细描述时,模型更容易给出与事实不符的回答,且往往表现为对细节的“自信编造”或“以偏概全式肯定”。 原因——现有测评偏重简单题,模型被“部分匹配”误导 研究指出,当前不少通行评测更关注显著目标识别或一般性图文对齐能力,题目设计往往更接近“基础题”,导致模型复杂细节核验上的薄弱环节未被充分暴露。更值得警惕的是,模型在判断长描述真假时存在一种偏置:当描述中包含若干真实元素,模型可能被“命中部分”牵引,从而对整体描述给出肯定结论,即便其中夹杂明显错误的细节。这种“部分匹配即通过”的倾向,使其在多条件核验任务中更易产生系统性误判。 影响——高精度需求场景潜藏风险,可靠性成为规模化落地关键变量 研究结果对多模态模型在严肃场景的应用提出警示。医疗影像辅助分析、工业质检、公共安全、法律证据审阅等领域往往需要对细小差异作出明确判断,问题表达也更趋向“多约束、强限定”。若模型在精细提问下出现高比例失真回答,可能带来误导性结论,影响决策质量与责任边界。同时,这个现象也提示业界:仅凭在通用榜单上的表现难以直接推断其在专业场景的可靠程度,必须建立更贴近真实工作流的测评与校准机制。 对策——构建FINER评测框架并提出针对性训练方法 为更系统刻画“精细提问下的能力塌陷”,研究团队设计FINER测试体系,并在两套图像数据基础上形成FINER-CompreCap和FINER-DOCCI两个基准,题量分别超过1.7万和7.1万。其设计思路强调“多条件组合核验”,通过分层提高问题精细度,观察模型随难度上升的稳定性变化。研究显示,随着问题约束条件增多,部分模型准确率可能从约八成显著下滑至较低水平,反映出对细节一致性验证能力不足。 在评测之外,研究还提出FINER-Tuning训练方法,旨在通过更贴近精细核验任务的样本组织与训练策略,强化模型对细节、关系与否定信息的辨识能力。实验结果显示,经过该方式优化后,模型在精细化问题上的准确率最高提升24.2%。这一提升不仅意味着“会看”的能力增强,更表明“会核对、会拒答、会纠错”的可靠性训练具备现实价值。 前景——从“能用”走向“可信”,精细评测与治理将成竞争焦点 业内人士认为,多模态模型正从能力展示阶段迈向应用深水区,下一步竞争将更多体现在可靠性、可控性与责任可追溯性上。面向精细提问的评测体系,有望成为连接通用模型与行业落地的“安全阀”和“标尺”:一上帮助开发者识别短板、定向优化;另一方面也为采购方、监管方提供可对照的量化依据,推动形成更透明的能力边界披露机制。未来,结合更丰富的真实场景数据、更严格的否定样本与反例构造,以及与人类审核、规则约束联动的多层防护,将成为降低“幻觉”风险的重要方向。

这项研究为多模态模型的可靠性检验提供了更细的“刻度”,既暴露了精细场景中的风险点,也给出了可操作的改进路径;当机器智能从“差不多”走向“可核验”——更关键的不只是能力提升——而是对结果可解释、可纠错、可追责的要求不断提高。在数字化转型加速的背景下,这类基础研究将为智能应用的质量与安全打下更扎实的底座。