德研究团队提出FINER评测与定向训练方案，直指多模态模型精细问答“幻觉”短板

问题——多模态“看图说话”遇到精细提问更易“失真” 随着能够同时理解图像与文本的多模态大语言模型加速进入搜索、客服、内容生产等应用场景，“以图提问、以文作答”已成为重要交互方式。但最新研究显示，当用户将问题从“图中是否有猫”等粗粒度判断，升级为包含颜色、姿态、位置、数量、相互关系等多条件约束的精细描述时，模型更容易给出与事实不符的回答，且往往表现为对细节的“自信编造”或“以偏概全式肯定”。原因——现有测评偏重简单题，模型被“部分匹配”误导研究指出，当前不少通行评测更关注显著目标识别或一般性图文对齐能力，题目设计往往更接近“基础题”，导致模型复杂细节核验上的薄弱环节未被充分暴露。更值得警惕的是，模型在判断长描述真假时存在一种偏置：当描述中包含若干真实元素，模型可能被“命中部分”牵引，从而对整体描述给出肯定结论，即便其中夹杂明显错误的细节。这种“部分匹配即通过”的倾向，使其在多条件核验任务中更易产生系统性误判。影响——高精度需求场景潜藏风险，可靠性成为规模化落地关键变量研究结果对多模态模型在严肃场景的应用提出警示。医疗影像辅助分析、工业质检、公共安全、法律证据审阅等领域往往需要对细小差异作出明确判断，问题表达也更趋向“多约束、强限定”。若模型在精细提问下出现高比例失真回答，可能带来误导性结论，影响决策质量与责任边界。同时，这个现象也提示业界：仅凭在通用榜单上的表现难以直接推断其在专业场景的可靠程度，必须建立更贴近真实工作流的测评与校准机制。对策——构建FINER评测框架并提出针对性训练方法为更系统刻画“精细提问下的能力塌陷”，研究团队设计FINER测试体系，并在两套图像数据基础上形成FINER-CompreCap和FINER-DOCCI两个基准，题量分别超过1.7万和7.1万。其设计思路强调“多条件组合核验”，通过分层提高问题精细度，观察模型随难度上升的稳定性变化。研究显示，随着问题约束条件增多，部分模型准确率可能从约八成显著下滑至较低水平，反映出对细节一致性验证能力不足。在评测之外，研究还提出FINER-Tuning训练方法，旨在通过更贴近精细核验任务的样本组织与训练策略，强化模型对细节、关系与否定信息的辨识能力。实验结果显示，经过该方式优化后，模型在精细化问题上的准确率最高提升24.2%。这一提升不仅意味着“会看”的能力增强，更表明“会核对、会拒答、会纠错”的可靠性训练具备现实价值。前景——从“能用”走向“可信”，精细评测与治理将成竞争焦点业内人士认为，多模态模型正从能力展示阶段迈向应用深水区，下一步竞争将更多体现在可靠性、可控性与责任可追溯性上。面向精细提问的评测体系，有望成为连接通用模型与行业落地的“安全阀”和“标尺”：一上帮助开发者识别短板、定向优化；另一方面也为采购方、监管方提供可对照的量化依据，推动形成更透明的能力边界披露机制。未来，结合更丰富的真实场景数据、更严格的否定样本与反例构造，以及与人类审核、规则约束联动的多层防护，将成为降低“幻觉”风险的重要方向。

这项研究为多模态模型的可靠性检验提供了更细的“刻度”，既暴露了精细场景中的风险点，也给出了可操作的改进路径；当机器智能从“差不多”走向“可核验”——更关键的不只是能力提升——而是对结果可解释、可纠错、可追责的要求不断提高。在数字化转型加速的背景下，这类基础研究将为智能应用的质量与安全打下更扎实的底座。