多模态理解评测集显示：多数顶尖模型核心视觉能力仍明显低于幼儿基线水平

一项最新的多模态理解评测结果为当前人工智能技术的发展现状敲响了警钟。

由红杉中国xbench与UniPatAI团队联合发布的BabyVision评测集首轮测试表明，绝大多数顶尖多模态大模型在视觉任务上的表现均显著低于三岁儿童水平，仅有极少数模型勉强达到该基线。

这一发现与公众对大模型能力的普遍认知形成了鲜明对比。

问题的根源在于大模型视觉处理机制的内在局限。

当前多模态大模型在处理图像问题时，通常采用将视觉信息转化为文字描述的方式，随后依靠强大的语言推理能力来理解和解决问题。

这种机制使得模型的语言推理能力掩盖了其视觉信息处理的不足。

换言之，大模型展现出的视觉理解能力，本质上是基于文字信息的推理能力，而非真正意义上的视觉感知能力。

一旦失去语言能力的支撑，其视觉处理的短板便暴露无遗。

为了精准评估大模型的核心视觉能力，UniPatAI团队设计了严格的测试方案。

BabyVision-Mini评测集包含20道视觉中心任务，所有题目均严格控制语言依赖，答案完全依靠视觉信息得出。

同时，研究团队组织了三岁、六岁、十岁、十二岁四个年龄段的儿童作为对照组进行测试。

测试结果显示，大多数顶尖模型的得分集中在明显低于三岁儿童平均水平的区间。

其中表现最佳的Gemini3-Pro-Preview模型虽勉强超过三岁基线，但与六岁儿童相比仍存在约二十个百分点的差距。

一道垃圾分类连线题充分说明了问题的严重性。

该题要求将"塑料杯""废报纸""苹果核"分别通过路径连线到对应颜色的垃圾桶。

三岁儿童仅凭本能就能从起点沿线追踪至终点，轻松完成作答。

而表现最强的Gemini3-Pro-Preview虽然写下大段"逐段追踪"的推理过程，最终仍给出了错误答案。

这充分反映了大模型在视觉追踪能力上的根本缺陷。

当研究团队将测试扩展到包含388道题目的完整BabyVision-Full评测集时，问题的严重程度进一步显现。

人类对照组的16位本科以上学历参与者准确率高达94.1%，而大模型的表现则相差甚远。

闭源模型中表现最佳的Gemini3-Pro-Preview准确率仅为49.7%，开源模型中最强的Qwen3VL-235B-Thinking准确率不足22.2%，其他开源模型得分集中在12%至19%区间。

更值得关注的是，大模型的视觉能力不足并非单一方面的问题，而是涉及精细辨别、视觉追踪、空间感知以及视觉模式识别四大类别的全方位缺陷，反映出其基础视觉能力存在系统性缺失。

研究团队总结出了大模型面临的四大典型挑战。

首先是"非语言细节"的缺失。

人类在处理拼图补全等任务时，能凭几何直觉直接感知边界对齐、微小凸起等像素级差异。

而大模型一旦将图像选项的形状描述为"像钩子、有两个腿"等语言概括，细微的视觉差异就被抹平，选项在token空间里变得"几乎一样"，导致判断错误。

其次是轨迹追踪能力的缺陷。

人类能够锁定一条线并一路追到终点，而大模型则将其翻译成"左、右、上、下"的离散步骤，难以保持连续性。

一旦遇到交叉点，就容易产生路径分叉，导致从"跟随一条线"退化为"猜测终点"。

第三是空间想象能力的缺失。

在三维方块计数、视角投影、遮挡结构判断等任务中，人类能在脑海中保持三维结构的形状，并变换视角进行判断。

而大模型在这类任务上表现不佳，反映出其空间推理能力的局限。

第四是视觉模式识别的不足。

大模型在识别和理解复杂的视觉模式时存在困难，这进一步限制了其在视觉理解领域的应用潜力。

这些发现对人工智能产业具有重要启示。

当前大模型在自然语言处理领域取得的突破性进展，不应掩盖其在视觉感知能力上的根本性不足。

要实现真正意义上的多模态理解，需要从根本上改进大模型的视觉处理机制，而不是依赖语言推理能力的"弥补"。

这意味着未来的技术发展方向应该是增强大模型的原生视觉处理能力，而非继续强化其语言推理能力。

当人工智能在语言领域高歌猛进时，BabyVision评测犹如一面镜子，映照出技术发展中的"视觉盲区"。

这一发现不仅为科研指明了方向，更引发深层思考：人类智慧的真正复现，或许需要超越单一模态的局限，在多元认知的融合中寻找答案。

正如儿童成长需要全面发展，人工智能的成熟同样呼唤全方位的能力进化。