多模态大模型的视觉能力到底怎么样？这次评测告诉我们：当前的技术还比不上三岁小孩。

多模态大模型的视觉能力到底怎么样？这次评测告诉我们：当前的技术还比不上三岁小孩。大家都知道，AI发展得特别快，特别是在处理自然语言方面取得了很多突破，这让很多人觉得机器已经很智能了。不过这次评测让大家冷静了下来。它主要看的是大模型处理纯视觉信息的能力，结果显示和大家想象的差距很大：最好的技术，连三岁孩子的早期认知都比不上。这个评测是红杉中国xBench和UniPatAI团队一起搞出来的BabyVision，目的就是把语言能力抛开，只看核心的视觉能力。他们先出了个BabyVision-Mini的小测试，里面有20道题全靠看图来解答，彻底不让模型通过“把图片变成文字再推理”来作弊。为了对比准确，还请了3岁、6岁、10岁、12岁的孩子一起来测。结果挺让人吃惊的。大部分顶尖的大模型得分都不高，都没超过三岁孩子的水平。只有一个表现稍微好点的Gemini 3 Pro Preview，勉强超过了三岁基线，但跟六岁孩子比起来还差了大概20个百分点。比如有一道题是把不同图标连到对应的垃圾桶颜色上。三岁小孩一眼就能搞定，但是最好的模型生成了很长的文字推理过程后还是错了。这说明它根本不是真正理解图片，而是在翻译后的文字上再推理。后来他们又测了个全量的BabyVision-Full，包含388道题。结果差距更大了：有16位大学生答对了94.1%，而大模型呢？原来表现最好的Gemini 3 Pro Preview准确率直接掉到了49.7%，开源的Qwen3VL-235B-Thinking只有22.2%左右，其他开源的基本在12%到19%之间徘徊。这种全面落后绝不是偶然的。论文分析说现在的视觉短板主要是在精细辨别、追踪、空间感知和模式识别这四个方面都缺失。具体来说有四个挑战：第一是“非语言细节”感知不到，人类能看出拼图的微小凸起和边界对齐，模型只能把形状变成抽象的符号；第二是连续性追踪不行，人类能一直盯着一条线走到底，模型只能把动作拆成“左”、“右”这样的命令；第三是空间想象力不够；第四是整体性模式识别有偏差。这其实说明现在的模型还是太依赖语言了。它们擅长把图转成文字再推理，而不是直接看懂图片。这种“以文解图”的方法在需要精确和动态视觉能力的任务面前就不行了。 BabyVision评测就像一面镜子，照出了AI在视觉认知上和人类本能的差距。它告诉我们，在惊叹大模型语言能力的时候要记住：感知智能的基础还不稳。这个研究不光提供了评估标准，还指出了以后该往哪儿走：让机器学会“看”，而不是“读图说话”。这是通向AGI必须跨过的一步。要想突破瓶颈，得在视觉表征学习、网络架构甚至训练方法上做更基础的创新才行。