多模态大模型的视觉能力到底怎么样?这次评测告诉我们:当前的技术还比不上三岁小孩。大家都知道,AI发展得特别快,特别是在处理自然语言方面取得了很多突破,这让很多人觉得机器已经很智能了。不过这次评测让大家冷静了下来。它主要看的是大模型处理纯视觉信息的能力,结果显示和大家想象的差距很大:最好的技术,连三岁孩子的早期认知都比不上。 这个评测是红杉中国xBench和UniPatAI团队一起搞出来的BabyVision,目的就是把语言能力抛开,只看核心的视觉能力。他们先出了个BabyVision-Mini的小测试,里面有20道题全靠看图来解答,彻底不让模型通过“把图片变成文字再推理”来作弊。为了对比准确,还请了3岁、6岁、10岁、12岁的孩子一起来测。 结果挺让人吃惊的。大部分顶尖的大模型得分都不高,都没超过三岁孩子的水平。只有一个表现稍微好点的Gemini 3 Pro Preview,勉强超过了三岁基线,但跟六岁孩子比起来还差了大概20个百分点。比如有一道题是把不同图标连到对应的垃圾桶颜色上。三岁小孩一眼就能搞定,但是最好的模型生成了很长的文字推理过程后还是错了。这说明它根本不是真正理解图片,而是在翻译后的文字上再推理。 后来他们又测了个全量的BabyVision-Full,包含388道题。结果差距更大了:有16位大学生答对了94.1%,而大模型呢?原来表现最好的Gemini 3 Pro Preview准确率直接掉到了49.7%,开源的Qwen3VL-235B-Thinking只有22.2%左右,其他开源的基本在12%到19%之间徘徊。 这种全面落后绝不是偶然的。论文分析说现在的视觉短板主要是在精细辨别、追踪、空间感知和模式识别这四个方面都缺失。具体来说有四个挑战:第一是“非语言细节”感知不到,人类能看出拼图的微小凸起和边界对齐,模型只能把形状变成抽象的符号;第二是连续性追踪不行,人类能一直盯着一条线走到底,模型只能把动作拆成“左”、“右”这样的命令;第三是空间想象力不够;第四是整体性模式识别有偏差。 这其实说明现在的模型还是太依赖语言了。它们擅长把图转成文字再推理,而不是直接看懂图片。这种“以文解图”的方法在需要精确和动态视觉能力的任务面前就不行了。 BabyVision评测就像一面镜子,照出了AI在视觉认知上和人类本能的差距。它告诉我们,在惊叹大模型语言能力的时候要记住:感知智能的基础还不稳。这个研究不光提供了评估标准,还指出了以后该往哪儿走:让机器学会“看”,而不是“读图说话”。这是通向AGI必须跨过的一步。要想突破瓶颈,得在视觉表征学习、网络架构甚至训练方法上做更基础的创新才行。