红杉中国xbench和unipatai 联合发布的babyvision 评测

咱们看这个多模态大模型，虽然这几年发展特别快，在自然语言处理这块简直是突飞猛进，让人都有点惊讶了，特别是那交互和推理能力，简直太强悍了。可要是咱们把它那个华丽的语言外壳给剥掉，直接盯着它的视觉基础来看，最近的这一组测试结果真是挺让人扎心的。说白了，不管是Gemini还是其他那些叫得上名的大模型，只要你把语言干扰给去掉，只让它们纯靠眼睛看图像做判断，它们跟人类小孩比起来，差距真不是一般的大。像那个BabyVision-Mini的测试结果最能说明问题，大部分模型的得分连3岁小孩的水平都不到。就拿唯一能勉强超过3岁小孩的那个Gemini 3 Pro Preview来说吧，离6岁小孩还差了将近20个百分点。为什么会这样？其实就是因为大模型平时处理视觉问题的时候，通常会把图像翻译成文字描述，再用语言模型去推理作答。虽然这种“以文解图”的策略解决了不少复合问题，但这毕竟是个迂回的路子，不是真正的视觉感知。这次红杉中国xBench和UniPatAI联合发布的BabyVision评测集专门盯着这个软肋不放。他们设计的题目就是要把语言的拐杖彻底拿掉，逼着模型直接去处理像素之间的几何关系、空间连续性这些非符号化的东西。一旦到了这种严格的环境里，大模型的短板立马就暴露出来了。团队从“精细辨别”、“视觉追踪”、“空间感知”还有“视觉模式识别”这四大方面去考察模型的能力。结果发现不管哪一块都不行。比如在那个需要像素级几何直觉的拼图补全任务里，人类一眼就能看出边界对齐的微小凸起。但模型要是把形状转成“像钩子”这种文本标签之后，本来关键的视觉差异就被数字给抹平了，判断自然就不准了。再看那种简单的垃圾分类连线题，3岁小孩本能地就能沿着一条连续路径走到底。可最强的模型虽然能写出复杂的推理过程文字描述，却在路径交叉的时候失去了连续性，最后指到了错误的终点。这说明它们在动态视觉注意力保持和空间连续性理解上确实有硬伤。至于三维方块计数或者判断遮挡关系这种三维空间的任务里，模型更是没法像人类那样在脑子里旋转、操作三维心智表象。这就是空间想象力不够的表现。等到把评测扩展到包含388道题目的BabyVision-Full集以后，反差就更明显了。拥有本科以上学历的人类组准确率高达94.1%，而模型侧最好的那个Gemini 3 Pro Preview也才49.7%。开源模型里面表现最强的Qwen3VL-235B-Thinking准确率都不足22.2%，其他大部分开源模型得分都在12%到19%之间晃悠。这组数据很清楚地告诉我们一个道理：现在的技术路线下的大模型视觉能力跟人类成熟认知水平比起来差得太远了。单纯靠堆规模或者喂更多的数据根本没法解决这问题。 BabyVision这个评测就像是一面镜子一样照出了多模态AI的现状。它提醒我们要想真正做成通用人工智能光靠语言模型进化还不行，必须得好好研究一下视觉这些基础感知能力是怎么回事儿。这次研究肯定能推动学界和产业界更重视“基础能力”的建设。大家得从认知科学里找找灵感去探索新的路子。只有把感知的这块基石给打牢了，AI才能真正实现跟世界全面、深入又直观的交互。