自动驾驶的算法可能不再需要大规模的训练数据了

清华大学智能产业研究院的AIR团队在2026年2月发表了一篇名为《驾驶任务中的人类与算法视觉注意力》的文章，刊登在《npj Artificial Intelligence》这本国际学术期刊上。这个研究给我们揭示了人类司机和自动驾驶算法之间最大的不同点，并非在于他们如何定位空间里的东西，而是在于他们怎么理解场景里的含义。在2月21日，清华大学智能产业研究院告诉大家，这个团队的研究使用了两种实验方法：一种是让真人司机参与，并通过眼动追踪仪器记录他们在驾驶时的视线变化；另一种是把这些数据拿来和算法做对比。他们先把司机分为专家和新手两类，让他们在完成危险检测、可用性识别和异常检测这三项任务时接受测试。然后把观察到的数据分成三个阶段来分析。通过这个方法，他们发现人类在处理视觉信息时，有一种自上而下的认知方式。比如遇到突发情况时，他们会先识别出哪些物体更有可能带来风险，再去关注那些细节。但是现在的智驾算法很难自己学会这种能力。为了弥补这个差距，研究团队把这种注意力机制放进了像AxANet和UniAD这样的自动驾驶算法中，还有DriveLM这样的视觉语言模型里去验证。结果表明，虽然算法在空间定位上做得不错，但是在理解场景含义方面还存在很大问题。如果把人类检查时的那种语义注意力加入算法里去，就能让算法更聪明地分辨哪些东西重要、哪些不重要。这种做法不用依赖大量的预先训练数据就能提升性能，对于那些算力和存储空间有限的车载系统来说特别有用。这篇文章告诉我们一个好消息：以后自动驾驶的算法可能不再需要大规模的训练数据了。只要利用好人类在检查阶段体现出的语义能力就能有效提升它们的表现。