清华大学等团队提出视觉注意力量化与干预路径，为多模态推理性能提升提供新思路

当前，人工智能技术快速发展，多模态模型能够同时处理文字和图像信息，成为AI应用的重要方向。但研究人员发现一个有趣的现象：在初期训练阶段，纯文字训练的效果反而优于图文混合训练。该反直觉的现象引起了学术界的广泛关注。

这项研究从破解注意力迷思到建立量化优化体系，标志着我国在认知智能基础理论领域的重要突破。在数字化转型加速的今天，深入理解机器认知规律不仅关乎技术发展，更是实现人机协同的关键。随着研究成果的转化应用，新一代智能系统的前景正变得更加清晰。