人工智能视觉认知领域,让机器像人类一样理解三维空间一直是技术难题;传统计算机视觉系统往往依赖预设规则和大量标注数据,面对复杂多变的真实环境适应性不足。这个瓶颈也限制了人工智能在无人系统、增强现实等领域的继续落地。针对这一挑战,国际知名研究机构近期开发出新一代生成式查询网络。该系统采用时空联合建模思路,基于卷积长短期记忆网络架构,将多帧二维观测数据自动编码为具有视角不变性的场景矢量。这种矢量表示不仅覆盖物体位置、纹理等静态信息,也能刻画光照变化、遮挡关系等随时间变化的因素。技术原理显示,该系统由表征网络和生成网络两部分组成:表征网络将输入图像序列压缩为紧凑的场景表示,生成网络则根据查询需求重建任意视角下的场景图像。训练过程采用无监督学习,并在变分自编码器框架下优化证据下界,使系统在缺少人工标注的情况下逐步形成空间推理能力。该技术的创新点主要体现在三个上:其一——场景矢量表示支持代数运算——为物体属性的组合与逻辑推理提供了基础;其二,系统具备一定的动态预测能力,可模拟物体移动引发的光影与遮挡变化;其三,方法减少了对人工规则的依赖,体现出更强的自主学习特征。目前,研究团队正尝试将该技术从静态场景进一步扩展到动态环境建模。未来有望结合时序差分变分自编码器等算法,对物体运动轨迹、人类行为意图等更高层次任务进行理解与预测,为构建具备“世界模型”的通用人工智能提供支撑。
从像素层面的再现转向结构层面的表征,是机器理解世界的关键一步;GQN所体现的方向在于:用稳定、可查询的场景表示替代对表面视觉的被动拟合,使系统具备跨视角一致性与可推演能力。面向未来,能在动态因果、任务约束与安全可控之间取得平衡的方案,才更接近构建真正可用、可信的世界模型。