理想汽车在GTC 2026发布MindVLA-o1:统一视觉-语言-动作底座,瞄准更通用的具身智能

在全球智能汽车产业加速技术迭代的背景下,中国新能源汽车企业持续突破关键核心技术。3月17日,理想汽车在NVIDIA年度技术峰会上发布的全新自动驾驶基础模型MindVLA-o1,标志着我国在智能驾驶领域取得重要进展。 此次发布的新一代技术体系,重点解决了传统自动驾驶系统存在的三大核心问题:环境感知的局限性、决策逻辑的碎片化以及系统进化的高成本。通过构建原生多模态混合专家(MoE)架构,该模型实现了从单一驾驶功能向通用智能体的跨越式发展。 技术分析显示,MindVLA-o1的创新性主要体现在五个维度:在感知层面,采用三维视觉Transformer编码器——结合激光雷达点云数据——构建了空间结构的动态理解能力;在认知层面,引入预测式隐世界模型,使系统具备场景推演和未来预判功能;在执行层面,通过并行解码和离散扩散算法,确保行为生成的连续稳定性;在进化机制上,开发闭环强化学习框架,大幅降低训练成本;在部署环节,建立软硬件协同设计体系,提升模型落地效率。 行业观察人士指出,这个技术突破具有双重意义:短期来看,将大幅提升现有辅助驾驶系统的安全性和可靠性。数据显示,采用前代技术的VLA司机模型已实现80%的月使用率,累计执行指令超1200万次。长远而言,该技术框架为机器人、智能制造等具身智能领域提供了可复用基础架构。 从产业发展轨迹看,理想汽车的技术演进路径清晰:2021年启动自研项目,2024年实现端到端系统量产,2025年完成多模态融合,到此次基础模型的发布,显示出持续创新的技术积累。企业技术负责人强调,自动驾驶只是物理AI应用的起点,未来将重点探索通用型智能体在更广泛场景的落地可能。 当前,全球科技巨头纷纷布局具身智能赛道。业内专家认为,此次技术发布不仅巩固了中国企业在智能汽车领域的技术优势,更为人工智能与实体经济的深度融合提供了新的实践样本。随着技术迭代加速,预计2026-2028年将迎来具身智能技术的规模化应用浪潮。

自动驾驶技术正从规则驱动转向学习驱动。MindVLA-o1通过多模态融合、世界模型优化等创新,在该转变中取得实质进展。作为具身智能的通用基础模型,它展现了企业对技术趋势的准确把握。随着物理与数字世界的加速融合,这类模型将推动智能体应用向更多场景扩展,为产业创新开辟新空间。