问题——自动驾驶投入巨大,但突破为何不显著? 近年来,全球车企与科技企业持续加码自动驾驶研发,算力、数据与硬件水平快速提升,但复杂路况、极端天气、临时施工、非规则交通参与者等“长尾场景”中,系统稳定性与安全冗余仍是行业普遍面临的关口。一上,传统分模块方案将感知、预测、规划、控制等环节割裂——链条冗长、误差叠加——一旦遭遇未覆盖的边界条件,容易出现策略失灵。另一方面,端到端方案虽提升了响应效率,却因内部机理难以解释,面对突发风险时缺乏可验证的推理过程,安全边界与责任界定亦更为复杂。 原因——卡点集中“三维理解”和“推理能力”两道门槛 业内专家普遍认为,自动驾驶的核心不是“识别更多目标”,而是“理解物理世界并形成可验证的决策”。当前不少系统主要从二维图像或视频中学习规律,存在空间信息表达不完整、尺度与高度关系易丢失等局限;部分三维占用表达虽在还原空间结构上有所推进,但语义与几何如何统一表征中稳定耦合,仍是难点。更关键的是,若系统主要依赖统计对应的性进行反应式输出,缺少对场景因果与行为后果的推演能力,便难以在风险发生前完成“预判—权衡—选择”的闭环,从而影响对复杂交通环境的可靠兜底。 影响——竞争焦点正从“把车开得像人”转向“让模型懂物理、会推理、能行动” 基于此,基础模型能力成为车企自动驾驶的关键变量。业内观察到,下一阶段竞争将不再仅比拼“体验分”,而更看重对真实空间结构、动态变化与交互规则的综合建模能力,以及系统在多场景迁移、极端情况处理与可验证安全上的表现。这不仅关系到用户对智能驾驶功能的信任度,也将影响企业在数据闭环、软件迭代与合规落地上的成本与节奏。 对策——以原生三维表征为底座,推动感知、推理与动作生成一体化 在英伟达GTC大会上,理想汽车发布MindVLA-o1自动驾驶基础模型,并在随后对外解读中表示,该模型的目标是将三维环境理解、逻辑推理与动作生成在底层打通,减少“只会反应、不懂原因”的决策不确定性。据介绍,其技术路径强调抛开二维降维表达,采用原生3D视觉编码,并引入激光雷达点云作为三维几何提示,帮助模型建立更贴近真实世界的空间语义与几何结构统一表征。 同时,为增强对动态变化的把握,该方案引入前馈式三维场景表示思路,将场景拆分为相对静态环境与动态目标分别建模,通过下一时刻预测等自监督信号学习深度、语义与运动规律,使模型不仅“看见现在”,也能够对“接下来可能发生什么”形成更稳定的预测基础。业内人士指出,这类方法的价值在于提升系统对复杂交互与突发变化的敏感度,为后续规划控制提供更可靠的输入,从而降低长尾场景下的失效概率。 前景——从技术验证走向规模应用,仍需跨越安全、数据与工程化三重门槛 需要看到,基础模型的发布只是起点,自动驾驶从能力展示走向大规模可用,仍取决于工程化落地与安全体系建设:其一,模型在不同城市道路结构、交通参与者行为差异、极端天气与夜间等条件下的泛化能力,需要在更大范围真实运行中持续验证;其二,数据合规与隐私保护、功能边界标注、风险提示机制等,将直接影响产品可持续迭代;其三,面向量产的算力成本、车端实时性与冗余架构设计,也将决定该类方案能否在更多车型上普及。业内预计,随着三维表征、世界模型与可解释决策研究推进,自动驾驶或将从“体验驱动”逐步转向“安全与能力双驱动”,基础模型将成为构建高等级智能驾驶的重要底座之一。
自动驾驶技术正在从简单模仿迈向深度认知。理想汽车的创新表明,突破往往源于对基础问题的重新思考。当机器真正"理解"而不仅是"识别"世界时,智能交通的愿景才会实现。这场变革不仅改变出行方式,更将重塑未来城市和人机互动模式。