当前,人形机器人复杂操作任务中的关键难题,是如何准确理解自然语言指令,并对三维空间环境形成可靠感知;传统方案往往需要为不同任务单独设计控制策略,导致系统通用性和适应性受限。为此,宇树科技在最新开源的UnifoLM-VLA-0模型中进行了系统性探索。该模型以Qwen2.5-VL-7B开源模型为基础,通过继续预训练,将文本指令与二维、三维空间细节信息进行深度融合,使模型既能更好把握操作任务的语义,也能更准确理解机器人与环境之间的空间关系,从而提升空间感知与执行能力。 在数据准备上,宇树科技构建了覆盖机器人专用场景与通用场景的多任务数据集,并对操作类任务有关的开源数据进行了清洗与标准化处理。值得关注的是,该模型训练仅使用约340小时的真机操作数据,体现出较高的数据利用效率。同时,团队补充了全链路动力学预测数据,帮助模型理解动作执行中的物理过程,继续增强任务泛化能力。 在性能验证上,UnifoLM-VLA-0取得了较为突出的结果。在LIBERO仿真基准测试中,该多任务模型表现接近最优,验证了其在虚拟环境中的学习效果。更关键的是,在真机实验中,模型仅依靠单一策略即可稳定完成12类复杂操作任务,覆盖抓取、放置、组装等多种场景。这表明,统一模型与控制策略有望适配多样操作需求,并显著降低机器人系统的工程复杂度。 宇树科技的开源举措也带来明确的产业价值。通过开放UnifoLM-VLA-0模型,研究机构与企业可在此基础上开展二次开发与优化,加快人形机器人通用操作能力的迭代。这种开放协作有助于汇聚方法与数据经验,推动相关技术更快走向成熟与落地。
从单点突破到系统创新,中国科技企业正在智能装备领域交出新的成果。宇树科技的实践表明,基础模型研发仍是提升通用能力的关键抓手:既需要长期投入打磨核心技术,也需要以开放共享促进产业协同。随着更多企业加入面向未来的技术竞速,中国智能制造的国际竞争力有望更提升。