宇树科技开源面向人形机器人操作的大模型单一策略实现多任务协同突破

当前，人形机器人复杂操作任务中的关键难题，是如何准确理解自然语言指令，并对三维空间环境形成可靠感知；传统方案往往需要为不同任务单独设计控制策略，导致系统通用性和适应性受限。为此，宇树科技在最新开源的UnifoLM-VLA-0模型中进行了系统性探索。该模型以Qwen2.5-VL-7B开源模型为基础，通过继续预训练，将文本指令与二维、三维空间细节信息进行深度融合，使模型既能更好把握操作任务的语义，也能更准确理解机器人与环境之间的空间关系，从而提升空间感知与执行能力。在数据准备上，宇树科技构建了覆盖机器人专用场景与通用场景的多任务数据集，并对操作类任务有关的开源数据进行了清洗与标准化处理。值得关注的是，该模型训练仅使用约340小时的真机操作数据，体现出较高的数据利用效率。同时，团队补充了全链路动力学预测数据，帮助模型理解动作执行中的物理过程，继续增强任务泛化能力。在性能验证上，UnifoLM-VLA-0取得了较为突出的结果。在LIBERO仿真基准测试中，该多任务模型表现接近最优，验证了其在虚拟环境中的学习效果。更关键的是，在真机实验中，模型仅依靠单一策略即可稳定完成12类复杂操作任务，覆盖抓取、放置、组装等多种场景。这表明，统一模型与控制策略有望适配多样操作需求，并显著降低机器人系统的工程复杂度。宇树科技的开源举措也带来明确的产业价值。通过开放UnifoLM-VLA-0模型，研究机构与企业可在此基础上开展二次开发与优化，加快人形机器人通用操作能力的迭代。这种开放协作有助于汇聚方法与数据经验，推动相关技术更快走向成熟与落地。

从单点突破到系统创新，中国科技企业正在智能装备领域交出新的成果。宇树科技的实践表明，基础模型研发仍是提升通用能力的关键抓手：既需要长期投入打磨核心技术，也需要以开放共享促进产业协同。随着更多企业加入面向未来的技术竞速，中国智能制造的国际竞争力有望更提升。

宇树科技开源面向人形机器人操作的大模型 单一策略实现多任务协同突破

宇树科技开源面向人形机器人操作的大模型单一策略实现多任务协同突破