我国首个具身智能开源数据集社区在上海启动 助力智能机器人产业发展

问题——具身智能产业加速发展,数据基础设施短板日益凸显。当前,具身智能正从“能看会说”迈向“能动会做”,对真实场景、多模态、可复现实验数据的依赖明显增强。但受制于采集成本高、口径不统一、共享机制不完善,行业长期面临“数据稀缺、可用性不足、难以对齐验证”等共性难题:一方面,触觉、力觉、视觉、动作等多源数据需要严格同步与标定;另一方面,全身动态控制数据涉及安全性、稳定性和可复用评测,缺少统一标准易导致重复建设与资源浪费。 原因——高质量数据供给与治理体系尚未形成合力。具身智能数据采集往往依赖真机与复杂工况,单次采集就涉及硬件传感器、标定系统、场景搭建与人工示教,成本高、门槛也不低;同时,不同机构数据格式、标签体系、质量评估和授权条款上各行其是,导致数据“能采难用、能用难共享”。在技术迭代快、应用落地需求强的背景下,建立行业协作机制与公共数据枢纽,成为降低创新成本、提升研发效率的关键。 影响——开源数据集社区与工作组落地,有望打通“供给—治理—应用”链条。3月16日,开放原子“园区行”——开源数据集专场活动在上海举行。活动中,开放原子开源基金会指导成立人工智能开源社区开源数据集工作组,联合研究机构、实验室、高校与企业等产学研用单位,围绕数据集开源治理框架、质量评估标准与协作规则开展体系化建设,推动数据资源在产业界与学术界规范流通、建立互信并实现共享。随后,开放原子具身智能开源数据集社区启动,由企业牵头建设,联合高校、科研机构及产业伙伴共建,定位为真实数据资源枢纽与协作创新平台,旨在以更开放的生态方式汇聚数据、工具与应用场景,提升行业整体研发效率。 对策——以标准化、可评测、可复用为导向,夯实具身智能数据底座。活动现场,OpenLET“触觉灵巧操作 全身运动”数据集全球首发,面向多模态具身智能研究开放使用。该数据集聚焦“触觉灵巧操作+全身高动态运动”的融合,覆盖触觉阵列、六维力、RGB-D视觉与动作控制等关键数据链路,强调多源信息的同步对齐,便于开展从感知、决策到控制的端到端验证。尤其在全身运控上,数据覆盖人形机器人多关节精细控制信号,将任务从基础动作延伸到更高难度的全身联动,为运动控制、平衡维持、交互顺应等核心能力评测提供可复用基准。业内人士认为,通过工作组推动统一数据规范、授权条款与质量评估体系,并依托社区促进持续更新与共建共享,可在更大范围降低数据获取成本,减少“重复采集、重复标注”,提升模型训练与算法评测的可比性与可迁移性。 前景——数据要素与开源生态协同,将加速具身智能走向规模化应用。随着制造、物流、养老、公共服务等场景对智能机器人需求上升,具身智能正在从实验室走向产业一线。面向未来,真实数据的持续供给、合规共享与高质量评测将成为竞争重点。以国家级平台牵引、产学研用共建的开源数据集社区,有望更广泛汇聚场景资源与创新力量,形成“数据—模型—评测—应用”的闭环生态;同时,通过制度化治理与标准化建设,提升数据可信度与可追溯性,为技术迭代与产业落地提供更稳定的支撑。下一步,业内期待在更多行业场景引入可持续的数据采集与开源协作机制,推动具身智能关键能力在真实环境中更快验证与迭代。

具身智能的竞争,表面是算法与硬件的竞速,核心更在数据与生态。以国家级平台牵引、以开源社区汇聚力量、以标准治理提供保障,既为创新者提供可依托的“公共底座”,也为产业发展释放更大的协作空间。随着更多真实场景数据进入可共享、可验证、可迭代的轨道,具身智能迈向规模化应用的步伐有望深入加快。