上海举办开源数据集专项活动 打造人工智能产业创新高地

当前,人工智能产业发展仍受制于数据资源分散、共享机制不完善等问题。高质量数据集获取和共享成本高、难度大,影响了开源社区壮大与技术创新效率。为解决该痛点,开放原子开源基金会会同有关部门、企业和科研机构,搭建专门的工作组织与社区平台,系统推进开源数据集建设。 工业和信息化部涉及的负责人表示,建设有影响力、带动性强的开源社区,推动开源更好服务产业创新,是完善高水平开源体系的关键。人工智能时代,开源不只是代码共享,更包括数据、知识和创新资源的流通。 上海作为国家重要的经济与创新中心,在开源生态建设上持续发力。上海市经济和信息化委员会总工程师裘薇介绍,上海正加快自主开源体系建设,打造具备国际竞争力的开源创新高地。2025年以来,上海已开源100万条高质量思维链数据,OpenLoong社区开放超过10万条动作数据,显示出上海在开源数据集建设上的阶段性成果。下一步,上海将围绕开源机制创新、人才集聚等方向继续探索,提升在全球开源生态中的参与度与影响力。 作为开源产业的重要承载地,徐汇区已形成覆盖算力、语料等要素的人工智能全栈产业生态。徐汇区人民政府副区长陈勇表示,2025年开放原子上海开源促进中心将落户徐汇,双方将通过多元活动完善产业生态协同,继续夯实区域人工智能产业基础。 开放原子开源基金会理事长程晓明介绍,基金会坚持中立开放原则,已累计孵化52个开源项目,建设AtomGit人工智能开源平台,汇聚数百家生态伙伴。本次活动启动的开源数据集工作组由开放原子开源基金会牵头,联合产业、科研和标准等多方力量组建,将推进开源数据集技术规范、标准体系以及安全合规等工作。这意味着开源数据集建设正向规范化、体系化迈进。 同步成立的具身智能开源数据集社区由乐聚机器人牵头发起,重点面向人形机器人领域的真实数据开源与生态建设。活动现场发布的OpenLET数据集为国内首个开源全尺寸人形机器人全身协同多模态真机数据集,并已在AtomGit人工智能开源社区全球首发。该数据集将为全球研究者提供重要数据支撑,推动具身智能技术研发与产业落地。 从更深层看,这些举措传递出一个清晰方向:让数据从“沉默的矿藏”变为可流通、可复用的关键资源。通过建立规范的开源数据集机制,促进数据要素高效流动与共享,可降低企业和科研机构的数据获取成本,缩短创新迭代周期,带动产业生态更健康发展。

数据是数字经济时代的重要生产要素,开源是汇聚创新资源的有效方式。以标准规范为牵引、以安全合规为底线、以生态共建为路径,推动数据从“沉睡资源”转化为“可流通资产”,不仅有助于提升人工智能创新效率,也将为产业升级提供更稳固的支撑。随着更多主体加入协作网络,开源数据集建设有望成为推动高质量发展的新动能。