北京亦庄重奖高质量数据集建设 20家企业38个项目获政策支持

当前,高质量数据已成为人工智能产业发展的重要资源。它既是训练大模型的精准样本,也是推动大模型从通用走向产业专用的关键支撑,直接影响人工智能与实体经济融合的深度。围绕高质量数据供给,各地加快出台政策举措,力求释放数据要素价值、抢占产业发展先机。北京亦庄抓住此窗口期。2025年初,该区发布“数据20条”政策,明确支持高质量数据集建设,并以资金奖励激励数据要素价值释放。近日,政策首次集中兑现,共有20家企业的38个高质量数据集获得认定奖励,最高单项奖励达200万元,表明了北京亦庄以场景带动数据供给、支持企业突破数据瓶颈的导向。 从获奖数据集的分布来看,覆盖领域广、行业带动强是其突出特点。具身智能领域,北京人形机器人创新中心的“RoboMIND2.0数据集”填补了国内双足人形机器人开源数据的空白,已支撑国内首个通过国标测试的跨本体具身VLA大模型训练与开源。星海图打造的全球首个开放场景真机数据集开源后,双平台跃居全球机器人真机数据集下载量首位,体现了中国在机器人领域的数据积累与创新能力。 在生物医药领域,麦克奥迪医疗采用“三甲医院病理专家诊断意见+AI制片质控+临床信息关联脱敏数据”的模式,建设数字病理疑难病例数据集,有关数据已获得北京数据交易所《数字资产登记凭证》。药云构建的国内首个面向真实世界证据生成的垂直化、结构化、可监管医药融合数据集,已为生物医药企业提供服务,助力医疗AI产品加快落地。 在工业制造领域,北京蚂蚁工场构建了国内首个覆盖“非标+标准件”全流程柔性制造的强合规数据集,补齐“数据驱动智能制造闭环”与“大模型可持续训练”两上的关键短板。星龙数智首创的钢铁行业全产业链高质量数据集建设与应用平台,已助力钢铁企业生产协同效率提升超10%、能源消耗降低3%以上,展现了数据驱动产业升级的实际效果。 在智能网联领域,四维图新智驾的“基于4D时空障碍物检测的高质量自动驾驶数据集”提出“4D时空+自动化闭环”模式,补足中国复杂交通场景数据供给,缓解高级别自动驾驶研发中的数据瓶颈。恺望数据集则助力自动驾驶加速向无图模式转型,推动相关技术迭代。 政策奖励的价值,更在于对产业的带动作用。获奖企业表示,这笔资金既是对既有工作的认可,也为后续研发升级和生态共建提供了支撑。北京人形具身数据负责人纪俊杰表示,团队将深入扩大真实场景数据规模,推动机器人在真实场景落地应用。麦克奥迪医疗表示,将利用专项资金持续加大研发投入,推进数据开放上架与AI应用大模型开发。北京蚂蚁工场副总经理王东泽指出,公司将把“数据集成果”升级为“数据能力供给”,探索受控开放、场景共建和联合验证,推动数据在产业链协同中更顺畅地流动。 这些表态反映出一个共同判断:高质量数据集的意义不止于技术领先,更在于对产业生态的支撑。通过政策激励,引导企业持续投入,推动数据开放共享与产业链协同,才能更充分释放数据要素价值。

数据的价值不在“拥有”,而在“可用、好用、合规用”。以制度供给牵引、以场景需求驱动、以资金激励带动长期投入,才能让高质量数据集从单点成果走向可复用的公共能力。面向未来,谁能率先把数据要素打造为稳定可靠的产业底座,谁就更有可能在新一轮科技与产业变革中赢得主动。