当前,人工智能产业发展面临一个共同的瓶颈——高质量数据严重不足。
作为训练大模型的精准样本和推动人工智能从通用型向产业专用型转变的关键桥梁,高质量数据集的重要性日益凸显。
强化数据供给已成为全球人工智能竞争的战略共识,谁掌握了产业级的优质数据,谁就占据了人工智能发展的制高点。
北京经济技术开发区对此有着清醒认识。
2025年,该区发布"数据20条"政策,明确将支持高质量数据集建设作为重点工作,以场景驱动、政策激励的方式,畅通数据供给渠道,激励各领域企业破解数据瓶颈。
日前,这一政策首次集中兑现,为20家企业的38个高质量数据集提供了真金白银的支持,最高奖励达200万元。
从获奖数据集的分布来看,涵盖面广、专业性强、创新度高成为突出特点。
在具身智能领域,北京人形机器人创新中心的"RoboMIND2.0数据集"填补了国内双足人形机器人开源数据的空白,已支撑国内首个通过国标测试的跨本体具身VLA大模型的训练和开源。
星海图打造的全球首个开放场景真机数据集开源后,迅速跃居全球机器人真机数据集下载量首位,体现了中国创新在国际竞争中的实力。
在生物医药领域,麦克奥迪医疗采用"三甲医院病理专家诊断意见+AI制片质控+临床信息关联脱敏数据"的创新模式,打造了数字病理疑难病例数据集,相关数据已获得北京数据交易所《数字资产登记凭证》。
药云构建的国内首个面向真实世界证据生成的垂直化、结构化、可监管医药融合数据集,为生物医药企业提供了有力支撑,有助于推动产业从经验驱动向数据驱动转变。
在工业制造领域,数据集的应用已初见成效。
北京蚂蚁工场构建的国内首个覆盖"非标+标准件"全流程柔性制造的强合规数据集,填补了"数据驱动智能制造闭环+大模型可持续训练"的双重空白。
星龙数智首创的钢铁行业全产业链高质量数据集建设与应用平台,已助力钢铁企业生产协同效率提升超过10%,能源消耗降低3%以上,这些具体的经济效益说明了高质量数据对产业升级的实际推动作用。
在智能网联领域,四维图新智驾的"基于4D时空障碍物检测的高质量自动驾驶数据集"首创了"4D时空+自动化闭环"模式,填补了中国特有复杂交通场景数据空白,破解了高级别自动驾驶研发中的数据荒问题。
恺望数据集则助力自动驾驶加速向无图模式转型,展现了产业创新的活力。
政策奖励的真正价值在于其能否转化为持续的产业发展动能。
从获奖企业的反应来看,这笔资金不仅是对既有工作的肯定,更是催化剂,将直接投入研发升级与生态共建。
北京人形表示将进一步探索扩大真实场景数据规模,推动机器人在真实场景的实际落地应用。
麦克奥迪医疗将利用专项资金持续加大研发投入,推进数据开放上架与人工智能应用大模型的开发。
北京蚂蚁工场计划将"数据集成果"升级成"数据能力供给",把能力做成通用接口,并探索受控开放、场景共建和联合验证,推动数据在产业链协同中真正流动起来。
这些企业的举措表明,高质量数据的价值不仅在于单点突破,更在于通过数据的流动和共享,形成产业生态的良性循环。
当数据从静态的资产转变为动态的生产要素,参与产业链的各个环节,其对产业升级的推动力将呈指数级增长。
高质量数据集建设不是“堆数据”,而是面向产业需求的系统工程。
政策兑现的意义,既在于资金支持,更在于释放信号:以场景为牵引、以合规为底线、以质量为核心,把数据基础打牢,才能让技术创新更快穿透到产业一线。
面向未来,推动数据要素高效流通与安全可控并重,将是实现产业智能化可持续发展的关键所在。