我国加速推进高质量数据集建设 破解人工智能发展"数据瓶颈"

高质量数据集是人工智能产业发展的战略性基础资源。当前,全球人工智能竞争日趋激烈,数据已成为决定产业发展水平的关键要素。我国关注该领域建设,将其作为突破"数据墙"、实现人工智能自主创新的核心支撑。 从现状看,我国高质量数据集建设已收效良好。全国已建成超过3.5万个高质量数据集,覆盖多个行业和应用领域。然而,与发达国家相比,在数据总量、行业覆盖广度和深度上仍存在差距。同时,数据供给不足、技术工具薄弱、标准规范缺失、安全合规挑战等问题仍需继续解决。为此,国家相继出台了《关于深入实施"人工智能+"行动的意见》等政策文件,为高质量数据集建设提供了明确的顶层指导。 在建设模式上,我国形成了多元化、差异化的探索路径。政府主导模式利用公共数据资源优势,如莆田市全域多模态城市治理数据集建设,通过授权运营方式释放数据价值。龙头企业带动模式发挥链主企业的技术和资源优势,赋能产业链上下游企业发展。生态共建模式则通过"政府引导、国企运营、生态共建"的联合众创机制,形成政产学研用深度融合的良好生态。 在技术路径创新上,我国突破了传统数据处理的瓶颈。传统"炼化"模式按照数据采集、治理、标注、质检、运营五个阶段进行,确保数据质量的基础性要求。智能辅助标注模式通过预标注、人工校验、模型迭代的循环流程,大幅提升了标注效率和准确性。数据合成增强模式则通过生成对抗网络等先进技术,破解了关键样本稀缺的难题,为模型训练提供了充足的多样化数据。 在应用场景上,数据集建设表现为专业化、精准化的发展趋势。行业专识数据集针对特定行业进行深度定制,满足垂直领域的特殊需求。跨领域合成数据集则整合多模态、大规模、高知识密度的数据资源,支撑复杂场景下的人工智能应用。这种从"大水漫灌"向"精准滴灌"的转变,使数据集建设更加贴近实际应用需求。 高质量数据集建设遵循体系规划、工程建设、质量监测、流通运营四个阶段的完整路径。在体系规划阶段,需要从复杂业务问题中锚定核心价值场景,明确数据类型、来源和规模,制定具备前瞻性和可执行性的建设规划。在工程建设阶段,通过系统采集、清洗治理、知识标注、技术合成、质量检验等环节,打造完整的数据生产体系。在质量监测阶段,建立涵盖规范性、完整性、准确性、一致性、时效性、专业性、可解释性等十余项指标的评估体系,实现全流程管控。在流通运营阶段,通过平台化运营和市场化流通,推动数据集交易,形成"数据—数据集—模型—智能应用"的闭环反馈机制。 为确保高质量数据集建设的规范开展,我国正在完善标准规范体系。全国数标委已发布《高质量数据集建设指南》等多项技术文件,涵盖格式要求、分类指南、质量评测规范等基础标准,以及加工、质量评估、工具、运营等行业标准。同时,国家还在推进数据工程能力建设,从管理体系、开发维护、质量控制、资源运营、合规可信等五个核心要素出发,建立能力分级评估体系,引导企业和机构提升数据工程能力。

高质量数据集建设需要标准、技术、应用与治理合力推进;在确保安全合规的基础上,以需求为导向提升工程能力,以标准促进协作,才能将分散数据转化为可持续供给的关键资产,为AI发展提供可靠支撑。