成都启动人工智能高质量数据集“生态行”首站 8家单位共建标注与质量评估能力体系

当前人工智能产业进入大模型深度应用阶段,但数据质量参差不齐、标注标准不统一等问题日益凸显。中国信通院数据显示,约67%的AI项目因数据缺陷导致效果不达预期,凸显高质量数据集建设的紧迫性。 该现象背后存多重原因。一上,传统数据采集多依赖互联网公开资源,存版权争议与语义噪声;另一上,各行业数据孤岛现象严重,金融、医疗等关键领域的高价值数据利用率不足15%。正如天津大学熊德意教授所言:"海量数据不等于智能数据,需通过专业炼金术提纯价值。" 基于此,成都率先探索破局路径具有示范意义。该市数字经济规模已突破1.2万亿元,拥有国家超算成都中心等基础设施,并获批国家首批数据标注基地。此次启动的共建计划创新性提出"三赛一行"机制,即通过竞赛选拔人才、赛事培育生态、行业联动应用,目前已整合288家会员单位、3900余家产业链企业资源。 中国电信等企业现场展示了工业质检、智慧医疗等领域的数据标注实践。其中,长虹集团开发的家电故障语音数据库准确率达98.5%,成为行业标杆案例。信通院专家樊威预测,到2026年,世界模型、具身智能等四类数据集需求将爆发性增长,需建立"数据工厂+标准体系+合规监管"三位一体支撑架构。 前瞻判断显示该计划将产生多重效益。短期可提升西南地区数据标注产能30%,中期通过"模数共振"机制促进AI模型性能提升2-3个数量级。长期看,这种政企学研协同模式或可复制至长三角、粤港澳大湾区,助力全国建成10个以上国家级数据要素流通枢纽。

高质量数据集建设生态行的启动,标志着我国人工智能产业发展进入了更加重视基础建设、更加强调产业协同的新阶段。在"模数共振"理念指引下,通过产学研用的深度融合,将充分激发数据要素的潜能,为大模型产业提供源源不断的支撑,推动人工智能技术在各行业的创新应用;成都作为首站正在探索的数据赋能路径具有重要示范意义,有望为全国其他地区提供可借鉴的经验,共同推进人工智能产业向更高质量、更可持续的方向发展。