成都启动人工智能高质量数据集“生态行”首站 8家单位共建标注与质量评估能力体系

当前人工智能产业进入大模型深度应用阶段，但数据质量参差不齐、标注标准不统一等问题日益凸显。中国信通院数据显示，约67%的AI项目因数据缺陷导致效果不达预期，凸显高质量数据集建设的紧迫性。该现象背后存多重原因。一上，传统数据采集多依赖互联网公开资源，存版权争议与语义噪声；另一上，各行业数据孤岛现象严重，金融、医疗等关键领域的高价值数据利用率不足15%。正如天津大学熊德意教授所言："海量数据不等于智能数据，需通过专业炼金术提纯价值。" 基于此，成都率先探索破局路径具有示范意义。该市数字经济规模已突破1.2万亿元，拥有国家超算成都中心等基础设施，并获批国家首批数据标注基地。此次启动的共建计划创新性提出"三赛一行"机制，即通过竞赛选拔人才、赛事培育生态、行业联动应用，目前已整合288家会员单位、3900余家产业链企业资源。中国电信等企业现场展示了工业质检、智慧医疗等领域的数据标注实践。其中，长虹集团开发的家电故障语音数据库准确率达98.5%，成为行业标杆案例。信通院专家樊威预测，到2026年，世界模型、具身智能等四类数据集需求将爆发性增长，需建立"数据工厂+标准体系+合规监管"三位一体支撑架构。前瞻判断显示该计划将产生多重效益。短期可提升西南地区数据标注产能30%，中期通过"模数共振"机制促进AI模型性能提升2-3个数量级。长期看，这种政企学研协同模式或可复制至长三角、粤港澳大湾区，助力全国建成10个以上国家级数据要素流通枢纽。

高质量数据集建设生态行的启动，标志着我国人工智能产业发展进入了更加重视基础建设、更加强调产业协同的新阶段。在"模数共振"理念指引下，通过产学研用的深度融合，将充分激发数据要素的潜能，为大模型产业提供源源不断的支撑，推动人工智能技术在各行业的创新应用；成都作为首站正在探索的数据赋能路径具有重要示范意义，有望为全国其他地区提供可借鉴的经验，共同推进人工智能产业向更高质量、更可持续的方向发展。