专家：高质量数据成AI发展关键瓶颈行业亟须突破数据稀缺困境

问题：公开数据红利见顶，高价值数据成稀缺资源随着大模型训练与应用的深入，早期依赖互联网公开语料快速扩张的模式正面临瓶颈。一方面，易获取的高质量语料已被反复使用，新增公开数据的边际收益下降；另一方面，剩余数据噪声多、同质化严重，难以支撑模型能力的实质性提升。林震亚指出，行业已进入高质量数据相对稀缺的阶段，“数据是否足够好、足够准、足够贴合任务需求”正成为决定模型能力上限的关键。原因：数据供需错配加剧业内普遍发现，模型参数规模、训练轮次和场景复杂度持续增长，但能直接服务于特定任务、具备专业深度的高价值数据生产速度较慢。这个矛盾的主要原因于：一是专业数据分散在行业知识和业务流程中，采集与清洗成本高；二是复杂任务需要更严格的标签体系和一致性控制，单纯依赖自动化难以保证准确性；三是合规要求和质量审核趋严，继续提高了数据治理门槛。因此，人机协同的标注、审核与质检流程正成为产业链的关键环节。影响：竞争焦点转向数据精细化运营林震亚表示，大模型下一阶段的能力提升将体现在三上突破：一是“智力表现”，即更接近人类推理和知识迁移的能力，这需要高质量认知类数据的支持；二是长程复杂任务处理能力，涉及连续、多步骤的工作流，缺乏过程性数据和严格评估将难以实现稳定落地；三是多模态理解与现实交互能力，要求模型理解空间关系、物体属性和交互逻辑，这类能力依赖结构化数据和专家参与。这意味着，谁能更高效地获取和生产高质量数据，谁就能应用落地和能力迭代中占据优势。对策：提升数据质量，推动产业协作为解决数据瓶颈，业内正探索通过高标准数据工程提升供给质量：一是通过人工标注与复核确保数据的真实性、专业性和多样性，减少偏差；二是围绕具体任务制定可执行的数据方案，将研究目标转化为标注规范和质量标准；三是推动评测标准建设，从“追求单点指标”转向“真实场景的可用性评估”，形成数据生产与模型优化的闭环。林震亚认为，产业链分工正趋于细化，模型厂商负责场景抽象，数据服务机构提供高质量供给和评测落地的协作模式将日益成熟。前景：高质量数据成关键基础设施业内人士预测，未来大模型竞争将围绕“数据资产”和“数据工程能力”展开：一上，高质量数据的持续供给决定模型垂直领域的渗透深度；另一上，数据治理、隐私保护和内容可靠性要求的提升将推动生产流程更加规范。未来，专业数据、合成数据、闭环评测和自动化质检等领域的投入将持续增加，数据产业链将从“配套环节”升级为支撑大模型迭代的核心基础。

大模型迈向更高水平的关键不仅在于“算力提升”，更在于“学习质量”。当公开数据的边际收益递减，谁能以更严格的标准、更专业的组织和更可持续的机制生产和管理高质量数据，谁就能在下一轮技术竞争中占据主动。构建围绕数据质量、评测体系和场景落地的长期能力，将成为行业持续发展的共同课题。

专家：高质量数据成AI发展关键瓶颈 行业亟须突破数据稀缺困境

专家：高质量数据成AI发展关键瓶颈行业亟须突破数据稀缺困境