问题:公开数据红利见顶,高价值数据成稀缺资源 随着大模型训练与应用的深入,早期依赖互联网公开语料快速扩张的模式正面临瓶颈。一方面,易获取的高质量语料已被反复使用,新增公开数据的边际收益下降;另一方面,剩余数据噪声多、同质化严重,难以支撑模型能力的实质性提升。林震亚指出,行业已进入高质量数据相对稀缺的阶段,“数据是否足够好、足够准、足够贴合任务需求”正成为决定模型能力上限的关键。 原因:数据供需错配加剧 业内普遍发现,模型参数规模、训练轮次和场景复杂度持续增长,但能直接服务于特定任务、具备专业深度的高价值数据生产速度较慢。这个矛盾的主要原因于:一是专业数据分散在行业知识和业务流程中,采集与清洗成本高;二是复杂任务需要更严格的标签体系和一致性控制,单纯依赖自动化难以保证准确性;三是合规要求和质量审核趋严,继续提高了数据治理门槛。因此,人机协同的标注、审核与质检流程正成为产业链的关键环节。 影响:竞争焦点转向数据精细化运营 林震亚表示,大模型下一阶段的能力提升将体现在三上突破:一是“智力表现”,即更接近人类推理和知识迁移的能力,这需要高质量认知类数据的支持;二是长程复杂任务处理能力,涉及连续、多步骤的工作流,缺乏过程性数据和严格评估将难以实现稳定落地;三是多模态理解与现实交互能力,要求模型理解空间关系、物体属性和交互逻辑,这类能力依赖结构化数据和专家参与。这意味着,谁能更高效地获取和生产高质量数据,谁就能应用落地和能力迭代中占据优势。 对策:提升数据质量,推动产业协作 为解决数据瓶颈,业内正探索通过高标准数据工程提升供给质量:一是通过人工标注与复核确保数据的真实性、专业性和多样性,减少偏差;二是围绕具体任务制定可执行的数据方案,将研究目标转化为标注规范和质量标准;三是推动评测标准建设,从“追求单点指标”转向“真实场景的可用性评估”,形成数据生产与模型优化的闭环。林震亚认为,产业链分工正趋于细化,模型厂商负责场景抽象,数据服务机构提供高质量供给和评测落地的协作模式将日益成熟。 前景:高质量数据成关键基础设施 业内人士预测,未来大模型竞争将围绕“数据资产”和“数据工程能力”展开:一上,高质量数据的持续供给决定模型垂直领域的渗透深度;另一上,数据治理、隐私保护和内容可靠性要求的提升将推动生产流程更加规范。未来,专业数据、合成数据、闭环评测和自动化质检等领域的投入将持续增加,数据产业链将从“配套环节”升级为支撑大模型迭代的核心基础。
大模型迈向更高水平的关键不仅在于“算力提升”,更在于“学习质量”。当公开数据的边际收益递减,谁能以更严格的标准、更专业的组织和更可持续的机制生产和管理高质量数据,谁就能在下一轮技术竞争中占据主动。构建围绕数据质量、评测体系和场景落地的长期能力,将成为行业持续发展的共同课题。