问题:人工智能能力快速迭代,但产业落地仍卡“最后一公里”;一上,大模型对高质量、结构化、可追溯的数据依赖更强;另一方面,许多行业数据长期分散在不同系统和部门之间,难以按训练、推理及合规要求直接使用,形成“有数据难用、可用不够、好用稀缺”的矛盾。结果是:算力与模型供给持续增长,却与具体场景需求出现错配,影响应用的规模化复制和持续迭代。 原因:数据“沉睡”的背后,是治理体系与生产方式跟不上技术演进。一是格式标准不统一、质量波动大,缺少统一的采集、清洗、标注与检测规范,训练数据稳定性不足;二是权属边界与使用规则不清,合规、授权、审计等机制不健全,数据流通成本居高不下;三是数据、模型与应用链路割裂,缺少贯通数据治理、模型管理、训练部署与反馈优化的工程化体系,难以形成持续的“投产—验证—迭代”闭环;四是行业场景碎片化、需求差异大,缺乏模块化、可复用能力时,往往只能以“项目制交付”推进,难以规模复制。 影响:在“数据要素”加速进入价值创造主流程的背景下,这些瓶颈不仅影响技术效果,也直接影响产业效率和投资回报。对政府与公共服务领域而言,数据难以共享复用会削弱治理精细化和服务便利度;对医疗、金融等高合规行业而言,数据不可控会增加合规风险并拖慢创新节奏;对制造、空天信息等强调实时性与可靠性的领域而言,数据与模型链路不稳定会影响智能化改造进度。更关键的是,缺乏标准化生产机制,就难以形成可持续的数据“生产力”,也难以建立面向未来竞争的底层能力。 对策:针对数据规模化供给与大模型场景化落地之间的断点,浪潮卓数大数据提出“数据工厂”思路,发布“模数工坊”产品体系。核心是以工业化生产理念重构数据与模型的协同路径,推动数据从静态资源转为可规模生产、可质量管控、可闭环反馈的动态要素。据介绍,该体系由数据车间、模型车间、训练车间、智能体车间和具身智能训练场等模块构成:数据车间侧重标准化采集、清洗、标注、检测与可追溯管理,为模型训练提供稳定数据基础;模型车间整合开源、闭源及行业模型资源,建立覆盖模型全生命周期的安全管理与治理框架;训练车间打通从数据输入到训练、评测、部署的工程化流程,提升交付效率与一致性;智能体车间以低代码和模块化方式降低应用构建门槛,促进业务人员与技术团队协同;具身智能训练场强调软硬协同,将算法能力与硬件设备结合,推动智能化产品规模部署。通过这套“流水线”,把“数据—模型—场景”串联起来,并以场景效果反哺数据优化、推动模型迭代,形成正向循环。 前景:随着数据要素与人工智能深度融合成为重要方向,数据生产与供给方式正从“分散治理”走向“体系化运营”,从“单点试点”走向“可复制推广”。业内实践显示,“模数工坊”已在山东省政策兑现平台“鲁惠通”、山东省健康医疗数据行业应用空间、宁波“甬金通”金融服务平台、眉山市卫星行业可信数据空间以及多模态大模型训练等项目落地,体现出对政务、医疗、金融、空天信息等领域的适配性与扩展性。业内人士认为,未来竞争不仅是模型与算力的竞争,更将体现在数据治理能力、数据供给效率和场景闭环能力上。能否把数据像工业品一样实现标准化生产、按需供给与高效流转,将直接影响大模型应用的规模化速度与落地质量。
在数字化转型进程中,数据要素的价值释放不仅关系到技术创新,也关系到产业竞争力的重塑。“模数工坊”的探索表明——建立标准化的数据生产体系——才能推动数据资源更高效地转化为发展动能,加快从“数据大国”迈向“数据强国”。围绕数据生产力的这场变革,正在为数字中国建设提供新的支撑。