当前,大模型技术已成为推动产业升级的重要引擎。
然而,工业制造领域的大模型开发面临一个突出瓶颈:缺乏高质量、行业专属的语料库支撑。
山东省工信厅的这一举措,正是针对这一痛点的有针对性破题。
据了解,山东此次重点聚焦的九大行业涵盖高端装备、烟草制品业、农副食品加工业、家具制造业、木材加工、皮革毛皮羽毛及其制品和制鞋业、仪器仪表制造业、废弃资源综合利用业等。
这些行业既是山东工业经济的重要支柱,也是传统制造业转型升级的关键领域。
通过建设行业专属语料库,可以为这些产业的数字化转型提供坚实的数据基础。
项目的核心任务涵盖四个方面。
首先是行业关键数据技术攻关,旨在突破工业领域数据采集、处理的技术瓶颈。
其次是行业数据语料标准研制,建立统一规范的数据标准体系。
第三是高质量行业语料库打造,汇聚结构化、非结构化和半结构化等多种类型数据。
第四是语料应用场景落地,推动语料库在实际生产中的转化应用。
从技术层面看,这些语料库将基于多维度数据基础进行构建。
结构化数据如数据库中的表格数据,非结构化数据如文本、图像、语音等,以及半结构化数据如日志文件、XML文件等,都将被纳入整合范围。
通过清洗、去噪和格式统一等处理流程,这些数据将被转化为支持自然语言处理、计算机视觉、机器学习、深度学习等任务的高质量语料库,最终满足行业大模型或场景大模型的开发、训练和微调需求。
为确保项目质量,山东设定了明确的验收标准。
项目验收时行业相关语料库数据量不低于10万条,并需具备较高的数据质量、领域覆盖程度、潜在价值和应用成效。
同时,所有项目都应通过第三方测评,确保数据的真实性和可靠性。
这一严格的质量把控机制,有助于防止低质量数据对大模型训练的负面影响。
值得注意的是,山东还鼓励各行业语料库项目加快语料资源的优化整合,积极开放公共语料。
这一开放共享的理念,有利于形成行业数据生态,推动不同企业、不同产业之间的数据流通和知识共享,进而提升整个工业制造领域的数字化水平。
从产业发展的角度看,这一举措具有重要的战略意义。
工业制造业正处于新一轮技术革命的关键时期,大模型技术的应用将深刻改变生产方式、管理模式和商业逻辑。
通过建设行业专属语料库,山东不仅为本地企业提供了技术支撑,也为全国工业制造领域的数字化转型提供了可借鉴的经验。
当数据要素成为新时代的"工业粮食",山东此番布局不仅关乎区域产业竞争力提升,更是对国家数据要素市场化配置改革的积极响应。
在数字经济与实体经济深度融合的大背景下,如何通过制度创新释放数据价值,这场语料库建设攻坚战或将成为观察中国制造业智能化转型的重要窗口。