我国牵头制定可度量数量信息抽取国际标准发布 助力破解海量文本数据结构化利用瓶颈

问题:非结构化数据价值挖掘面临技术瓶颈 在数字化时代,非结构化文本数据(如医疗电子病历、电力运行报告、金融审计文本等)中蕴藏着大量可度量数量信息,包括数值、计量单位及其复杂关系。

然而,这些数据的提取长期面临语义表示混乱、实体关系复杂、表达歧义、计量单位缺失等技术挑战,严重制约了数据的有效利用。

原因:缺乏统一标准导致数据孤岛 由于不同行业、不同地区对数量信息的表达方式各异,机器在处理这些数据时缺乏统一的语义理解框架,导致数据孤岛现象普遍存在。

此前,国际标准化组织(ISO)虽已发布多项语义标注标准,但专门针对可度量数量信息抽取流程的国际标准仍为空白。

影响:标准发布填补全球技术空白 此次发布的ISO 24617-15标准由中国科研团队主导,华南师范大学、中国标准化研究院及广西电网有限责任公司等机构联合攻关完成。

标准首次构建了跨领域的MQI信息自动流程规范,为机器高效处理文本中的数量信息提供了标准化指南。

该标准已被德国、法国、荷兰等10多个国家的标准机构采纳,彰显了中国在数据标准化领域的国际话语权。

对策:产学研用协同推动标准落地 标准制定过程中,中国团队创新采用“产学研用”一体化模式,结合行业实际需求进行技术攻关。

例如,广西电网有限责任公司深度参与研发,将标准应用于电力文本数据的智能处理,提升了电网运营效率与安全性。

医疗健康、金融等领域也在积极探索标准应用,以解决临床文本、财报数据中的结构化难题。

前景:加速行业智能化升级 专家指出,该标准的发布将显著推动医疗、电力、金融等行业的数字化转型。

在医疗领域,标准可帮助精准提取电子病历中的用药剂量、生化指标等关键数据,助力精准医疗发展;在电力行业,标准将优化智能电网的数据治理能力;在金融领域,标准可提升财报分析的自动化水平,为决策提供更精准的数据支持。

数据已成为新时代的战略资源,而标准化则是激活这一资源的关键钥匙。

ISO 24617-15标准的发布,不仅解决了全球范围内文本数量信息理解的共性难题,更重要的是展现了中国在国际标准制定中的引领地位和创新能力。

随着该标准在医疗、电力、金融等关键领域的深入应用,必将加速数据要素价值的释放,为各行业的智能化升级和高质量发展注入新的动力。

面向未来,进一步推进数据标准的国际化、深化产学研用协同创新,将成为我国在全球数字竞争中保持优势、实现数据强国目标的重要路径。