山东省工信厅这次透露了个消息,打算给高端装备、烟草制品、农副食品加工这些行业搞个语料库揭榜挂帅的申报。就像记者从山东省工信厅了解到的那样,他们围绕着这些重点领域,要推进行业关键数据技术的攻关,还要弄清楚行业的数据标准,打造高质量的语料库,把应用场景也落地了。这项目特别强调要把工业制造中的基础研究、产品研发设计、生产管理运行这些环节和特定场景的知识给汇聚起来。这里面涉及到的数据源特别多,有结构化的数据,像数据库里的表格数据,还有非结构化的数据,比如文本、图像、语音等,甚至还有半结构化的数据,比如日志文件、XML文件。这些数据都要经过清洗和统一格式处理,让它能支持自然语言处理、计算机视觉这些任务。到了验收的时候呢,各个行业的语料库数据量得不低于10万条才行,而且质量要好、覆盖面广、有潜力价值和应用成效。验收的时候还得请第三方机构测评一下。山东还鼓励各行业把语料资源整合优化一下,让大家都能用上这些公共资源。