3.7万志愿者协同校对15亿字古籍人工智能助力传统文化数字化

问题——古籍整理长期受“人力不足”和“成本偏高”两方面制约。我国古文献整理积累深厚，但校雠、版本比勘、断句标点、专名识别等环节专业性强、流程繁琐，研究者常需多个版本间逐字核对，周期往往以年计、成果以卷计。进入信息化时代，文本录入替代了部分手抄，但效率和准确率仍有限；录入差错在后续校勘中容易被放大，导致反复返工。面对庞大的存量古籍与持续增长的研究利用需求，传统方式难以同时满足“快、准、广”的现实要求。原因——一是古籍形态复杂、异体字多，纸张印刷与版式差异明显，使文字提取和版面解析难度较高；二是多版本校勘对知识结构与经验要求高，既要辨识形近字、讹字，又要判断版本源流与取舍，专业人才培养周期长；三是公众对传统文化兴趣升温，但长期缺少可参与、可验证、可持续的公共协作机制，热情难以转化为稳定产出。因此，技术进步与协作组织方式的更新，成为缓解上述结构性矛盾的关键因素。影响——数智化工具正在改变古籍整理的生产方式。会上信息显示，“我用AI校古籍”项目自2024年启动以来，吸引全国1450余所高校的2万名大学生及1.7万名社会志愿者参与，累计完成15亿字粗校，覆盖约2万部古籍。这表明，在“规模化参与”与“标准化流程”相结合的条件下，古籍整理正从少数专家的长期单兵作业，逐步转向以平台为枢纽的人机协同与社会协同。其一，OCR等识别能力提升，使古籍文字提取由“慢速录入”转向“快速获取”，为后续校对、检索与标注奠定基础。其二，自动断句、分段及专名识别等功能，可在较短时间完成以往耗时的基础工作，让专业力量更多投入关键异文判断、版本关系梳理等高价值环节。其三，平台化协作打通高校课堂与社会兴趣群体：从敦煌学博士生到机场工作人员，都能在统一规则下参与同一部典籍整理，扩大了传统文化传播的参与范围与体验感。不少志愿者反馈，在处理《康熙字典》等生僻字多、字形复杂的文献时，图像识别与数据库联动明显降低录入门槛，提升了校对效率。对策——推动古籍数字化走深走实，关键在于把“效率提升”落实为“质量可控、成果可用”。一要坚持标准先行。针对多平台、多主体参与的特点，完善底本选择、标点规范、异体字处理、校勘记载格式等统一规则，并通过任务拆分与质量抽检机制，保障大规模协作下的文本可靠性。二要强化分层分工。对粗校、精校、审定等环节实行分级管理：基础工作由志愿协作完成，关键环节由专业团队复核把关，形成“广泛参与+专业兜底”的闭环。三要推动数据资产沉淀。将校对过程中生成的结构化记录、异文对照、图像与文字对应关系等规范存储，便于后续学术研究、教育应用与公共文化服务。四要注重人才培养与伦理规范。将数字人文方法、文献学训练与平台实践结合，培养既懂文献又懂技术的复合型队伍，同时明确版权、数据安全与成果署名等规则，保护参与者权益，维护公共项目公信力。前景——从“数字化”走向“智能化”，古籍整理有望进入提速提质的新阶段。一上，随着识别模型与版面理解能力持续提升，更多高难度文献（残卷、拓片、异体字密集文献等）将进入可整理范围；另一方面，多版本自动对齐与结构化校勘记录的普及，将推动校勘从“经验密集型”转向“证据可追溯、流程可复用”，为学术研究提供更透明的依据。更重要的是，古籍整理的社会化参与正在形成新的文化生态：公众不仅是传统文化的阅读者，也逐渐成为修复、整理与传播链条中的参与者。未来，如何在扩大参与的同时守住学术质量底线、在提速的同时增强解释与阐释能力，将影响古籍数字化成果能否更好服务文化传承发展与公共文化供给。

从“皓首穷经”到“指尖轻点”，技术正在重塑古籍整理的方式与价值；随着更多人加入，文化传承不再只是少数人的事业，而成为可被广泛参与的实践。数字时代的大门背后，是千年智慧与未来创新的相遇。（完）

3.7万志愿者协同校对15亿字古籍 人工智能助力传统文化数字化

3.7万志愿者协同校对15亿字古籍人工智能助力传统文化数字化