问题——古籍整理长期受“人力不足”和“成本偏高”两方面制约。我国古文献整理积累深厚,但校雠、版本比勘、断句标点、专名识别等环节专业性强、流程繁琐,研究者常需多个版本间逐字核对,周期往往以年计、成果以卷计。进入信息化时代,文本录入替代了部分手抄,但效率和准确率仍有限;录入差错在后续校勘中容易被放大,导致反复返工。面对庞大的存量古籍与持续增长的研究利用需求,传统方式难以同时满足“快、准、广”的现实要求。 原因——一是古籍形态复杂、异体字多,纸张印刷与版式差异明显,使文字提取和版面解析难度较高;二是多版本校勘对知识结构与经验要求高,既要辨识形近字、讹字,又要判断版本源流与取舍,专业人才培养周期长;三是公众对传统文化兴趣升温,但长期缺少可参与、可验证、可持续的公共协作机制,热情难以转化为稳定产出。因此,技术进步与协作组织方式的更新,成为缓解上述结构性矛盾的关键因素。 影响——数智化工具正在改变古籍整理的生产方式。会上信息显示,“我用AI校古籍”项目自2024年启动以来,吸引全国1450余所高校的2万名大学生及1.7万名社会志愿者参与,累计完成15亿字粗校,覆盖约2万部古籍。这表明,在“规模化参与”与“标准化流程”相结合的条件下,古籍整理正从少数专家的长期单兵作业,逐步转向以平台为枢纽的人机协同与社会协同。其一,OCR等识别能力提升,使古籍文字提取由“慢速录入”转向“快速获取”,为后续校对、检索与标注奠定基础。其二,自动断句、分段及专名识别等功能,可在较短时间完成以往耗时的基础工作,让专业力量更多投入关键异文判断、版本关系梳理等高价值环节。其三,平台化协作打通高校课堂与社会兴趣群体:从敦煌学博士生到机场工作人员,都能在统一规则下参与同一部典籍整理,扩大了传统文化传播的参与范围与体验感。不少志愿者反馈,在处理《康熙字典》等生僻字多、字形复杂的文献时,图像识别与数据库联动明显降低录入门槛,提升了校对效率。 对策——推动古籍数字化走深走实,关键在于把“效率提升”落实为“质量可控、成果可用”。一要坚持标准先行。针对多平台、多主体参与的特点,完善底本选择、标点规范、异体字处理、校勘记载格式等统一规则,并通过任务拆分与质量抽检机制,保障大规模协作下的文本可靠性。二要强化分层分工。对粗校、精校、审定等环节实行分级管理:基础工作由志愿协作完成,关键环节由专业团队复核把关,形成“广泛参与+专业兜底”的闭环。三要推动数据资产沉淀。将校对过程中生成的结构化记录、异文对照、图像与文字对应关系等规范存储,便于后续学术研究、教育应用与公共文化服务。四要注重人才培养与伦理规范。将数字人文方法、文献学训练与平台实践结合,培养既懂文献又懂技术的复合型队伍,同时明确版权、数据安全与成果署名等规则,保护参与者权益,维护公共项目公信力。 前景——从“数字化”走向“智能化”,古籍整理有望进入提速提质的新阶段。一上,随着识别模型与版面理解能力持续提升,更多高难度文献(残卷、拓片、异体字密集文献等)将进入可整理范围;另一方面,多版本自动对齐与结构化校勘记录的普及,将推动校勘从“经验密集型”转向“证据可追溯、流程可复用”,为学术研究提供更透明的依据。更重要的是,古籍整理的社会化参与正在形成新的文化生态:公众不仅是传统文化的阅读者,也逐渐成为修复、整理与传播链条中的参与者。未来,如何在扩大参与的同时守住学术质量底线、在提速的同时增强解释与阐释能力,将影响古籍数字化成果能否更好服务文化传承发展与公共文化供给。
从“皓首穷经”到“指尖轻点”,技术正在重塑古籍整理的方式与价值;随着更多人加入,文化传承不再只是少数人的事业,而成为可被广泛参与的实践。数字时代的大门背后,是千年智慧与未来创新的相遇。(完)