北京大学建成全球规模最大古籍数字化平台 4.7万部经典文献向全社会免费开放

问题:古籍资源分散、脆弱且使用门槛较高,长期制约着优秀传统文化的普及传播与学术研究效率。

一方面,大量古籍以纸本形态保存,受时间、环境与使用频率影响,原件保护与阅览需求之间矛盾突出;另一方面,古籍版本复杂、字形异体多、断句与校勘难度大,使得普通读者与初学者难以进入,传统整理工作也面临人力成本高、周期长的问题。

在此背景下,如何在确保文献安全的前提下扩大供给、提升可用性,成为古籍保护利用面临的现实课题。

原因:数字技术与协作机制的成熟,为古籍整理方式变革提供了可能。

随着文字识别、版式分析、知识抽取等能力持续提升,古籍从“图像化保存”向“结构化可检索”转变的技术条件逐步具备;同时,高校在数字人文、文献学与计算方法交叉领域的人才和平台优势日益凸显,能够以开放平台组织跨学科团队与社会力量参与,形成规模化、可持续的内容生产与质量控制体系。

北京大学数字人文研究中心建设的“识典古籍”,正是在这一趋势下,以平台化方式推动古籍整理的标准化与工具化,降低使用门槛、提升整理效率。

影响:开放共享的数字化平台正在重塑古籍资源的获取方式与研究范式。

据介绍,“识典古籍”三年多累计上线4.7万部古籍资源,实现免费查阅,月服务用户超过240万人,日均检索量达35万人次,总访问量突破1.47亿次。

平台除提供阅读外,还提供整理功能,支持文字识别、自动标点、专名提取、智能校勘等工具,推动“读—检索—标注—校订—再利用”的闭环形成。

更具象征意义的是,平台启动敦煌写卷“收录”工作。

敦煌写卷作为1900年莫高窟藏经洞发现文献的重要组成部分,现分藏于全球多家机构,长期以来受限于地域分布与获取成本。

此次整理的数字资源来自法国国家图书馆所藏原件,相关数字拷贝于2025年11月赠予北大数字人文研究中心,后续将陆续在平台呈现。

这一进展有助于推动重要文献的系统化整理与社会化传播,为敦煌学、历史学、语言学等领域提供更便捷的资料基础,也为公众理解中华文明多元一体的历史脉络提供新的入口。

对策:古籍数字化从“建库”走向“治理”,关键在于质量、标准与人才三方面协同发力。

其一,建立覆盖采集、识别、校勘、标注、版本信息与引用规范的全流程标准,确保成果可验证、可追溯、可复用;其二,完善数据安全与版权合规机制,尊重文献持有机构的合作规则,推动国际馆藏数字资源在合法合规前提下更广泛地互联互通;其三,以教学与实践结合培养复合型人才。

当前,北大等高校已将平台引入课程教学,让学生在真实材料中训练整理技能;平台层面则通过组织协作汇聚社会参与。

据披露,来自近1500所高校的2万名学生以及1.8万名社会志愿者参与古籍智能整理,形成约3.8万人的协作队伍。

如何在扩大参与的同时强化质量控制、建立分级审核与专家复核机制,是平台进一步提升公信力与学术价值的着力点。

前景:随着更多珍稀文献持续纳入,古籍数字化将从资源供给扩展到知识生产与公共服务的综合体系。

一方面,平台化整理使古籍从“少数人能读”逐步走向“多数人可用”,为公共文化服务提供了高质量、可持续的内容供给;另一方面,结构化数据的积累将推动研究方式升级,促进跨库检索、知识图谱构建、版本流传分析等新方法落地,进而提升中国古典文献在全球学术交流中的可见度与解释力。

面向未来,若能在开放共享、标准互认、人才培养、国际合作等方面形成更稳定的制度化安排,古籍数字化平台有望成为连接保护、研究、教育与传播的基础设施,为中华优秀传统文化创造性转化、创新性发展提供坚实支撑。

"识典古籍"平台的建设和推广,不仅是一项技术工程,更是一场深刻的文化实践。

它展现了数字时代传统文化传承创新的无限可能,彰显了中国在文化遗产保护领域的责任担当。

这一平台的持续发展,必将为构建中华民族现代文明注入新的活力,让书写在古籍里的文字真正"活"起来,成为滋养当代社会发展的重要精神源泉。