数字化浪潮里守住人文精神

在历史研究这块儿,面对那一堆堆、成捆成捆的旧书旧报,学者们一直发愁怎么把里面的信息又快又准地抓出来。特别是现在大家的研究眼光越来越宽,不光要看自己国家的,还得看外国的,那些用不同文字写成、或者写得不太规矩的材料,成了拦路虎。以前全靠人手工整理,既费时间又费力气,还容易受个人看法影响,根本跟不上现在学术要求的高效率和高精度。 为了解决这个大难题,南京大学历史学院数智史学实验室拿出了新招,他们利用最前沿的技术搞了个数字史学平台。这平台里塞进去了一个多模态大语言模型,在两个关键环节——文字扫描(叫光学字符识别)和语言翻译上有了大突破。它不光能把印出来的字、手写的字还有竖着写的老书都认出来,还能结合当时的历史背景把外国话翻成中文,质量和速度都提上去了。 这个平台设计得挺贴心,大家操作起来不费劲。你可以把一批文献直接扔进去,它自己就能给你编个目录出来。这样一来,技术门槛就降下来了,让老师和学生们不用再去抠那些细枝末节的事儿,能把心思都花在思考和创新上。 现在这个平台已经用出了效果。举个例子,“明清海洋史研究多语种文献数据库”就挺厉害,里面塞了一千多本书,有西班牙语、葡萄牙语这些洋文的内容,总字数达到了7亿字。以前想做这么大的活儿至少得一两年,但有了这个平台,一个年轻老师带着三个硕士生,只要一两个月就能搞定识别、翻译还有入库的工作,这在过去简直不敢想。 除了这个,“近代红色资源库”也一起发布了。这个资源库把那些革命时期的老资料都给数码化了,不光帮研究革命历史的人提供了系统的参考资料,还能让红色文化更好地传承下去。在处理这些材料的时候,平台特别注意语义对不对、内容有没有缺漏,保证了资料既完整又准确。 南京大学历史学院院长梁晨说了句心里话:技术并不是要把人给挤兑走了,而是要帮大家把那些重复性的、规范性的杂活儿干了。这样咱们学者就能腾出空来,去钻研那些更难更复杂的学术大问题。这个看法其实是在强调人机得配合着干活,这才是搞学术的新路子。 以后这个数字史学平台还会越做越大。一方面它能慢慢向其他学科渗透,给大家搞个跨学科的研究帮手;另一方面随着技术不断升级换代,它在分析文献、发现知识上的潜力还会越来越大。 不过咱们也得留个心眼儿,得注意技术用的时候有没有违反规矩、有没有符合历史真相这些伦理问题。 现在数字技术已经深深扎进了人文研究这块地里头,正在悄悄改变咱们干活的样子和范围。 南京大学这次搞出来的这个平台不光是技术创新的产物,更是在史学研究方法上的一次大胆尝试。 进入智能时代以后,怎么把技术用得快又能保持学术深度、怎么在数字化浪潮里守住人文精神,这是咱们历史研究者天天都得琢磨的大问题。 只有用一种开放又谨慎的态度去迎接这些变化,咱们才能借助技术的力量真正把学术水平给提上去。