苏州图书馆古籍数字化:藏用并举 活化新生

时间:2023年12月28日                   来源:中国文化报


通过数字化降低古籍阅读门槛,可以让更多读者亲近古籍,感受中华优秀传统文化的魅力。目前,古籍数字化过程中还存在诸多问题,如缺乏整体规划、古籍整理成果资源有限、缺乏全国统一的强制性数字化标准等。面对这些问题,该如何解决?

为保护和利用古籍,国家图书馆(国家古籍保护中心)先后上线了“全国古籍普查登记基本数据库”“中华古籍资源库”。2022年,中华书局推出“3D超写实数字人苏东坡”,江苏常州市图书馆上线了“家谱古籍数据库”,山西太原市图书馆上线了“太原市图书馆古籍数据库”。2023年,上海图书馆、云南省图书馆以及江苏省的常熟、昆山、镇江等地图书馆,都积极对本馆的古籍实现数字化。

古籍数字化的难点在哪里?在江苏苏州图书馆古籍保护中心主任、研究馆员孙中旺看来,首先是选择哪些古籍做数字化处理。据悉,苏州图书馆主要聚焦珍贵善本和苏州地方文献。

目前国内古籍数字化的通用做法是:通过非接触似专业古籍扫描设备采集古籍数据,形成图像文件,著录相应的元数据,建立古籍数字化数据库。但图像格式存在着占用空间大、不能全文检索等问题。而且,数字化的古籍格式无法呈现古籍排版的原始风格,异体字、通假字等也导致时常在浏览器中无法检索和查看。

苏州图书馆联合江苏嘉图网络科技股份有限公司(简称“嘉图”)开发了古籍全文数字化平台,力求原汁原味展现古籍的版式、风格、内容等。嘉图董事长徐伟国说:“这几年光学字符识别标准刻本准确率达到99%,嘉图采用光学字符识别技术替代人工录入,解决录入过程中识字、异体字处理、错误高、效率低等问题。遇到错别字,系统会标注出来,还能提供‘这个字可能是某字’的推荐。”

光学字符识别减少了校对工序,但只对楷体、宋体等刻本比较管用。对稿抄本及草、篆、隶等体写刻本,眼下的技术还无法完全准确识别。例如,《(乾隆)吴县志》中有个序是手写的,很难识别,只能通过查阅其他古籍及地方志,找出相应文字进行研究比对后才完成确认。“嘉图的做法是,提供与古籍原文对照的图片,如果某些字显示不出来,读者可以对着原图研究。对草、篆、隶等体及刊刻或书写模糊的古籍,由嘉图专家团队完成录入。同时,采用自动化校对技术来解决人工校对过程中效率低、异体字难辨认等问题。通过自动化校对实现简繁转换、图文定位、异体字的备选,标红错字。”徐伟国说。目前,嘉图古籍数字化平台已助力苏州图书馆完成120多万页古籍和民国文献的数字化。

古籍数字化工作近年来全面“开花”,但由于尚未出台全国统一的标准,各个地方在古籍数字化时采用了不同的规范标准,导致数据的完整性、正确性以及技术上的兼容性各不相同,难以实现整合和利用。一位业内人士表示:“建议国家完善古籍数字化标准,并不断进行调整。各地应建立自己的标准,在国家标准的基础上更具体、更深入。同时,研究和引入国际标准。”孙中旺也提出:“标准要有前瞻性、兼容性,比如,苏州图书馆在字库、软件、数字化发布平台等方面已深耕20多年,数字化平台已成规模,不能为了上一个新系统,又从头开始做。”

古籍内容免费获取后如何保护数字版权,是制约古籍数据开放的因素之一,需要业界建立标准完成数据确权。同时,国内虽然有不少图书馆或其他单位在做古籍数字化产品,但质量参差不齐。“有的数字化产品差错率太高,不能让这样的劣质产品覆盖优质产品。比如,《永乐大典》等重要文献,可以由政府牵头立项,出一个各方认可的权威数字化产品,在确保质量的同时避免重复建设。”孙中旺说。

古籍在形式上可以更加贴近生活,做一些有趣的尝试。徐伟国说:“古籍数字化可以做出地方特色。比如,可以从苏州图书馆的文献中提取出诸如苏州婚丧嫁娶习俗的演变过程,苏州古城在元明清时代是啥样,苏州人民路在古代发生了什么事……每年做一两个专题,以数字化形式在图书馆展示,让图书馆成为一扇了解城市文化的窗口,吸引读者前来体验。”

“古籍活化,可以以声光电的形式重新演绎。苏州图书馆拟从江南文化着手,通过现代技术,考证还原《清嘉录》中记录的古人风雅生活。采用先进技术、跨时空工具和场景,使古籍‘活’起来。”孙中旺说。

(中国文化报报记者 刘妮丽)


主办:苏州市古籍保护中心
地址:苏州市人民路858号 苏州图书馆
电话:(0512)65228098
邮编:215002