劉利
摘 要:本研究通過文獻法對我國古籍數(shù)字化的發(fā)展歷程及其各個階段的特征進行梳理,分析在新技術驅動下三種主要智能技術對古籍數(shù)字化的支持作用及其應用成效。分析顯示,古籍數(shù)字化在跨學科整合、虛擬與增強現(xiàn)實、開放獲取以及可視化交互等方面呈現(xiàn)了良好發(fā)展前景。一方面,應在政策出臺、法規(guī)制定、技術創(chuàng)新等層面促進古籍數(shù)字化的發(fā)展;另一方面,應平衡好古籍原貌保護、人工智能技術與社會公眾需求之間的關系。
關鍵詞:技術驅動;古籍數(shù)字化;動態(tài)趨勢
古籍數(shù)字化是推動我國優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉化和創(chuàng)新性發(fā)展的重要戰(zhàn)略內容。2022年,中共中央辦公廳、國務院辦公廳印發(fā)《關于推進新時代古籍工作的意見》,為我國古籍數(shù)字化提供了指引。古籍數(shù)字化是通過現(xiàn)代信息技術手段,對古籍文獻進行規(guī)?;⑾到y(tǒng)化掃描、微縮、識別、錄入、存儲,使其轉化為電子數(shù)據形式,并通過網絡通信、計算機或移動終端展現(xiàn)與傳播的系統(tǒng)性工程。古籍數(shù)字化不僅從根本上避免了實地翻閱對古籍造成的各種潛在損害,而且徹底打破了古籍閱覽的時空限制,從技術上提升了古籍保護程度和古籍使用效率。當前,我國古籍數(shù)字化工作在多個層面同步展開,形成古籍數(shù)字化巨制頻出的局面,這不斷激發(fā)著古代典籍旺盛的生命力。
古籍數(shù)字化并不是新近出現(xiàn)的現(xiàn)象,而是經歷了從“古籍+數(shù)據庫”技術階段、“古籍+光盤”技術階段、“古籍+OCR(光學字符識別)”技術階段,向“古籍+人工智能”階段演進的過程。
第一階段:“古籍+數(shù)據庫”技術階段的起點可追溯至20世紀80年代初期,隨著數(shù)據庫技術的不斷進步,古籍數(shù)字化逐漸步入聯(lián)合目錄階段。這一階段的特點在于:利用計算機在搜集、整理及檢索等方面的優(yōu)勢,通過數(shù)據庫形式存儲古籍資料。此階段主要以書目數(shù)據庫為主,它克服了傳統(tǒng)人工檢索方式對古籍造成損害、耗時耗力等弊端,提升了檢索效率。
第二階段:“古籍+光盤”技術階段起源于20世紀90年代初,以我國推出“二十四史檢索光盤”為標志。在這個期間,隨著存儲技術的進步,古籍數(shù)字化步入光盤存儲影像階段。該階段的特點在于:以光盤為載體,集成目錄查詢、內容檢索及原始圖像存儲等功能,擴大了古籍資源的利用范圍和使用來源,豐富了古籍的運用方式。
第三階段:“古籍+OCR(光學字符識別)”技術階段自20世紀80年代開始,進入21世紀,隨著信息技術的不斷進步和古籍數(shù)字化規(guī)模的擴大,古籍全文數(shù)字化迎來了快速發(fā)展期。這一階段的特點在于:通過網絡連接的古籍數(shù)字化數(shù)據庫,可以實現(xiàn)精準定位已全文錄入數(shù)據庫中的古籍文本位置,從而實現(xiàn)古籍資源的精準檢索,進一步拓寬了古籍的使用群體。
第四階段:“古籍+人工智能”階段。當前,隨著人工智能技術在各領域的廣泛應用,古籍數(shù)字化也迎來新的發(fā)展機遇期。人工智能技術為古籍數(shù)字化提供了更高效、更準確的解決方案,古籍數(shù)字化正式邁入人工智能階段。在這一階段,通過深度學習等算法,人工智能可以對古籍進行自動識別、分類;利用圖像處理和計算機視覺技術,檢測和修復古籍中的破損和污漬;古籍檢索系統(tǒng)和推薦系統(tǒng)也為讀者提供了更加便捷、個性化的閱讀體驗。這些應用不僅彰顯了人工智能技術在古籍數(shù)字化領域的廣泛應用和深遠影響,也為人類揭示了未來古籍數(shù)字化的發(fā)展方向和巨大潛力。
數(shù)字智能技術在現(xiàn)代古籍出版中發(fā)揮著舉足輕重的作用,成為古籍數(shù)字化出版的關鍵支柱。借助數(shù)字智能技術,能夠實現(xiàn)古籍的高清掃描、精確識別、快速錄入以及大規(guī)模存儲,既完整保留了古籍的原貌,又為后續(xù)處理提供了便利。當前,應用于古籍數(shù)字化的智能技術主要可分為以下三類。
一是光學字符識別(OCR)技術。即“電子設備(如掃描儀或數(shù)碼相機)對紙質文檔上的字符進行掃描,通過檢測暗亮模式以確定其形狀,進而采用字符識別方法將形狀轉換為計算機可編輯文本格式的過程”。相較于常規(guī)OCR技術,古籍OCR在質量、版式、風格等方面均面臨較大挑戰(zhàn)。當前主流的OCR技術雖具備較高的識別率,但尚不能直接應用于中文古籍OCR,原因在于高質量、大規(guī)模標注數(shù)據的缺失,尤其是中文大規(guī)模公開數(shù)據集的稀缺,也由于西方古籍版式數(shù)據集依然占據主導。目前,識別效果較好的OCR技術主要包括書同文公司的“i-慧眼OCR”和古聯(lián)OCR系統(tǒng)。
二是虛擬現(xiàn)實與增強現(xiàn)實技術。虛擬現(xiàn)實(VR)及增強現(xiàn)實(AR)技術為古籍展示與研究帶來了全新途徑。借助虛擬現(xiàn)實技術,用戶可在虛擬環(huán)境中親身體驗古籍的歷史背景及其深刻內涵,從而提升沉浸式古籍閱讀體驗。增強現(xiàn)實技術則將古籍數(shù)字化副本與實體展品相結合,提供更為豐富的信息及交互功能。例如,我國國家博物館與國家圖書館運用VR與AR技術構建虛擬展覽及數(shù)字化交互平臺,使讀者能更為直觀地認識與鑒賞古籍價值。
三是數(shù)據挖掘與自然語言處理技術。借助數(shù)據挖掘和自然語言處理手段,能夠對大規(guī)模古籍文本進行深入分析和研究。通過對古籍文本數(shù)據進行語義分析、構建主題模型及關系網絡,得以挖掘隱藏其中的知識和信息。這些技術在古籍的內容、作者、時代及流派等方面為古籍研究者提供了有力支持。例如,南京農業(yè)大學國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”課題組與中華書局古聯(lián)公司推出了一系列古籍處理領域的大語言模型:荀子系列大語言模型(XunziALLM),它是一種基于深度學習的自然語言處理技術,利用“荀子”能夠完成古籍詞法分析、實體識別、關系抽取、文本分類與匹配、文本摘要等工作,提高了古籍的可讀性、可檢索性、可利用性。
(一)以政策設計維護古籍公共性與商業(yè)性的平衡
古籍數(shù)字化進程涉及版權及訪問限制等諸多問題。作為文化遺產的古籍,在數(shù)字化過程中實現(xiàn)了知識產權的創(chuàng)設,因此在古籍數(shù)字化及其利用的過程中,需要平衡公共利益與商業(yè)利益。為確保古籍知識產權得到保護,同時為確保公眾能合法獲取和使用數(shù)字化資源,應在政策、法律及技術層面進行全面考量,構建透明、公平且可持續(xù)的版權管理體系,進而推動古籍數(shù)字化資源的廣泛傳播和學術研究的順利進行。
政府部門應制定相關政策法規(guī),明確文字識別規(guī)范、字體轉換標準、產品統(tǒng)一規(guī)格、產品審校驗收、數(shù)字化古籍資源版權歸屬、使用權限及訪問規(guī)則,確保古籍數(shù)字化的合法性與可持續(xù)性。同時,通過技術創(chuàng)新、協(xié)同合作、以用戶需求為導向以及財政政策扶持,克服古籍數(shù)字化過程中所面臨的困境,推進古籍數(shù)字化事業(yè)的發(fā)展,實現(xiàn)古籍文化資源的有效數(shù)字化和智能化運用,助力古籍文化的傳承與創(chuàng)新。
(二)以技術創(chuàng)新維護古籍保護與數(shù)字化之間的平衡
在古籍數(shù)字化過程中,應始終秉持對古籍原貌的尊重與保護,同時在獲取高品質數(shù)字化副本的同時,確保古籍的實體完整性與歷史價值不受損害。為此,需要在光照、掃描和處理等環(huán)節(jié)審慎行事,以降低對古籍造成損害的潛在風險。如何在古籍原貌保護與古籍數(shù)字化之間取得平衡,是一項關鍵挑戰(zhàn)。
應持續(xù)創(chuàng)新掃描與圖像處理技術。通過引入高分辨率掃描和多光譜掃描等先進技術,提升數(shù)字化副本的品質與準確性。同時,運用尖端圖像處理算法和技巧,提取并修復破損的文字和圖像,增強古籍原貌的可讀性與可視化效果。推動有針對性的技術創(chuàng)新,研發(fā)專門針對古籍數(shù)字化的工具與算法。例如,針對中文古籍文本的“OCR”問題,結合深度學習和計算機視覺技術,研發(fā)更為精確的算法。同時,還需探索更高效的掃描和圖像處理技術,以提升數(shù)字化過程的效率和質量。通過技術創(chuàng)新,降低古籍數(shù)字化的成本與風險,助力推進中文古籍數(shù)字化進程。
(三)以人工智能維護古籍傳統(tǒng)布局與現(xiàn)代閱讀習慣的平衡
古籍文本的光學字符識別(OCR)是古籍數(shù)字化過程中的關鍵環(huán)節(jié)。然而,由于古籍文本的特殊性(包括復雜字體、舊體字和破損文字等),傳統(tǒng)OCR技術可能難以對此進行妥善處理。古籍文本的OCR問題觸及字形識別、字體變體、排版布局等諸多挑戰(zhàn)。因此,在古籍數(shù)字化的過程中,需解決古籍傳統(tǒng)格式布局與現(xiàn)代閱讀習慣之間的矛盾。為應對此挑戰(zhàn),需要研發(fā)針對中文古籍特性的OCR算法,結合機器學習與深度學習等技術,提升古籍文本識別的準確性與處理效率。
通過整合人工智能、深度學習及自然語言處理等技術,開發(fā)智能化的古籍文本識別與標注工具。這些工具能自動識別古籍文本中的文字、字體變體和排版布局等特征,進而生成精確的元數(shù)據和索引。智能化文本識別與標注技術顯著提升了數(shù)字化資源的可搜索性與可訪問性,減輕了人工標注負擔,確保古籍數(shù)字化標注的科學性與可靠性,縮短古籍數(shù)字化的上線周期,提高古籍數(shù)字化的生產效率。
參考文獻
[1]金滿樓.數(shù)字化賦能:汲古慧今,古籍新生[EB/OL]. (2023-03-06)[2024-01-18].https://wenyi.gmw.cn/2023-03/06/ content_36410604.htm.
[2]李明杰.構建中華古籍層級保護體系的設想——從古籍價值屬性創(chuàng)新古籍保護思路[J]. 圖書館雜志, 2009,28 (03): 14-19.
[3]矩視智能.AI視覺在復雜場景下字符識別的全方位應用[EB/OL]. (2022-09-22)[2024-01-18]. https://zhuanlan.zhihu.com/ p/567199646.
[4]金鳳.“荀子”大語言模型:化繁為簡 通讀古今[EB/OL]. (2024-01-09)[2024-01-18]. https://baijiahao.baidu.com/s?id=1787601 193121168873&wfr=spider&for=pc
[5]房惠玲. 敦煌文化遺產數(shù)字化進程穩(wěn)步推進[EB/OL]. (2023-11-01)[2024-01-18].http://www.gsjb.com/ system/2023/11/01/030900894.shtml.
[6]劉晗. 新出版模式誕生:VR古籍出版怎么做?[EB/OL]. (2018-11-28)[2024-01-18]. https://epaper.gmw.cn/zhdsb/html/2018-11/28/nw.D110000zhdsb_20181128_2-06. htm?div=-1.
[7]公益時報. 一場技術與公益的雙向奔赴[EB/OL]. (2023-06-13)[2024-01-18]. https://cj.sina.com.cn/articles/view/188112471 3/701faf69020016o5p.
[8]中國文化產業(yè)網.國家圖書館(國家古籍保護中心)“中華古籍資源庫”構建中華古籍的數(shù)字網絡家園[EB/OL].(2023-11-21) [2024-01-18].http://www.cnci.net.cn/ content/2023-11/21/content_30600652.htm.
[9]郭宇涵.智能與人文跨學科合作探索漢籍流傳圖譜[EB/OL]. (2023-07-16)[2024-01-18].http://vis.pku.edu.cn/blog/ chinese_classic_circulation/.
(作者單位:北京當代軟科學研究所)