新技術驅動下我國古籍數(shù)字化的動態(tài)與趨勢

2024-05-14 05:10:12劉利

新經濟導刊 2024年3期

劉利

摘要：本研究通過文獻法對我國古籍數(shù)字化的發(fā)展歷程及其各個階段的特征進行梳理，分析在新技術驅動下三種主要智能技術對古籍數(shù)字化的支持作用及其應用成效。分析顯示，古籍數(shù)字化在跨學科整合、虛擬與增強現(xiàn)實、開放獲取以及可視化交互等方面呈現(xiàn)了良好發(fā)展前景。一方面，應在政策出臺、法規(guī)制定、技術創(chuàng)新等層面促進古籍數(shù)字化的發(fā)展；另一方面，應平衡好古籍原貌保護、人工智能技術與社會公眾需求之間的關系。

關鍵詞：技術驅動；古籍數(shù)字化；動態(tài)趨勢

古籍數(shù)字化是推動我國優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉化和創(chuàng)新性發(fā)展的重要戰(zhàn)略內容。2022年，中共中央辦公廳、國務院辦公廳印發(fā)《關于推進新時代古籍工作的意見》，為我國古籍數(shù)字化提供了指引。古籍數(shù)字化是通過現(xiàn)代信息技術手段，對古籍文獻進行規(guī)?；⑾到y(tǒng)化掃描、微縮、識別、錄入、存儲，使其轉化為電子數(shù)據形式，并通過網絡通信、計算機或移動終端展現(xiàn)與傳播的系統(tǒng)性工程。古籍數(shù)字化不僅從根本上避免了實地翻閱對古籍造成的各種潛在損害，而且徹底打破了古籍閱覽的時空限制，從技術上提升了古籍保護程度和古籍使用效率。當前，我國古籍數(shù)字化工作在多個層面同步展開，形成古籍數(shù)字化巨制頻出的局面，這不斷激發(fā)著古代典籍旺盛的生命力。

一、我國古籍數(shù)字化的發(fā)展歷程

古籍數(shù)字化并不是新近出現(xiàn)的現(xiàn)象，而是經歷了從“古籍+數(shù)據庫”技術階段、“古籍+光盤”技術階段、“古籍+OCR（光學字符識別）”技術階段，向“古籍+人工智能”階段演進的過程。

第一階段：“古籍+數(shù)據庫”技術階段的起點可追溯至20世紀80年代初期，隨著數(shù)據庫技術的不斷進步，古籍數(shù)字化逐漸步入聯(lián)合目錄階段。這一階段的特點在于：利用計算機在搜集、整理及檢索等方面的優(yōu)勢，通過數(shù)據庫形式存儲古籍資料。此階段主要以書目數(shù)據庫為主，它克服了傳統(tǒng)人工檢索方式對古籍造成損害、耗時耗力等弊端，提升了檢索效率。

第二階段：“古籍+光盤”技術階段起源于20世紀90年代初，以我國推出“二十四史檢索光盤”為標志。在這個期間，隨著存儲技術的進步，古籍數(shù)字化步入光盤存儲影像階段。該階段的特點在于：以光盤為載體，集成目錄查詢、內容檢索及原始圖像存儲等功能，擴大了古籍資源的利用范圍和使用來源，豐富了古籍的運用方式。

第三階段：“古籍+OCR（光學字符識別）”技術階段自20世紀80年代開始，進入21世紀，隨著信息技術的不斷進步和古籍數(shù)字化規(guī)模的擴大，古籍全文數(shù)字化迎來了快速發(fā)展期。這一階段的特點在于：通過網絡連接的古籍數(shù)字化數(shù)據庫，可以實現(xiàn)精準定位已全文錄入數(shù)據庫中的古籍文本位置，從而實現(xiàn)古籍資源的精準檢索，進一步拓寬了古籍的使用群體。

第四階段：“古籍+人工智能”階段。當前，隨著人工智能技術在各領域的廣泛應用，古籍數(shù)字化也迎來新的發(fā)展機遇期。人工智能技術為古籍數(shù)字化提供了更高效、更準確的解決方案，古籍數(shù)字化正式邁入人工智能階段。在這一階段，通過深度學習等算法，人工智能可以對古籍進行自動識別、分類；利用圖像處理和計算機視覺技術，檢測和修復古籍中的破損和污漬；古籍檢索系統(tǒng)和推薦系統(tǒng)也為讀者提供了更加便捷、個性化的閱讀體驗。這些應用不僅彰顯了人工智能技術在古籍數(shù)字化領域的廣泛應用和深遠影響，也為人類揭示了未來古籍數(shù)字化的發(fā)展方向和巨大潛力。

二、智能技術對古籍數(shù)字化的支撐及應用效能

數(shù)字智能技術在現(xiàn)代古籍出版中發(fā)揮著舉足輕重的作用，成為古籍數(shù)字化出版的關鍵支柱。借助數(shù)字智能技術，能夠實現(xiàn)古籍的高清掃描、精確識別、快速錄入以及大規(guī)模存儲，既完整保留了古籍的原貌，又為后續(xù)處理提供了便利。當前，應用于古籍數(shù)字化的智能技術主要可分為以下三類。

一是光學字符識別（OCR）技術。即“電子設備（如掃描儀或數(shù)碼相機）對紙質文檔上的字符進行掃描，通過檢測暗亮模式以確定其形狀，進而采用字符識別方法將形狀轉換為計算機可編輯文本格式的過程”。相較于常規(guī)OCR技術，古籍OCR在質量、版式、風格等方面均面臨較大挑戰(zhàn)。當前主流的OCR技術雖具備較高的識別率，但尚不能直接應用于中文古籍OCR，原因在于高質量、大規(guī)模標注數(shù)據的缺失，尤其是中文大規(guī)模公開數(shù)據集的稀缺，也由于西方古籍版式數(shù)據集依然占據主導。目前，識別效果較好的OCR技術主要包括書同文公司的“i-慧眼OCR”和古聯(lián)OCR系統(tǒng)。

二是虛擬現(xiàn)實與增強現(xiàn)實技術。虛擬現(xiàn)實（VR）及增強現(xiàn)實（AR）技術為古籍展示與研究帶來了全新途徑。借助虛擬現(xiàn)實技術，用戶可在虛擬環(huán)境中親身體驗古籍的歷史背景及其深刻內涵，從而提升沉浸式古籍閱讀體驗。增強現(xiàn)實技術則將古籍數(shù)字化副本與實體展品相結合，提供更為豐富的信息及交互功能。例如，我國國家博物館與國家圖書館運用VR與AR技術構建虛擬展覽及數(shù)字化交互平臺，使讀者能更為直觀地認識與鑒賞古籍價值。

三是數(shù)據挖掘與自然語言處理技術。借助數(shù)據挖掘和自然語言處理手段，能夠對大規(guī)模古籍文本進行深入分析和研究。通過對古籍文本數(shù)據進行語義分析、構建主題模型及關系網絡，得以挖掘隱藏其中的知識和信息。這些技術在古籍的內容、作者、時代及流派等方面為古籍研究者提供了有力支持。例如，南京農業(yè)大學國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”課題組與中華書局古聯(lián)公司推出了一系列古籍處理領域的大語言模型：荀子系列大語言模型（XunziALLM），它是一種基于深度學習的自然語言處理技術，利用“荀子”能夠完成古籍詞法分析、實體識別、關系抽取、文本分類與匹配、文本摘要等工作，提高了古籍的可讀性、可檢索性、可利用性。

四、進一步推動古籍數(shù)字化需把握三種平衡關系

（一）以政策設計維護古籍公共性與商業(yè)性的平衡

古籍數(shù)字化進程涉及版權及訪問限制等諸多問題。作為文化遺產的古籍，在數(shù)字化過程中實現(xiàn)了知識產權的創(chuàng)設，因此在古籍數(shù)字化及其利用的過程中，需要平衡公共利益與商業(yè)利益。為確保古籍知識產權得到保護，同時為確保公眾能合法獲取和使用數(shù)字化資源，應在政策、法律及技術層面進行全面考量，構建透明、公平且可持續(xù)的版權管理體系，進而推動古籍數(shù)字化資源的廣泛傳播和學術研究的順利進行。

政府部門應制定相關政策法規(guī)，明確文字識別規(guī)范、字體轉換標準、產品統(tǒng)一規(guī)格、產品審校驗收、數(shù)字化古籍資源版權歸屬、使用權限及訪問規(guī)則，確保古籍數(shù)字化的合法性與可持續(xù)性。同時，通過技術創(chuàng)新、協(xié)同合作、以用戶需求為導向以及財政政策扶持，克服古籍數(shù)字化過程中所面臨的困境，推進古籍數(shù)字化事業(yè)的發(fā)展，實現(xiàn)古籍文化資源的有效數(shù)字化和智能化運用，助力古籍文化的傳承與創(chuàng)新。

（二）以技術創(chuàng)新維護古籍保護與數(shù)字化之間的平衡

在古籍數(shù)字化過程中，應始終秉持對古籍原貌的尊重與保護，同時在獲取高品質數(shù)字化副本的同時，確保古籍的實體完整性與歷史價值不受損害。為此，需要在光照、掃描和處理等環(huán)節(jié)審慎行事，以降低對古籍造成損害的潛在風險。如何在古籍原貌保護與古籍數(shù)字化之間取得平衡，是一項關鍵挑戰(zhàn)。

應持續(xù)創(chuàng)新掃描與圖像處理技術。通過引入高分辨率掃描和多光譜掃描等先進技術，提升數(shù)字化副本的品質與準確性。同時，運用尖端圖像處理算法和技巧，提取并修復破損的文字和圖像，增強古籍原貌的可讀性與可視化效果。推動有針對性的技術創(chuàng)新，研發(fā)專門針對古籍數(shù)字化的工具與算法。例如，針對中文古籍文本的“OCR”問題，結合深度學習和計算機視覺技術，研發(fā)更為精確的算法。同時，還需探索更高效的掃描和圖像處理技術，以提升數(shù)字化過程的效率和質量。通過技術創(chuàng)新，降低古籍數(shù)字化的成本與風險，助力推進中文古籍數(shù)字化進程。

（三）以人工智能維護古籍傳統(tǒng)布局與現(xiàn)代閱讀習慣的平衡

古籍文本的光學字符識別（OCR）是古籍數(shù)字化過程中的關鍵環(huán)節(jié)。然而，由于古籍文本的特殊性（包括復雜字體、舊體字和破損文字等），傳統(tǒng)OCR技術可能難以對此進行妥善處理。古籍文本的OCR問題觸及字形識別、字體變體、排版布局等諸多挑戰(zhàn)。因此，在古籍數(shù)字化的過程中，需解決古籍傳統(tǒng)格式布局與現(xiàn)代閱讀習慣之間的矛盾。為應對此挑戰(zhàn)，需要研發(fā)針對中文古籍特性的OCR算法，結合機器學習與深度學習等技術，提升古籍文本識別的準確性與處理效率。

通過整合人工智能、深度學習及自然語言處理等技術，開發(fā)智能化的古籍文本識別與標注工具。這些工具能自動識別古籍文本中的文字、字體變體和排版布局等特征，進而生成精確的元數(shù)據和索引。智能化文本識別與標注技術顯著提升了數(shù)字化資源的可搜索性與可訪問性，減輕了人工標注負擔，確保古籍數(shù)字化標注的科學性與可靠性，縮短古籍數(shù)字化的上線周期，提高古籍數(shù)字化的生產效率。

參考文獻

[1]金滿樓.數(shù)字化賦能：汲古慧今，古籍新生[EB/OL]. （2023-03-06）[2024-01-18].https：//wenyi.gmw.cn/2023-03/06/ content_36410604.htm.

[2]李明杰.構建中華古籍層級保護體系的設想——從古籍價值屬性創(chuàng)新古籍保護思路[J]. 圖書館雜志， 2009，28 （03）： 14-19.

[3]矩視智能.AI視覺在復雜場景下字符識別的全方位應用[EB/OL]. （2022-09-22）[2024-01-18]. https：//zhuanlan.zhihu.com/ p/567199646.

[4]金鳳.“荀子”大語言模型：化繁為簡通讀古今[EB/OL]. （2024-01-09）[2024-01-18]. https：//baijiahao.baidu.com/s？id=1787601 193121168873&wfr=spider&for=pc

[5]房惠玲. 敦煌文化遺產數(shù)字化進程穩(wěn)步推進[EB/OL]. （2023-11-01）[2024-01-18].http：//www.gsjb.com/ system/2023/11/01/030900894.shtml.

[6]劉晗. 新出版模式誕生：VR古籍出版怎么做？[EB/OL]. （2018-11-28）[2024-01-18]. https：//epaper.gmw.cn/zhdsb/html/2018-11/28/nw.D110000zhdsb_20181128_2-06. htm？div=-1.

[7]公益時報. 一場技術與公益的雙向奔赴[EB/OL]. （2023-06-13）[2024-01-18]. https：//cj.sina.com.cn/articles/view/188112471 3/701faf69020016o5p.

[8]中國文化產業(yè)網.國家圖書館（國家古籍保護中心）“中華古籍資源庫”構建中華古籍的數(shù)字網絡家園[EB/OL].（2023-11-21） [2024-01-18].http：//www.cnci.net.cn/ content/2023-11/21/content_30600652.htm.

[9]郭宇涵.智能與人文跨學科合作探索漢籍流傳圖譜[EB/OL]. （2023-07-16）[2024-01-18].http：//vis.pku.edu.cn/blog/ chinese_classic_circulation/.

（作者單位：北京當代軟科學研究所）

新經濟導刊2024年3期

新經濟導刊的其它文章: 健全產業(yè)科技創(chuàng)新體系賦能工業(yè)高質量發(fā)展; 數(shù)字經濟產業(yè)集群的理論內涵與實踐探索; 原位固化的全固態(tài)電池技術發(fā)展歷程; 固態(tài)電解質電池的研發(fā)、應用與發(fā)展; 全固態(tài)電池的研發(fā)現(xiàn)狀與產學研協(xié)同創(chuàng)新的前景; 緊盯前沿技術積極發(fā)展新質生產力

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

新技術驅動下我國古籍數(shù)字化的動態(tài)與趨勢

一、我國古籍數(shù)字化的發(fā)展歷程

二、智能技術對古籍數(shù)字化的支撐及應用效能

四、進一步推動古籍數(shù)字化需把握三種平衡關系

一、我國古籍數(shù)字化的發(fā)展歷程

二、智能技術對古籍數(shù)字化的支撐及應用效能

四、進一步推動古籍數(shù)字化需把握三種平衡關系