霍艷花 呂建新
摘要:依據(jù)信息生命周期理論,結合古籍數(shù)字化工作實際過程,構建以數(shù)字化項目規(guī)劃、數(shù)字化內容選擇、數(shù)字化組織、數(shù)字化保存、數(shù)字化應用為五大核心環(huán)節(jié)的古籍數(shù)字化建設框架。通過文獻調研梳理總結古籍數(shù)字化建設路徑內容,面向古籍數(shù)字化生命周期上游節(jié)點、中游節(jié)點、下游節(jié)點提出相應策略。
關鍵詞:信息生命周期;古籍數(shù)字化;數(shù)字化建設
中圖分類號:G253?? 文獻標識碼:A
DOI:10.13897/j.cnki.hbkjty.2024.0033
0 引言
古籍文獻是中華優(yōu)秀傳統(tǒng)文化的重要載體,亦是中華民族寶貴的文化遺產。2022年4月,中共中央辦公廳、國務院辦公廳印發(fā)《關于推進新時代古籍工作的意見》[1],指出要通過挖掘古籍的時代價值、促進古籍的有效利用、推進古籍數(shù)字化、做好古籍普及傳播等加快古籍資源的轉化利用。因此,做好古籍文獻的保護與利用具有重要意義,應積極開展古籍文獻數(shù)字化建設工作,在古籍再生性保護的基礎上,充分利用現(xiàn)代化信息技術,對古籍數(shù)字資源進行深度加工,以實現(xiàn)面向用戶的知識服務[2]。
目前,古籍數(shù)字化研究主要聚焦于古籍文獻的保護與傳承、古籍數(shù)字資源整合與共建共享、古籍數(shù)字化標準與協(xié)作機制、古籍數(shù)字化與數(shù)字人文結合[2-3]等方面。劉家真等[4]認為,古籍的保護與開發(fā)相互關聯(lián),應在多視角拓寬古籍開發(fā)與利用渠道的基礎上,爭取社會各界參與古籍數(shù)字化的公開征選計劃,同時應建立與數(shù)字化緊密結合的古籍開發(fā)長期規(guī)劃與近期目標。薩蕾
[5]指出,在古籍數(shù)字化資源整合中應加強對文本自動分析技術與知識本體的研究、構建古籍知識庫、加強各方合作。毛建軍[6]提出了理想的古籍書目數(shù)據(jù)庫建設所應具備的五個標準,即機讀目錄格式標準、古籍著錄規(guī)則標準、古籍分類法標準、主題標引標準、統(tǒng)一字庫標準。盧彤和李明杰[7]調研了中文古籍數(shù)字化成果輔助人文學術研究功能,指出在文史專家與信息科學家的協(xié)作下,結合文獻整理學術傳統(tǒng)與現(xiàn)代信息技術,以專業(yè)問題為導向的數(shù)字人文研究平臺的開發(fā)模式是未來古籍數(shù)字化的發(fā)展方向。
整體而言,現(xiàn)有研究多側重于探討古籍數(shù)字化建設的局部問題,如古籍數(shù)字化處理、古籍數(shù)字化存儲、古籍數(shù)字化標準、古籍數(shù)字化利用、古籍數(shù)字化服務[3]等主要內容,鮮見從古籍數(shù)字化建設的全鏈條角度研究。鑒于此,本研究借鑒辛莉[8]學者的研究觀點,以信息生命周期理論為指導,對古籍數(shù)字化建設的全過程進行條分縷析,并厘清其生命周期節(jié)點,探討古籍數(shù)字化建設框架、路徑與策略。
1 基于信息生命周期的古籍數(shù)字化建設框架構建
1.1 信息生命周期理論
信息生命周期作為一種學術概念,較早出現(xiàn)于信息資源管理領域。1985年,著名信息資源管理學家霍頓(F.W.Horton)在《信息資源管理》(Information Resources Management)一書中提出,信息是具有生命的,其生命周期由一系列邏輯上相關聯(lián)的階段或步驟組成。一般來說,信息從產生到消亡的整個過程大概會經歷以下五個階段:產生、加工、存儲、應用、消亡。霍頓基于人類信息利用與管理需求提出了信息生命周期的七階段,即需求定義、收集、傳遞、處理、存儲、傳播、利用[9]。信息生命周期理論被廣泛應用于圖書館數(shù)字館藏的管理中,這為古籍數(shù)字化建設框架構建提供了重要的理論基礎。
1.2 古籍數(shù)字化建設框架構建依據(jù)
通過文獻調研發(fā)現(xiàn),臧國全等[10]提出了圖書館信息資源數(shù)字化項目實施生命周期中所包括的主要階段:項目準備、數(shù)字主文檔存儲、元數(shù)據(jù)描述、數(shù)字資源發(fā)布和資源共享,并基于此提出各階段標準框架。龐桂娟[11]
在此基礎上進一步歸納總結出信息資源數(shù)字化項目的生命周期,即項目規(guī)劃、數(shù)字化內容選擇、數(shù)字化生產流程、數(shù)字資源保存、數(shù)字資源發(fā)布五個階段。杜澤遜[12]在《如何做好新時代古籍工作》一文中提到古籍工作具有系統(tǒng)性且大致分為上、中、下游三個節(jié)點,其中古籍收藏保護為上游、古籍整理研究為中游、古籍出版發(fā)行為下游。這為古籍數(shù)字化建設框架構建提供了重要的文獻依據(jù)。
1.3 基于信息生命周期的古籍數(shù)字化建設框架
本研究以信息生命周期理論為基礎,結合已有相關文獻研究和古籍數(shù)字化工作的實際過程,提出古籍數(shù)字化生命周期的三個節(jié)點、四個階段、五大核心流程,共同構成基于信息生命周期的古籍數(shù)字化建設框架,如圖1所示。
古籍數(shù)字化的三個節(jié)點分別為上游節(jié)點、中游節(jié)點和下游節(jié)點;古籍數(shù)字化生命周期的四個階段分別為生產、加工、存儲和應用;古籍數(shù)字化的五大核心流程分別為數(shù)字化項目規(guī)劃、數(shù)字化內容選擇、數(shù)字化組織、數(shù)字化保存和數(shù)字化應用。
其中“數(shù)字化項目規(guī)劃”“數(shù)字化內容選擇”對應信息生命周期的生產階段,并對應古籍數(shù)字化生命周期的上游節(jié)點;“數(shù)字化組織”對應信息生命周期的加工階段,“數(shù)字化保存”對應信息生命周期的存儲階段,“數(shù)字化組織”“數(shù)字化保存”對應古籍數(shù)字化生命周期的中游節(jié)點;“數(shù)字化應用”對應信息生命周期的應用階段,并對應古籍數(shù)字化生命周期的下游節(jié)點。
2 基于信息生命周期的古籍數(shù)字化建設路徑內容分析
通過對古籍數(shù)字化建設路徑關鍵環(huán)節(jié)內容的系統(tǒng)梳理與分析,能夠明確古籍數(shù)字化的目標與方向。
2.1 古籍數(shù)字化生命周期上游:數(shù)字化項目規(guī)劃、數(shù)字化內容選擇
數(shù)字化項目規(guī)劃是古籍數(shù)字化具體工作得以開展的總體指南,旨在為古籍數(shù)字化項目的順利進行提供方向與指導,其直接關系到項目預期目標的實現(xiàn)[13]。在這一環(huán)節(jié)需要對古籍數(shù)字化項目進行廣泛調研、全面分析、科學論證和設計。
數(shù)字化內容選擇是古籍數(shù)字化工作中的核心要素。在這一環(huán)節(jié)需要選取古籍數(shù)字化對象,包括古籍內容、古籍版本。就古籍內容選取而言,首先要從文獻保護與文化傳承角度考慮,選取亟需得到保護、數(shù)字化意義非凡的古籍文獻;其次要從文獻本身特色角度考慮,選取具有濃郁民族特色、鮮明地域特色、深厚文化特色的古籍[2];最后從古籍資源獲取性[3]角度考慮,要保證古籍數(shù)字化的完整性、專業(yè)性、可信性,就近選取方便獲取、相對集中的古籍資源。就古籍版本選取而言,可借鑒我國在文獻整理方面所形成的優(yōu)良學術思想,如支敏度提出的“百慮一致,萬流同歸”的版本源流考訂思想、章學誠提出的“辨章學術,考鏡源流”的目錄學思想[14]等,從數(shù)字化古籍底本及參照本的版本類型選擇、[JP3]細節(jié)描述等方面進行考量[13],從而保障數(shù)字化古籍內容的質量。
2.2 古籍數(shù)字化生命周期中游:數(shù)字化組織、數(shù)字化保存
數(shù)字化組織是根據(jù)相應的標準與規(guī)范,運用一定的技術與方法,對古籍文獻進行數(shù)字化處理與整序,深入挖掘古籍內容所蘊含的顯性知識與隱性知識,實現(xiàn)對古籍所含知識的重新組織。在這一環(huán)節(jié)需要采用古籍數(shù)字化標準、合理選用文本加工手段、數(shù)字化處理技術,實現(xiàn)傳統(tǒng)古籍文本向數(shù)字化形式的轉化。依據(jù)具有權威性、普適性的古籍著錄規(guī)則、古籍分類規(guī)則等標準與規(guī)范,如我國于2008年發(fā)布的相對統(tǒng)一的《古籍著錄規(guī)則》[15]、適用于古籍常規(guī)分類的“經、史、子、集、叢”五部分類法、DC元數(shù)據(jù)、MARC格式等,將標準規(guī)范貫穿于古籍數(shù)字化建設的各個環(huán)節(jié)和全過程。要綜合考慮數(shù)字化古籍情況以及現(xiàn)實需要,合理選擇相應的數(shù)字化處理技術,如掃描、拍照等OCR技術[16]、本體構建[17]、圖像分割等,完成古籍文字圖片信息的提取轉換、語義解析、內容挖掘、知識發(fā)現(xiàn)等工作。
數(shù)字化保存是通過數(shù)字存儲技術對已形成的數(shù)字化古籍內容進行存儲,以實現(xiàn)古籍由傳統(tǒng)載體向數(shù)字載體的轉換以及數(shù)字化古籍的長期保存。王學琴等[18]人提出數(shù)字資源的長期保存由責任體系、保存對象、戰(zhàn)略規(guī)劃、技術體系四要素組成,要以科學的戰(zhàn)略政策和規(guī)范管理為抓手,以強有力的技術為支撐,保障數(shù)字化古籍資源長期保存和永久獲取。
2.3 古籍數(shù)字化生命周期下游:數(shù)字化應用
數(shù)字化應用主要關注古籍數(shù)字化后所能實現(xiàn)的功能與價值,實現(xiàn)古籍內容的長久性保護與現(xiàn)代化古籍信息傳播[3]。這一環(huán)節(jié)主要是實現(xiàn)數(shù)字化古籍的檢索、共享、知識服務等功能,需要依托古籍數(shù)字化系統(tǒng)、古籍數(shù)字化平臺的建設或新興的信息化手段,在滿足用戶信息瀏覽、內容檢索與篩選、閱讀等基本型需求的基礎上,拓展“知識增值利用”功能,如問答、可視化呈現(xiàn)、知識社區(qū)等,滿足用戶更高階的需求。李明杰等[19]指出在數(shù)字化古籍資源建設達到一定規(guī)模后,應全面查缺補漏,整合各類古籍數(shù)字資源和現(xiàn)有資源,系統(tǒng)集成儲存、閱覽、檢索和研究支持功能,加強古籍知識的深度開發(fā)和增值利用,完成對古籍乃至古代社會歷史的全方位認知。
隨著科技的飛速發(fā)展,我們正在步入一個被稱為“數(shù)智化”的時代,在強調“數(shù)據(jù)”價值的同時也要注重“智慧”的共享。新形式下的數(shù)字化古籍同樣也需要通過建立古籍數(shù)字化系統(tǒng)與平臺得以充分展示,一方面能夠拓展古籍宣傳與普及的渠道,另一方面能夠兼顧古籍“藏與用并重”、平衡古籍的“文物性”與“文獻性”,促進古籍的進一步開發(fā)與利用,發(fā)揮古籍文獻的最大使用價值。
3 基于信息生命周期的古籍數(shù)字化建設策略探討
結合古籍數(shù)字化建設生命周期的階段性特征與差異化表現(xiàn),分別從生命周期上游、中游、下游三個節(jié)點來探討古籍數(shù)字化建設策略。面向生命周期上游節(jié)點,應科學全面系統(tǒng)規(guī)劃古籍數(shù)字化項目,在做好古籍保護與傳承的同時,關注并了解用戶需求,突出古籍數(shù)字化對象的“特色”;面向生命周期中游節(jié)點,針對古籍數(shù)字化生產的工作流程,包括古籍數(shù)字化轉化、古籍內容的加工組織、知識的發(fā)現(xiàn)與重構、數(shù)字化資源的存儲與管理以及相關技術應用,應采用并完善國際國內相關標準規(guī)范體系,促進古籍數(shù)據(jù)的互聯(lián)互通,實現(xiàn)古籍資源的長期保存與永久獲??;面向生命周期下游節(jié)點,打造資源豐富、功能齊全的古籍智慧共享平臺以及數(shù)字化特色應用場景,全方位、立體化揭示古籍內容,多渠道多形式宣傳推廣古籍數(shù)字化資源,開展面向用戶需求的古籍數(shù)字化知識服務,實現(xiàn)古籍資源共建共享。
3.1 古籍數(shù)字化生命周期上游:以傳承為前提,以需求為引領,以特色為核心
我國古籍文獻總量龐大且種類繁多,截止2021年12月全國已有39家古籍收藏單位實現(xiàn)古籍資源數(shù)字化和在線開放共享,數(shù)量超過2.2萬部,相比古籍總量270余萬部而言[20],古籍數(shù)字化工作任重而道遠。對于古籍數(shù)字化項目的開展,古籍數(shù)字化對象的選取顯得尤為重要。具體從三方面入手:一是要進行古籍資源的調研與梳理,了解當前古籍資源的收藏情況、數(shù)字化現(xiàn)狀與需求,識別并分析可實施古籍數(shù)字化項目;二是要進行用戶需求的調研與分析,古籍數(shù)字化成果最終要面向用戶,應深入了解不同用戶的古籍數(shù)字化需求,包括圖書館、檔案館、博物館、歷史研究所等各級各類古籍資源保護與研究單位以及文旅部門、人文社科研究者、古籍愛好者等,以用戶需求為導向,讓用戶積極參與到古籍數(shù)字化建設工作中;三是挖掘古籍文獻“特色”,深耕具有鮮明地域特色、民族特色、文化特色的古籍文獻,將古籍數(shù)字化與文化保護傳承、用戶需求、地方經濟與社會發(fā)展相結合,充分發(fā)掘古籍文獻的文化價值、時代價值。河北北方學院圖書館基于已有館藏資源,對張家口地區(qū)圖書館、歷史文化研究院以及國家圖書館等展開充分調研,提出了具有地方特色鮮明的“察哈爾方志數(shù)字化建設”項目,旨在通過全面系統(tǒng)的收集、整理以數(shù)字化方式實現(xiàn)珍貴地方志遺產的長期保存,實現(xiàn)對館藏資源的利用與推廣,讓藏在地方志中的知識“活起來”。
3.2 古籍數(shù)字化生命周期中游:以標準為指引,以技術為支撐,以互通為目標
采用統(tǒng)一化、規(guī)范化、實用化的古籍數(shù)字化標準體系。當前我國已擁有相對統(tǒng)一的古籍著錄規(guī)則和分類體系,開展古籍數(shù)字化工作時,在遵循標準化規(guī)則的基礎上,借鑒在古籍數(shù)字化建設領域取得一定成果的先進單位的寶貴經驗,如國家圖書館、中國出版集團、北京國學時代等,為構建古籍數(shù)字化著錄、技術、管理和工作流程等相關標準體系提供參考,同時結合古籍數(shù)字化工作實際需求,進一步完善相關標準與規(guī)范,促進數(shù)據(jù)資源互聯(lián)互通。
綜合應用多學科技術與方法,加強對古籍知識的發(fā)掘與重構。當前古籍數(shù)字化工作應重點關注對古籍內容的深度挖掘和知識發(fā)現(xiàn),通過采用文本聚類、數(shù)據(jù)挖掘、本體構建、社會網絡分析、知識圖譜、機器學習、人工智能等方法,實現(xiàn)古籍知識的可視化呈現(xiàn)和立體化揭示。同時還應積極探索數(shù)據(jù)資源存儲與共享機制,改進并開發(fā)相關信息技術,實現(xiàn)古籍數(shù)字化資源的長期保存和古籍數(shù)字化資源的可訪問性與可共享性。
3.3 古籍數(shù)字化生命周期下游:以共享為理念,以利用為導向,以服務為根本
充分整合古籍數(shù)字化資源,建設古籍智慧共享平臺。當前古籍數(shù)字化實踐存在對現(xiàn)有古籍整理成果數(shù)字化的忽視[2],一方面會造成學術資源浪費,另一方面也會對古籍數(shù)字化資源的全面揭示產生影響。因此,要在充分挖掘已有古籍整理成果價值的基礎上,將其科學合理地嵌入到古籍數(shù)字化資源中,實現(xiàn)古籍數(shù)字化資源的全方位、多角度揭示。要以用戶需求為中心,搭建資源豐富、功能齊全的古籍智慧共享平臺,在滿足用戶信息瀏覽、內容檢索、閱讀下載等基本功能的基礎上,開發(fā)計量統(tǒng)計、可視化呈現(xiàn)、知識關聯(lián)等用戶高階需求功能,并嵌入有助于用戶進行古籍學習的相關應用,如簡繁體字典、釋義、紀年換算等,還可以開發(fā)知識社區(qū)供用戶學習討論。浙江大學徐永明團隊打造了集瀏覽、查詢、研究、欣賞于一體的“智慧古籍平臺”,通過引入知識圖譜理念,綜合運用大數(shù)據(jù)技術,實現(xiàn)文獻的計量統(tǒng)計、定位查詢、聚類查詢、地理信息可視化等功能[21]。平臺將文史數(shù)據(jù)與數(shù)字地圖相結合,構建多種學術地圖,例如點擊著者詳情,即可查看所鏈接的人物行跡圖,極大地增強了用戶的古籍閱讀體驗,豐富了讀者對古籍知識的綜合認知。
創(chuàng)新古籍數(shù)字化資源利用方式與渠道,面向用戶提供知識服務。通過運用云計算、人工智能、5G通信、區(qū)塊鏈、物聯(lián)網等新興技術,打造古籍數(shù)字化特色應用場景,為用戶提供多種形式的古籍數(shù)字化體驗與利用形式,激活古籍在新時代的傳播力、生命力,利用AR、VR、XR等技術為用戶提供沉浸式的、融合虛擬與現(xiàn)實的新體驗,讓古籍以立體式、多維度、生動化的方式走入用戶的日常生活,使古籍文化知識實現(xiàn)更深層次的延展與傳承。河北博物院“盛世修典”展覽通過采集流傳于世界各地約千余幅的中國歷代名畫數(shù)字化影像,并采用先進的技術將之處理為高清數(shù)字化打樣稿呈現(xiàn)于用戶面前,讓用戶能近距離欣賞名家對于色彩、線條等細節(jié)的獨特構思和運用。同時還對歷代書畫的鑒賞進行展覽,包括書畫本身以及書畫的歷代印章和題跋,這既是書畫鑒別的重要依據(jù),同時也是中華文化薪火相傳的重要見證。河北博物院通過打造沉浸式體驗區(qū),讓用戶身臨其境體驗古籍文化的真實意境和魅力。
參考文獻
[1]中共中央辦公廳、國務院辦公廳.關于推進新時代古籍工作的意見[EB/OL].[2024-01-13].http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm.
[2]李明杰,張纖柯,陳夢石.古籍數(shù)字化研究進展述評(2009-2019)[J].圖書情報工作,2020,64(6):130-137.
[3]李世鈺,張向先,沈旺,等.古籍數(shù)字化國內外研究現(xiàn)狀分析與路徑構建研究[J].現(xiàn)代情報,2023,43(11):4-20.
[4]劉家真,程萬高.古籍保護與開發(fā)的策略與建議[J].中國圖書館學報,2009,35(3):15-20.
[5]薩蕾.圖書館古籍數(shù)字資源整合研究[J].圖書館,2014(4):116-119.
[6]毛建軍.古籍書目數(shù)據(jù)庫的標準與評價研究[J].圖書館理論與實踐,2009(6):30-33.
[7]盧彤,李明杰.中文古籍數(shù)字化成果輔助人文學術研究功能的調查[J].圖書與情報,2019(1):70-79.
[8]辛莉.面向全生命周期的公共圖書館紅色文獻數(shù)字化建設研究[J].圖書館工作與研究,2023(6):42-48.
[9]萬里鵬.信息生命周期研究范式及理論缺失[J].中國圖書館學報,2009,35(5):36-41.
[10][JP3]臧國全,龐桂娟,姜燕.圖書館信息資源數(shù)字化項目實施標準框架解析[J].圖書館理論與實踐,2006(4):5-10.
[11]龐桂娟.圖書館信息資源數(shù)字化生產流程研究[D].鄭州:鄭州大學,2007.
[12]新華社新媒體.新時代古籍工作這樣開展[EB/OL].[2024-01-14].https://baijiahao.baidu.com/s?[KG-1mm]id=1731128447531207250&wfr=spider&for=pc.
[13]尚奮宇,張文亮.基于DLC的我國古籍數(shù)字化標準體系框架研究[J].圖書館學研究,2017(3):21-27.
[14]李明杰,盧彤,高曉文.文獻整理學術傳統(tǒng)對古籍數(shù)字化的參照價值(之三)——以“版本源流考訂”為例[J].圖書館論壇,2021,41(5):108-117.
[15]鮑國強.古籍著錄規(guī)則[M].北京:中國標準出版社,2008.
[16]焦佳琛,包能勝,姜佳華.基于人工免疫算法的古籍文本數(shù)字化處理[J].汕頭大學學報(自然科學版),2021,36(1):3-11,2.
[17]周莉娜,洪亮,高子陽.唐詩知識圖譜的構建及其智能知識服務設計[J].圖書情報工作,2019,63(2):24-33.
[18]王學琴,何菊香,羅濤.區(qū)域性圖書館聯(lián)盟JALIS的數(shù)字資源長期保存路徑研究[J].數(shù)字圖書館論壇,2022(3):53-58.
[19]李明杰,盧彤.文獻整理學術傳統(tǒng)對古籍數(shù)字化的參照價值(之一)——以“會通觀”為例[J].圖書館論壇,2019,39(4):118-124.
[20]中國日報網.90%以上的漢文古籍已經完成普查[EB/OL].[2024-01-17]. https://fashion.chinadaily.[JP3]com.cn/a/202112/09/WS61b1cf4aa3107be4979fc4e1.html.
[21]人民數(shù)據(jù).用科技手段激活古籍瑰寶[EB/OL].[2024-01-17].https://baijiahao.baidu.com/s?id=1769821912153600244&wfr=spider&for=pc.
Research on Digitization Construction of Ancient Books Based
on Information Life Cycle: Framework, Path and Strategy
Abstract:
Based on the theories of information lifecycle and combined with the actual process of digitalization of ancient books, a framework for digitalization construction of ancient books is constructed with five core links: digital project planning, digital content selection, digital organization, digital preservation, and digital application. Through literature research, the paper summarizes the content of the digital construction path for ancient books, and proposes corresponding strategies for the upstream, midstream, and downstream nodes of the digital life cycle of ancient books.
Keywords:Information Life Cycle; Ancient Books Digitization; Digital Construction