王麗麗,張 寧
(1.中國(guó)人民大學(xué)圖書館,北京 100872;2.中國(guó)人民大學(xué)古籍整理研究所,北京 100872;3.中國(guó)人民大學(xué)數(shù)字人文研究中心,北京 100872)
黨的十八大以來,以習(xí)近平同志為核心的黨中央對(duì)傳承和弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化作出一系列重大決策部署,古籍事業(yè)迎來新的發(fā)展機(jī)遇。2022 年3 月,“加強(qiáng)文物古籍保護(hù)利用” 首次寫入政府工作報(bào)告[1]。4月11 日,中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》[2]。4 月25 日,習(xí)近平總書記在考察中國(guó)人民大學(xué)圖書館時(shí)指出,要運(yùn)用現(xiàn)代科技手段加強(qiáng)古籍典藏的保護(hù)修復(fù)和綜合利用[3]。5月27 日,習(xí)近平總書記強(qiáng)調(diào):把考古探索和文獻(xiàn)研究同自然科學(xué)技術(shù)手段有機(jī)結(jié)合起來[4]。
古籍具有獨(dú)特的文物價(jià)值、學(xué)術(shù)價(jià)值和藝術(shù)價(jià)值,是凝聚傳統(tǒng)文化最重要的載體之一。從傳統(tǒng)的古籍文獻(xiàn)書目整理,到古籍書目和全文數(shù)據(jù)庫(kù)建設(shè),對(duì)古籍資源的開發(fā)與利用一直是學(xué)界和業(yè)界關(guān)注的焦點(diǎn)。當(dāng)前,古籍資源的數(shù)字化著錄已較為普及,如各單位自建古籍書目數(shù)據(jù)庫(kù)、“學(xué)苑汲古:高校古文獻(xiàn)資源庫(kù)”“全國(guó)古籍普查登記基本數(shù)據(jù)庫(kù)” 等。此外,還出現(xiàn)一批商業(yè)化的古籍全文數(shù)據(jù)庫(kù),如 “中國(guó)基本古籍庫(kù)”“中華經(jīng)典古籍庫(kù)” “書同文古籍?dāng)?shù)據(jù)庫(kù)” 等。但隨著大規(guī)模古籍?dāng)?shù)據(jù)庫(kù)的建成,學(xué)者發(fā)現(xiàn)古籍?dāng)?shù)據(jù)庫(kù)只是對(duì)古籍文獻(xiàn)外部特征與內(nèi)容特征進(jìn)行揭示,僅能滿足用戶基本的檢索與使用的需求,并未對(duì)古籍資源從知識(shí)組織的角度進(jìn)行深入挖掘和利用,傳統(tǒng)古籍整理的局限性逐漸暴露出來[5]。
近年來,計(jì)算機(jī)信息技術(shù)與人文學(xué)科研究深度結(jié)合的新興交叉學(xué)術(shù)領(lǐng)域——數(shù)字人文(Digital Humanity)得到了迅速發(fā)展,成為加強(qiáng)古籍典藏保護(hù)修復(fù)和綜合利用的重要現(xiàn)代科技手段。數(shù)字人文背景下,對(duì)古籍資源的整理與研究從數(shù)字化向數(shù)據(jù)化邁進(jìn),從全文數(shù)據(jù)庫(kù)向知識(shí)平臺(tái)邁進(jìn),從全文檢索向智慧檢索邁進(jìn)。古籍知識(shí)關(guān)聯(lián)指的是匯集大量結(jié)構(gòu)化的古籍?dāng)?shù)據(jù),對(duì)其進(jìn)行細(xì)粒度、多維度切分,通過機(jī)器標(biāo)引、輔以人工標(biāo)引,利用關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)等技術(shù),進(jìn)行統(tǒng)計(jì)分析、網(wǎng)絡(luò)分析和空間分析等,探尋數(shù)據(jù)間的關(guān)系,實(shí)現(xiàn)古籍資源外部與內(nèi)容特征、古籍資源中蘊(yùn)含的知識(shí)元之間的互聯(lián),并可根據(jù)用戶的需求,實(shí)時(shí)、自動(dòng)實(shí)現(xiàn)知識(shí)之間的自動(dòng)重組與可視化展示。本文在梳理數(shù)字人文視角下古籍知識(shí)關(guān)聯(lián)的研究基礎(chǔ)之上,探討古籍知識(shí)關(guān)聯(lián)的關(guān)鍵環(huán)節(jié),舉例分析古籍知識(shí)關(guān)聯(lián),總結(jié)古籍知識(shí)關(guān)聯(lián)的壁壘。
數(shù)字人文的出現(xiàn)為古籍整理帶來獲取資料的智能化、研究方法的數(shù)據(jù)化、研究結(jié)果的可視化三大進(jìn)展[6]。將數(shù)字人文應(yīng)用于古籍整理,改變了古籍文獻(xiàn)傳統(tǒng)檢索方式,從電子文獻(xiàn)到結(jié)構(gòu)化數(shù)據(jù)庫(kù)、從點(diǎn)狀檢索到網(wǎng)狀關(guān)聯(lián)、從逐條拷貝到分類打包,使傳統(tǒng)的靜態(tài)文本轉(zhuǎn)化為可隨意組合的動(dòng)態(tài)文本[7]。古籍整理不再僅僅是實(shí)現(xiàn)更大范圍的文獻(xiàn)信息的揭示與保存,更重要的是要實(shí)現(xiàn)古籍文獻(xiàn)蘊(yùn)含知識(shí)之間的關(guān)聯(lián),深入挖掘其蘊(yùn)含的哲學(xué)思想、人文精神、價(jià)值理念、道德規(guī)范。知識(shí)與知識(shí)之間互相發(fā)生聯(lián)系與影響即為知識(shí)關(guān)聯(lián)。對(duì)知識(shí)關(guān)聯(lián)的研究已經(jīng)有不少,如文庭孝[8,9]圍繞知識(shí)關(guān)聯(lián)的基礎(chǔ)理論、內(nèi)部特征、結(jié)構(gòu)分析與應(yīng)用開展研究,趙蓉英研究了[10]知識(shí)關(guān)聯(lián)的類型。也有學(xué)者對(duì)學(xué)術(shù)文獻(xiàn)及其知識(shí)關(guān)聯(lián)[11]、金融領(lǐng)域知識(shí)關(guān)聯(lián)[12]等特定領(lǐng)域文獻(xiàn)間的知識(shí)關(guān)聯(lián)進(jìn)行研究。目前圍繞古籍資源知識(shí)關(guān)聯(lián)進(jìn)行的理論研究主要是圍繞某一數(shù)字人文平臺(tái)展開的。李兵等對(duì)中醫(yī)古籍知識(shí)化研究現(xiàn)狀和常用的知識(shí)分析與挖掘方法進(jìn)行綜述[13]。黃水清認(rèn)為應(yīng)利用數(shù)字人文技術(shù)實(shí)現(xiàn)古籍資源的創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展。歐陽劍提出在新時(shí)代古籍資源轉(zhuǎn)化方面,文本化和數(shù)據(jù)化是基礎(chǔ)、知識(shí)化是重要方式、平臺(tái)化是有效利用及傳播的重要途徑[14]。魏曉萍探討了數(shù)字人文理論與技術(shù)方法在古籍文獻(xiàn)開發(fā)與利用的應(yīng)用[5]。李欣等認(rèn)為數(shù)字方志特藏資源建設(shè)應(yīng)使用關(guān)聯(lián)書目元數(shù)據(jù)方案,最小粒度化方志元數(shù)據(jù),提供開放平臺(tái),元數(shù)據(jù)的創(chuàng)建、分析等可以利用文本分析技術(shù)等技術(shù)手段實(shí)現(xiàn)或者以眾包形式開展[15]。王蕾等從元數(shù)據(jù)方案、檢索點(diǎn)設(shè)計(jì)和數(shù)據(jù)關(guān)聯(lián)等角度,總結(jié)徽州文書數(shù)據(jù)庫(kù)的建設(shè)經(jīng)驗(yàn)[16]。陳力認(rèn)為數(shù)字人文視域下的古籍?dāng)?shù)字化與古典知識(shí)庫(kù)建設(shè)存在計(jì)算機(jī)編碼漢字和計(jì)算機(jī)圖像識(shí)別并轉(zhuǎn)換為字符的能力等問題[17]。
理論研究指導(dǎo)實(shí)踐發(fā)展,利用自然語言處理技術(shù)、關(guān)聯(lián)數(shù)據(jù)、GIS 技術(shù)、可視化技術(shù)等,數(shù)字人文指導(dǎo)下古籍知識(shí)關(guān)聯(lián)領(lǐng)域已經(jīng)產(chǎn)生了較為豐碩的實(shí)踐成果。一是通過自動(dòng)標(biāo)注、自動(dòng)校對(duì)、詞語切分等自然語言處理技術(shù),實(shí)現(xiàn)命名實(shí)體的識(shí)別與關(guān)聯(lián)等。如清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研發(fā)的中文詩(shī)歌自動(dòng)生成系統(tǒng)《九歌》,以大規(guī)模詩(shī)歌文本為研究對(duì)象分析詩(shī)歌內(nèi)在聯(lián)系,為用戶提供詩(shī)歌生成以及人機(jī)交互創(chuàng)作等功能[18];侯漢清、包平等圍繞《方志物產(chǎn)》中地名等命名實(shí)體的識(shí)別與關(guān)聯(lián)開展了系列研究[19]。二是通過關(guān)聯(lián)數(shù)據(jù),實(shí)現(xiàn)古籍文獻(xiàn)中的時(shí)間、地點(diǎn)、人物等的關(guān)聯(lián),形成知識(shí)網(wǎng)絡(luò),挖掘古籍文獻(xiàn)的內(nèi)在關(guān)系。如 “中國(guó)歷代人物傳記資料庫(kù)(CBDB)” 構(gòu)建關(guān)系型數(shù)據(jù)庫(kù)為歷史文獻(xiàn)人物建模[20];上海圖書館“中國(guó)家譜知識(shí)服務(wù)平臺(tái)” 應(yīng)用關(guān)聯(lián)數(shù)據(jù)重構(gòu)上海圖書館的家譜服務(wù)。三是結(jié)合GIS 技術(shù)呈現(xiàn)古籍文獻(xiàn)資源的時(shí)空分布。如 “學(xué)術(shù)地圖發(fā)布平臺(tái)” 實(shí)現(xiàn)了數(shù)據(jù)共享、可視化分析及多功能查詢等,“唐宋文學(xué)編年地圖平臺(tái)” 以編年地圖的形式提供唐宋時(shí)期文學(xué)人物、事件的時(shí)空分布及作品關(guān)系。四是通過可視化技術(shù)等構(gòu)建知識(shí)圖譜。如北京大學(xué) “宋元學(xué)案知識(shí)圖譜可視化系統(tǒng)” 梳理宋元時(shí)期學(xué)術(shù)史中的關(guān)系圖譜、學(xué)術(shù)流變、師承關(guān)系、學(xué)派傳承,構(gòu)建完整的學(xué)術(shù)史衍化脈絡(luò)全景;武漢大學(xué)數(shù)字文化遺產(chǎn)研究中心完成了 “數(shù)字敦煌莫高窟” “新疆克孜爾石窟數(shù)字化” “頤和園佛香閣三維重建” 等項(xiàng)目。
相較于傳統(tǒng)意義上的古籍?dāng)?shù)據(jù)庫(kù),這些實(shí)踐成果有了新的發(fā)展。一是組織機(jī)制不同,傳統(tǒng)的古籍整理目的在于版本鑒定、揭示資源、保存資源、利用資源,而古籍?dāng)?shù)字人文平臺(tái)功能更為多樣、深入,其融合館藏元數(shù)據(jù)記錄、專家研究成果、相關(guān)網(wǎng)絡(luò)資源,以知識(shí)本體為基礎(chǔ),應(yīng)用關(guān)聯(lián)數(shù)據(jù)等技術(shù),對(duì)古籍資源完成數(shù)字化到數(shù)據(jù)化的知識(shí)重組,以可視化的形式揭示古籍資源間的知識(shí)關(guān)聯(lián)。二是收錄范圍擴(kuò)展,傳統(tǒng)的古籍?dāng)?shù)據(jù)庫(kù)收錄范圍主要局限在原始文獻(xiàn)資料方面[21],古籍?dāng)?shù)字人文平臺(tái)不僅收錄原始文獻(xiàn),還收錄古籍文獻(xiàn)的解析文本、延伸文獻(xiàn)等,更在一定程度上實(shí)現(xiàn)了從 “數(shù)字化” 到 “數(shù)據(jù)化” 的過渡,從 “數(shù)據(jù)孤島”到 “數(shù)據(jù)共享” 的轉(zhuǎn)變。以往的數(shù)據(jù)庫(kù)平臺(tái)多為 “數(shù)字化” 平臺(tái),主要為全文掃描圖像與文本存儲(chǔ)平臺(tái);而古籍?dāng)?shù)字人文平臺(tái)則是一個(gè) “數(shù)據(jù)化” 的平臺(tái),從“存儲(chǔ)” 提升到“分析” 與“關(guān)聯(lián)”。
縱覽這些古籍?dāng)?shù)字人文平臺(tái),古籍知識(shí)關(guān)聯(lián)是在古籍文獻(xiàn)組織基礎(chǔ)之上,基于古籍文本數(shù)據(jù)進(jìn)行的知識(shí)單元間的關(guān)聯(lián)。
在原有的古籍?dāng)?shù)據(jù)庫(kù)基礎(chǔ)之上,數(shù)字人文視角下的古籍知識(shí)關(guān)聯(lián)可以實(shí)現(xiàn)更大范圍文獻(xiàn)間的組織。
(1)平臺(tái)文獻(xiàn)之間的組織。從揭示程度來看,數(shù)字人文視角下的古籍平臺(tái)不僅僅實(shí)現(xiàn)了書目信息的集合揭示,還實(shí)現(xiàn)了對(duì)書目信息的區(qū)分、聚類、比較和統(tǒng)計(jì)分析[22],進(jìn)一步對(duì)文本化的古籍內(nèi)容進(jìn)行數(shù)據(jù)化轉(zhuǎn)換。一方面,借助于相似的數(shù)字化技術(shù)和統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),分散、獨(dú)立的各古籍平臺(tái)間的書目數(shù)據(jù)可進(jìn)行互聯(lián),實(shí)現(xiàn)不同平臺(tái)間的關(guān)聯(lián);另一方面,在平臺(tái)內(nèi)部,由于古籍?dāng)?shù)字人文平臺(tái)對(duì)資源的內(nèi)外部特征描述更為全面,可實(shí)現(xiàn)繁簡(jiǎn)字、異體字、版本之間(匯編本與單行本、叢書的著錄)等的互聯(lián)。
(2)平臺(tái)內(nèi)外文獻(xiàn)之間的組織。這主要指的是平臺(tái)文獻(xiàn)與新印古籍資源、延伸研究文獻(xiàn)、互聯(lián)網(wǎng)學(xué)術(shù)資源等之間的關(guān)聯(lián)與組織。對(duì)于人文學(xué)者來說,古籍原本的闡釋是其研究工作的基礎(chǔ),依據(jù)這些原始文獻(xiàn)開展的相關(guān)研究也是重要的研究資料。新印古籍資源不僅僅是原典的簡(jiǎn)單影印出版,更是專題性、縱深性資料的精選匯總。延伸研究文獻(xiàn)指的是和某一古籍相關(guān)的新出版的學(xué)術(shù)研究論著、學(xué)者年表、編年史等研究資料。如家譜資源的延伸研究文獻(xiàn)包括人物傳記、歷史年表、職官表、日記信札、報(bào)紙公告欄等。將中國(guó)知網(wǎng)、超星等數(shù)據(jù)庫(kù)中相關(guān)的研究資料關(guān)聯(lián)到古籍?dāng)?shù)字人文平臺(tái)之上,將大大拓展用戶學(xué)術(shù)研究的視野,節(jié)約其時(shí)間。如清代臺(tái)灣方志物產(chǎn)篇分析系統(tǒng)利用學(xué)名將方志中的物產(chǎn)聯(lián)結(jié)到現(xiàn)代植物資料庫(kù),將西方分類學(xué)觀念建構(gòu)的知識(shí)體系與傳統(tǒng)方志的資料互相聯(lián)結(jié)[23]。
文獻(xiàn)組織是對(duì)古籍書目信息的組織,知識(shí)組織是對(duì)古籍文本的組織。而古籍文本不能直接被計(jì)算機(jī)語言識(shí)別和使用,需要將其轉(zhuǎn)化為可識(shí)別、可理解的結(jié)構(gòu)化數(shù)據(jù),進(jìn)一步從數(shù)據(jù)轉(zhuǎn)化為知識(shí),方能實(shí)現(xiàn)古籍知識(shí)關(guān)聯(lián)。因此,古籍?dāng)?shù)據(jù)是古籍知識(shí)關(guān)聯(lián)的基礎(chǔ)。
(1)古籍文本轉(zhuǎn)化為古籍?dāng)?shù)據(jù)。首先,清洗以圖片、文本等格式存儲(chǔ)的古籍?dāng)?shù)據(jù),通過OCR 技術(shù)等采集古籍文本數(shù)據(jù),借助分詞與標(biāo)注技術(shù)等將古籍?dāng)?shù)據(jù)顆?;?,形成具有獨(dú)立意義的結(jié)構(gòu)化數(shù)據(jù)單元,借助大數(shù)據(jù)技術(shù)對(duì)各數(shù)據(jù)單元進(jìn)行標(biāo)引形成新的聚類,以實(shí)現(xiàn)數(shù)據(jù)的重新組織。如中文古籍半自動(dòng)化標(biāo)記平臺(tái)(MARKUS)通過關(guān)聯(lián)多個(gè)權(quán)威語料庫(kù)實(shí)現(xiàn)古籍中歷史人名、地名、官名與時(shí)間等實(shí)體的自動(dòng)標(biāo)注,為研究者提供可以通過定義關(guān)鍵字列表、上下文中的關(guān)鍵字、正則表達(dá)式等方式進(jìn)行半自動(dòng)標(biāo)注,且支持以txt、excel、html 格式輸出標(biāo)注結(jié)果[24]。
(2)古籍?dāng)?shù)據(jù)的量化分析,包括統(tǒng)計(jì)分析、網(wǎng)絡(luò)分析和空間分析。古籍?dāng)?shù)據(jù)的統(tǒng)計(jì)分析主要是利用數(shù)學(xué)語言對(duì)獨(dú)立數(shù)據(jù)單元的總數(shù)、頻次等進(jìn)行概括性分析,較易實(shí)現(xiàn)。古籍?dāng)?shù)據(jù)的網(wǎng)絡(luò)分析是指對(duì)已顆?;墓偶?dāng)?shù)據(jù)以某一共同特征構(gòu)建出新網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析,如《宋元學(xué)案》知識(shí)圖譜可視化系統(tǒng)將《宋元學(xué)案》人物、時(shí)間、地點(diǎn)、著作及它們之間的復(fù)雜語義關(guān)系提取出來構(gòu)造成知識(shí)圖譜,提供可視化展現(xiàn)、交互式瀏覽、語義化查詢等功能[25]。古籍?dāng)?shù)據(jù)的空間分析即是將線性平面的數(shù)據(jù)實(shí)現(xiàn)點(diǎn)線面的空間分布,包括結(jié)構(gòu)圖、地圖、分布圖等,如 “學(xué)術(shù)地圖發(fā)布平臺(tái)”借助GIS 技術(shù)實(shí)現(xiàn)歷史人物的行跡、特征分布和社會(huì)關(guān)系等信息的地理映射。
以文獻(xiàn)為單元的傳統(tǒng)古籍?dāng)?shù)據(jù)庫(kù)僅能滿足用戶的資料需求,遠(yuǎn)不能滿足其知識(shí)需求,古籍中所包含的細(xì)粒度知識(shí)元的組織成為古籍?dāng)?shù)字人文平臺(tái)的研究重點(diǎn),這也是古籍知識(shí)關(guān)聯(lián)的本質(zhì)。知識(shí)元的概念最早于20 世紀(jì)70 年代后期由弗拉基米爾·斯拉麥卡提出,學(xué)術(shù)文獻(xiàn)中的知識(shí)元指的是語義上相對(duì)完整地表達(dá)特定知識(shí)的最小的內(nèi)容單元[26]。古籍典籍知識(shí)元的涵義又比普通學(xué)術(shù)文獻(xiàn)中的知識(shí)元更為特殊,其類型更為多樣、復(fù)雜。
不同類別的古籍所包含的知識(shí)元類型有所不同。以史部為例,其下屬17 大類中,地理類之下的總志、方志、專志等多包含的知識(shí)元類型相似,數(shù)字方志集成平臺(tái)即實(shí)現(xiàn)了對(duì)方志類知識(shí)元的組織。該平臺(tái)拆分、合并華東師范大學(xué)圖書館等圖書館、超星、CADAL、中國(guó)方志庫(kù)、瀚堂典籍庫(kù)及方正電子書等方志類元數(shù)據(jù),采用BIBFRAME 書目數(shù)據(jù)模型進(jìn)行轉(zhuǎn)換、查重、映射,實(shí)現(xiàn)方志與外部數(shù)據(jù)的互聯(lián)、最小粒度化方志元數(shù)據(jù)、平臺(tái)開放、用戶可協(xié)作參與,并嘗試通過內(nèi)容分析技術(shù)對(duì)方志中的內(nèi)容進(jìn)行分析[15]。史部史表類、傳記類的人表、年譜、科舉錄、職官錄知識(shí)元類型相似,多表現(xiàn)為 “某人生于某年,任某職” 等。如《山陰州山吳氏族譜》中有 “太學(xué)生楚材公,姓吳氏,諱乘權(quán);子立公,諱乘業(yè)。山陰州山里人。” 包含了 “楚材公是太學(xué)生” “楚材公姓吳氏” “楚材公諱乘權(quán)”“子立公諱乘業(yè)” “楚材公和子立公為山陰州山里人”等語義三元組,以RDF 數(shù)據(jù)格式描述,將人、地、時(shí)串聯(lián)成一個(gè)個(gè)的遷徙事件,可將具有共同先祖的先祖名人及其遷徙事件關(guān)聯(lián)起來[27]。而史部金石類中的知識(shí)元不僅包括對(duì)圖像的識(shí)別,即如何將圖像中的內(nèi)容進(jìn)行抽取、釋讀,還包括對(duì)識(shí)別后的文本知識(shí)元進(jìn)行語義描述。
除此之外,古籍資源還包含一些特殊類型的知識(shí)元。如版本知識(shí)元、鈐印知識(shí)元,通過對(duì) “楝亭曹氏藏書” 印主為曹寅、“楝亭曹氏藏書” 印為長(zhǎng)方形、陽文、篆體,“楝亭曹氏藏書” 刻于《皇明大訓(xùn)記》書名頁(yè)等的描述,可以讓機(jī)器準(zhǔn)確理解鈐印知識(shí)元,如圖1 所示。
圖1 “楝亭曹氏藏書” 藏書印RDF 數(shù)據(jù)Fig.1 RDF data of"Cao's collection"book seal
從文獻(xiàn)單元的組織深入到知識(shí)單元的組織,古籍?dāng)?shù)字人文平臺(tái)可實(shí)現(xiàn)知識(shí)關(guān)聯(lián)。關(guān)聯(lián)的本質(zhì)是實(shí)現(xiàn)文獻(xiàn)與文獻(xiàn)、知識(shí)與知識(shí)之間的互相聯(lián)系與影響。古籍?dāng)?shù)字人文平臺(tái)實(shí)現(xiàn)了更大范圍書目數(shù)據(jù)的聚合,有利于學(xué)者將散落在不同機(jī)構(gòu)的同一作品的不同版本聚集,“辨章學(xué)術(shù)、考鏡源流”,進(jìn)行版本鑒定與版本源流的考證。而借助內(nèi)容挖掘、時(shí)空分析等數(shù)據(jù)分析技術(shù)與知識(shí)地圖、主題圖等可視化技術(shù),古籍知識(shí)關(guān)聯(lián)可進(jìn)行方志與家譜挖掘、鈐印知識(shí)網(wǎng)絡(luò)發(fā)現(xiàn)、特定時(shí)期與地域?qū)W者研究脈絡(luò)與交往分析等。
夫家有譜、州有志、國(guó)有史,方志和家譜具有揭示某一區(qū)域與家族長(zhǎng)期、延續(xù)的發(fā)展?fàn)顩r與遷徙路線的史料性價(jià)值。通過集成散落在各地的大量零散方志、家譜,借助于統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),可集成不同平臺(tái)間志譜書目數(shù)據(jù)、志譜相關(guān)資源。在此基礎(chǔ)之上,對(duì)大規(guī)模、多源、多維的志譜資源進(jìn)行文本化、數(shù)據(jù)化轉(zhuǎn)換,抽取其中蘊(yùn)含的知識(shí)單元,通過量化分析與可視化展示,實(shí)現(xiàn)志譜的數(shù)據(jù)集成與知識(shí)關(guān)聯(lián)。如中國(guó)家譜知識(shí)服務(wù)平臺(tái)把散落在不同家譜文獻(xiàn)中的人、地、時(shí)、事關(guān)聯(lián)起來,發(fā)現(xiàn)人與人之間、人與文獻(xiàn)之間的關(guān)系,形成完整的知識(shí)圖,以可視化的方式展示。這既便于普通讀者直觀獲得隱藏在不同文獻(xiàn)中的知識(shí),并將不同的文獻(xiàn)按照某一主題有機(jī)地組織起來,提供知識(shí)導(dǎo)航;更可以幫助研究者發(fā)現(xiàn)問題,提出問題[27]。
鈐印知識(shí)元是古籍資源中一種重要的知識(shí)元。將鈐印作為實(shí)體對(duì)象,對(duì)其所蘊(yùn)含的印文、印主、藏本知識(shí)進(jìn)行語義標(biāo)注,實(shí)現(xiàn)同一印主不同鈐印間的歸一處理,實(shí)現(xiàn)同一印主的字、號(hào)、別名等之間的歸一處理,并將藏本信息與聯(lián)合目錄、循證平臺(tái)關(guān)聯(lián),將時(shí)間、地點(diǎn)與歷史紀(jì)年表、地理名詞表等關(guān)聯(lián),將印主信息與人名規(guī)范檔等進(jìn)行關(guān)聯(lián),進(jìn)而發(fā)現(xiàn)印文、印主與藏本之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)平臺(tái)內(nèi)外文獻(xiàn)的互聯(lián)與鈐印的知識(shí)挖掘。通過構(gòu)建鈐印知識(shí)元庫(kù),既可以加深鈐印內(nèi)含知識(shí)的挖掘?qū)哟?、?xì)化其表示粒度,又可以輔助梳理遞藏源流、考證藏書的收藏與散逸情況、溯清館藏來源[28]。
通過對(duì)多源、異構(gòu)古籍資源的文獻(xiàn)組織、知識(shí)組織,可實(shí)現(xiàn)平臺(tái)內(nèi)外的文獻(xiàn)與文獻(xiàn)之間、文獻(xiàn)內(nèi)外知識(shí)單元之間的關(guān)聯(lián),幫助研究者發(fā)現(xiàn)人工難以獲得的知識(shí),進(jìn)行特定時(shí)期與特定地域?qū)W者研究脈絡(luò)與交往等的分析。這是當(dāng)前古籍知識(shí)關(guān)聯(lián)實(shí)現(xiàn)的重要價(jià)值所在。如歐陽劍以大規(guī)模中國(guó)古籍文本(41 563 種古籍,總計(jì)48.35 億字)為研究對(duì)象,對(duì)古籍進(jìn)行整理、標(biāo)注、自動(dòng)分詞等處理,創(chuàng)建了一個(gè)以語言學(xué)、歷史文獻(xiàn)學(xué)、歷史地理學(xué)等人文學(xué)科研究為主的古籍實(shí)時(shí)統(tǒng)計(jì)分析平臺(tái),實(shí)現(xiàn)了實(shí)時(shí)統(tǒng)計(jì)分析、時(shí)間和空間可視化分析,可輔助研究者在大量的古籍文獻(xiàn)中發(fā)現(xiàn)新的模式、現(xiàn)象、趨勢(shì)等[29]。
數(shù)字人文視角下古籍知識(shí)關(guān)聯(lián)雖極具現(xiàn)實(shí)意義,但在實(shí)施中仍然受到種種壁壘的限制。
對(duì)于大多數(shù)機(jī)構(gòu)來說,知識(shí)關(guān)聯(lián)的對(duì)象——古籍文獻(xiàn)數(shù)據(jù)與知識(shí)元的文本化處理與關(guān)聯(lián)化實(shí)現(xiàn)仍然具有較高的難度。古字無定形,已完成的古籍?dāng)?shù)字化資源在文本化轉(zhuǎn)換過程中仍以O(shè)CR 識(shí)別加專家人工校讀為主要工作方式。雖然目前書同文i-慧眼OCR 平臺(tái)、古聯(lián)公司古籍OCR 系統(tǒng)、如是OCR 等在古籍文本OCR 識(shí)別方面已經(jīng)取得了一定的成就,但普遍意義上來說,古籍OCR 識(shí)別始終面臨版式多樣(橫版、豎版、小字雙行等)、格式各異(除文字外還有碑帖拓片、輿圖等實(shí)物、圖像類)、異體字眾多、字形字體多變、字符集大而標(biāo)注樣本少等困難。
古籍全文數(shù)字化是進(jìn)行古籍知識(shí)關(guān)聯(lián)的基礎(chǔ),古籍文本的識(shí)別與轉(zhuǎn)換相關(guān)研究問題一直深受學(xué)界重視。不少學(xué)者基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法技術(shù),提出了古籍文檔圖像版面分析方法與文字檢測(cè)分割方法、構(gòu)建大規(guī)模圖像和文本語料庫(kù)、設(shè)計(jì)古籍文檔圖像預(yù)訓(xùn)練模型等。未來,應(yīng)進(jìn)一步增強(qiáng)該領(lǐng)域的研究,以提高古籍文本識(shí)別效率與質(zhì)量。
要實(shí)現(xiàn)古籍知識(shí)關(guān)聯(lián),在古籍文本化的基礎(chǔ)之上,還需要將傳統(tǒng)古籍?dāng)?shù)據(jù)庫(kù)中的關(guān)系型古籍全文數(shù)據(jù)轉(zhuǎn)換為語義層次的知識(shí)元。數(shù)據(jù)化的古籍知識(shí)需要有相關(guān)機(jī)構(gòu)牽頭,多學(xué)科領(lǐng)域?qū)<覅⑴c制定統(tǒng)一的、科學(xué)的元數(shù)據(jù)描述規(guī)范,方能使得不同平臺(tái)間文獻(xiàn)單元、知識(shí)單元實(shí)現(xiàn)共享、形成映射。而在知識(shí)關(guān)聯(lián)的構(gòu)建過程中,需要應(yīng)用到各種技術(shù)方法。對(duì)于圖書館等古籍資源館藏機(jī)構(gòu)來說,從文本分析、聚類分類、主題分析、內(nèi)容挖掘、時(shí)序分析、地理空間分析、社會(huì)關(guān)系分析等內(nèi)容分析技術(shù)到可視化技術(shù),到機(jī)器學(xué)習(xí)的技術(shù)、方法需要得到進(jìn)一步開發(fā)與應(yīng)用,這是發(fā)現(xiàn)知識(shí)元與知識(shí)元間的關(guān)系,并以可視化的形式進(jìn)行揭示,進(jìn)而實(shí)現(xiàn)知識(shí)關(guān)聯(lián)的關(guān)鍵。圖書館等館藏機(jī)構(gòu)應(yīng)進(jìn)一步與相關(guān)機(jī)構(gòu)加強(qiáng)合作,推動(dòng)相關(guān)技術(shù)方法的開發(fā)、落地、應(yīng)用、推廣。
古籍?dāng)?shù)字人文項(xiàng)目的紛紛落地、數(shù)字人文平臺(tái)的不斷推出也展露了當(dāng)前古籍?dāng)?shù)字人文研究的一個(gè)隱性弊端,即大大小小的數(shù)字人文項(xiàng)目 “遍地開花”,大部分古籍?dāng)?shù)字人文平臺(tái)僅為某一機(jī)構(gòu)所開發(fā),多針對(duì)某一特定類型資源如方志、中醫(yī)藥、佛經(jīng)等甚至單一部古籍等,使用范圍也多受限于建設(shè)單位內(nèi)部。數(shù)字人文視角下的古籍知識(shí)關(guān)聯(lián)應(yīng)克服傳統(tǒng)古籍整理的 “小、散、亂” 模式,從建制上進(jìn)行努力,避免重復(fù)建設(shè),參考古籍書目數(shù)據(jù)庫(kù) “全國(guó)古籍普查登記基本數(shù)據(jù)庫(kù)”等模式,由相關(guān)機(jī)構(gòu)牽頭,館藏機(jī)構(gòu)、人文學(xué)者、計(jì)算機(jī)領(lǐng)域?qū)W者共同協(xié)作,多建設(shè)如 “中文古籍聯(lián)合目錄及循證平臺(tái)” “數(shù)字方志集成平臺(tái)” 這類綜合性、集成性、可擴(kuò)展性的平臺(tái),促進(jìn)古籍資源的共建共享、深度挖掘。
古籍資源是一個(gè)圖書館 “人無我有”、具有特殊價(jià)值的一部分資源,是數(shù)字人文研究的重要對(duì)象之一,數(shù)字人文的理念、工具與方法是古籍資源開發(fā)與利用的重要助力。數(shù)字人文視角下,從文獻(xiàn)單元層次的組織深入到知識(shí)單元層次的組織,借助數(shù)據(jù)分析技術(shù)、機(jī)器學(xué)習(xí)、可視化技術(shù)等,可實(shí)現(xiàn)古籍知識(shí)關(guān)聯(lián)。古籍知識(shí)關(guān)聯(lián)起點(diǎn)是文獻(xiàn)組織,基礎(chǔ)是古籍?dāng)?shù)據(jù),本質(zhì)是知識(shí)組織。古籍知識(shí)關(guān)聯(lián)可進(jìn)行方志與家譜挖掘、鈐印知識(shí)網(wǎng)絡(luò)發(fā)現(xiàn)、特定時(shí)期與地域?qū)W者研究脈絡(luò)與交往分析等,但在實(shí)施中仍面臨知識(shí)元處理難度大、技術(shù)要求高、集成平臺(tái)少等壁壘。
囿于研究條件所限,論文僅從理論角度對(duì)古籍知識(shí)關(guān)聯(lián)的研究與應(yīng)用、關(guān)鍵環(huán)節(jié)、壁壘等進(jìn)行了論述,未來我們將以館藏古籍知識(shí)平臺(tái)優(yōu)化升級(jí)為契機(jī),進(jìn)一步對(duì)古籍元數(shù)據(jù)描述規(guī)范、古籍文本轉(zhuǎn)換與內(nèi)容挖掘、不同平臺(tái)間數(shù)據(jù)交換及更新機(jī)制進(jìn)行研究,以促進(jìn)古籍資源更深層次的知識(shí)關(guān)聯(lián)、更大范圍的共建共享,提升古籍資源開發(fā)水平與服務(wù)質(zhì)量。
農(nóng)業(yè)圖書情報(bào)學(xué)刊2022年9期