李世鈺 張向先 沈 旺* 侯力鐵 張承坤
(1.吉林大學(xué)商學(xué)與管理學(xué)院,吉林 長春 130012;2.長春中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院,吉林 長春 130117)
古籍是歷史文化中誕生的重要文化資源,具有豐富的內(nèi)容和多樣的形式。然而隨著時(shí)間的推移,古籍的保存受到傳統(tǒng)記錄、表現(xiàn)和傳承方法的限制,其在長期保存上面臨一定的困難與問題,如古籍載體的老化與破損、古代帝王陪葬制度、戰(zhàn)爭或政治因素導(dǎo)致的損毀、古籍轉(zhuǎn)運(yùn)過程中的佚失、轉(zhuǎn)謄抄錄過程中受個(gè)人意見等影響造成的刪減等,所以對古籍實(shí)施數(shù)字化工程是保護(hù)內(nèi)容完整的重要方式。
1949年,羅貝托布薩首先使用計(jì)算機(jī)輔助編輯了大型書籍《托馬斯著作索引》,而在國內(nèi),王曉光等[1]首先引入數(shù)字人文研究,開始對敦煌壁畫進(jìn)行圖像底層視覺的標(biāo)注。伴隨著數(shù)字人文研究的興起,古籍?dāng)?shù)字化的研究內(nèi)涵逐漸豐富,一方面現(xiàn)代信息技術(shù)的應(yīng)用可以將古代文獻(xiàn)轉(zhuǎn)化為電子媒體的形式,通過光盤、網(wǎng)絡(luò)等介質(zhì)保存和傳播[2];另一方面針對數(shù)字化后古籍的挖掘與利用也日益增多。目前在世界很多國家和地區(qū)都開展了古籍?dāng)?shù)字化的相關(guān)項(xiàng)目[3-5],涉及范圍廣泛,包括少數(shù)民族古籍、中醫(yī)古籍、單書等內(nèi)容。
可以看出,古籍?dāng)?shù)字化研究內(nèi)涵日趨豐富。因此,本文旨在通過國內(nèi)外古籍?dāng)?shù)字化主要研究內(nèi)容,并構(gòu)建古籍?dāng)?shù)字化研究路徑,明確古籍?dāng)?shù)字化的研究意義與現(xiàn)實(shí)作用。同時(shí)從古籍?dāng)?shù)字化研究路徑視角出發(fā),藉由國內(nèi)目前相對于國外古籍?dāng)?shù)字化研究的差距,找尋我國古籍?dāng)?shù)字化的不足與缺陷,探索我國古籍?dāng)?shù)字化未來的研究思路與發(fā)展方向。
研究借助國內(nèi)外古籍?dāng)?shù)字化已發(fā)表文獻(xiàn),利用文獻(xiàn)計(jì)量的方法挖掘古籍?dāng)?shù)字化研究的目的、主題與發(fā)展階段,結(jié)合代表性文獻(xiàn)內(nèi)容分析,歸納古籍?dāng)?shù)字化文獻(xiàn)的方法、技術(shù)與特點(diǎn),為古籍?dāng)?shù)字化路徑建設(shè)提供參考依據(jù)。
研究以“古籍?dāng)?shù)字化”為主題方向在國內(nèi)外文獻(xiàn)數(shù)據(jù)庫中進(jìn)行檢索,但英語中缺乏“古籍”一詞的對應(yīng)表述,且古籍又包含善本、手稿、拓片等形式,同時(shí)古籍?dāng)?shù)字化項(xiàng)目的目的多以實(shí)現(xiàn)古籍的數(shù)字化,構(gòu)建古籍?dāng)?shù)據(jù)庫與數(shù)字圖書館為成果以供整理完成的古籍可以進(jìn)一步應(yīng)用,因此本文使用古籍形式,即“古籍(Ancient book、Ancient Work)”“善本(Rare Book、Rare Edition)”“手稿(Manuscript)”“拓片(Rubbing)”“碑(Inscription、Monumental Writing)”與數(shù)字化相關(guān)形式,即“數(shù)字化(Digitization)”“數(shù)據(jù)庫(Database)”“數(shù)字圖書館(Digital Library)”組合作為檢索關(guān)鍵詞。即中文檢索式形為:SU=(古籍 &數(shù)字化)、SU=(古籍 &數(shù)據(jù)庫)、SU=(古籍 &數(shù)字圖書館)等15個(gè)組合出的檢索式。英文檢索形為:TS=(Ancient Book AND Digitization)、TS=(Ancient Book AND Database)、TS=(Ancient Book AND Digital Library)等24個(gè)組合后的檢索式在中國知網(wǎng)數(shù)據(jù)庫CNKI和Web of Science核心合集數(shù)據(jù)庫進(jìn)行文獻(xiàn)檢索,檢索日期為2023年1月4日。在我國國家標(biāo)準(zhǔn)化管理委員會(huì)2008年頒布的《古籍著錄規(guī)則》[6]中,古籍主要是指1912年以前在中國書寫或印刷的、具有中國古典裝訂形式的書籍。由于手稿等載體形式在現(xiàn)代文獻(xiàn)同樣具備,同時(shí)為了保證國內(nèi)外古籍研究時(shí)間的一致性,研究根據(jù)《古籍著錄規(guī)則》,剔除掉了研究對象為1912年之后的文獻(xiàn)以及不符合古籍?dāng)?shù)字化主題的文獻(xiàn),最終得到了中文文獻(xiàn)3 222篇,英文文獻(xiàn)998篇。
圖1統(tǒng)計(jì)了國內(nèi)外古籍?dāng)?shù)字化文獻(xiàn)年份分布,根據(jù)統(tǒng)計(jì)結(jié)果可以看出,國內(nèi)外關(guān)于古籍?dāng)?shù)字化的研究均始于20世紀(jì)80年代中期,在這一時(shí)間數(shù)字化技術(shù)開始逐步得到應(yīng)用,并在當(dāng)前已得到了廣泛發(fā)展。隨著國內(nèi)數(shù)字化技術(shù)的不斷發(fā)展和國內(nèi)文化遺產(chǎn)保護(hù)意識(shí)的提高,數(shù)字化古籍研究在國內(nèi)得到了更多的關(guān)注和支持,國內(nèi)關(guān)于古籍?dāng)?shù)字化的研究自2000年后增長迅速。國外研究總體呈現(xiàn)上升趨勢,伴隨著學(xué)者和社會(huì)公眾對于數(shù)字資源需求的增加,相關(guān)研究在2015年后穩(wěn)定在每年100篇左右,這表明古籍?dāng)?shù)字化研究逐步演變?yōu)槿蛐缘内厔?,同時(shí)也表明數(shù)字化技術(shù)在保護(hù)和傳承文化遺產(chǎn)方面具有重要意義,得到了國際社會(huì)的廣泛認(rèn)可和支持。無論是國內(nèi)還是國外的相關(guān)研究,在近些年都逐漸趨于穩(wěn)定,其計(jì)量結(jié)果可以為古籍?dāng)?shù)字化路徑建設(shè)提供成熟的依據(jù)。
圖1 國內(nèi)外古籍?dāng)?shù)字化文獻(xiàn)年份分布
研究利用詞頻統(tǒng)計(jì)、關(guān)鍵詞共現(xiàn)與聚類及Timeline視圖的方式對古籍?dāng)?shù)字化文獻(xiàn)的研究目的、主題與階段進(jìn)行挖掘。
1.2.1 研究目的分析
文獻(xiàn)標(biāo)題是文獻(xiàn)研究目的最直接的體現(xiàn),能夠包含論文的研究方法、對象與領(lǐng)域等內(nèi)容。研究利用Jieba分詞,使用Python語句對檢索到的文獻(xiàn)標(biāo)題進(jìn)行分詞與去停用詞處理,并進(jìn)行詞頻統(tǒng)計(jì),最終分別生成了國內(nèi)外文獻(xiàn)標(biāo)題的詞云圖如圖2、圖3所示,用以對當(dāng)前古籍?dāng)?shù)字化研究的廣泛目的予以展現(xiàn)。
受檢索式影響,中文詞匯“古籍”“數(shù)字化”“圖書館”“數(shù)據(jù)庫”以及英文詞匯“digital”“database”“ancient”等詞占比較高,但仍有許多其他詞匯具有較高的詞頻,反映出了國內(nèi)外古籍?dāng)?shù)字化的主要研究目的。
首先,圖2結(jié)果顯示,在國內(nèi)研究進(jìn)展中,古籍整理與保護(hù)是古籍?dāng)?shù)字化重要的研究目的。古籍整理與保護(hù)是保證古籍存續(xù)的重要工作,而數(shù)字化可使古籍脫離傳統(tǒng)紙質(zhì)等載體的桎梏,減少古籍的物理損耗,顯然古籍?dāng)?shù)字化已成為古籍長久保存的重要手段。而在圖3國外文獻(xiàn)的標(biāo)題詞云圖中可以看出,“recognition(認(rèn)出)”“identification(識(shí)別)”等詞的高詞頻結(jié)果同樣說明國外對于古籍完整性的重視,反映出對于古代文獻(xiàn)保護(hù)與傳承的努力。
同時(shí)圖2和圖3反映出,國內(nèi)外古籍?dāng)?shù)字化研究有各自側(cè)重的研究對象。我國的古籍?dāng)?shù)字化研究涉及到“中醫(yī)古籍”“民族古籍”等明顯有國內(nèi)文化特征的研究對象。而國外對“手稿”這一對象的研究相對較多,這與國外古籍多以手稿形式呈現(xiàn)有關(guān)。同時(shí),由于國外包含諸多國家和地區(qū),所以能夠看出國外的研究涉及對個(gè)別文化、文明與語種的研究。如詞云圖中體現(xiàn)的與中世紀(jì)(Medieval)時(shí)代和阿拉伯(Arabic)文化相關(guān)的研究。
1.2.2 研究主題分析
關(guān)鍵詞是一篇文獻(xiàn)中的核心詞匯,反映了論文研究中最核心的研究主題。通過對關(guān)鍵詞的計(jì)量,可以呈現(xiàn)相關(guān)研究的熱點(diǎn)方向。
研究使用CiteSpace,以檢索文獻(xiàn)的關(guān)鍵詞作為標(biāo)簽進(jìn)行分析,得出“古籍?dāng)?shù)字化”研究主題下關(guān)鍵詞的共現(xiàn)結(jié)果。
圖4和圖5展示了文獻(xiàn)檢索結(jié)果的關(guān)鍵詞共現(xiàn)圖。其中,節(jié)點(diǎn)越大,表明該關(guān)鍵詞出現(xiàn)的詞數(shù)越多,連線表示關(guān)鍵詞之間存在共現(xiàn)關(guān)系。由于獲取的文獻(xiàn),尤其是中文古籍?dāng)?shù)字化相關(guān)文獻(xiàn)數(shù)量較多,導(dǎo)致節(jié)點(diǎn)與連線相對密集,所以進(jìn)一步計(jì)算節(jié)點(diǎn)的中介中心性用于衡量其中介作用,中介中心性較高的節(jié)點(diǎn)處在多個(gè)其他節(jié)點(diǎn)中間,把持節(jié)點(diǎn)之間的連接通道,因此中介中心性大于0.1可以認(rèn)為是圖中的關(guān)鍵節(jié)點(diǎn)。圖4中,“數(shù)據(jù)庫”節(jié)點(diǎn)的中介中心性達(dá)到了0.33,“數(shù)字化”“圖書館”“古籍”“古籍整理”“中醫(yī)古籍”等節(jié)點(diǎn)的中介中心性也均大于0.1,說明這些節(jié)點(diǎn)被廣泛提及。而在圖5的英文文獻(xiàn)關(guān)鍵詞中,“digital library(數(shù)字圖書館)”“cultural heritage(文化遺產(chǎn))”也均為中介中心性大于0.1的節(jié)點(diǎn)。
圖4 國內(nèi)古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞共現(xiàn)圖
圖5 國外古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞共現(xiàn)圖
除高中介中心性節(jié)點(diǎn)以外,高頻關(guān)鍵詞同樣作為關(guān)鍵詞共現(xiàn)中的重要節(jié)點(diǎn)出現(xiàn),如“古籍保護(hù)”“古籍整理”等文獻(xiàn)標(biāo)題中同樣高頻的詞匯,在關(guān)鍵詞中擁有100以上的高詞頻出現(xiàn)率,這進(jìn)一步佐證了針對文獻(xiàn)標(biāo)題的分析結(jié)果。而在標(biāo)題高頻詞與高中介中心性節(jié)點(diǎn)詞及它們的近義詞之外,如圖4中的“元數(shù)據(jù)”“數(shù)據(jù)挖掘”“古籍利用”,圖5中的“deep learning(深度學(xué)習(xí))”“convolutional neural network(卷積神經(jīng)網(wǎng)絡(luò))”“image segmentation(圖像分割)”等詞也均為各自共現(xiàn)圖中排名在前30以內(nèi)的高頻關(guān)鍵詞。
可以看出,古籍?dāng)?shù)字化研究已開始多樣化發(fā)展,針對數(shù)據(jù)標(biāo)準(zhǔn),古籍內(nèi)容的挖掘與相關(guān)開發(fā)工作均有所開展,而國外在這一領(lǐng)域?qū)τ跈C(jī)器學(xué)習(xí)、深度學(xué)習(xí)等信息化技術(shù)有著相對更加具體的運(yùn)用。
由國內(nèi)外關(guān)鍵詞共現(xiàn)結(jié)果可以看出,古籍?dāng)?shù)字化研究主題主要包含:①數(shù)字化技術(shù)的應(yīng)用,包括數(shù)字化技術(shù)在古籍文獻(xiàn)數(shù)字化、古籍整理、數(shù)字化圖書館建設(shè)等方面的應(yīng)用;②數(shù)據(jù)標(biāo)準(zhǔn)化研究,主要關(guān)注如何建立符合古籍?dāng)?shù)字化標(biāo)準(zhǔn)的著錄規(guī)則與分類規(guī)則,以方便數(shù)字化古籍?dāng)?shù)據(jù)的管理和共享;③信息技術(shù)在古籍?dāng)?shù)字化中的應(yīng)用,主要關(guān)注如何將信息技術(shù)手段如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等運(yùn)用到古籍?dāng)?shù)字化的各個(gè)方面,以提高數(shù)字化效率和質(zhì)量。
研究進(jìn)一步根據(jù)檢索結(jié)果的關(guān)鍵詞共現(xiàn)圖進(jìn)行了關(guān)鍵詞聚類,以發(fā)現(xiàn)古籍?dāng)?shù)字化相關(guān)研究中的主要研究主題與研究方向。圖6和圖7分別展示了國內(nèi)外研究關(guān)鍵詞的聚類結(jié)果,中文關(guān)鍵詞的聚類最終得到了147個(gè)類別,其中前17個(gè)類別的聚類關(guān)鍵詞數(shù)不少于5個(gè)。這17個(gè)類別的Silhouette(聚類平均輪廓值)均大于0.801。而國外文獻(xiàn)關(guān)鍵詞共得到158個(gè)聚類類別,其中前15個(gè)類別聚類的關(guān)鍵詞數(shù)量均不少于6個(gè)。這15個(gè)類別的Silhouette值均大于0.879。通常Silhouette值大于0.5即可認(rèn)為聚類結(jié)果是合理的,Silhouette值大于0.7即可認(rèn)為聚類結(jié)果是令人信服的??梢姡狙芯繉τ趪鴥?nèi)外研究關(guān)鍵詞的聚類結(jié)果具有較強(qiáng)的說服力。
圖7 國外古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞聚類圖
通過左上角的參數(shù)可以看出,圖6 Modularity即模塊化參數(shù)為0.5993,圖7為0.842,說明圖中各個(gè)節(jié)點(diǎn)的劃分效果較好。Weighted Mean Silhouette是用來衡量圖中集群同質(zhì)化程度的參數(shù),在圖6中達(dá)到0.8672,圖7達(dá)到0.9336,說明集群同質(zhì)化效果良好。
通過國內(nèi)外古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞聚類結(jié)果可以看出,雖然受檢索式影響導(dǎo)致“數(shù)據(jù)庫”等詞在文獻(xiàn)標(biāo)題與關(guān)鍵詞中都作為高詞頻出現(xiàn),但國內(nèi)聚類結(jié)果所出現(xiàn)的“數(shù)據(jù)庫”與“語料庫”及國外古籍?dāng)?shù)字化文獻(xiàn)關(guān)鍵詞聚類中排名靠前的“creating digital libraries(建立數(shù)字圖書館)”。“small museum(小型博物館)”等結(jié)果仍表明,古籍內(nèi)容挖掘及相關(guān)開發(fā)工作是當(dāng)前古籍?dāng)?shù)字化工作的重要方向,其能夠挖掘古籍文獻(xiàn)中的知識(shí)和信息,也是開展古籍內(nèi)容挖掘研究與開發(fā)利用服務(wù)的重要基礎(chǔ)。
1.2.3 研究階段分析
研究進(jìn)一步利用各年份的關(guān)鍵詞,制作了關(guān)鍵詞Timeline視圖,如圖8、圖9所示,用以反映時(shí)間軸推移下國內(nèi)外古籍?dāng)?shù)字化研究的發(fā)展趨勢。
圖9 國外近年文獻(xiàn)關(guān)鍵詞Timeline時(shí)間視圖
由圖8可以看出,國內(nèi)對于古籍?dāng)?shù)字化的研究始于對圖書館資源以及對于古籍?dāng)?shù)據(jù)庫的探索,中醫(yī)古籍是最早被關(guān)注的研究對象。古籍的整理、保護(hù)在20世紀(jì)末開始被廣泛提及,至21世紀(jì)初研究開始重視古籍的信息資源,開始了大量的古籍?dāng)?shù)字化轉(zhuǎn)化進(jìn)程,以達(dá)成存儲(chǔ)、修復(fù)等目的,同時(shí)用于規(guī)范古籍?dāng)?shù)字化資源的元數(shù)據(jù)條目也開始制定。在2010年左右,伴隨著信息化技術(shù)的發(fā)展,許多研究開始關(guān)注古籍的數(shù)據(jù)挖掘,古籍開始了由信息化到知識(shí)化的轉(zhuǎn)變。如今,知識(shí)圖譜等工具的運(yùn)用為古籍的進(jìn)一步知識(shí)服務(wù)與數(shù)字化推廣提供了新的技術(shù)與方式。
圖9則在標(biāo)題分析與關(guān)鍵詞詞頻和聚類分析的基礎(chǔ)上,進(jìn)一步揭示了國外在古籍?dāng)?shù)字化研究中對于技術(shù)的不斷利用與迭代。在古籍?dāng)?shù)字化研究的早期即關(guān)注信息檢索與系統(tǒng)的構(gòu)建,相較于國內(nèi)也更早地將算法運(yùn)用到古籍?dāng)?shù)字化的研究中,包括圖像分割與機(jī)器學(xué)習(xí)的運(yùn)用,以及目前向深度學(xué)習(xí)的轉(zhuǎn)變,并在如今被廣泛運(yùn)用于作者、手寫體等古籍有關(guān)內(nèi)容的識(shí)別,完成對古籍的知識(shí)發(fā)現(xiàn)。
通過總結(jié)文獻(xiàn)計(jì)量關(guān)于“古籍?dāng)?shù)字化”文獻(xiàn)研究目的、主題與階段的分析結(jié)果,可以看出古籍?dāng)?shù)字化研究主要有“研究對象選取”“數(shù)字化處理”“數(shù)字化存儲(chǔ)”“內(nèi)容深度挖掘”“古籍知識(shí)發(fā)現(xiàn)”“數(shù)字化平臺(tái)建設(shè)”“數(shù)字化整理”“數(shù)字化保護(hù)”“古籍著錄規(guī)則”“古籍分類規(guī)則”等主要研究方向。依據(jù)這些研究的特點(diǎn)及目的,本文進(jìn)一步將其總結(jié)歸類為“古籍?dāng)?shù)字化處理”“古籍?dāng)?shù)字化存儲(chǔ)”“古籍?dāng)?shù)字化標(biāo)準(zhǔn)”“古籍?dāng)?shù)字化利用”“古籍?dāng)?shù)字化服務(wù)”5類主要內(nèi)容,其對應(yīng)關(guān)系如表1所示。通過選取國內(nèi)外關(guān)于主要內(nèi)容相關(guān)的代表性文獻(xiàn)并進(jìn)行內(nèi)容剖析,可以發(fā)掘古籍?dāng)?shù)字化主要研究內(nèi)容的側(cè)重點(diǎn)及相關(guān)技術(shù)方法。
表1 古籍?dāng)?shù)字化研究的內(nèi)容類別與主要研究方向?qū)φ毡?/p>
1.3.1 古籍?dāng)?shù)字化處理
古籍?dāng)?shù)字化處理是古籍?dāng)?shù)字化的開始階段,關(guān)注重點(diǎn)在于將傳統(tǒng)古籍文本轉(zhuǎn)化為數(shù)字化文本形式。在這一階段需要選定古籍研究對象,以及使用掃描、拍照等方式形成數(shù)字化古籍文檔。
在“研究對象選取”階段,國內(nèi)外古籍?dāng)?shù)字化的研究對象帶有明顯的地域特色與文化差異。我國的古籍?dāng)?shù)字化研究涉及“中醫(yī)古籍”“民族古籍”等明顯有國內(nèi)文化特征的研究對象。如《愛如生系列數(shù)據(jù)庫》《瀚堂典籍?dāng)?shù)據(jù)庫》等都針對《傷寒雜病論》《難經(jīng)》《黃帝內(nèi)經(jīng)》等中醫(yī)經(jīng)典古籍進(jìn)行了數(shù)字化處理[7]。民族古籍方面,陳汝模[8]在研究中論述了福建海上絲綢之路相關(guān)古籍的內(nèi)容、特征、原則及將其數(shù)字化后的意義,而對《齊民要術(shù)》《論語》等古籍的數(shù)字化也體現(xiàn)了國內(nèi)以傳統(tǒng)歷史典籍為研究對象的特點(diǎn)[9-10]。國外對于“Maunscript(手稿)”這一研究對象的數(shù)字化研究更為側(cè)重。Guido R等[11]針對500余份中世紀(jì)手稿,進(jìn)行了數(shù)字化與古籍分類工作。Ladewig S L等[12]使用了高分辨率成像設(shè)備,進(jìn)行《新約》手稿的數(shù)字化。
“古籍?dāng)?shù)字化處理”形成數(shù)字化古籍文檔通常只作為古籍?dāng)?shù)字化相關(guān)研究的一個(gè)基礎(chǔ)步驟,很少作為研究重點(diǎn)。通常掃描、拍照一類形成數(shù)字化古籍圖像的方式應(yīng)當(dāng)是形成古籍?dāng)?shù)字化文檔的有效手段。焦佳琛等[13]在文獻(xiàn)中提到,掃描或拍照,并進(jìn)行糾偏、拼接、去污、裁切及水印等處理是目前形成古籍?dāng)?shù)字化文稿的重要方式,Choro K等[14]通過使用波蘭古代手稿照片對OCR(光學(xué)字符識(shí)別)手稿數(shù)字化的方法進(jìn)行測試,他們認(rèn)為,改進(jìn)古代手稿數(shù)字化的方法應(yīng)該具備適當(dāng)?shù)膾呙柙O(shè)備,高分辨率的掃描、無損壓縮、文檔圖像的手工校正、圖像的手工調(diào)平使文本水平排列、使用具有古詞匯的詞典等手段以保證稿件圖像的質(zhì)量。
1.3.2 古籍?dāng)?shù)字化存儲(chǔ)
“古籍?dāng)?shù)字化存儲(chǔ)”主要是保存已形成的數(shù)字化古籍內(nèi)容,以便于后續(xù)加以利用。目前已有的古籍?dāng)?shù)據(jù)庫項(xiàng)目中,山東大學(xué)建立了易學(xué)古籍?dāng)?shù)據(jù)庫[15],對易學(xué)古籍進(jìn)行收集、復(fù)制、影印等工作。數(shù)據(jù)庫共包括易學(xué)古籍總目數(shù)據(jù)庫、易學(xué)古籍全文數(shù)據(jù)庫以及易學(xué)古籍研究與知識(shí)圖譜數(shù)據(jù)庫,不僅存儲(chǔ)了易學(xué)古籍?dāng)?shù)字化數(shù)據(jù),也為進(jìn)一步提供古籍服務(wù)奠定了基礎(chǔ)。鞠斐等[16]提出,基于中國版刻古籍紡織圖像的數(shù)據(jù)庫架構(gòu)設(shè)計(jì),以數(shù)字形式發(fā)布、存取和利用中國版刻古籍圖像。
國外如以色列國家圖書館建立的“時(shí)間旅行”數(shù)據(jù)庫,采用眾包的形式收集并數(shù)字化以色列歷史文獻(xiàn)[17]。印度同樣建立了國家手稿中心,用于存儲(chǔ)和保存印度數(shù)字化手稿文獻(xiàn)[18]。Abdelhaleem A等[19]構(gòu)建了一個(gè)數(shù)據(jù)庫,其中包括伊斯蘭遺產(chǎn)項(xiàng)目(IHP)由302位不同作家撰寫的333份歷史手稿,用于研究各種手寫相關(guān)問題,如文本識(shí)別、作者識(shí)別、文本預(yù)處理等問題的研究。
1.3.3 古籍?dāng)?shù)字化標(biāo)準(zhǔn)
“元數(shù)據(jù)”一詞在關(guān)鍵詞中的高頻出現(xiàn),代表了大量的數(shù)字化古籍產(chǎn)生后所伴隨的規(guī)則演進(jìn)。當(dāng)前研究中的古籍?dāng)?shù)字化標(biāo)準(zhǔn)主要分為“古籍著錄規(guī)則”與“古籍分類規(guī)則”。
我國擁有相對統(tǒng)一的古籍著錄規(guī)則,國家標(biāo)準(zhǔn)化管理委員會(huì)曾于2008年發(fā)布了《古籍著錄規(guī)則》[6],其元數(shù)據(jù)包括標(biāo)準(zhǔn)號(hào)、中文標(biāo)準(zhǔn)名稱、英文標(biāo)準(zhǔn)名稱、發(fā)布日期、實(shí)施日期、首次發(fā)布日期、標(biāo)準(zhǔn)狀態(tài)、復(fù)審確認(rèn)日期、計(jì)劃編號(hào)、代替國標(biāo)號(hào)、被代替國標(biāo)號(hào)、廢止時(shí)間、采用程度、國際標(biāo)準(zhǔn)分類號(hào)、中國標(biāo)準(zhǔn)分類號(hào)、標(biāo)準(zhǔn)類別、標(biāo)準(zhǔn)頁碼、標(biāo)準(zhǔn)價(jià)格(元)、主管部門、起草單位在內(nèi)的20項(xiàng)元數(shù)據(jù)標(biāo)準(zhǔn),這也成為我國目前古籍著錄的總體標(biāo)準(zhǔn)。但由于古籍內(nèi)容、種類繁多,也有學(xué)者研究設(shè)定專題古籍著錄規(guī)則。先巴[20]設(shè)定了藏文古籍著錄規(guī)則,在著錄細(xì)則上增加藏族古籍特點(diǎn)語義說明和限定,如古籍語種限定為藏文、古籍主題按照藏族古籍主題詞分類等。國外的古籍編目系統(tǒng)相同普適性更強(qiáng),如OCLC聯(lián)機(jī)計(jì)算機(jī)圖書館可以收錄眾多國外文獻(xiàn)資源編目數(shù)據(jù)。Bannay O E等[21]還利用XML語言表示的元數(shù)據(jù)和手稿注釋構(gòu)建了阿拉伯手稿可視化平臺(tái),加上DC元數(shù)據(jù)集合MARC著錄格式等的利用,使得其適用性相對更強(qiáng),且有助于館際之間資源的交流與整合。
在“古籍分類規(guī)則”研究中,“經(jīng)、史、子、集、叢”五部分類法在我國具有悠久的歷史,也適用于古籍的常規(guī)分類,部分研究會(huì)進(jìn)行“專題古籍分類規(guī)則”的設(shè)定與研究,但是普適性相對較差。國外關(guān)于古籍分類的分類法相對較少,但是由于計(jì)算機(jī)技術(shù)與信息技術(shù)的使用明顯提高,通過自動(dòng)識(shí)別、聚類等方法,能夠自動(dòng)提出對所獲取到的古籍?dāng)?shù)據(jù)的分類結(jié)果,但顯然這一結(jié)果也很難具有普適性,更換古籍?dāng)?shù)據(jù)很有可能帶來分類結(jié)果的不同。
1.3.4 古籍?dāng)?shù)字化利用
古籍?dāng)?shù)字化不是單純的形成數(shù)字文檔。更好地利用數(shù)字化古籍,完成古籍內(nèi)容的深度挖掘與研究,發(fā)揮數(shù)字化相對于傳統(tǒng)文本的優(yōu)勢,是古籍?dāng)?shù)字化更高層級(jí)的意義與作用。
目前,古籍?dāng)?shù)字化利用主要有以下方面:一是運(yùn)用“本體構(gòu)建”“機(jī)器學(xué)習(xí)”“圖像分割”等技術(shù)打破古籍原有文本組織結(jié)構(gòu),從而實(shí)現(xiàn)“內(nèi)容深度挖掘”與“古籍知識(shí)發(fā)現(xiàn)”。二是古籍的“數(shù)字化整理”與“數(shù)字化保護(hù)”,通過數(shù)字化過程更好地進(jìn)行古籍內(nèi)容保存。
國外在近些年針對古籍?dāng)?shù)字化的研究采用了大量機(jī)器學(xué)習(xí)及圖像處理等技術(shù),從而完成古籍“內(nèi)容深度挖掘”。Chanda S等[22]利用CNN(卷積神經(jīng)網(wǎng)絡(luò))對法國國家檔案館所藏的14世紀(jì)初法國行政活動(dòng)文件進(jìn)行特征提取,并使用零次學(xué)習(xí)算法進(jìn)行了中世紀(jì)單詞的識(shí)別,結(jié)果達(dá)到了56.87%的識(shí)別準(zhǔn)確率。Avadesh M等[23]對古代梵文手稿進(jìn)行字母分割和圖像標(biāo)注,實(shí)現(xiàn)了對梵文手稿圖像的處理,并利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行梵文單詞的學(xué)習(xí)與識(shí)別,準(zhǔn)確率達(dá)到了93.32%。倪劼[24]在文獻(xiàn)中提出了基于流水模式的古籍漢字切分算法,該算法將古籍文獻(xiàn)圖像進(jìn)行預(yù)處理,然后用投影法與圖像形態(tài)學(xué)處理實(shí)現(xiàn)列切分,再在列基礎(chǔ)上進(jìn)行逐字切分,仿照水流的運(yùn)動(dòng)軌跡實(shí)現(xiàn)古籍中漢字的劃分?!肮偶R(shí)發(fā)現(xiàn)”多聚焦在對古籍進(jìn)行文本關(guān)聯(lián)以及本體構(gòu)建等研究。如周莉娜等[25]以唐詩為研究對象,構(gòu)建了“詩歌—詩人”本體模型以及“面向史學(xué)的時(shí)空經(jīng)歷本體模型”,并在此基礎(chǔ)上構(gòu)建了知識(shí)圖譜,從而挖掘并可視化出詩人與詩歌之間的關(guān)系,并解釋了詩人經(jīng)歷的時(shí)序變化特征。
古籍?dāng)?shù)字化整理主要關(guān)注對古籍進(jìn)行審閱、??焙妥⑨尩裙ぷ?,也是形成數(shù)字化古籍的前期必備工作。如張玉梅[26]按照寧夏舊方志存世價(jià)值以及時(shí)間順序等選擇進(jìn)行數(shù)字化的古籍版本,如存在破損等問題則進(jìn)行按原內(nèi)容抄寫等手動(dòng)內(nèi)容補(bǔ)全工作。國外在古籍整理過程中,除了對古籍的物理性整理以及對古籍進(jìn)行編錄外,還會(huì)使用一定的計(jì)算機(jī)技術(shù)來輔助整理。早在1987年,Stringer G A等[27]便設(shè)計(jì)了程序?qū)Α都s翰·多恩詩集》進(jìn)行逐字審核,Kaoua R等[28]則構(gòu)建了一個(gè)有2 000多個(gè)從古籍中提取的插圖以及1 200多個(gè)注釋的數(shù)據(jù)集,并能夠利用該數(shù)據(jù)集對古籍中的插圖與注釋構(gòu)建對應(yīng)關(guān)系。
古籍?dāng)?shù)字化保護(hù)是對古籍進(jìn)行數(shù)字化的重要作用與意義,將古籍轉(zhuǎn)化為數(shù)字形式存儲(chǔ),相比傳統(tǒng)載體顯然能夠保存更久的時(shí)間。黃俊[29]將江西圖書館館藏古籍進(jìn)行縮微管理,從而生成了古籍的縮微圖像庫,盡可能地保存了古籍的內(nèi)容與原貌。譚小華[30]概述了重慶圖書館的古籍?dāng)?shù)字化保護(hù)工作,除掃描、拍攝形成古籍圖像之外,還對古籍進(jìn)行了普查登記,形成古籍普查檔案,方便古籍資料的查詢以及對原版古籍的保護(hù)。國外關(guān)于“古籍?dāng)?shù)字化保護(hù)”的研究中,古籍修復(fù)成為關(guān)注重點(diǎn)。Grosso A M D等[31]在研究中構(gòu)思了歷史手稿的有效數(shù)字化保存系統(tǒng),該系統(tǒng)可以實(shí)現(xiàn)手稿圖像的圖像采集、利用層壓技術(shù)實(shí)現(xiàn)手稿的圖像增強(qiáng),并在此基礎(chǔ)上進(jìn)行半自動(dòng)轉(zhuǎn)錄、學(xué)術(shù)編碼和語言分析功能的完善,從而提升了對載體老化的手稿內(nèi)容的分辨能力。
1.3.5 古籍?dāng)?shù)字化服務(wù)
古籍?dāng)?shù)字化服務(wù)是在新形式的數(shù)字化平臺(tái)下提供的有關(guān)數(shù)字化古籍的相關(guān)服務(wù),如檢索、問答、古籍知識(shí)的可視化呈現(xiàn)等。隨著信息時(shí)代的到來與移動(dòng)終端的廣泛普及,古籍?dāng)?shù)字化平臺(tái)可以擴(kuò)展古籍宣傳及普及渠道,對古籍進(jìn)行新形式的展示,同時(shí)使得古籍研究得以利用信息化手段,實(shí)現(xiàn)進(jìn)一步的應(yīng)用開發(fā)。
國內(nèi)外已有眾多對古籍?dāng)?shù)字化平臺(tái)的嘗試,如羅渝等[32]在西南師范大學(xué)出版社出版的《域外漢籍珍本文庫》基礎(chǔ)上構(gòu)建的“域外漢籍?dāng)?shù)字服務(wù)平臺(tái)”,收錄了境外40余個(gè)國家(地區(qū))近百余圖書館及個(gè)人所收藏的漢語珍本,可以提供閱讀與多條件檢索功能。傅寶珍[33]提出,通過構(gòu)建古籍VR閱讀系統(tǒng)、構(gòu)建古籍VR閱讀資源庫等方式以拓寬古籍閱讀渠道,加強(qiáng)古籍融媒體交互與知識(shí)服務(wù)能力。Russo G等[34]則在意大利那不勒斯的“Girolamini圖書館”創(chuàng)建一個(gè)古籍和手稿“服務(wù)中心”,該“服務(wù)中心”可以使用物聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)等技術(shù)對圖書館中數(shù)字化后的古籍進(jìn)行分類,從而為信息檢索提供依據(jù)。
古籍?dāng)?shù)字化路徑的構(gòu)建有助于為古籍開發(fā)及傳承提供系統(tǒng)化的研究思路與方法,從而深入挖掘其中的文化內(nèi)涵和知識(shí)價(jià)值。因此,研究總結(jié)文獻(xiàn)分析所得出的古籍?dāng)?shù)字化主要內(nèi)容及其相關(guān)技術(shù)與方法,通過參考相關(guān)理論體系,梳理古籍?dāng)?shù)字化路徑框架,規(guī)劃路徑各模塊的執(zhí)行內(nèi)容,為古籍的保護(hù)和傳承提供有力支持,并為發(fā)現(xiàn)古籍?dāng)?shù)字化現(xiàn)有研究不足及未來發(fā)展方向提供新的視角。
伴隨著數(shù)字人文的興起,相關(guān)理論也逐步發(fā)展,這為古籍?dāng)?shù)字化路徑的框架搭建及要素名稱的確定提供了基礎(chǔ)。Anderson S等[35]提出發(fā)現(xiàn)(Discover)、收集(Collect)、比較(Compare)、發(fā)布(Deliver)和協(xié)作(Collaborate)的不同類型的原語,稱為“五原語論”,這一理論成為當(dāng)前數(shù)字人文研究中應(yīng)用于考古工作進(jìn)程的階段劃分依據(jù)。劉煒等[36]則進(jìn)一步從五原語論及其二級(jí)原語出發(fā),對數(shù)字人文的技術(shù)體系展開探討,提出包括“數(shù)字化技術(shù)”“數(shù)據(jù)管理技術(shù)”“數(shù)據(jù)分析技術(shù)”“可視化技術(shù)”“VR/AR技術(shù)”“機(jī)器學(xué)習(xí)技術(shù)”6類技術(shù)在內(nèi)的數(shù)字人文技術(shù)體系,涵蓋了當(dāng)下數(shù)字人文發(fā)展的主要研究技術(shù)。
相關(guān)理論的逐步發(fā)展拓展了古籍?dāng)?shù)字化研究的內(nèi)涵,數(shù)字化古籍得以被進(jìn)一步開發(fā)與利用。因此,研究參考五原語論與數(shù)字人文技術(shù)體系,對古籍?dāng)?shù)字化的主要研究內(nèi)容進(jìn)行對應(yīng)匹配,完成古籍?dāng)?shù)字化路徑構(gòu)建。
研究基于古籍?dāng)?shù)字化文獻(xiàn)分析結(jié)果的5類主要研究內(nèi)容,即:“古籍?dāng)?shù)字化處理”“古籍?dāng)?shù)字化存儲(chǔ)”“古籍?dāng)?shù)字化標(biāo)準(zhǔn)”“古籍?dāng)?shù)字化利用”“古籍?dāng)?shù)字化控制”的相關(guān)代表性文獻(xiàn),進(jìn)一步總結(jié)了5個(gè)階段所運(yùn)用的技術(shù)與方法,如表2所示。
通過將古籍?dāng)?shù)字化研究階段所運(yùn)用的技術(shù)與方法,與數(shù)字人文技術(shù)體系相匹配,可進(jìn)一步將古籍?dāng)?shù)字化研究內(nèi)容與五原語論中的階段模式相對應(yīng),從而完成古籍?dāng)?shù)字化路徑框架的構(gòu)建。
古籍?dāng)?shù)字化的基礎(chǔ)是完成古籍內(nèi)容由傳統(tǒng)載體向數(shù)字化載體的轉(zhuǎn)變?!肮偶?dāng)?shù)字化處理”中所用到的OCR技術(shù)、掃描技術(shù)等明顯對應(yīng)了數(shù)字人文技術(shù)體系中的“數(shù)字化技術(shù)”。以“數(shù)據(jù)庫”“語料庫”為代表的古籍“數(shù)字化存儲(chǔ)”則在構(gòu)建數(shù)據(jù)庫的過程中需要運(yùn)用“數(shù)據(jù)管理技術(shù)”進(jìn)行組織。根據(jù)數(shù)字人文技術(shù)體系與五原語論的對應(yīng)關(guān)系,這兩項(xiàng)技術(shù)分別對應(yīng)五原語論中的“發(fā)現(xiàn)”與“收集”兩個(gè)環(huán)節(jié),由于這一階段的目的是主要完成古籍由傳統(tǒng)載體向數(shù)字化形式的轉(zhuǎn)變與保存,研究將這一部分內(nèi)容總結(jié)為古籍?dāng)?shù)字化的“轉(zhuǎn)化”環(huán)節(jié)。
伴隨著信息技術(shù)的發(fā)展,古籍?dāng)?shù)字化的內(nèi)核已不僅僅是轉(zhuǎn)換載體,而且也同樣經(jīng)歷著由信息化向知識(shí)化的轉(zhuǎn)變。古籍的“內(nèi)容深度挖掘”與“古籍知識(shí)發(fā)現(xiàn)”是新時(shí)期古籍研究的重點(diǎn)。這兩類研究對于數(shù)據(jù)統(tǒng)計(jì)、知識(shí)圖譜、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)均有涉及,其充分對應(yīng)了數(shù)字人文技術(shù)體系中的“數(shù)據(jù)分析技術(shù)”“可視化技術(shù)”與“機(jī)器學(xué)習(xí)技術(shù)”。在五原語論中,這3種技術(shù)都涉及“比較”這一原語,意為“整合多樣性信息以便可以在數(shù)字人文之間比較信息?!币虼耍芯繉⑦@一環(huán)節(jié)定義為“重構(gòu)”,通過“重構(gòu)”古籍文本內(nèi)容,挖掘古籍內(nèi)容關(guān)聯(lián),獲取古籍內(nèi)容深層次信息。
數(shù)字化古籍可通過“開發(fā)”與“利用”,依托古籍?dāng)?shù)字化平臺(tái)所形成“知識(shí)服務(wù)”。同時(shí)“古籍?dāng)?shù)字化利用”中的“數(shù)字化整理”與“數(shù)字化保護(hù)”也是數(shù)字化古籍的重要應(yīng)用目的。在古籍?dāng)?shù)字化平臺(tái)構(gòu)建中,對于“可視化技術(shù)”與“VR/AR技術(shù)”已有充分的探討,古籍在其整理與保護(hù)過程中,也開始對機(jī)器學(xué)習(xí)等現(xiàn)代化技術(shù)加以應(yīng)用,這3種技術(shù)集中對應(yīng)了五原語論中“比較”“發(fā)布”與“協(xié)作”3項(xiàng)原語,體現(xiàn)出數(shù)字人文中“整理”“出版”與“分享”信息的現(xiàn)實(shí)作用。因此,研究將這一環(huán)節(jié)定義為“應(yīng)用”,反映古籍?dāng)?shù)字化的實(shí)際應(yīng)用層面。
“古籍?dāng)?shù)字化標(biāo)準(zhǔn)”中的“古籍著錄規(guī)則”與“古籍分類規(guī)則”運(yùn)用了數(shù)字人文技術(shù)體系當(dāng)中的“數(shù)據(jù)管理技術(shù)”。在五原語論中,這項(xiàng)技術(shù)主要運(yùn)用于“發(fā)現(xiàn)”和“協(xié)作”兩個(gè)原語?!鞍l(fā)現(xiàn)”主要對應(yīng)古籍的“轉(zhuǎn)化”環(huán)節(jié),而“協(xié)作”環(huán)節(jié)在“重構(gòu)”與“應(yīng)用”中均有涉及。事實(shí)上,古籍的“轉(zhuǎn)化”“重構(gòu)”與“應(yīng)用”也應(yīng)當(dāng)盡可能遵守古籍的數(shù)據(jù)管理規(guī)則,才有助于數(shù)據(jù)的全方位協(xié)同與利用,因此,研究將這一環(huán)節(jié)定義為古籍?dāng)?shù)字化的“控制”。
通過對古籍?dāng)?shù)字化階段所運(yùn)用技術(shù)的疏理,可以看出古籍?dāng)?shù)字化主要研究內(nèi)容與數(shù)字人文技術(shù)體系及五原語論之間存在對應(yīng)關(guān)系,如圖10所示。
圖10 古籍?dāng)?shù)字化路徑梳理
研究最終形成了以“轉(zhuǎn)化”“重構(gòu)”“應(yīng)用”和“控制”為4個(gè)核心環(huán)節(jié)的古籍?dāng)?shù)字化路徑框架,如圖11所示。
圖11 古籍?dāng)?shù)字化路徑框架
其中,“轉(zhuǎn)化”環(huán)節(jié)主要包含古籍研究對象的選取、數(shù)字化處理與數(shù)字化存儲(chǔ)3個(gè)部分,主要實(shí)現(xiàn)古籍由傳統(tǒng)載體向數(shù)字載體的轉(zhuǎn)換?!爸貥?gòu)”環(huán)節(jié)包含“內(nèi)容深度挖掘”“古籍知識(shí)發(fā)現(xiàn)”等內(nèi)容。其實(shí)現(xiàn)古籍內(nèi)容的多維度關(guān)聯(lián)關(guān)系發(fā)現(xiàn),實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)與重組,是古籍實(shí)現(xiàn)數(shù)字化的重大優(yōu)勢?!皯?yīng)用”環(huán)節(jié)包含“數(shù)字化平臺(tái)建設(shè)”“數(shù)字化整理”與“數(shù)字化保護(hù)”等內(nèi)容,其主要關(guān)注古籍?dāng)?shù)字化后所能實(shí)現(xiàn)的功能與價(jià)值,實(shí)現(xiàn)古籍內(nèi)容的長久性保護(hù)與現(xiàn)代化古籍信息傳播。“控制”是指“古籍著錄規(guī)則”與“古籍分類規(guī)則”等的確立,利用“數(shù)據(jù)管理”等技術(shù)實(shí)現(xiàn)古籍?dāng)?shù)字化過程的規(guī)范化,為整合古籍?dāng)?shù)字化資源提供規(guī)則。
研究通過規(guī)劃古籍?dāng)?shù)字化路徑中的關(guān)鍵環(huán)節(jié)的執(zhí)行內(nèi)容,系統(tǒng)化古籍?dāng)?shù)字化的研究目的及可行方向。
2.2.1 古籍?dāng)?shù)字化轉(zhuǎn)化內(nèi)容規(guī)劃
古籍?dāng)?shù)字化轉(zhuǎn)化是古籍?dāng)?shù)字化全路徑的開始階段,也是后續(xù)路徑階段工作開展的基礎(chǔ)。在這一階段需要選取古籍研究對象,利用現(xiàn)代化技術(shù)轉(zhuǎn)換古籍載體,實(shí)現(xiàn)古籍在終端的數(shù)字化存儲(chǔ)。
1)古籍資源的就近選取
通過觀察古籍?dāng)?shù)字化相關(guān)文獻(xiàn)的量化分析結(jié)果可以看出,古籍?dāng)?shù)字化對象的選取具備地域特色與領(lǐng)域特色,這與研究所能接觸到的資源密切相關(guān)。我國的古籍資源繁復(fù),圖書館等眾多類型機(jī)構(gòu)都具有一定的古籍館藏資源。就近選取可獲取到的古籍資源,可以保證古籍?dāng)?shù)字化的完整性及研究人員專業(yè)知識(shí)的可信度。
2)數(shù)字化處理技術(shù)的合理選擇
考慮到古籍的年代性,部分古籍的原本載體可能較脆,也可能存在一定的破損,而不同技術(shù)的成像效果與適用環(huán)境也有不同,所以針對不同古籍選取不同轉(zhuǎn)化方式尤為重要。OCR技術(shù)可以實(shí)現(xiàn)古籍的大規(guī)模文本輸入,并實(shí)現(xiàn)古文字體字形向現(xiàn)代字體字形的轉(zhuǎn)換,是進(jìn)行文本挖掘等深度研究的基礎(chǔ),因此選取合適的圖片清晰度的成像方法也是進(jìn)行古籍?dāng)?shù)字化研究所必須考慮的問題。
3)古籍?dāng)?shù)據(jù)庫的規(guī)范化設(shè)計(jì)
大多數(shù)數(shù)據(jù)庫是基于圖書館本身具有的館藏資源,或科研院所、數(shù)字化公司、眾包等方式形成,主要可以分為古籍全文數(shù)據(jù)庫、古籍電子索引和古籍書目數(shù)據(jù)庫[37],而其中以古籍全文數(shù)據(jù)庫建設(shè)較多,利用較為廣泛。
古籍全文數(shù)據(jù)庫主要包含圖像型、文本型和圖文型3種類型[38],圖文型能夠提供轉(zhuǎn)譯及修復(fù)后的古籍內(nèi)容,也可通過展示古籍圖片留存古籍原有樣貌,同時(shí)為古籍內(nèi)容的對照提供依據(jù)??梢钥闯?,好的古籍?dāng)?shù)據(jù)庫應(yīng)能夠盡可能留存多樣式古籍形式以充分發(fā)揮其數(shù)據(jù)留存作用,實(shí)現(xiàn)古籍?dāng)?shù)據(jù)的存儲(chǔ)、組織與處理。同時(shí)能夠使用數(shù)據(jù)操作語言對數(shù)據(jù)庫進(jìn)行查詢、更新等相對完善的數(shù)據(jù)庫功能。
古籍電子索引和古籍書目數(shù)據(jù)庫相較于古籍全文數(shù)據(jù)庫能更好地詮釋了古籍?dāng)?shù)據(jù)庫的數(shù)據(jù)規(guī)范問題,對于大多數(shù)古籍?dāng)?shù)據(jù)庫來說,使用更為普適的元數(shù)據(jù)體系更有助于數(shù)據(jù)庫之間的互聯(lián)互通,并有助于跨數(shù)據(jù)庫的數(shù)據(jù)利用。當(dāng)然,個(gè)別專題數(shù)據(jù)庫需要根據(jù)已有主題設(shè)置不同的元數(shù)據(jù),用以保證數(shù)據(jù)的錄入。
2.2.2 古籍?dāng)?shù)字化重構(gòu)內(nèi)容規(guī)劃
古籍?dāng)?shù)字化重構(gòu)意在實(shí)現(xiàn)對古籍內(nèi)容的深度挖掘,發(fā)現(xiàn)隱藏知識(shí),實(shí)現(xiàn)對古籍所含知識(shí)的重新組織,從而有助于更加深入地、多維度地了解古籍。
1)實(shí)體識(shí)別
實(shí)體是古籍中的重要信息載體,通常以名詞的形式出現(xiàn),如人名、地名、機(jī)構(gòu)、藥材等,是挖掘隱藏知識(shí)、找尋古籍關(guān)系的基礎(chǔ)。挖掘古籍中的實(shí)體,需要從古籍電子文檔中找尋有意義的命名實(shí)體。相對于應(yīng)用已經(jīng)較為廣泛且成熟的英語與現(xiàn)代漢語,中文古籍面臨著傳統(tǒng)字體與語法的障礙。因此,在這一過程中,除了足夠的領(lǐng)域語料之外,還需要結(jié)合自然語言處理技術(shù)與歷史學(xué)者、古文學(xué)者的學(xué)術(shù)經(jīng)驗(yàn),將計(jì)算機(jī)與人工融合,實(shí)現(xiàn)語義關(guān)系的處理,并對同一實(shí)體的不同表述進(jìn)行統(tǒng)一,從而完成實(shí)體的抽取。
2)屬性對應(yīng)
屬性是對實(shí)體更細(xì)節(jié)的解釋,可以實(shí)現(xiàn)對實(shí)體的全面介紹,通??梢宰鳛橐粋€(gè)句子中的表語出現(xiàn),如人物的年齡、籍貫、藥物的藥性等。在古籍中,實(shí)體通常不會(huì)獨(dú)立存在,而是會(huì)在上下文中予以一定的介紹,因此屬性對于實(shí)現(xiàn)古籍的重構(gòu)至關(guān)重要,豐富的屬性可以為古籍提供打破原有結(jié)構(gòu)的敘事維度,從更多的視角入手對古籍進(jìn)行深層次剖析。
3)關(guān)系抽取
關(guān)系提供了實(shí)體之間的聯(lián)系,同樣也是眾多自然語言處理任務(wù)的基礎(chǔ),可以作為句子中的賓語等形式存在。關(guān)系能夠揭示古籍中實(shí)體之間的關(guān)聯(lián),在特定的語義結(jié)構(gòu)中,能夠加深對實(shí)體所處環(huán)境的理解。同時(shí),對古籍實(shí)現(xiàn)關(guān)系抽取,也是對古籍實(shí)現(xiàn)進(jìn)一步應(yīng)用,輔助古籍?dāng)?shù)字化平臺(tái)實(shí)現(xiàn)應(yīng)用任務(wù),如在線問答、文本注釋等的基礎(chǔ)。
2.2.3 古籍?dāng)?shù)字化應(yīng)用內(nèi)容規(guī)劃
古籍?dāng)?shù)字化應(yīng)用需要依托于系統(tǒng)、平臺(tái)的建設(shè)或新興的信息化手段。隨著信息時(shí)代的到來與移動(dòng)終端的廣泛普及,古籍?dāng)?shù)字化平臺(tái)可以擴(kuò)展古籍宣傳及普及渠道,對古籍進(jìn)行新形式下的展示,同時(shí)使得古籍研究得以利用信息化手段,實(shí)現(xiàn)對古籍的整理、保護(hù)與進(jìn)一步的應(yīng)用開發(fā)。
1)多維度敘事
古籍?dāng)?shù)字化平臺(tái)是古籍進(jìn)行現(xiàn)代化內(nèi)容展示的主要載體,基于古籍的內(nèi)容重構(gòu),數(shù)字化平臺(tái)可以從多維度對古籍內(nèi)容進(jìn)行新形式呈現(xiàn)。牛力等[39]在文章中提出“時(shí)間敘事”“空間敘事”“鎖鏈型敘事”等6種檔案數(shù)據(jù)故事結(jié)構(gòu)。我國史書自古也有“紀(jì)傳體”“國別體”“編年體”等區(qū)別,總體來看,古籍主要可以從“時(shí)間”“空間”以及“實(shí)體”3個(gè)維度對內(nèi)容進(jìn)行重新組織,而數(shù)字化后的古籍恰恰可以利用如知識(shí)圖譜與時(shí)間序列模型等,充分反映古籍中實(shí)體與實(shí)體之間的關(guān)系及隨時(shí)間的演化。因此,多維度的敘事模式可以更生動(dòng)地展現(xiàn)古籍重構(gòu)后所發(fā)現(xiàn)的隱藏知識(shí)內(nèi)容。
2)宣傳與普及
古籍?dāng)?shù)字化平臺(tái)起到讓公眾了解古籍內(nèi)容的重要作用。伴隨著終端的廣泛使用以及網(wǎng)絡(luò)廣泛而高效的信息連通,古籍?dāng)?shù)字化平臺(tái)的建設(shè)勢必成為公眾接觸古籍的內(nèi)容、價(jià)值及其誕生背景等的重要渠道。上海圖書館在古籍?dāng)?shù)字化平臺(tái)建設(shè)上一直廣受業(yè)內(nèi)好評,如搭建的中文古籍聯(lián)合目錄與詢證平臺(tái),整合了官修目錄、史志目錄、藏書樓目錄等中的人名、地名等數(shù)據(jù),并在平臺(tái)中提供了內(nèi)容統(tǒng)計(jì)分析、時(shí)空及社會(huì)分析、相關(guān)可視化功能,實(shí)現(xiàn)古籍的聯(lián)合查詢、規(guī)范控制,對古籍的考證、語義關(guān)聯(lián)等研究提供了實(shí)用且有效的平臺(tái)??梢钥闯?,好的古籍?dāng)?shù)字化平臺(tái),不僅能夠提供閱讀、搜索、詢證等多方面功能,同時(shí)可以實(shí)現(xiàn)古籍規(guī)范整理,減輕古籍搜尋與閱讀難度,從而提升公眾對于古籍的了解效率。
3)保護(hù)與修復(fù)
傳統(tǒng)古籍面臨著載體老化、破損等問題,時(shí)間的推移使得古籍的保護(hù)與修復(fù)問題愈發(fā)緊迫。一方面,利用古籍?dāng)?shù)據(jù)庫可以對古籍進(jìn)行規(guī)范化整理,進(jìn)行字符編碼、元數(shù)據(jù)指定、古漢語對應(yīng)等工作,輔助傳統(tǒng)古籍的物理化保護(hù)與數(shù)字化古籍的規(guī)范存儲(chǔ);另一方面,借助計(jì)算機(jī)對古籍圖像等進(jìn)行處理,可以打破肉眼限制,對古籍的年份等進(jìn)行判定,豐富古籍背景信息,甚至對古籍內(nèi)容進(jìn)行修復(fù)。
2.2.4 古籍?dāng)?shù)字化控制內(nèi)容規(guī)劃
古籍的數(shù)字化控制階段為整個(gè)古籍?dāng)?shù)字化路徑提供參考標(biāo)準(zhǔn)與規(guī)則,從數(shù)據(jù)庫設(shè)計(jì)到古籍的內(nèi)容挖掘,從古籍?dāng)?shù)字化系統(tǒng)的建設(shè)到內(nèi)容保護(hù),都應(yīng)對標(biāo)準(zhǔn)體系加以控制,從而增加古籍?dāng)?shù)據(jù)互聯(lián)互通的可能性。
1)著錄規(guī)則
古籍由于其歷史的復(fù)雜性及數(shù)量眾多,導(dǎo)致題名復(fù)雜,用語繁復(fù),制定著錄規(guī)則可以明確古籍的著錄范圍、原則與條目,明確古籍的基本信息。因此,遵循標(biāo)準(zhǔn)化的古籍著錄規(guī)則可以盡可能地增強(qiáng)古籍著錄的普適性,減少館際古籍資源之間的引用壁壘,加強(qiáng)在古籍?dāng)?shù)據(jù)庫中的檢索覆蓋范圍,增加檢全率與檢準(zhǔn)率。目前,除去我國公布的標(biāo)準(zhǔn)化的《古籍著錄規(guī)則》外,北京大學(xué)圖書館也曾基于數(shù)字圖書館規(guī)范建設(shè)的目的,設(shè)立了一套古籍描述元數(shù)據(jù)著錄規(guī)則[40],與國家標(biāo)準(zhǔn)存在部分條目重疊的同時(shí),也為圖書館古籍著錄提供了參考。國外的古籍著錄研究多依托于圖書館等中心或機(jī)構(gòu),力求覆蓋世界上大部分的文獻(xiàn)資源編目數(shù)據(jù)。而對于如民族古籍、領(lǐng)域古籍等內(nèi)容,普適著錄規(guī)則難免出現(xiàn)不能完全適用的情況,但著錄條目也應(yīng)盡可能在標(biāo)準(zhǔn)化規(guī)則下開展。
2)分類規(guī)則
古籍分類同樣是古籍整理過程中的重要工作環(huán)節(jié),對題材與體裁均紛繁復(fù)雜的古籍進(jìn)行分類,可以輔助用戶在使用古籍?dāng)?shù)字化平臺(tái)時(shí)的檢索與瀏覽行為,節(jié)省目標(biāo)古籍查找時(shí)間,同時(shí)提升古籍?dāng)?shù)字化平臺(tái)中推薦算法應(yīng)用的準(zhǔn)確性,提升用戶可接觸到的古籍范圍。我國之前頒布了《中國古籍善本書目》,整體分為經(jīng)、史、子、集、叢5部,并在各部下方又分出類、屬等,屬之下又根據(jù)情況進(jìn)行了復(fù)分。而《全國古籍普查平臺(tái)分類表》則在經(jīng)史子集4部分類的基礎(chǔ)上,合并或新建類從部與新學(xué)部,用于解決“類書”與“叢書”之間的重復(fù)問題以及近代部分古籍的劃分問題。與著錄規(guī)則類似,采用標(biāo)準(zhǔn)化分類規(guī)則有助于古籍普查等工作,對用戶及研究人員提供更好的引導(dǎo)作用。應(yīng)盡可能在標(biāo)準(zhǔn)化規(guī)則基礎(chǔ)上根據(jù)自身資源特點(diǎn)進(jìn)行細(xì)致類目劃分,從而為古籍整理與古籍平臺(tái)設(shè)計(jì)提供一定的依據(jù)和范式。
研究結(jié)合國內(nèi)外古籍?dāng)?shù)字化研究現(xiàn)狀,基于古籍?dāng)?shù)字化路徑視角,從古籍?dāng)?shù)字化路徑各環(huán)節(jié)的規(guī)劃內(nèi)容角度分析當(dāng)前國內(nèi)古籍?dāng)?shù)字化的研究不足。
當(dāng)前我國的古籍?dāng)?shù)字化研究更多專注于古籍?dāng)?shù)字化平臺(tái)的構(gòu)建,但其僅為古籍?dāng)?shù)字化路徑中的一步,不論是從古籍的內(nèi)容正確識(shí)別、挖掘,還是從古籍的整理與保護(hù)等角度,都需要對古籍中的深層次內(nèi)容進(jìn)行探索與分析,如古籍模糊內(nèi)容識(shí)別分析、古籍內(nèi)容知識(shí)發(fā)現(xiàn)等。這些超出人工范疇目的的實(shí)現(xiàn)離不開各類數(shù)字化與信息化技術(shù)的應(yīng)用。國外在古籍?dāng)?shù)字化進(jìn)程中已經(jīng)充分利用各類機(jī)器學(xué)習(xí)技術(shù)等大量信息技術(shù)對古籍進(jìn)行文本和特征識(shí)別等工作,達(dá)到了較高的準(zhǔn)確率。國內(nèi)研究對于利用數(shù)字化和信息化技術(shù)來實(shí)現(xiàn)古籍內(nèi)容的挖掘和延伸仍存在不足,且涉及算法輔助古籍內(nèi)容的挖掘和識(shí)別的研究也多使用成熟算法,對算法的改進(jìn)仍有較大空間。
我國因歷史悠久,以及具有豐富的文化積累與文明體系,在時(shí)代變遷中產(chǎn)生了多民族、多主題、多形式的古籍,為我國的文化傳承提供了豐富素材與寶貴的財(cái)富。但同時(shí),我國古籍因其內(nèi)容與形式上的不同,同樣有很多學(xué)者在研究中構(gòu)建了專題古籍的元數(shù)據(jù)標(biāo)準(zhǔn),雖方便了古籍專題數(shù)據(jù)庫的構(gòu)建,卻也導(dǎo)致了多種古籍著錄規(guī)則的出現(xiàn),這為數(shù)據(jù)庫內(nèi)容互通帶來了一定的困難,使得統(tǒng)一的古籍著錄規(guī)則被利用率有限。
同時(shí),國內(nèi)目前也缺乏一個(gè)能夠面向古籍整體進(jìn)行分類的標(biāo)準(zhǔn)。我國很多圖書館與數(shù)字化平臺(tái)會(huì)利用“經(jīng)、史、子、集”傳統(tǒng)類目以及中圖法等元數(shù)據(jù)標(biāo)準(zhǔn)對古籍進(jìn)行分類,但這些分類法并不完全面向古籍?dāng)?shù)據(jù)庫構(gòu)建且細(xì)化程度不夠,導(dǎo)致不同圖書館與平臺(tái)之間,同一古籍所處的類目不同。這同樣會(huì)導(dǎo)致館際數(shù)據(jù)互通的混亂,導(dǎo)致館際數(shù)據(jù)互通過程中的存儲(chǔ)資源的浪費(fèi)。
從文獻(xiàn)分析結(jié)果可以看出,國內(nèi)目前構(gòu)建了許多古籍?dāng)?shù)字化平臺(tái),內(nèi)容豐富,完善了眾多圖書館館藏體系。但同時(shí),目前的古籍?dāng)?shù)字化平臺(tái)架構(gòu)大多基于閱讀和檢索的功能,所提供的服務(wù)相對基礎(chǔ)和單一。通過國外的古籍?dāng)?shù)字化平臺(tái)建設(shè)可以看出,很多平臺(tái)以及古籍?dāng)?shù)據(jù)庫都加入了數(shù)據(jù)統(tǒng)計(jì)與分析的能力,引入云計(jì)算、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)等方法,直接利用平臺(tái)內(nèi)的古籍?dāng)?shù)據(jù),進(jìn)行大量深層次分析。顯然,將數(shù)字化平臺(tái)賦予這類技術(shù)更有利于將古籍資源與學(xué)術(shù)研究相結(jié)合,研究人員可以直接利用平臺(tái)中的資源進(jìn)行高學(xué)術(shù)層次的數(shù)據(jù)分析,這使得研究過程中的數(shù)據(jù)獲取與數(shù)據(jù)分析進(jìn)程都得到了簡化,降低了研究過程中第三方軟件的培訓(xùn)過程與使用成本,有助于加強(qiáng)古籍研究成果的轉(zhuǎn)化。
國內(nèi)古籍?dāng)?shù)據(jù)庫面臨的一個(gè)主要問題是古籍資源的互聯(lián)互通缺失,古籍?dāng)?shù)據(jù)庫之間缺乏有效的連接和交互,這導(dǎo)致了古籍資源的碎片化和孤立化。美國OCLC平臺(tái)為各個(gè)圖書館提供了一個(gè)統(tǒng)一的資源共享網(wǎng)絡(luò),使得圖書館之間能夠共享書目數(shù)據(jù)、館藏信息和數(shù)字資源,方便研究者查找并獲取全球范圍內(nèi)的圖書館藏書,不受地域限制,極大地拓寬了其獲取古籍資源的渠道和范圍。然而在國內(nèi),各個(gè)古籍?dāng)?shù)據(jù)庫之間缺乏標(biāo)準(zhǔn)化的數(shù)據(jù)格式和共享協(xié)議,導(dǎo)致了資源的孤立性和重復(fù)建設(shè)。研究者往往需要在多個(gè)數(shù)據(jù)庫之間進(jìn)行繁瑣的搜索和轉(zhuǎn)換操作,以獲取所需的古籍信息,限制了研究效率和深度。
我國的古籍?dāng)?shù)量繁多,種類、題材多樣,在古籍?dāng)?shù)字化對象選取中,應(yīng)堅(jiān)持選用“中國特色”古籍,進(jìn)一步深耕我國各類古籍文獻(xiàn)。同時(shí)也應(yīng)嘗試將研究目光投向稀有的、冷門的、瀕臨失傳的古籍文獻(xiàn),加快此類古籍的數(shù)字化進(jìn)程,為古籍的保護(hù)以及古籍?dāng)?shù)字化新的領(lǐng)域研究打下基礎(chǔ)。
同時(shí),古籍?dāng)?shù)字化不能僅僅局限于對古籍的研究與理解,計(jì)算機(jī)技術(shù)、信息技術(shù)等多學(xué)科的內(nèi)容也需要在其中扮演重要角色。因此,在未來關(guān)于古籍?dāng)?shù)字化的研究與項(xiàng)目中,需要將文獻(xiàn)學(xué)、歷史學(xué)、計(jì)算機(jī)、信息資源管理乃至材料學(xué)等學(xué)科充分融合,對各學(xué)科技術(shù)實(shí)現(xiàn)充分利用,發(fā)揮古籍?dāng)?shù)字化所涉及的相關(guān)學(xué)科的長處,才能更充分地實(shí)現(xiàn)古籍的整理與數(shù)字化轉(zhuǎn)化,盡可能地保留古籍所攜帶的信息。
古籍?dāng)?shù)字化存儲(chǔ)所用的數(shù)據(jù)庫及重構(gòu)后的知識(shí)組織平臺(tái)是數(shù)字版古籍重要的資源載體,是對古籍進(jìn)一步研究利用的重要數(shù)據(jù)來源。未來,應(yīng)當(dāng)在古籍?dāng)?shù)字化控制所涉及的元數(shù)據(jù)標(biāo)準(zhǔn)體系的基礎(chǔ)上對古籍存儲(chǔ)平臺(tái)的架構(gòu)進(jìn)行改善,同時(shí)盡可能設(shè)置數(shù)據(jù)庫之間的接口,探索建立互聯(lián)互通機(jī)制。通過制定共享標(biāo)準(zhǔn)、建立數(shù)據(jù)交換平臺(tái)和推動(dòng)合作共建,國內(nèi)的古籍?dāng)?shù)據(jù)庫可以實(shí)現(xiàn)資源的整合和共享,使研究者能夠更便捷地訪問和利用豐富的古籍資源,推動(dòng)古籍研究的深入發(fā)展,以達(dá)成各古籍?dāng)?shù)據(jù)庫與知識(shí)平臺(tái)之間的互聯(lián)互通,實(shí)現(xiàn)資源共享,擴(kuò)大古籍?dāng)?shù)字化研究的數(shù)據(jù)可選擇范圍,從而保證數(shù)字化古籍的利用效率與研究的深化。
在未來,針對古籍的著錄、技術(shù)、管理和工作流程上,都可以進(jìn)一步開發(fā)并完善相關(guān)的標(biāo)準(zhǔn)體系,以及在已有標(biāo)準(zhǔn)下進(jìn)行說明或細(xì)化。政府和權(quán)威機(jī)構(gòu)可以組織、領(lǐng)導(dǎo)相關(guān)工作,從而出臺(tái)規(guī)范化、統(tǒng)一化、實(shí)用性高的標(biāo)準(zhǔn)化體系,在保證體系得到細(xì)化的同時(shí),也保證其可借鑒性,從而促進(jìn)資源的廣泛利用。如果能夠在已有標(biāo)準(zhǔn)體系的基礎(chǔ)上設(shè)計(jì)充分細(xì)化的古籍著錄規(guī)則與分類體系,將有助于規(guī)范化古籍?dāng)?shù)字化研究,以相對統(tǒng)一的標(biāo)準(zhǔn)體系涵蓋專題古籍內(nèi)容,提升相關(guān)研究的借鑒與接續(xù)能力,有助于古籍?dāng)?shù)字化平臺(tái)、數(shù)據(jù)庫與圖書館之間的互聯(lián)互通與資源共享,加強(qiáng)數(shù)字化古籍的整體性與規(guī)范性。
充分利用現(xiàn)有的信息化技術(shù),通過語義分析與關(guān)聯(lián),對古籍內(nèi)容進(jìn)行深層次探索,改進(jìn)算法使之更符合古籍語言規(guī)律,從而挖掘古籍內(nèi)容中的隱含信息,形成知識(shí)發(fā)現(xiàn)是當(dāng)前形勢下古籍?dāng)?shù)字化的一項(xiàng)重要任務(wù)。目前,知識(shí)圖譜等可視化模型的構(gòu)建越來越受到重視,其是知識(shí)發(fā)現(xiàn)的重要表現(xiàn)形式,所能生成的結(jié)構(gòu)化數(shù)據(jù)有助于被研究人員進(jìn)一步利用,為古籍?dāng)?shù)字化平臺(tái)的智能化功能開發(fā)提供研究基礎(chǔ)。而知識(shí)發(fā)現(xiàn)及其重組與可視化是挖掘、抽取并理解文本內(nèi)容的重要方式,也是深刻理解古籍含義的重要研究目的。有效的知識(shí)發(fā)現(xiàn)有助于古籍的整理與保護(hù),以及古籍中的重要信息和價(jià)值的傳承。因此,加強(qiáng)古籍?dāng)?shù)字化技術(shù)的開發(fā)與利用,充分結(jié)合信息技術(shù)以驅(qū)動(dòng)對古籍的知識(shí)發(fā)現(xiàn)是未來古籍?dāng)?shù)字化研究中的重要方向,是增強(qiáng)古籍研究利用、提升古籍價(jià)值的重要手段與途徑。
古籍?dāng)?shù)字化的目的,則是能夠?qū)崿F(xiàn)信息挖掘與知識(shí)發(fā)現(xiàn),保留并提升古籍價(jià)值,并為古籍的相關(guān)研究提供基礎(chǔ)。因此,通過面向用戶需求構(gòu)建新的數(shù)字化平臺(tái)應(yīng)用應(yīng)是未來古籍?dāng)?shù)字化平臺(tái)建設(shè)的重要方向。隨著技術(shù)的發(fā)展與研究的逐漸深入,未來有著大量的服務(wù)于用戶的應(yīng)用可以被推廣與使用到古籍?dāng)?shù)字化平臺(tái)上來。如輔助閱讀的古漢語字典、紀(jì)年換算以及論壇功能等,都可以輔助用戶對古籍進(jìn)行理解乃至交流,是現(xiàn)有基礎(chǔ)功能的深化形式。另外,為了方便信息挖掘與知識(shí)發(fā)現(xiàn),字/詞頻統(tǒng)計(jì)、主題聚類、地理空間模型、主體與關(guān)系關(guān)聯(lián)及相關(guān)內(nèi)容的可視化功能均可作為應(yīng)用被提供,減少研究中的時(shí)間及人力成本,充分滿足用戶需求。
本文利用Python以及CiteSpace等相關(guān)軟件與技術(shù),對國內(nèi)外古籍?dāng)?shù)字化主題文獻(xiàn)的研究現(xiàn)狀進(jìn)行了分析,找出了包括研究對象選取、數(shù)字化處理、數(shù)字化存儲(chǔ)在內(nèi)的10項(xiàng)古籍?dāng)?shù)字化主要研究內(nèi)容。文章進(jìn)一步將古籍?dāng)?shù)字化主要研究內(nèi)容與五原語論及數(shù)字人文技術(shù)體系相對應(yīng),構(gòu)建出了古籍?dāng)?shù)字化路徑,為古籍?dāng)?shù)字化工作及古籍進(jìn)一步開發(fā)提供參考。
通過分析結(jié)果可以看出,我國目前關(guān)于古籍?dāng)?shù)字化的研究在技術(shù)運(yùn)用、平臺(tái)服務(wù)、標(biāo)準(zhǔn)化體系構(gòu)建與完善等方面還有進(jìn)步空間。在未來,我國古籍?dāng)?shù)字化研究應(yīng)加強(qiáng)信息技術(shù)使用,提升學(xué)科融合能力,開發(fā)面向用戶的數(shù)字化平臺(tái)應(yīng)用,并進(jìn)一步完善古籍?dāng)?shù)字化標(biāo)準(zhǔn)體系,從而為古籍信息化挖掘與知識(shí)發(fā)現(xiàn)提供有效地幫助,為提升古籍利用價(jià)值以及更好地保護(hù)傳世古籍做出更大的貢獻(xiàn)。