●李 敏 (海南師范大學(xué) ???571158)
古籍具有極高的研究價值,也具有一定的特殊性,經(jīng)常性的翻閱會導(dǎo)致古籍受到損害。數(shù)字人文時代出現(xiàn)了文本挖掘、數(shù)字孿生、語義技術(shù)、機(jī)器學(xué)習(xí)等技術(shù),為古籍?dāng)?shù)字化建設(shè)提供了新的研究方法和研究方式,古籍文獻(xiàn)資料能以數(shù)據(jù)形式呈現(xiàn)出來,利用計算機(jī)技術(shù)可以對古籍進(jìn)行數(shù)據(jù)化組織和處理,提高了古籍的學(xué)術(shù)價值。目前,圖書館在古籍資源建設(shè)領(lǐng)域已具有一定規(guī)模,開發(fā)了一些古籍?dāng)?shù)據(jù)庫(如鼎秀古籍、中國基本古籍庫、雕龍古籍等),為古籍研究提供了檢索途徑。但是古籍?dāng)?shù)據(jù)化組織比較偏重古籍事實的描述,缺乏一些古籍知識發(fā)現(xiàn)、知識關(guān)聯(lián)的服務(wù),同時呈現(xiàn)方式比較單一,可視化服務(wù)較少。因此本文在分析數(shù)字人文時代圖書館古籍?dāng)?shù)據(jù)化組織基本要求的基礎(chǔ)上,從注重知識關(guān)聯(lián)以及可視化呈現(xiàn)的角度提出了數(shù)字人文時代圖書館古籍?dāng)?shù)據(jù)化組織途徑,從完善古籍?dāng)?shù)據(jù)組織標(biāo)準(zhǔn)化建設(shè)、加強(qiáng)古籍知識關(guān)聯(lián)研究以及促進(jìn)不同機(jī)構(gòu)共建共享三方面為未來古籍?dāng)?shù)據(jù)化組織建言獻(xiàn)策,旨在不斷提高圖書館古籍服務(wù)的效能。
數(shù)字人文是在計算機(jī)技術(shù)的推動下發(fā)展而來的,數(shù)字人文時代最大的特點是人文資料可以利用計算機(jī)實現(xiàn)數(shù)據(jù)化,使人文資料可以被量化分析[1]。目前圖書館的數(shù)字人文研究主要集中在館藏資源建設(shè),如數(shù)字資源知識圖譜構(gòu)建[2]、館藏資源數(shù)字化建設(shè)[3],圖書館人文服務(wù),如服務(wù)優(yōu)化[4]、館員職責(zé)分配[5]等方面。圖書館利用數(shù)字人文相關(guān)技術(shù)對人文資料進(jìn)行數(shù)據(jù)化,形成數(shù)字化資源,為人文研究提供豐富的學(xué)術(shù)資料。
圖書館古籍文獻(xiàn)資源具有三方面特點:一是數(shù)量龐大,人類幾千年的歷史文明產(chǎn)生的文化遺產(chǎn)頗多[6];二是結(jié)構(gòu)比較復(fù)雜,古籍中有散文、小說、地方志等,內(nèi)容復(fù)雜多樣;三是表現(xiàn)形式多樣,語言隔閡、文化差異以及不同的傳播途徑導(dǎo)致古籍形式多樣。古籍不同于一般的圖書,經(jīng)常性的翻閱會對古籍造成一定的損害。目前圖書館古籍資源的研究主要集中在資源開發(fā)利用與保護(hù)[7-8]、古籍?dāng)?shù)據(jù)庫建設(shè)[9]、知識組織應(yīng)用研究[10]等方面。圖書館對古籍的數(shù)據(jù)化組織需要保證古籍的真實性、完整性和可讀性,通過計算機(jī)揭示古籍資源的形式,發(fā)現(xiàn)古籍知識間的規(guī)律,實現(xiàn)知識之間的關(guān)聯(lián)性,促進(jìn)知識共享,從而更好地為學(xué)術(shù)研究服務(wù)。
古籍具有豐富的學(xué)術(shù)與研究價值,同時又具有一定的特殊性。通過計算機(jī)技術(shù)實現(xiàn)古籍?dāng)?shù)據(jù)化組織對于古籍的保護(hù)、利用和共享具有重要的意義。目前古籍?dāng)?shù)字化建設(shè)雖然取得了一定的進(jìn)展,但仍存在缺乏統(tǒng)一的編目標(biāo)準(zhǔn)、文字轉(zhuǎn)化率不高等問題。由于各個圖書館使用的數(shù)字化平臺不同,數(shù)據(jù)格式存在差異,古籍?dāng)?shù)字資源無法直接轉(zhuǎn)換,限制了古籍?dāng)?shù)字資源的檢索和共享。數(shù)字人文時代開展古籍?dāng)?shù)據(jù)化組織的意義,一是增強(qiáng)古籍?dāng)?shù)據(jù)化組織的標(biāo)準(zhǔn)化和規(guī)范化;二是提高古籍利用率,促進(jìn)古籍文獻(xiàn)資源的傳播;三是為人文研究提供可靠的數(shù)據(jù)來源,提高古籍的學(xué)術(shù)價值。
數(shù)字人文時代古籍?dāng)?shù)據(jù)化組織必須保證古籍的真實可靠。古籍?dāng)?shù)據(jù)真實性主要體現(xiàn)在以下四個方面:古籍來源可溯源到原始材料;古籍加工、處理、分析過程需要保證數(shù)據(jù)一致性;針對某一類古籍?dāng)?shù)據(jù)收錄的比較齊全,覆蓋面廣;系統(tǒng)能夠準(zhǔn)確呈現(xiàn)出古籍?dāng)?shù)據(jù)化組織結(jié)果,確保數(shù)據(jù)真實性。數(shù)字人文時代古籍?dāng)?shù)據(jù)的真實性將直接影響古籍的可信度以及古籍的利用效率。
數(shù)字人文時代最大的特點是人文數(shù)據(jù)可以被量化分析,古籍?dāng)?shù)據(jù)化組織的基礎(chǔ)是古籍?dāng)?shù)據(jù)可計算性。古籍本不具備數(shù)字特征,通過計算機(jī)技術(shù)實現(xiàn)古籍的數(shù)字化,使古籍具有明確的計量屬性,揭示了古籍的多種屬性,并通過對這些屬性進(jìn)行描述與標(biāo)注,為后續(xù)古籍?dāng)?shù)據(jù)的挖掘與知識關(guān)聯(lián)奠定基礎(chǔ)。
古籍?dāng)?shù)據(jù)差異性大,數(shù)據(jù)混雜,可能存在數(shù)據(jù)孤島現(xiàn)象。數(shù)字人文時代古籍?dāng)?shù)據(jù)化組織的目的是提高古籍?dāng)?shù)據(jù)的利用效率以及更好地服務(wù)于學(xué)術(shù)研究,因此古籍?dāng)?shù)據(jù)化組織的過程需要保證古籍?dāng)?shù)據(jù)的可獲得性、可訪問性。為了提高古籍?dāng)?shù)據(jù)的可獲得性,古籍?dāng)?shù)據(jù)化組織必須加強(qiáng)數(shù)據(jù)揭示以及數(shù)據(jù)的著錄、本體等的描述,注重古籍?dāng)?shù)據(jù)關(guān)聯(lián)以及知識發(fā)現(xiàn)。古籍?dāng)?shù)據(jù)檢索工具的實用性、準(zhǔn)確性、響應(yīng)速度同樣對數(shù)據(jù)的可獲得性產(chǎn)生較大影響。
數(shù)字人文時代各種計算機(jī)技術(shù)發(fā)展迅猛,為古籍?dāng)?shù)據(jù)化組織提供了文本識別技術(shù)[11]、文本挖掘技術(shù)[12]、地理信息系統(tǒng)技術(shù)[13]、關(guān)聯(lián)數(shù)據(jù)技術(shù)等,提高了古籍文獻(xiàn)數(shù)據(jù)化組織的智能化水平。傳統(tǒng)模式下的古籍?dāng)?shù)據(jù)化管理主要是深入分析單一數(shù)據(jù)源,數(shù)字人文時代強(qiáng)調(diào)對古籍?dāng)?shù)據(jù)源的多視角分析,實現(xiàn)古籍知識關(guān)聯(lián)。數(shù)字人文時代圖書館古籍文獻(xiàn)資源的數(shù)據(jù)化組織包含古籍?dāng)?shù)字化、古籍?dāng)?shù)據(jù)融合、實現(xiàn)知識關(guān)聯(lián)及應(yīng)用三方面內(nèi)容(見圖1)。古籍?dāng)?shù)字化是古籍?dāng)?shù)據(jù)化組織的基礎(chǔ),將紙質(zhì)資源轉(zhuǎn)化為數(shù)字資源,實現(xiàn)古籍資源在數(shù)字世界的映射,使得古籍資源能夠被計算機(jī)存儲。古籍?dāng)?shù)據(jù)融合是古籍?dāng)?shù)據(jù)化組織的核心環(huán)節(jié),是實現(xiàn)古籍知識關(guān)聯(lián)的關(guān)鍵,將多源異構(gòu)多模的古籍?dāng)?shù)字資源進(jìn)行融合,進(jìn)行多維度數(shù)據(jù)挖掘和分析,發(fā)現(xiàn)更多古籍?dāng)?shù)據(jù)間的規(guī)律。古籍知識關(guān)聯(lián)是古籍?dāng)?shù)據(jù)化組織的目的,通過語義技術(shù)和關(guān)聯(lián)技術(shù)構(gòu)建古籍知識網(wǎng)絡(luò),發(fā)現(xiàn)隱性古籍知識,促進(jìn)古籍知識的利用和共享。最后通過可視化工具如文本可視化工具、HTML可視化工具、XML可視化工具等將古籍?dāng)?shù)據(jù)化組織結(jié)果呈現(xiàn)出來,幫助用戶快速理解和分析古籍。
圖1 數(shù)字人文時代古籍?dāng)?shù)據(jù)化組織的途徑
數(shù)字人文時代開發(fā)了很多數(shù)字化處理古籍的工具,為古籍?dāng)?shù)據(jù)化組織提供了可行方案。古籍?dāng)?shù)字化的核心是將紙質(zhì)古籍轉(zhuǎn)化為可量化分析的數(shù)據(jù),重組文獻(xiàn)的內(nèi)容,便于后續(xù)的古籍?dāng)?shù)據(jù)加工與分析。目前古籍?dāng)?shù)字化流程主要包含4個步驟:古籍掃描、文獻(xiàn)識別、文獻(xiàn)數(shù)字化、信息入庫。古籍掃描大多采用線性CCD掃描,既可以采用V模型,也可以采用平面模式掃描古籍。通過線性CCD掃描能捕捉到古籍中的所有內(nèi)容,同時減少掃描對古籍的傷害,保護(hù)珍貴古籍。文獻(xiàn)識別一般采用光學(xué)字符識別技術(shù),通過特征提取和特征識別實現(xiàn)古籍文本、圖像、表格等的識別。文獻(xiàn)數(shù)字化是指將識別后的古籍進(jìn)行重組,轉(zhuǎn)化為可量化分析的數(shù)據(jù),便于后續(xù)文本挖掘與分析。信息入庫是最后將識別出的紙質(zhì)古籍資源錄入數(shù)據(jù)庫。
古籍?dāng)?shù)字化的過程需要保證古籍的完整性、準(zhǔn)確性,同時還需要減少對古籍的損傷。如通過冷光掃描儀,采用非接觸掃描結(jié)合冷光技術(shù)大幅度減少了對古籍的損害,同時掃描速度快,掃描準(zhǔn)確度高,可以將掃描完成的古籍轉(zhuǎn)化為pdf、word等格式,為后續(xù)古籍處理和分析提供了便利。圖書館在古籍?dāng)?shù)字化處理階段,可以選擇與數(shù)字化供應(yīng)商合作,保障古籍掃描工具的性能,提高古籍?dāng)?shù)字化處理效率。
數(shù)據(jù)融合是實現(xiàn)古籍?dāng)?shù)據(jù)化組織的關(guān)鍵,對提高古籍資源利用率至關(guān)重要。古籍?dāng)?shù)據(jù)融合是采用一定的方法聚合或整合同一對象的多個屬性,消除數(shù)據(jù)冗雜,生成該對象的綜合數(shù)據(jù)集。古籍?dāng)?shù)據(jù)融合遵循一些通用的古籍編目規(guī)則,對不同來源的數(shù)字化古籍資源進(jìn)行清理和數(shù)據(jù)轉(zhuǎn)換,構(gòu)建結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)組合和聚合形成相應(yīng)的數(shù)據(jù)集。
古籍?dāng)?shù)據(jù)融合包含異構(gòu)數(shù)據(jù)、多源數(shù)據(jù)、多模數(shù)據(jù)融合,從數(shù)據(jù)簡單組合到特征提取分析再到語義信息融合,層層遞進(jìn),將不同屬性以及可能存在關(guān)聯(lián)的數(shù)據(jù)融合成新的數(shù)據(jù)集,增強(qiáng)了古籍?dāng)?shù)據(jù)的完整性。
古籍?dāng)?shù)據(jù)集是多源異構(gòu)古籍?dāng)?shù)據(jù)融合的數(shù)據(jù)集,數(shù)據(jù)集之間存在著緊密的關(guān)系,通過元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)等聚類方法進(jìn)行古籍知識聚合和集成,建立數(shù)據(jù)間的語義關(guān)聯(lián),構(gòu)建知識鏈條,形成知識網(wǎng)絡(luò)。古籍知識關(guān)聯(lián)過程包含元數(shù)據(jù)構(gòu)建、本體設(shè)計、數(shù)據(jù)關(guān)聯(lián)等。通過構(gòu)建語義本體,顯示古籍資源之間的關(guān)聯(lián)關(guān)系,揭示古籍知識內(nèi)容,實現(xiàn)古籍?dāng)?shù)據(jù)鏈接的新模式。知識圖譜是古籍?dāng)?shù)據(jù)關(guān)聯(lián)的一種方式,通過語義標(biāo)注和鏈接相關(guān)古籍文獻(xiàn)資源,描述相關(guān)概念、實體、事件間的語義關(guān)系,建立知識網(wǎng)絡(luò),為建立知識庫以及為用戶語義檢索提供便利。
古籍知識應(yīng)用是為用戶提供古籍語義檢索的服務(wù),提高了古籍文獻(xiàn)資源的利用率,拓展了古籍知識共享范圍,同時將檢索結(jié)果通過可視化工具呈現(xiàn)出來,方便用戶直觀地了解古籍?dāng)?shù)據(jù)。例如,中華經(jīng)典古籍庫提供同義詞和關(guān)聯(lián)字檢索,為知識結(jié)構(gòu)不完整的用戶提供了檢索便利,提高了古籍的查全率,同時為科研工作者發(fā)現(xiàn)隱性關(guān)聯(lián)知識提供了檢索途徑;上海圖書館的家譜服務(wù)平臺以時間軸的方式呈現(xiàn)相關(guān)聯(lián)的名人、宗譜古籍以及相關(guān)歷史事件,方便用戶深入了解家譜文化。
計算機(jī)技術(shù)為古籍文獻(xiàn)數(shù)據(jù)化組織提供了可能,很多圖書館也開發(fā)了古籍?dāng)?shù)字化系統(tǒng),實現(xiàn)了古籍的數(shù)據(jù)化。為了減少編目規(guī)則的混亂,2003年國內(nèi)啟動了CALIS古籍聯(lián)合編目項目[14],建立了古籍?dāng)?shù)據(jù)化組織的參照體系。目前國內(nèi)圖書館主要以《CALIS古籍聯(lián)機(jī)合作編目規(guī)則》為古籍編目的規(guī)則,采用統(tǒng)一的標(biāo)準(zhǔn)對古籍進(jìn)行歸類、記錄和標(biāo)引,準(zhǔn)確地揭示了古籍資源,為古籍資源整合和古籍?dāng)?shù)據(jù)庫建設(shè)提供了有利條件。未來圖書館仍需與時俱進(jìn),進(jìn)一步完善古籍?dāng)?shù)據(jù)化組織規(guī)則,提高數(shù)據(jù)的標(biāo)準(zhǔn)化和規(guī)范化,提高古籍?dāng)?shù)字化的轉(zhuǎn)化效率和速度,促進(jìn)古籍文獻(xiàn)資源智能化發(fā)展。
古籍?dāng)?shù)據(jù)化組織的目的是促進(jìn)古籍文獻(xiàn)資源的利用和共享,實現(xiàn)古籍知識關(guān)聯(lián)。本體技術(shù)是實現(xiàn)古籍知識關(guān)聯(lián)的重要工具。本體技術(shù)支持古籍自動化編目,可以實現(xiàn)對古籍文獻(xiàn)資源的語義分析,自動抽取古籍概念,建立古籍知識關(guān)聯(lián),形成古籍知識網(wǎng)絡(luò)。古籍的本體構(gòu)建可以從兩個角度進(jìn)行[15]:一是基于學(xué)科特色構(gòu)建領(lǐng)域本體,如中醫(yī)古籍本體構(gòu)建以中醫(yī)專業(yè)名詞為核心概念;二是基于文獻(xiàn)類型構(gòu)建領(lǐng)域本體,如人物傳記古籍本體構(gòu)建以人物和歷史事件為核心概念。未來的古籍研究仍需不斷研究開發(fā)知識表示的工具,加強(qiáng)古籍語料庫的積累,自動更新知識組織工具,深化對古籍?dāng)?shù)據(jù)挖掘與語義關(guān)聯(lián)的研究,完善古籍知識網(wǎng)絡(luò)。
目前很多圖書館對古籍文獻(xiàn)資源進(jìn)行加工,構(gòu)建了多個古籍?dāng)?shù)據(jù)庫。不同的數(shù)據(jù)形式對不同平臺間的資源整合造成了一定的困難。因此不同機(jī)構(gòu)間應(yīng)加強(qiáng)合作,實現(xiàn)多源異構(gòu)古籍資源的融合,促進(jìn)古籍文獻(xiàn)資源的利用和共享。首先,建立統(tǒng)一的古籍?dāng)?shù)據(jù)庫,采取統(tǒng)一的數(shù)據(jù)清洗方式、統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),為用戶提供統(tǒng)一的古籍?dāng)?shù)據(jù)資源檢索平臺。該方法可以促進(jìn)機(jī)構(gòu)間的共建共享,通過緊密的合作避免資源重復(fù)建設(shè),加強(qiáng)古籍資源數(shù)字化規(guī)范性建設(shè),提高古籍?dāng)?shù)據(jù)質(zhì)量。其次,利用跨庫檢索技術(shù),建立集成古籍?dāng)?shù)據(jù)庫系統(tǒng),用戶只需要一個檢索接口就可以檢索到多源異構(gòu)資源。該方法可以減少用戶的檢索時間,用戶僅需在集成數(shù)據(jù)庫中進(jìn)行檢索就可以得到多種數(shù)據(jù)來源。不同機(jī)構(gòu)間要不斷強(qiáng)化合作,積極為古籍?dāng)?shù)據(jù)化組織建言獻(xiàn)策,不斷完善古籍保護(hù)機(jī)制。
數(shù)字人文時代古籍?dāng)?shù)據(jù)是古籍?dāng)?shù)據(jù)化組織的基礎(chǔ)和關(guān)鍵,通過計算機(jī)技術(shù)實現(xiàn)了古籍?dāng)?shù)字化,為古籍?dāng)?shù)據(jù)挖掘與分析奠定了基礎(chǔ)。本文分析了數(shù)字人文時代圖書館古籍?dāng)?shù)據(jù)化組織的基本要求:保證古籍?dāng)?shù)據(jù)的真實性、可計算性以及可獲得性,并在此基礎(chǔ)上提出了古籍?dāng)?shù)據(jù)化組織的途徑,注重古籍?dāng)?shù)據(jù)挖掘以及知識關(guān)聯(lián),利用可視化工具直觀地展示古籍?dāng)?shù)據(jù)化組織結(jié)果。圖書館古籍?dāng)?shù)據(jù)化組織不但能提高古籍的利用效率,拓展古籍的共享范圍,而且能提高圖書館知識服務(wù)水平,帶動人文科學(xué)的發(fā)展。未來圖書館古籍?dāng)?shù)據(jù)化組織仍需不斷完善古籍?dāng)?shù)據(jù)組織標(biāo)準(zhǔn)化建設(shè),提高古籍知識發(fā)現(xiàn)能力,加強(qiáng)機(jī)構(gòu)間共建共享,以減少數(shù)據(jù)庫重復(fù)性建設(shè)以及減少資源浪費(fèi)。