圖書館古籍?dāng)?shù)字資源整合研究?

2014-08-15 00:49

圖書館 2014年4期

(國家圖書館北京 100081)

1 圖書館古籍?dāng)?shù)字資源整合現(xiàn)狀綜述

古籍文獻資源具有稀缺性、易損性，且存世量少，多年來，讀者要使用古籍文獻時需到館查詢卡片記錄，有限制地在固定地點閱覽部分古籍文獻，造成大量的古籍文獻束之高閣，極大地降低了古籍文獻的利用率。近年來，數(shù)字化成為古籍文獻保存與利用的主要途徑，圖書館制作了多種類型的數(shù)據(jù)庫供讀者使用，并不斷對古籍文獻進行深入挖掘，為讀者提供精細化知識服務(wù)。目前，對古籍文獻聚合的實踐具有以下幾個特點:

1．1 建設(shè)了大量的書目數(shù)據(jù)庫

書目數(shù)據(jù)是圖書館對文獻進行揭示與整合、為用戶提供信息服務(wù)的最基本的工具之一，通過書目數(shù)據(jù)，用戶能夠便利地找到自己所需要的文獻，這一知識產(chǎn)品代表著圖書館的核心競爭力。

絕大多數(shù)圖書館都對本館所藏的古籍文獻進行了編目，形成大量的書目數(shù)據(jù)，其特點在于一般均按照規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)進行著錄。部分圖書館在基本的著錄項之外還基于古籍的特點增加了一些特殊字段。如:山東大學(xué)古籍?dāng)?shù)據(jù)庫的元數(shù)據(jù)包括書名、卷數(shù)、作者、類別、抄刻者、封面、牌記、開本、版框、刻工、序跋、藏印、附注等23個字段。中國國家圖書館的古籍普查登記元數(shù)據(jù)包括題名、著者、版本、分類、版式、裝幀、裝具、序跋、刻工、批校題跋、鈐印、附件、文獻來源、修復(fù)歷史、叢書子目、定級、定損、相關(guān)書影等字段。

1．2 對古籍文獻進行再加工，提供增值信息

多年來，圖書館一直致力于對古籍文獻進行再加工，為用戶提供增值信息。其中，制作索引數(shù)據(jù)庫是較為常見的形式。

索引數(shù)據(jù)庫的建設(shè)主要包括以下三方面的工作:一是對一些已出版的索引類工具書進行全文數(shù)字化，提供用戶使用，如:“中英文圖書數(shù)字化國際合作計劃(CADAL)”數(shù)字化的古籍索引類文獻有數(shù)百種之多;二是在古籍?dāng)?shù)據(jù)庫的基礎(chǔ)上建設(shè)索引數(shù)據(jù)庫，如:明人文集聯(lián)合目錄與篇目索引資料庫整合了臺灣地區(qū)各收藏單位的藏品資料，包括故宮博物院圖書館、臺灣大學(xué)圖書館、中研院傅斯年圖書館、國家圖書館及漢學(xué)研究中心所藏明人文集，具備有全文、篇目、書名、作者檢索等多項檢索功能;〔1〕三是建設(shè)專門用于古籍的自動索引系統(tǒng)，并利用索引系統(tǒng)進行古籍文獻的索引工作，如:湘潭大學(xué)研制的古籍索引自動編輯系統(tǒng)(RPSYBJ)可自動編制古籍的逐字索引、句子索引、人名索引、地名索引及其他專題索引，并利用該系統(tǒng)編制了《宋詞別集索引三種》?！?〕

1．3 出現(xiàn)大量的全文影像數(shù)據(jù)庫

近年來，古籍?dāng)?shù)字化工作蓬勃開展，除了圖書館進行的本館館藏古籍?dāng)?shù)字化外，還有一些跨地區(qū)的項目，如古登堡計劃(Project Gutenberg)、中美百萬冊圖書數(shù)字圖書館計劃等項目中的文獻數(shù)字化都包含中國古籍。在各方的努力下，大量的中國古籍已經(jīng)被數(shù)字化，古籍全文數(shù)據(jù)庫成為用戶利用古籍文獻的重要途徑。

除對普通古籍進行數(shù)字化、建設(shè)全文影像數(shù)據(jù)庫外，圖書館還基于本館的特色館藏建設(shè)了很多專題數(shù)據(jù)庫。如:中國國家圖書館館藏西夏文獻大多為西夏、元代孤本，是研究古代西夏、元代紙張、絲綢質(zhì)料的珍貴實物資料，對研究西夏佛教史具有重要價值，中國國家圖書館整合這些文獻，建設(shè)了“西夏碎金”數(shù)據(jù)庫，收錄館藏西夏古籍書目數(shù)據(jù)124條、館藏西夏古籍原件影像近5000拍、西夏研究論文篇名數(shù)據(jù)1202條。又如:上海圖書館共收藏有約17000種、110000余冊中國家譜，是國內(nèi)外收藏中國家譜(原件)數(shù)量最多的單位，最早者為宋內(nèi)府寫本《仙源類譜》(殘頁)。另上海圖書館為推動本館特色館藏的開發(fā)利用，建設(shè)了家譜數(shù)據(jù)庫。

1．4 多個古籍收藏機構(gòu)共同建設(shè)古籍?dāng)?shù)據(jù)庫成為古籍文獻利用的發(fā)展趨勢

目前，一些大型項目均是由多個收藏機構(gòu)合作共同建設(shè)，合作原因多種多樣。一種是由于文獻內(nèi)容、類型上互為補益促成的跨區(qū)域合作。如:由大英圖書館發(fā)起，眾多國際敦煌文獻收藏機構(gòu)共同參與的敦煌文獻保存和數(shù)字化項目——國際敦煌項目(International Dunhuang Project，IDP)。另一種是由于古籍文獻的數(shù)字化及開發(fā)利用一般需要大量的人力、物力、財力，一些中小型圖書館無力開發(fā)本館館藏，因而與其他館合作建設(shè)。如:由北京大學(xué)、北京師范大學(xué)、南京大學(xué)、四川大學(xué)等高校合力建設(shè)的學(xué)苑汲古數(shù)據(jù)庫。

2 館藏古籍?dāng)?shù)字資源整合存在問題研究

2．1 對古籍文獻的組織與利用多基于書目數(shù)據(jù)

目前圖書館對古籍文獻的組織與利用多是基于書目數(shù)據(jù)得以實現(xiàn)，這一特點既有優(yōu)點，也有弊端，書目數(shù)據(jù)產(chǎn)生于對印本文獻的編目，在大量的數(shù)字資源成為編目對象時，書目數(shù)據(jù)暴露出一些弱點:①書目數(shù)據(jù)主要是以文獻為單元進行描述，無法對文獻的內(nèi)容進行深入的揭示，更無法在知識元之間建立有效的關(guān)聯(lián)，實現(xiàn)在語義層面上的深度聚合;②基于書目數(shù)據(jù)形成的知識結(jié)構(gòu)是線性的、等級式的，而當(dāng)數(shù)字圖書館將海量的、分布的、動態(tài)的網(wǎng)絡(luò)信息資源納入整合的范圍時，知識結(jié)構(gòu)必須進化為網(wǎng)狀的具有各種關(guān)系的概念群，才能夠支持對知識的深度聚合;③在檢索中只能支持詞形匹配，而不支持智能推理，因而無法實現(xiàn)語義檢索;④書目數(shù)據(jù)的規(guī)則與結(jié)構(gòu)的設(shè)計主要是基于手工編目的需求，而在網(wǎng)絡(luò)環(huán)境下，編目的對象由靜態(tài)的印本文獻發(fā)展為動態(tài)的數(shù)字文獻，書目數(shù)據(jù)只是作為原始文獻的替代物，無法通過對知識的自動學(xué)習(xí)發(fā)展出新知識，完成自身的進化。

對資源進行整合不僅應(yīng)實現(xiàn)基于文獻的整合，更重要的是實現(xiàn)基于知識的整合，為用戶提供更高效的知識服務(wù)。古籍文獻記敘的內(nèi)容涉及到天文、地理、文化、藝術(shù)、醫(yī)藥、農(nóng)業(yè)、歷史等多個學(xué)科領(lǐng)域，除對歷史研究外，對于相關(guān)各學(xué)科領(lǐng)域的研究都有著重要的利用價值，應(yīng)進行深入的挖掘。目前對古籍資源整合的深度只停留在文獻層面，沒有對古籍文獻中的知識進行深入挖掘。

2．2 古籍文獻收藏機構(gòu)多而分散

古籍文獻的收藏機構(gòu)眾多，除中國大陸外，還分布在全球多個地區(qū)，主要有中國臺灣、美國、英國、日本、韓國等。如:美國國會圖書館收藏有包括宋元明清善本古籍5萬余冊，地方志400多種，其中100多種為中國國內(nèi)孤本，其他尚有400多種滿文數(shù)據(jù)和3000種云南納西族東巴文資料。哈佛燕京圖書館現(xiàn)有中國古籍4673種、44993冊，中國地方志4000種，叢書1500種，所藏《永樂大典》2冊、《四庫全書》2冊、宋版書16種、元版書38種、明版本1275種均為中國以外的孤本?！?〕資源的稀缺性與分散性影響了對古籍文獻的利用。同時，由于發(fā)布者不同，數(shù)據(jù)結(jié)構(gòu)、命名方式、元數(shù)據(jù)格式和元數(shù)據(jù)方案，系統(tǒng)結(jié)構(gòu)模型、調(diào)用協(xié)議、用戶界面等各個方面都有很多的差異，特別是命名方式、數(shù)據(jù)結(jié)構(gòu)、句法結(jié)構(gòu)、語法結(jié)構(gòu)等方面的差異會帶來語義不一致的問題，嚴重影響了語義網(wǎng)環(huán)境下對信息資源的語義揭示與語義互聯(lián)。

3 解決問題途徑研究

筆者認為，要解決上述兩大問題，應(yīng)分三步驟進行古籍?dāng)?shù)字化資源的整合，第一步，結(jié)合古籍?dāng)?shù)字化資源特點，加強對文本自動分析技術(shù)、本體等的研究，構(gòu)建古籍資源的知識體系;第二步，基于這些知識組織工具進行古籍知識庫的構(gòu)建，實現(xiàn)對知識的語義揭示、語義關(guān)聯(lián);第三步，加強各方合作，實現(xiàn)多來源異構(gòu)資源的統(tǒng)一檢索。

3．1 應(yīng)用文本自動分析技術(shù)有效實現(xiàn)古籍中知識的挖掘

3．1．1 文本自動分析技術(shù)概述。近年來，古籍文獻由印本文獻轉(zhuǎn)為大量的半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)字化資源，同時，圖書館對書目數(shù)據(jù)賦予的功能也隨之發(fā)生了變化，不再只針對文獻，而是更多地關(guān)注文獻的內(nèi)容。在這些變化的影響下，只依靠傳統(tǒng)的人工編目勢必?zé)o法滿足古籍資源利用的需求，因此，必須引入非人工或半人工的方式進行文獻的揭示與組織，加強對數(shù)字資源的智能化處理技術(shù)的研究，在語義層面上深化館藏古籍資源的知識組織，建立人與機器之間的互理解通路，形成數(shù)字圖書館知識認知與共享的基礎(chǔ)。

對古籍?dāng)?shù)字化資源進行智能化處理以文本自動分析技術(shù)為基礎(chǔ)，這些技術(shù)主要包括:①文本抽取技術(shù)。對于抽取出來的信息，應(yīng)按照一定的算法計算權(quán)重、過濾錯誤或冗余信息，這樣，通過多種方法的結(jié)合使提取出的信息具有專指性、準(zhǔn)確性、客觀性、完整性。②中文分詞技術(shù)。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。盡管已有多年的研究和實踐，國內(nèi)建設(shè)了多個分詞系統(tǒng)，但是由于漢語的復(fù)雜性，漢語分詞技術(shù)仍是中文信息處理的一個技術(shù)難點。因此，較為合理的中文分詞方法應(yīng)是建設(shè)基礎(chǔ)的分詞詞典，通過大量實驗數(shù)據(jù)積累語料庫，同時用已建的元數(shù)據(jù)對分詞詞典進行檢驗，不斷改善。

文本自動分析需要以語料庫作為基礎(chǔ)工具，一個完整規(guī)范的語料庫對知識挖掘的準(zhǔn)確性具有重要的作用。近年來，一些古籍研究機構(gòu)建設(shè)了一批高質(zhì)量的語料庫，為我國古籍文獻的整理與挖掘打下了良好的基礎(chǔ)。如:中國社會科學(xué)院語言研究所建立的小型語料庫包括近代漢語書面語語料150萬字、中古近代漢語語料約1000萬字;浙江師范大學(xué)建設(shè)了楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫;四川大學(xué)建設(shè)的中國古漢語語料庫有1億字的中國古漢語語料和有關(guān)中國古漢語研究的資料等。但是，由于目前語料庫的建設(shè)非常分散，沒有形成一個較為完整的體系，缺少對語義語料庫和語用語料庫的研究與建設(shè)，因此，對于實現(xiàn)基于語義的古籍?dāng)?shù)字資源自動分析的支持作用還很有限。

3．1．2 文本自動分析技術(shù)在古籍?dāng)?shù)字資源整合中的應(yīng)用研究。利用智能化的文本自動分析技術(shù)可以對古籍文獻的內(nèi)容進行深入研究與輔助處理，實現(xiàn)對知識的揭示與發(fā)現(xiàn)。古漢語在語義與語法規(guī)則上與現(xiàn)代漢語有大量的差異，因此，利用文本自動分析技術(shù)在處理古籍?dāng)?shù)字資源時應(yīng)關(guān)注古漢語的特點。如:關(guān)注對一字多音的識別，加強注音語料庫的建設(shè)，通過利用上下文信息等方法確定多音字。

關(guān)注對漢字借用、代替等現(xiàn)象的識別，其中的難點在于:通假字由于借用是不固定的、臨時的，因此對語境的依賴性大;異體字由于各個地方對正體字的不同認定造成對異體字的判定也因地而異。對文本進行分析時，對于每個獨立的著錄對象，應(yīng)結(jié)合該資源的來源(如地域、機構(gòu)等)、上下文語境等信息。

關(guān)注對名詞特別是人名、地名、物名、職官名等的正確識別，特別注意歷史沿革、地域差異等對名詞的影響。加強對命名實體識別技術(shù)的研究。命名實體是指現(xiàn)實世界中具體的或抽象的實體，如人、地點、組織等。通常用唯一的標(biāo)志符(即專有名詞)表示，如人名、地名、組織名等。廣義上講，命名實體還可以包含時間、數(shù)量表達式等?！?〕

古人對句子的注釋很多采用征引式的注釋方法，因此，應(yīng)對這類注釋再進行注釋，同時，也可以通過這種注釋方法建立不同語句之間的關(guān)聯(lián)關(guān)系。

較為重要的古籍往往有多個校本，造成?？惫ぷ鞣敝兀瑧?yīng)利用文本自動分析技術(shù)進行自動?？保峁┍苤M字表、異體字表等輔助校勘工具，加強對誤字、倒錯、異文、脫文、衍文等多版本間差異的準(zhǔn)確發(fā)現(xiàn)。

3．2 加強本體構(gòu)建與應(yīng)用

3．2．1 本體的概念及功能。語義網(wǎng)是對萬維網(wǎng)的擴展，目的是使現(xiàn)有的萬維網(wǎng)具有一定的推理和自動處理能力。語義萬維網(wǎng)通過給萬維網(wǎng)上的文檔添加能夠被計算機所理解的語義，從而使整個互聯(lián)網(wǎng)成為一個通用的信息交換媒介?！?〕

本體(Ontology)是某一領(lǐng)域中的術(shù)語及術(shù)語間關(guān)系的規(guī)范說明，提供對領(lǐng)域知識的共同理解與描述，用于共享、交流和重用，由概念及概念之間的關(guān)系構(gòu)成，概念及概念間的關(guān)系經(jīng)過精確定義，主要供機器或計算機所使用并可用數(shù)學(xué)方式表達?！?〕本體是語義化的基礎(chǔ)工具，對語義網(wǎng)體系結(jié)構(gòu)起著關(guān)鍵的支撐作用。在語義網(wǎng)體系結(jié)構(gòu)中，本體的作用主要表現(xiàn)在:概念描述、語義揭示、一致性、推理支持?！?〕

本體在古籍?dāng)?shù)字資源的整合中承擔(dān)以下的功能:①基于語義分析，支持對文本的自動分析;②支持對古籍?dāng)?shù)字資源進行自動編目及規(guī)范控制;③支持自動抽取古籍文獻中的知識概念，并建立知識關(guān)聯(lián);④支持語料庫的智能擴展，自動發(fā)現(xiàn)和挖掘新詞，發(fā)現(xiàn)缺失的概念;⑤作為基本的知識組織工具支持知識庫的自動推理、自動聚類的功能。

3．2．2 古籍本體的構(gòu)建方式。古籍文獻的內(nèi)容博大精深，涉及多個學(xué)科，因此，本體的構(gòu)建應(yīng)分步實現(xiàn)，第一步，在小范圍內(nèi)進行本體的建設(shè)，主要建設(shè)方向分三類:一是基于古籍文獻中的通用知識構(gòu)建通用本體，被定義的知識可以應(yīng)用于各類型古籍，作為基礎(chǔ)支持工具，如:針對古籍文獻形式構(gòu)建的本體，基于人物構(gòu)建的本體等;二是基于特定的學(xué)科專業(yè)領(lǐng)域構(gòu)建領(lǐng)域本體，如:中醫(yī)古籍本體的構(gòu)建可以生命、形體、經(jīng)絡(luò)、腦穴、診法、中藥、方劑、病證、療法、針灸、養(yǎng)生、氣功等中醫(yī)特定知識單元為概念〔8〕;三是基于特定的古籍文獻類型構(gòu)建領(lǐng)域本體，如:由于家譜的主要內(nèi)容是記錄家族歷史，與人物有著密切關(guān)系，因此，家譜文獻的本體構(gòu)建應(yīng)以人物、家族為核心概念，重點分析人物之間的關(guān)系、家族之間的關(guān)系、人物與家族的關(guān)系、家族及人物與機構(gòu)的關(guān)系、人物與作品的關(guān)系、家族及人物與事件的關(guān)系等概念關(guān)系。第二步，整合各類本體，構(gòu)建古籍資源的知識組織體系。

3．3 基于本體構(gòu)建語義知識庫

知識庫是在數(shù)據(jù)庫的基礎(chǔ)上結(jié)合人工智能領(lǐng)域技術(shù)構(gòu)建而成的，建設(shè)的目的在于通過管理和存儲知識來實現(xiàn)知識的序化、共享、重用。建設(shè)的過程即對知識的獲取、表示、利用，既包括對原始信息或既有知識進行理解、提取、分類，將知識以計算機能夠理解和處理的形式來表示，也包括通過分析和推理產(chǎn)生新知識。其特點在于:從信息資源中抽取知識點，按照一定的知識表示方法，深入到文獻知識層面按照一定的知識體系進行整序和分析，形成知識集合;不但能夠表示顯性知識，而且能夠組織隱性知識;具有學(xué)習(xí)、歸納推理及動態(tài)更新的功能;不但明顯地表達事實和關(guān)系，還能夠明顯地表達領(lǐng)域知識和推理規(guī)則;通過對知識庫進行挖掘，能夠發(fā)現(xiàn)事實上的知識，也能發(fā)現(xiàn)規(guī)則上的知識。

知識庫的作用在于作推動知識有序化、知識的交流與共享，對館藏古籍?dāng)?shù)字資源的整合有著重要的作用，圖書館對古籍知識庫的構(gòu)建進行了一些研究和實踐。目前主要向兩個方向發(fā)展，一是基于本體建設(shè)的綜合性、基礎(chǔ)性知識庫，如:北京大學(xué)數(shù)據(jù)分析研究中心與中國國家圖書館合作建設(shè)的中國歷代典籍總目分析系統(tǒng)采用實體關(guān)系分層描述古籍書目并構(gòu)建了古籍文獻知識本體;二是基于領(lǐng)域本體針對特定學(xué)科古籍文獻建設(shè)的知識庫，如:中國中醫(yī)研究院對中醫(yī)古籍的本體構(gòu)建進行了大量的研究，建設(shè)了中醫(yī)古籍知識庫系統(tǒng)，并在此基礎(chǔ)上開發(fā)中醫(yī)藥文獻服務(wù)系統(tǒng)?！?〕但這些嘗試都還處在探索階段，主要工作都集中在對本體的建設(shè)上，對知識庫的架構(gòu)、功能等的研究還較為欠缺。

目前，對基于本體的古籍知識庫的建設(shè)應(yīng)按以下幾個步驟有序推進:①深化對館藏古籍?dāng)?shù)字化資源的語義挖掘與語義互聯(lián)的研究;②推動知識表示、利用、存儲與獲取的輔助工具的研究開發(fā);③研究傳統(tǒng)知識組織工具的自動更新、自動豐富機制，使之具備吸收新信息、新概念、新結(jié)構(gòu)的能力，在此基礎(chǔ)上開發(fā)數(shù)字資源知識組織工具;④加強各類型語料的積累，為知識庫的建設(shè)打下良好的基礎(chǔ);⑤基于各種語義工具及已建元數(shù)據(jù)構(gòu)建知識庫;⑥有機整合已建知識庫的成果，構(gòu)建知識庫體系架構(gòu)。最終實現(xiàn)數(shù)字資源的結(jié)構(gòu)化、語義化，整合眾多的知識節(jié)點與知識關(guān)聯(lián)，構(gòu)成知識網(wǎng)絡(luò)。

3．4 加強合作，實現(xiàn)多源異構(gòu)資源的統(tǒng)一發(fā)現(xiàn)

目前，很多收藏機構(gòu)都對藏本進行加工，制作各種類型的數(shù)據(jù)庫。近20年來，國內(nèi)外利用計算機技術(shù)開發(fā)研制了近500種古籍?dāng)?shù)字化資源，其中包括81種古籍電子索引，近148種古籍書目數(shù)據(jù)庫和近270種古籍全文數(shù)據(jù)庫?！?0〕有學(xué)者對互聯(lián)網(wǎng)上的華文數(shù)字典籍檢索入口進行整理，〔11〕在中國大陸之外的地區(qū)收集到的數(shù)量為:香港地區(qū)(5個)、臺灣地區(qū)(36個)、日本地區(qū)(21個)、韓國地區(qū)(7個)、歐美地區(qū)(26個)。多個發(fā)布平臺必然造成信息孤島現(xiàn)象，給用戶帶來資源發(fā)現(xiàn)、知識獲取上的困難，成為古籍利用的瓶頸。

實現(xiàn)對多源異構(gòu)資源的統(tǒng)一發(fā)現(xiàn)有以下幾種主要途徑:一是通過跨庫檢索技術(shù)，并發(fā)地檢索本地的和廣域網(wǎng)上多個分布式異構(gòu)數(shù)據(jù)源，并對檢索結(jié)果進行整合，為用戶提供一個統(tǒng)一的檢索接口。如MetaLib。這一方式具有時效性好的特點，且不必為資源的整合投入大量的人力物力。二是建立元數(shù)據(jù)倉儲，將多個來源的元數(shù)據(jù)采集到本地，按照一定的規(guī)則進行清洗、轉(zhuǎn)換，形成統(tǒng)一的格式，并提供檢索服務(wù)。這一方式由于對元數(shù)據(jù)進行了規(guī)范化的處理，因此，檢索的效果較好。三是建立統(tǒng)一的內(nèi)容管理平臺、統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一的檢索平臺，采用多方共建的方式進行資源建設(shè)與服務(wù)。這種方式可以避免資源的重復(fù)建設(shè)，數(shù)據(jù)規(guī)范性好，質(zhì)量較高，不必再對已建數(shù)據(jù)進行清洗、轉(zhuǎn)換等工作，節(jié)省人力物力。以上三種方式各有優(yōu)勢，但也存在著一些問題，前兩種方式由于原數(shù)據(jù)庫為滿足本庫的顯示與檢索功能一般對元數(shù)據(jù)進行了個性化的處理，因此，實現(xiàn)統(tǒng)一檢索后，針對不同類型資源的個性化檢索的效果往往不盡如人意。第三種方式需要多個資源擁有者之間形成緊密型的合作關(guān)系，而由于古籍文獻的收藏機構(gòu)分散于全球各地，因此合作多是圍繞本地區(qū)或同一文獻類型，較難形成跨區(qū)域跨文獻類型的大型合作組織。

因此，筆者認為，對多源異構(gòu)的古籍?dāng)?shù)字資源的整合應(yīng)將三者結(jié)合在一起。即:在資源建設(shè)、標(biāo)準(zhǔn)建設(shè)、學(xué)術(shù)研究等各方面加強相關(guān)各方的合作，以多方共建的形式建設(shè)大型古籍?dāng)?shù)字資源的元數(shù)據(jù)倉儲，再通過跨庫檢索等整合技術(shù)對這些大型的元數(shù)據(jù)倉儲進行再整合，最終實現(xiàn)對所有古籍資源的整合檢索。

1．華夏記憶．〔2013 －10 －10〕．http://www．nlc．gov．cn/newhxjy/gjtsg/gwszzy/zykth/yywx/

2．陳東輝．關(guān)于古籍索引工作的若干思考．國家圖書館學(xué)刊，1997(1):43－47

3．毛建軍．美國中文古籍?dāng)?shù)字化概述．圖書館學(xué)研究，2012(1):19－20

4．朱鎖玲．命名實體識別在方志內(nèi)容挖掘中的應(yīng)用研究．南京:南京農(nóng)業(yè)大學(xué)，2011:7

5．語義網(wǎng)．〔2012 － 12 － 26〕．http://zh．wikipedia．org/wiki/%E8%AF%AD%E4%B9%89%E7%BD%91

6．司莉．KOS在網(wǎng)絡(luò)信息組織中的應(yīng)用與發(fā)展．武漢:武漢大學(xué)出版社，2007:156

7．戴維民等．語義網(wǎng)信息組織技術(shù)與方法．上海:學(xué)林出版社，2008:13

8．谷建軍．基于敘詞表的中醫(yī)古籍文獻領(lǐng)域本體建模方法研究．北京:中國中醫(yī)科學(xué)院，2006:76

9．VSP行業(yè)應(yīng)用案例五:中醫(yī)古籍知識庫系統(tǒng)以及中醫(yī)文獻服務(wù)系統(tǒng)．〔2013 －10 －10〕．http://www．myvsp．cn/download/anli/wxsjby．pdf

10．毛建軍．古籍?dāng)?shù)字化理論與實踐．北京:航空工業(yè)出版社，2009:99－149

11．王偉．全球中國古籍書目總匯．〔2013－10－10〕．http://blog．sina．com．cn/s/blog_6a5826b6010180j0．html

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡