摘 要 古籍索引數(shù)據(jù)包含古籍電子索引和其他具有索引功能的古籍元數(shù)據(jù)。兩者在基本性質(zhì)、數(shù)據(jù)結(jié)構(gòu)、加工方式、學(xué)術(shù)含量等方面差異明顯,但是可以在一定條件下實(shí)現(xiàn)相互轉(zhuǎn)換。古籍索引數(shù)據(jù)能夠支持資源揭示、文本碎片化、數(shù)據(jù)挖掘、創(chuàng)建新數(shù)據(jù)等應(yīng)用。
關(guān)鍵詞 古籍 索引 數(shù)字化
分類號(hào) G255.1
DOI 10.16810/j.cnki.1672-514X.2017.05.×××
Abstract The index data of ancient books includes digital index of ancient books and other metadata of ancient books which has index functions. They are different from the aspects of basic features, data structure, processing methods and academic quality and so on. The format of the index data of ancient books can be mutually transformed under the certain conditions. The index data of ancient books can support the application of the resource description, the text fragmentation, data mining, and the creation of new data.
Keywords Ancient books. Index. Digitization.
索引是對某種或某一文獻(xiàn)集合中所包含的各篇文章,或所討論的各個(gè)局部主題,或所涉及的各種事項(xiàng)(如地區(qū)、人物等)以簡明的方式分別著錄標(biāo)引,為用戶提供便捷檢索服務(wù)的工具[1]。在《索引編制規(guī)則(總則)》(GB/T 22466-2208)中,索引定義為指向文獻(xiàn)或文獻(xiàn)集合中的概念、語詞及其他項(xiàng)目等的信息檢索工具,由一系列款目及參照組成,索引款目不按照文獻(xiàn)或文獻(xiàn)集合自身的次序排列,而是按照字順的或其他可檢的順序編排。按索引在文獻(xiàn)檢索中的功用分,可分為文獻(xiàn)內(nèi)容索引、文獻(xiàn)篇目索引;按索引的標(biāo)目分,可分為主題索引、著者索引、名稱索引、地名索引、題名索引、代碼索引、關(guān)鍵詞索引、全文索引、引文索引等[2]。
古籍索引是揭示古籍內(nèi)容的一種特定形式,是將古籍中的有關(guān)事物名稱、篇名、字句、詞語、人名、地名、內(nèi)容主題等分別摘錄標(biāo)引,注明出處、頁碼與行數(shù),并按一定的排檢方法編輯而成,供人們查尋有關(guān)古籍文獻(xiàn)的內(nèi)容[3]。陳東輝在《二十世紀(jì)古籍索引編制概述》[4]《臺(tái)港地區(qū)所編古籍索引綜述》[5]《試論日本所編的中國古籍索引》[6]《歐美中國古籍索引編制概況》[7]等文章中梳理了我國古籍索引發(fā)展的脈絡(luò),同時(shí)概述了臺(tái)港地區(qū)、日本、歐美等漢籍索引編制的情況。毛建軍在《古籍索引的電子化實(shí)踐》[8]《古籍索引電子化與古籍圖譜數(shù)據(jù)庫的建設(shè)》[9]《古籍索引研究20年回顧及其電子化趨勢》[10]等文章中討論了我國古籍電子化的發(fā)展現(xiàn)狀。黃建年在《中國古籍索引編制軟件概述》[11]《基于VFP+Word的多文本古籍索引編制實(shí)驗(yàn)》[12]《漢文古籍索引自動(dòng)化實(shí)踐與研究概述》[13]等文章中綜述了我國古籍索引編制軟件及古籍索引自動(dòng)化方面的研究與實(shí)踐。
古籍索引電子化是指古籍索引編制過程的計(jì)算機(jī)化,其內(nèi)涵包括兩個(gè)方面:一是用計(jì)算機(jī)編制的各種紙質(zhì)形態(tài)的古籍索引;二是用計(jì)算機(jī)表達(dá)的古籍索引系統(tǒng)[9]。古籍索引電子化的成果即為古籍電子索引、索引電子版或索引數(shù)據(jù)庫(以下通稱為古籍電子索引)。與之相關(guān)的研究中,經(jīng)常涉及古籍全文檢索系統(tǒng),一些研究者甚至把古籍全文檢索系統(tǒng)與逐字索引相提并論。然而,兩者的區(qū)別顯而易見。古籍全文檢索系統(tǒng)通常由檢索軟件和數(shù)據(jù)庫組成,數(shù)據(jù)庫中至少包含古籍文本數(shù)據(jù)和索引數(shù)據(jù)。只有古籍全文檢索系統(tǒng)中的索引數(shù)據(jù)才具備索引功能,可與逐字索引進(jìn)行比較。
1 古籍索引數(shù)據(jù)
狹義的古籍索引數(shù)據(jù)即古籍電子索引,而廣義的古籍索引數(shù)據(jù)是具有索引功能的古籍?dāng)?shù)據(jù)。在古籍?dāng)?shù)字化領(lǐng)域中,常見的古籍?dāng)?shù)據(jù)包括目錄數(shù)據(jù)、索引數(shù)據(jù)、圖像數(shù)據(jù)、文本數(shù)據(jù)等,并在此基礎(chǔ)上形成了目錄庫、圖像庫、全文庫、資料庫、知識(shí)庫等,與相關(guān)軟件一起構(gòu)成古籍?dāng)?shù)字化資源系統(tǒng),實(shí)現(xiàn)顯示、檢索、瀏覽、下載等功能。這里的索引數(shù)據(jù)即廣義古籍索引數(shù)據(jù)(以下簡稱古籍索引數(shù)據(jù))。
古籍索引數(shù)據(jù)既包含古籍電子索引,也包含其他具有索引功能的古籍元數(shù)據(jù),如古籍圖像標(biāo)引數(shù)據(jù)、古籍全文索引數(shù)據(jù)等。與古籍電子索引相比,其他具有索引功能的古籍元數(shù)據(jù)具有自身的特點(diǎn)。為了便于說明,選用古籍圖像標(biāo)引數(shù)據(jù)與古籍電子索引進(jìn)行比較。
古籍圖像標(biāo)引數(shù)據(jù)是指向古籍圖像或圖像集合中所涉及的各種內(nèi)容(如篇目、人物等)的標(biāo)引數(shù)據(jù),具有索引的基本功能。與古籍電子索引相比較,兩者主要有以下幾點(diǎn)區(qū)別。
其一,古籍圖像標(biāo)引數(shù)據(jù)是古籍元數(shù)據(jù),既要與書目元數(shù)據(jù)相關(guān)聯(lián),又要指向古籍圖像數(shù)據(jù)(對象數(shù)據(jù))。同時(shí),古籍圖像標(biāo)引數(shù)據(jù)是機(jī)讀數(shù)據(jù),必須依據(jù)應(yīng)用系統(tǒng)的需求進(jìn)行編碼。以國家圖書館數(shù)字方志項(xiàng)目[14](以下簡稱數(shù)字方志)為例,圖像卷目標(biāo)引數(shù)據(jù)如下:
而古籍電子索引是成熟的信息檢索工具,可單獨(dú)使用,可讀性好。
其二,古籍圖像標(biāo)引數(shù)據(jù)的結(jié)構(gòu)較為復(fù)雜,要依據(jù)系統(tǒng)和應(yīng)用的需求加入必要的字段。仍以數(shù)字方志為例,圖像卷目標(biāo)引數(shù)據(jù)包括包含數(shù)據(jù)編號(hào)(No)、卷次(chapter_num)、卷名(chapter_name)、層級(jí)標(biāo)識(shí)(serial_num)、被標(biāo)引文獻(xiàn)編號(hào)(book_num)、圖像路徑(volume_num)、文件指針(page_num)、標(biāo)引數(shù)據(jù)屬性(page_prop)等字段。同時(shí),古籍圖像標(biāo)引數(shù)據(jù)類型多樣,數(shù)據(jù)結(jié)構(gòu)各不相同,尚無統(tǒng)一的標(biāo)準(zhǔn)規(guī)范。而古籍電子索引的結(jié)構(gòu)統(tǒng)一,索引款目作為基礎(chǔ)單元,由標(biāo)目、注釋、副標(biāo)目及出處組成,使用見參照和參見參照作為索引連接系統(tǒng),符合《索引編制規(guī)則(總則)》的要求。
其三,古籍圖像標(biāo)引數(shù)據(jù)是古籍?dāng)?shù)字化加工的產(chǎn)品,要在一定的成本范圍內(nèi)實(shí)現(xiàn)大規(guī)模量產(chǎn),通常采用軟件工具自動(dòng)標(biāo)引,或借助軟件工具人工標(biāo)引。以國家圖書館中華尋根網(wǎng)項(xiàng)目[15](以下簡稱尋根網(wǎng))為例,2年內(nèi)完成家譜掃描2300余種250余萬筒子頁,使用圖像數(shù)據(jù)標(biāo)引軟件,完成人名標(biāo)引數(shù)據(jù)20 223 716筆,篇名標(biāo)引數(shù)據(jù)723 452筆。而古籍電子索引編制包含選題、選書、選本、勾標(biāo)、排序[16]等環(huán)節(jié),必須由專家指導(dǎo)或參與,雖然使用索引軟件能夠大大提高古籍索引編制的效率,但是古籍索引的編制周期遠(yuǎn)長于古籍圖像標(biāo)引數(shù)據(jù)加工。據(jù)潘樹廣、黃鎮(zhèn)偉編譯《中國文學(xué)語言學(xué)文獻(xiàn)指南》[17]統(tǒng)計(jì),國內(nèi)外編制中國古籍索引(包括后附式索引)811種,被索引古籍約3000種。
其四,古籍圖像標(biāo)引數(shù)據(jù)是古籍?dāng)?shù)字化項(xiàng)目的成果物,既要滿足項(xiàng)目的總體需求,又受項(xiàng)目各項(xiàng)條件的制約。古籍圖像標(biāo)引數(shù)據(jù)強(qiáng)調(diào)的是應(yīng)用價(jià)值,其學(xué)術(shù)含量具有不確定性。而古籍索引既是從事古籍整理研究的必備工具書,編制工作本身又是古籍整理研究事業(yè)的有機(jī)組成部分,是一項(xiàng)繁重艱難而又別具意義的學(xué)術(shù)性工作,應(yīng)將其成果與古籍整理研究其他成果等同看待[18]。通常情況下,古籍圖像標(biāo)引數(shù)據(jù)的學(xué)術(shù)含量遠(yuǎn)低于古籍電子索引。
雖然古籍圖像標(biāo)引數(shù)據(jù)與古籍電子索引區(qū)別明顯,但是古籍圖像標(biāo)引數(shù)據(jù)也具備索引功能,在一定條件下可與古籍電子索引相互轉(zhuǎn)化。以古籍圖像標(biāo)引數(shù)據(jù)為基礎(chǔ),在專家的指導(dǎo)和參與下,確定文獻(xiàn)或文獻(xiàn)集合,依據(jù)《索引編制規(guī)則(總則)》修訂索引款目,添加必要的參見,并按照字順或其他可檢的順序重新編排索引款目,即可將古籍圖像標(biāo)引數(shù)據(jù)轉(zhuǎn)化為古籍電子索引。另一方面,依據(jù)古籍?dāng)?shù)字化項(xiàng)目的需求,確定古籍對象數(shù)據(jù),將索引款目中的出處直接替換為對象數(shù)據(jù)鏈接,再按需加入必要的字段,處理參照關(guān)系、一對多索引等情況,并對索引款目重新排序,即可將古籍電子索引轉(zhuǎn)化為古籍圖像標(biāo)引數(shù)據(jù)。
綜上所述,古籍索引數(shù)據(jù)是具有索引功能的數(shù)據(jù),既包含古籍電子索引,也包含其他具有索引功能的古籍元數(shù)據(jù),如古籍圖像標(biāo)引數(shù)據(jù)、古籍全文索引數(shù)據(jù)等。古籍索引數(shù)據(jù)既要與目錄數(shù)據(jù)相關(guān)聯(lián),又要標(biāo)引到對象數(shù)據(jù),在古籍?dāng)?shù)字化資源系統(tǒng)中發(fā)揮著不可替代的作用。
2 古籍索引數(shù)據(jù)應(yīng)用
古籍索引數(shù)據(jù)本身就是檢索工具,資源揭示是古籍索引數(shù)據(jù)的基本應(yīng)用方式。此外,古籍索引數(shù)據(jù)還可以支持文本碎片化、數(shù)據(jù)挖掘、創(chuàng)建新數(shù)據(jù)等應(yīng)用。
2.1 資源揭示
古籍索引數(shù)據(jù)能夠揭示不同粒度的信息,既包括卷、篇、章等數(shù)據(jù)對象,又包括人名、地名等專類數(shù)據(jù)。同時(shí),古籍索引數(shù)據(jù)可以直接鏈接到圖像、文本等對象數(shù)據(jù),支持瀏覽、檢索等功能。無論是北京書同文數(shù)字化技術(shù)有限公司的《四庫全書》《四部叢刊》等數(shù)據(jù)庫,還是北京愛如生數(shù)字化技術(shù)研究中心的《中國基本古籍庫》《中國方志庫》《中國類書庫》等數(shù)據(jù)庫,都使用卷目索引數(shù)據(jù),用戶通過卷目數(shù)據(jù)可以直接跳轉(zhuǎn)到所需的卷冊,顯示相應(yīng)的圖像或文本。
在當(dāng)前的技術(shù)條件下,圖像數(shù)據(jù)的加工成本遠(yuǎn)遠(yuǎn)低于全文文本數(shù)據(jù),通過加入古籍索引數(shù)據(jù),能大大提高圖像數(shù)據(jù)的可用性和易用性,并使圖像數(shù)據(jù)具備一定的檢索能力。仍以尋根網(wǎng)為例,通過加入人名和篇名標(biāo)引數(shù)據(jù),可以提供人物、支派、像贊、墓圖、傳記、序跋、藝文篇目、家規(guī)家訓(xùn)等檢索。
2.2 文本碎片化
文本碎片化是將全文文本數(shù)據(jù)按語義拆解為文本片段,每個(gè)文本片段能夠表達(dá)獨(dú)立語義且不可再分。同時(shí),每個(gè)文本片段具有所屬文獻(xiàn)、所在位置、時(shí)間、空間、內(nèi)容等屬性,通過結(jié)構(gòu)元數(shù)據(jù)可以重構(gòu)為卷、篇、章等數(shù)據(jù)對象。文本碎片可以直接應(yīng)用于古籍自動(dòng)編纂、自動(dòng)輯佚、自動(dòng)校勘、數(shù)據(jù)抽取、智能檢索等領(lǐng)域。
古籍索引數(shù)據(jù)在文本碎片化過程中發(fā)揮著重要的作用,既可以作為文本片段劃分的依據(jù)或結(jié)構(gòu)元數(shù)據(jù),又可以作為文本片段的屬性。如國家科技支撐計(jì)劃“基于方志和古地圖的文化旅游信息資源處理與整合”課題(2013BAH67F04),先以《大清一統(tǒng)志》的卷目數(shù)據(jù)為依據(jù),將文本切分為若干文本塊,再利用原書版式信息,將文本完全碎片化,生成文本片段超過10萬個(gè);再將卷目數(shù)據(jù)進(jìn)行分類篩選,包含方志類目的卷目數(shù)據(jù)作為內(nèi)容屬性,包含地名的卷目數(shù)據(jù)作為地理屬性;再結(jié)合卷目數(shù)據(jù)的層級(jí)信息,對文本片段進(jìn)行屬性標(biāo)注;最后依據(jù)項(xiàng)目需求,按照文本片段屬性篩選出5萬個(gè)文本片段,通過軟件結(jié)構(gòu)化后生成專題資料庫。
2.3 數(shù)據(jù)挖掘
古籍?dāng)?shù)據(jù)挖掘包含信息標(biāo)注、數(shù)據(jù)抽取、數(shù)據(jù)分析、知識(shí)重構(gòu)等方式,受古漢語詞匯和語法研究的制約,很多算法不適用于古籍,尤其是沒有標(biāo)點(diǎn)、未經(jīng)過整理的古籍。同古籍全文文本相比,古籍索引數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),又具備一定的知識(shí)含量,可以作為數(shù)據(jù)挖掘的數(shù)據(jù)源。如國家科技支撐計(jì)劃“地方志資源調(diào)查與數(shù)字化加工規(guī)范研究”課題(2015BAK07B01),以數(shù)字方志約46萬條卷目數(shù)據(jù)為數(shù)據(jù)源,使用分類、聚類、異常檢測等數(shù)據(jù)挖掘方法,研究古代方志的體例及內(nèi)容特性。
同時(shí),古籍?dāng)?shù)據(jù)挖掘需要使用領(lǐng)域本體,古籍索引數(shù)據(jù)可以作為本體種子,應(yīng)用于本體實(shí)例加工。如數(shù)字方志歷史人物本體試驗(yàn)項(xiàng)目,先將《二十五史紀(jì)傳人名索引》[19]數(shù)字化,再轉(zhuǎn)換成古籍索引數(shù)據(jù),包含姓氏、人名、又名、出處等字段,以中華書局標(biāo)點(diǎn)本《二十四史》和《清史稿》為數(shù)據(jù)源,通過軟件生成人物本體數(shù)據(jù)。
2.4 創(chuàng)建新數(shù)據(jù)
古籍索引數(shù)據(jù)具有一定的信息含量,可在索引數(shù)據(jù)的基礎(chǔ)上添加其他數(shù)據(jù),創(chuàng)建具有新功能的數(shù)據(jù)。仍以尋根網(wǎng)為例,人物標(biāo)引數(shù)據(jù)包含姓、名、性別、諱、字、號(hào)、世代、支派等信息,篇目標(biāo)引數(shù)據(jù)包含題名、著者、世代、關(guān)鍵詞、出處等信息。在人名與篇名標(biāo)引數(shù)據(jù)的基礎(chǔ)上添加人物關(guān)系數(shù)據(jù),生成譜系樹。譜系樹將每個(gè)人物作為一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)包含該人物的主要信息和父子、兄弟等親屬關(guān)系,并將像贊、榮恩、家傳、藝文等與該人物進(jìn)行關(guān)聯(lián),既可存儲(chǔ)譜系數(shù)據(jù),又能支持譜系圖動(dòng)態(tài)顯示[20]。
3 余論
在古籍?dāng)?shù)字化領(lǐng)域,古籍索引數(shù)據(jù)的實(shí)踐較為豐富,但相關(guān)研究嚴(yán)重滯后。以《地方志數(shù)字化模式與案例分析》一書為例,該有并沒有將圖像標(biāo)引數(shù)據(jù)列為單獨(dú)的章或節(jié),只是在“圖像數(shù)據(jù)發(fā)布”部分列出了古籍圖像數(shù)據(jù)標(biāo)引的原則,分3類(面向文件、面向目錄和面向內(nèi)容的圖像標(biāo)引數(shù)據(jù)[21])討論了圖像標(biāo)引數(shù)據(jù)的內(nèi)容與格式,并舉例說明。
而在索引學(xué)領(lǐng)域,研究熱點(diǎn)分布在多個(gè)方面,包括索引編制的研究、模式識(shí)別與智能系統(tǒng)相關(guān)的研究、空間索引的研究、信息檢索相關(guān)的研究、數(shù)據(jù)庫的相關(guān)研究、引文索引的研究和資源發(fā)與利用的研究等[22]。古籍索引數(shù)據(jù)并非索引學(xué)領(lǐng)域的研究熱點(diǎn)。
目前,古籍索引數(shù)據(jù)研究面臨很多亟待解決的問題,如古籍索引數(shù)據(jù)基本屬性、古籍索引數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、古籍索引數(shù)據(jù)整合、古籍索引數(shù)據(jù)應(yīng)用等。無論是將索引學(xué)引入古籍?dāng)?shù)字化領(lǐng)域,還是將古籍索引數(shù)據(jù)及其應(yīng)用納入索引學(xué)的研究范疇,都將產(chǎn)生一系列的新成果,推動(dòng)古籍索引數(shù)據(jù)的研究,指導(dǎo)古籍索引數(shù)據(jù)的應(yīng)用實(shí)踐。
參考文獻(xiàn):
[ 1 ] 張琪玉.圖書內(nèi)容索引編制法:寫作和編輯參考手冊[M].北京:化學(xué)工業(yè)出版社,2006:1-2.
[ 2 ] GB/T 22466-2208,索引編制規(guī)則(總則)[S].北京:中國標(biāo)準(zhǔn)出版社,2009:1-3.
[ 3 ] 黃建年,侯漢清.基于GB/T22466-2008的古籍索引編制技術(shù)要點(diǎn)[J].圖書館建設(shè),2011(6):45-48.
[ 4 ] 陳東輝.二十世紀(jì)古籍索引編制概述[J].文獻(xiàn),1998(2):65-78.
[ 5 ] 陳東輝.臺(tái)港地區(qū)所編古籍索引綜述[J].辭書研究,2005(3):212-219.
[ 6 ] 陳東輝.試論日本所編的中國古籍索引[J].文獻(xiàn),2005(2):74-91.
[ 7 ] 陳東輝.歐美中國古籍索引編制概況[J].中國索引,2006(1):28-30.
[ 8 ] 毛建軍.古籍索引的電子化實(shí)踐[J].中國索引,2006(4):37-40.
[ 9 ] 毛建軍.古籍索引電子化與古籍圖譜數(shù)據(jù)庫的建設(shè)[J].檔案與建設(shè),2009(2):13-18.
[10] 毛建軍.古籍索引研究20年回顧及其電子化趨勢[J].辭書研究,2007(5):21-29.
[11] 黃建年.中國古籍索引編制軟件概述[J].圖書館學(xué)研究,2011(6):65-68.
[12] 黃建年.基于VFP+Word的多文本古籍索引編制實(shí)驗(yàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2011(10):85-89.
[13] 黃建年.漢文古籍索引自動(dòng)化實(shí)踐與研究概述[J].佛山科學(xué)技術(shù)學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2011(6):50-56.
[14] 數(shù)字方志[EB/OL].[2016-05-01].http://mylib.nlc.gov.cn/web/guest/shuzifangzhi.
[15] 中華尋根網(wǎng)[EB/OL].[2016-05-01].http://ouroots.nlc.cn/index.jsp.
[16] 王雅戈,杜慧平.機(jī)編古籍索引探討:以《道德經(jīng)》語詞索引自動(dòng)編纂為例[J].圖書館論壇,2008(5):34-37.
[17] 潘樹廣,黃鎮(zhèn)偉.中國文學(xué)語言學(xué)文獻(xiàn)指南[M].西安:陜西人民出版社,1988.
[18] 陳東輝.關(guān)于古籍索引工作的若干思考[J].國家圖書館學(xué)刊,1997(1):42-47.
[19] 上海古籍出版社,上海書店.二十五史紀(jì)傳人名索引[M].上海:上海古籍出版社,1990.
[20] 肖禹.Lib2.0環(huán)境下譜牒文獻(xiàn)的收集與整理:以全球中華尋根網(wǎng)項(xiàng)目為例[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2010(29):17-19.
[21] 王薈,肖禹.地方志數(shù)字化模式與案例分析[M].北京:國家圖書館出版社,2012:196-204.
[22] 邱均平,樓雯.近二十年索引學(xué)發(fā)展演進(jìn)與研究熱點(diǎn)探析[J].圖書館雜志,2012(12):12-17.
肖 禹 國家圖書館副研究館員。北京,100034。
(收稿日期:2016-05-11 編校:方瑋)