趙嘉朱(中國社會科學(xué)院圖書館,北京 100732)
方志資源知識組織方法研究
趙嘉朱
(中國社會科學(xué)院圖書館,北京 100732)
多年來,我國方志數(shù)字化工作取得長足的進(jìn)展。本文對傳統(tǒng)方志數(shù)字化現(xiàn)狀進(jìn)行梳理和分析,并結(jié)合大數(shù)據(jù)時代和社會需求,提出方志文獻(xiàn)庫和專題庫建設(shè)具體建議,最后基于本體知識組織理論,探討方志專題庫的知識組織方式,以提高我國方志資源的組織、管理和應(yīng)用水平。
本體論;知識組織;方志;數(shù)字化
方志是富有特色的重要知識資源。漢唐以來,志書編修代代相因,從未斷絕。據(jù)不完全統(tǒng)計,目前尚存于世的歷代志書超過8 200種,約占現(xiàn)存中華古籍總量的1/12。一般說,這些志書被學(xué)界統(tǒng)稱為舊方志或舊志,以與中華人民共國成立后編纂的方志相區(qū)別。后者一般稱為新方志,或新志。隨著改革開放步伐的加快,我國科學(xué)文化事業(yè)蓬勃發(fā)展。新方志編纂的擴(kuò)展也出現(xiàn)了不斷加速的趨勢。迄今,新志總數(shù)已超過7萬種,遠(yuǎn)超歷代舊志總和。新方志品種齊全,數(shù)量眾多,系統(tǒng)完備,方志文獻(xiàn)的“功用”已經(jīng)不再僅僅局限于“資治”“教化”和“存史”三個方面,而是成了中國政治經(jīng)濟(jì)發(fā)展必不可少的國情和地情資源寶庫,能夠促進(jìn)歷史學(xué)、社會學(xué)、法學(xué)、地理學(xué)、生物學(xué)等學(xué)科的發(fā)展,具有非常重要的意義[1]。
基于本體論的知識組織理論近年來影響力不斷擴(kuò)大,為方志資源的知識組織提供了新方法。隨著信息技術(shù)和網(wǎng)絡(luò)的發(fā)展,社會知識總量以指數(shù)速度不斷膨脹。知識在促進(jìn)社會全方位發(fā)展的同時,本身也需要進(jìn)行有序化揭示和服務(wù)。以本體論為代表的知識組織的研究和應(yīng)用,取得了多方面的豐碩成果。因此,以本體論為指導(dǎo)進(jìn)行知識組織,有助于推動方志數(shù)字化建設(shè)向縱深發(fā)展。
方志數(shù)字化工作于20世紀(jì)90年代末加速開展。目前,不僅北京、上海、廣州等大城市取得了顯著成績,而且很多中小城市的成果也很突出。同時,不僅東部和南部經(jīng)濟(jì)發(fā)達(dá)地區(qū)方志數(shù)字化日益擴(kuò)展,而且西北、西南等經(jīng)濟(jì)相對落后地區(qū)方志數(shù)字化的整體面貌也日新月異。全國各地推動方志數(shù)字化的主要建設(shè)力量,大體可以分為以下幾類。
1.1 公共圖書館
其包括國家級和省市縣三級圖書館。公共圖書館擁有的地方志資源十分豐富。如國家圖書館以及北京、上海、天津、陜西、湖北、浙江、安徽、四川等省級圖書館,由于其歷史悠久,資金比較充足,因而方志數(shù)字化進(jìn)展較快。此外,一些地區(qū)級圖書館和市縣級圖書館也在積極推進(jìn)方志數(shù)字化。江蘇省成績較為突出,省內(nèi)昆山圖書館、蘇州圖書館、常熟圖書館、吳江圖書館等地方圖書館都對館藏地方志的紙質(zhì)資源進(jìn)行了數(shù)字化處理,并以全文影像提供網(wǎng)絡(luò)共享服務(wù),方便讀者瀏覽或下載。
1.2 大學(xué)和科研機(jī)構(gòu)圖書館
這是方志數(shù)字化的重要組成部分,包括北京大學(xué)、北京師范大學(xué)、復(fù)旦大學(xué)、武漢大學(xué)、中山大學(xué)、中國科學(xué)技術(shù)信息研究所、中國社會科學(xué)院、中國科學(xué)院等各類大學(xué)和科研機(jī)構(gòu)的眾多圖書館。這些大學(xué)和科研機(jī)構(gòu)不僅歷史悠久,資源豐富,而且人力財力較為雄厚,方志數(shù)字化進(jìn)展迅速,成績突出。
1.3 電子信息資源開發(fā)公司
如萬方、超星、同方等公司技術(shù)先進(jìn),背后有充足的資金支持,積極和各類方志收藏機(jī)構(gòu)建立固定的多方面合作關(guān)系,能夠迅速地完成大型電子信息項目開發(fā),因而也成為方志數(shù)字化近年發(fā)展的重要推動力量。
1.4 省市方志機(jī)構(gòu)
近十余年,一些省市的方志機(jī)構(gòu)在當(dāng)?shù)卣姆e極支持下,不斷努力推進(jìn)?。ㄊ校┣樾畔⒕W(wǎng)建設(shè)。目前,已有20多個省、市、自治區(qū)正在開展省(市)情數(shù)據(jù)庫和網(wǎng)絡(luò)建設(shè)。其中不少省、自治區(qū)或直轄市已經(jīng)建成并且開放了網(wǎng)絡(luò)數(shù)據(jù)庫,如廣東、山東、黑龍江、吉林、福建、安徽、浙江、內(nèi)蒙古、四川等。省(市)情信息網(wǎng)是一種新的方志資源數(shù)字化形式,其網(wǎng)絡(luò)和數(shù)據(jù)庫的建立和維護(hù),一般由當(dāng)?shù)胤街緳C(jī)構(gòu)主持。?。ㄊ校┣樾畔⒕W(wǎng)的內(nèi)容一般包括歷史、文化、政治、經(jīng)濟(jì)、軍事、科技、社會生活等方面,信息規(guī)模一般以億字計算。
方志數(shù)字化資源建設(shè),可以付諸應(yīng)用的產(chǎn)品涉及諸多方面,目前主要集中在三大類,即全文影像庫、全文文本庫和書目庫。
2.1 全文影像庫
全文影像庫是數(shù)字方志的基礎(chǔ)庫。它采用彩色數(shù)字掃描技術(shù)對方志進(jìn)行處理,能夠以圖像方式再現(xiàn)方志原貌。全文影像庫能夠忠實地長期保存原始檔案,同時能夠快速傳播,便于使用。
2.2 全文文本庫
其形成可以采取兩種方法:一是直接將方志紙質(zhì)資源通過人工錄入形成可以編輯的數(shù)字文件;二是對方志全文影像文件進(jìn)行機(jī)器識別從而形成可以編輯的數(shù)字文件。全文文本庫的優(yōu)點包括三個方面:①實現(xiàn)對方志內(nèi)容的全文檢索。檢索,即尋找可用的內(nèi)容,是方志數(shù)字化應(yīng)用的重要組成部分,在目前的技術(shù)條件下,只有文本庫才可以應(yīng)用各種數(shù)字手段進(jìn)行快速查找,如按字或詞實現(xiàn)快速查詢。②支持內(nèi)容標(biāo)引。只有可以編輯的文本才可以進(jìn)行標(biāo)引,從而實現(xiàn)與其他數(shù)字產(chǎn)品的關(guān)聯(lián)查詢。③方便版本校勘。只有經(jīng)過識別的文本,才可以采用相關(guān)技術(shù)對不同版本方志進(jìn)行???。
2.3 書目庫
它是將方志資源目錄使用多種方法單獨提出,獨立建庫。數(shù)字文件目錄與紙質(zhì)文件目錄具有同等效用,而前者在使用、傳播等方面都較后者具有明顯優(yōu)勢。
國內(nèi)方志數(shù)字資源的建設(shè)已經(jīng)取得相當(dāng)大的成績,但仍存在一些值得思考的問題。除了相關(guān)各界經(jīng)常提到的地區(qū)分布不平衡外,主要表現(xiàn)在方志產(chǎn)品種類開發(fā)不平衡。一些重要的產(chǎn)品基本處于未開發(fā)狀態(tài)。無論從理論或構(gòu)建公共文化服務(wù)體系的實際需要看,還有另外兩大類應(yīng)當(dāng)受到關(guān)注。
3.1 相關(guān)文獻(xiàn)庫
該庫主要收入各類方志的相關(guān)評論,如人物研究、名勝古跡考證、事件述評等。它是加深方志信息理解的重要源泉。作為數(shù)字方志的一個關(guān)聯(lián)庫,它可以起到擴(kuò)大視野、拓展知識的作用。迄今為止,相關(guān)文獻(xiàn)庫的開發(fā)基本處于空白狀態(tài)。
3.2 專題庫
它是指經(jīng)過整理合并將方志資源中某一類內(nèi)容綜合成一個獨立的專門庫,以滿足特定對象對特定內(nèi)容的需求。專題庫可以極大地提高檢索率,縮短有用資料的查詢時間。然而,專題庫的構(gòu)建以及檢索都需要多向交叉的網(wǎng)絡(luò)技術(shù)支持,而傳統(tǒng)的信息組織方式不能滿足這方面的要求。由于這一原因,專題庫的建設(shè)長期處于停滯狀態(tài),很多方面尚屬空白。而完整的專題庫體系則至少應(yīng)涵蓋以下幾個方面。
(1)地名庫。該庫內(nèi)容包括舊地名、新地名、新舊地名沿革、與其他相關(guān)地名的關(guān)系以及相互的影響和變化情況等。
(2)人物庫。該庫應(yīng)收錄方志中人物、選舉、職官等類目中含有傳記資料的人物。人物庫的主要內(nèi)容包括人物的本名、室名別號、更名、性別、生卒年、主要活動時代、民族、籍貫以及主要成就、貢獻(xiàn)等。
(3)藝文庫。該庫收錄藝術(shù)、文化方面的實物、作品、器物等。
(4)遺跡庫。該庫主要記載一個地區(qū)的名勝古跡,是方志的重要內(nèi)容之一。而這些名勝古跡的廢置、變化,也從一個側(cè)面反映出當(dāng)?shù)厝宋牡陌l(fā)展軌跡。遺跡庫應(yīng)包括方志中“八景”“十景”等所有歷史文化內(nèi)容。
(5)圖集庫。圖,是方志重要組成部分。很多情況下,用文字難以說清楚的問題,圖則可以口誦其詞、目明其像。缺乏圖像載體,描繪一個地區(qū)自然與社會歷史全貌,難以十全十美。圖庫建設(shè),勢在必行。其內(nèi)容應(yīng)包括疆域、分野、山川、江河、湖泊、城池、公署、坊都、學(xué)宮等各個方面。
(6)自然災(zāi)害庫。它包括方志中涉及的如地震、洪災(zāi)、旱災(zāi)、蟲災(zāi)、雪災(zāi)、風(fēng)災(zāi)等所有各類災(zāi)害的發(fā)生、發(fā)展以及應(yīng)對措施等各方面的信息,對于今天的防災(zāi)救災(zāi)具有特殊重要的意義。
綜上,加強(qiáng)專題庫建設(shè),勢在必行。方志數(shù)字化欲求進(jìn)一步發(fā)展,必須在構(gòu)建分門別類的綜合性專題數(shù)據(jù)庫方面有所突破,而不能再局限于或滿足于單種方志的數(shù)字化。方志的最大優(yōu)勢在于以地區(qū)為中心匯集資料系統(tǒng)。同一地區(qū)不同時期的同類資料,集合起來,就實現(xiàn)了內(nèi)容體系的比較,便于相關(guān)類別的研究。
方志數(shù)字化領(lǐng)域日益認(rèn)識到當(dāng)前流行的以主題標(biāo)引和分類標(biāo)引為基礎(chǔ)的信息組織深度的不足,無法滿足專題庫對內(nèi)容標(biāo)引的建設(shè)需要?;诒倔w論的知識組織為破解相關(guān)文獻(xiàn)庫和專題庫技術(shù)難題指明了方向[2]。相關(guān)文獻(xiàn)庫和專題庫,特別是后者,是方志資源中某類知識的集合。它可以實現(xiàn)知識的有效獲取,直接滿足用戶的知識需求。
4.1 本體原型
本體論原是一個哲學(xué)概念,指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說,后來被數(shù)字技術(shù)學(xué)界借用。本體論強(qiáng)調(diào)特定領(lǐng)域中的本質(zhì)概念,也強(qiáng)調(diào)這些本質(zhì)概念之間的關(guān)聯(lián)。當(dāng)前學(xué)界一般認(rèn)為,本體論是對概念化的精確描述,本體論的最終目標(biāo)是精確地表示那些隱含的信息,使它們可被軟件系統(tǒng)使用和共享。
本體是一個關(guān)于某些主題的、層次清晰的規(guī)范說明,它是一個已經(jīng)得到公認(rèn)的形式化的知識表示體系。作為一種有效表示概念層次結(jié)構(gòu)和語義的理論和方法,本體目前已經(jīng)被廣泛應(yīng)用于計算機(jī)科學(xué)和信息管理領(lǐng)域,并且被成功應(yīng)用于構(gòu)建新的智能組織和檢索系統(tǒng)。由于本體具有良好的概念層次和對邏輯推理的支持,基于本體的知識組織和檢索是基于知識的、語義的匹配,在查全率和查準(zhǔn)率方面能夠獲得較好的結(jié)果[3]。近年來,本體理論的發(fā)展和逐步成熟為基于復(fù)雜檢索技術(shù)的方志數(shù)字化的進(jìn)一步發(fā)展帶來了新的活力。
4.2 本體論知識組織的實現(xiàn)
成型的本體論組織是一個動態(tài)系統(tǒng),其概念、關(guān)系和軟件均可根據(jù)發(fā)展的需要而不斷更新。其建立過程大體如下。
本體語義關(guān)系包括同義關(guān)系、反義關(guān)系、屬中關(guān)系、交叉關(guān)系、全異關(guān)系等。這與分類法和主題表有一定類似,但遠(yuǎn)為簡潔和靈活,可以根據(jù)需要增減。具體步驟如下:
(1)確立目標(biāo),劃定范圍。這是建立本體系統(tǒng)的第一步。一般說,領(lǐng)域越大,應(yīng)用越廣,所建系統(tǒng)就越龐大、越復(fù)雜,難度也就越高。
(2)本體分析。即定義本體所有術(shù)語的意義及其之間的關(guān)系,該步驟需要有關(guān)領(lǐng)域的各方面專家參與,探討越深入,所建本體就有可能越完善。
(3)本體表示。一般用語義模型表示本體。
(4)本體系統(tǒng)檢驗。一個好的本體系統(tǒng)應(yīng)當(dāng)在清晰、一致、完整、可擴(kuò)展性等方面均能符合要求。清晰性指本體中的術(shù)語無歧義的定義;一致性指術(shù)語之間關(guān)系邏輯上應(yīng)一致;完整性指本體中的概念及其關(guān)系應(yīng)是完整的,應(yīng)盡量包含該領(lǐng)域內(nèi)所有概念;可擴(kuò)展性則指本體應(yīng)該能夠隨著該領(lǐng)域的發(fā)展而不斷加入新的概念。
4.3 基于本體論的知識檢索與應(yīng)用
基于本體的知識組織在構(gòu)建和檢索方面的優(yōu)勢,使其能夠滿足以方志專題庫建設(shè)為主要標(biāo)志的方志數(shù)字化的進(jìn)一步發(fā)展的多方面復(fù)雜要求,從而趨向于成為在當(dāng)前技術(shù)環(huán)境下方志數(shù)字化發(fā)展的近期方向。
中國的方志文化源遠(yuǎn)流長,光輝燦爛,是世界文化的一部分。進(jìn)入21世紀(jì)后,方志文化再創(chuàng)輝煌,它將肩負(fù)著“修志問道,以啟未來”的偉大使命,為實現(xiàn)中華民族偉大復(fù)興提供資政輔治之參考,為后世留下堪存堪鑒之記述。通過本體理論,可以進(jìn)一步完善方志數(shù)字化資源的建設(shè)、組織與服務(wù)方式,推動我國方志資源建設(shè)的發(fā)展。
[1] 倉修良.方志學(xué)通論(增訂本)[M].上海:華東師范大學(xué)出版社,2014:339-385.
[2] 何蕓, 黃立新. 基于本體的大學(xué)圖書館地方特色資源庫建設(shè)——以天津近代商業(yè)文化文獻(xiàn)資源庫為例[J]. 圖書館工作與研究,2013(9):39-41.
[3] 宋博.論本體論在智能信息檢索中的作用[J].山東圖書館學(xué)刊,2013(3):78-80,93.
Study on the Method of Local Resources of Knowledge Organization
ZHAO JiaZhu
(Library of the Chinese Academy of Social Sciences, Beijing 100732, China)
Over the years, our country has made great progress in China's digital local chronicles work.With the era of big data and the social demand, this paper investigates and analyzes the present situation of traditional local chronicles digitization and puts forward some specific proposals to the local literature database and thematic database construction.Finally, based on the theory of ontology knowledge organization, explores the knowledge organization method of local special library to improve our level of local chronicles resources organization, management and application.
Ontology; Knowledge Organization; Local Chronicles; Digitization
G250
10.3772/j.issn.1673-2286.2016.4.009
趙嘉朱,女,研究館員,研究方向:方志資源建設(shè),E-mail:zhaojz@cass.org.cn。
2016-02-29)