楚辭知識庫構(gòu)建與網(wǎng)站實(shí)現(xiàn)研究

2010-04-18 02:12:08錢智勇周建忠

圖書館理論與實(shí)踐 2010年10期

●錢智勇，周建忠，賈捷

（南通大學(xué) a.圖書館，b.楚辭研究中心，江蘇南通 226019）

1 研究背景

1.1 楚辭文獻(xiàn)研究特點(diǎn)及楚辭文獻(xiàn)知識庫構(gòu)建的意義

中國文化源遠(yuǎn)流長，先秦時代確立的文化品格對后世有著極其廣泛而又深遠(yuǎn)的影響。對屈原及楚辭的研究，自漢以來綿延不衰，薪火相傳。歷史證明，不僅在古代文學(xué)領(lǐng)域，楚辭研究的價值歷久彌新，即便在網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天，楚辭依然是魅力無窮、炫目斑斕的人文淵藪。

目前，楚辭文獻(xiàn)研究的特點(diǎn)是：①內(nèi)容豐富，包括楚辭的校勘、目錄、版本、注釋、今譯、考據(jù)、輯軼、辨?zhèn)蔚鹊?，類型多樣、資料翔實(shí)，因而利用價值極高。②楚辭研究方法多樣，具有文本研究與學(xué)術(shù)史研究相并重，文學(xué)研究與文化背景相融通，出土文獻(xiàn)與地上文獻(xiàn)相結(jié)合，域外文獻(xiàn)與國內(nèi)文獻(xiàn)相參照等特點(diǎn)。

鑒于楚辭版本及楚辭研究文獻(xiàn)資源數(shù)量的日益激增，以及網(wǎng)絡(luò)上知識體系分散無序和楚辭學(xué)科缺乏規(guī)范的專業(yè)分類體系的現(xiàn)狀，對楚辭文獻(xiàn)知識的組織與開發(fā)勢在必行。通過語義網(wǎng)技術(shù)對楚辭知識有效組織，建立楚辭研究知識庫和網(wǎng)站檢索系統(tǒng)，使不同需求的網(wǎng)民能夠運(yùn)用方便、快捷、高效的新形式語義檢索服務(wù)，鏈接到關(guān)于楚辭的分類知識，便于世界各地讀者了解我國豐富的楚辭文化遺產(chǎn)，推動楚辭文學(xué)對國內(nèi)外學(xué)人的影響，促使楚辭文化在世界的傳播。同時，楚辭知識庫的構(gòu)建提供了文學(xué)領(lǐng)域語義知識庫、知識檢索的構(gòu)建方法和具體構(gòu)建成果，推動知識組織原理技術(shù)在文學(xué)領(lǐng)域的數(shù)字化、網(wǎng)絡(luò)化研究。此外，在教學(xué)科研方面，為楚辭研究學(xué)者和楚辭愛好者提供個性化信息服務(wù)，幫助他們進(jìn)行楚辭研究的知識挖掘和知識發(fā)現(xiàn)。這不僅是計算機(jī)技術(shù)運(yùn)用于楚辭與楚文化保存和普及的新嘗試，更是對古代文學(xué)學(xué)科的計算機(jī)輔助研究與教學(xué)的前瞻性探索。

1.2 語義知識庫研究概述

語義知識庫是對領(lǐng)域知識的模型化描述。實(shí)現(xiàn)基于知識的相關(guān)性與智能檢索是近年來文獻(xiàn)學(xué)和信息科學(xué)的研究熱點(diǎn)之一。電腦科技進(jìn)入英美文學(xué)研究大約開始于20世紀(jì)60年代。1996年結(jié)合人文與電腦咨詢的期刊《Computersand the Humanities》創(chuàng)刊，開啟了文學(xué)（西方）研究者以電腦來處理文學(xué)文本的學(xué)術(shù)研究。在語言學(xué)方面，世界上已建設(shè)的代表性語義知識庫項目有：①美國普林斯頓大學(xué)1985年開始建設(shè)的WordNet（采用手工構(gòu)建，包含20716個概念詞及其語義關(guān)系）；［1］② 美國微軟公司1993年開始構(gòu)建的NindNet（采用自動構(gòu)建，建成約16萬詞匯的語義關(guān)系描述）；［2］③英國劍橋大學(xué)的ILD（采用手工構(gòu)建，提供語義分類、語義特征、語義角色與選擇限制等）；④美國加州大學(xué)1997年開始的FrameNet（采用手工構(gòu)建，包含625個框架、8900多個詞語、13.5萬條例句等）等等。［3］

語言學(xué)因其獨(dú)有的形、音、義相結(jié)合的特質(zhì)而被專家較早引入計算機(jī)科學(xué)技術(shù)，上世紀(jì)90年代以來，我國大陸及臺灣地區(qū)對語義知識庫的研究也在如火如荼的開展著，許多學(xué)術(shù)專家正在進(jìn)行知識庫模型和應(yīng)用的理論研究與實(shí)踐探索，其中包括對語言學(xué)、歷史學(xué)、農(nóng)學(xué)、醫(yī)學(xué)等眾多學(xué)科的知識庫構(gòu)建研究。［3］與人文領(lǐng)域相關(guān)的有：中國人民大學(xué)、清華大學(xué)手工構(gòu)建的“現(xiàn)代漢語術(shù)語動詞機(jī)器詞典”；北京大學(xué)的CCD（手工構(gòu)建，語義知識表述了近6萬個概念）并開發(fā)“中國古代詩詞電腦輔助研究系統(tǒng)”，其中包含“唐宋詩之詞匯自動分析及應(yīng)用”；董振東項目組的HowNet（采用手工構(gòu)建，包含81062個漢語詞匯、95690個漢語語義項、24089個概念）等項目；臺灣元智大學(xué)中國語言學(xué)系羅鳳珠教授與清華大學(xué)共同致力于研制“漢語詩的本體知識與語義檢索”。［4］在中國大陸與臺灣地區(qū)的古代文學(xué)數(shù)字化研究是基于中國古代詩歌語料庫的計算機(jī)語言學(xué)相關(guān)研究為基礎(chǔ)的，缺少對中國古代辭賦語料庫的研究。

《楚辭》之香草紛呈、喻義各別，是藝術(shù)的高妙之處，也是難以把握之處，由此激發(fā)了利用計算機(jī)中的知識組織和知識描述對其原本隱藏知識進(jìn)行挖掘，探知楚辭及辭賦的文字、章法、修辭和表現(xiàn)技巧。［5］同時，在知識庫構(gòu)建中又深入到具體知識的關(guān)聯(lián)層面，將楚辭的作品表與楚辭作者表、楚辭地名表、楚辭版本表、楚辭事件表、屈原時代表、屈原家族表、楚辭植物表、楚辭音像數(shù)據(jù)庫、專家學(xué)者知識庫、楚辭論文索引、蘭文化知識庫和中國古代辭賦簡論表相互關(guān)聯(lián)。反之，在楚辭知識庫的內(nèi)部知識推理和外部閱讀與檢索工具中，亦能從楚辭的單片論文出發(fā)，延伸到楚辭的作品表及相關(guān)性的知識，從而極大豐富讀者的知識獲取。

2 基于本體的楚辭知識庫結(jié)構(gòu)設(shè)計與實(shí)現(xiàn)

2.1 楚辭研究文獻(xiàn)信息資源的調(diào)查、收集和數(shù)字化

多途徑、多渠道搜集自漢以來的楚辭文獻(xiàn)和楚辭研究信息資源，包括古籍文獻(xiàn)、研究專著、研究論文、圖片和音像資料等，進(jìn)行數(shù)字化處理。目前，我們已完成超過7000篇題錄和1000多篇論文、100種楚辭專著和數(shù)百種圖片、音像資料的數(shù)字化，同時對楚辭文獻(xiàn)進(jìn)行主題分析，為楚辭研究知識庫的構(gòu)建提供文獻(xiàn)保障和準(zhǔn)備。我們在楚辭語料整理、入庫與標(biāo)注時，保持了語料保存的統(tǒng)一性和規(guī)范性。在楚辭專家的鑒定下確保了錄入楚辭相關(guān)及相似語料的正確性。

2.2 建立楚辭原始文本庫和楚辭研究文獻(xiàn)庫

經(jīng)過聚類技術(shù)對楚辭用戶進(jìn)行分析發(fā)現(xiàn)：讀者在網(wǎng)上搜尋到的楚辭信息需要進(jìn)一步分層次處理。以《楚辭》中的《橘頌》為例，從楚辭愛好者的基本認(rèn)知層面來分析，他們關(guān)心的是每行詩句的注音、注疏及內(nèi)容詮釋。從楚辭知識理解和賞析的層面來看，他們關(guān)注的是楚辭的作者、楚辭的文化背景，屈原的家族淵源、有關(guān)楚辭的音像、考古等知識需求。從楚辭研究者整體訪問楚辭知識的層面來說，他們更在意與楚辭相關(guān)的其他引申的相似信息，例如楚辭專家、楚辭論著、楚辭論文、辭賦源流等其他信息?；诖?，我們將楚辭的信息分為楚辭原始文本庫和楚辭研究文獻(xiàn)庫，用基于本體的元數(shù)據(jù)進(jìn)行分層管理。標(biāo)準(zhǔn)參照《我國數(shù)字圖書館標(biāo)準(zhǔn)與規(guī)范建設(shè)》中有關(guān)元數(shù)據(jù)與知識組織標(biāo)準(zhǔn)。元數(shù)據(jù)可應(yīng)用于不同層次，或者說，可以定義楚辭全局的元數(shù)據(jù)，也可以定義關(guān)于楚辭知識某一層次資源的元數(shù)據(jù)，并最終以一種統(tǒng)一、穩(wěn)定的楚辭描述方式和組織存儲在不同介質(zhì)上的信息，有助于查找和描述信息資源，從而改進(jìn)對資源進(jìn)行檢索、管理和利用的途徑。楚辭原始文本庫包含楚辭作者表、楚辭地名表、楚辭版本表、楚辭作品表、楚辭植物表、楚辭音像表、中國辭賦發(fā)展表等核心概念集與擴(kuò)展概念集；楚辭研究文獻(xiàn)庫中將包括楚辭影響表、楚辭與考古表、楚辭論文表、楚辭專家學(xué)者表等核心概念集。以上劃分極大解決了楚辭的內(nèi)部知識系統(tǒng)，并為語義標(biāo)注和語義推理提供可行性的方案。圖1是在元數(shù)據(jù)分層管理的基礎(chǔ)上，以《橘頌》為實(shí)例的系統(tǒng)構(gòu)思圖。［6］

圖1 以《橘頌》為實(shí)例的系統(tǒng)構(gòu)思

2.3 楚辭研究知識抽取與語義處理

我們的步驟是利用具有語義功能的概念圖模型搭建楚辭原始文本庫與研究文獻(xiàn)庫之間的對應(yīng)關(guān)系，并進(jìn)行語義標(biāo)注與推理，完成楚辭知識抽取庫的構(gòu)建。一方面，由楚辭研究專家指導(dǎo)專業(yè)人員利用語義標(biāo)注工具進(jìn)行語義化處理。這需要考慮3種情況：同義詞、概念的歧義、概念的上下位關(guān)系。另一方面，我們主要借助人工參與及結(jié)合現(xiàn)有的分詞工具，設(shè)計楚辭研究文檔分析器嵌入知識庫系統(tǒng)當(dāng)中，進(jìn)行語義提取、組織和處理，進(jìn)而通過概念的上位概念或是下位概念亦能檢索到潛在的有用信息。

2.4 楚辭研究知識本體構(gòu)建

利用本體開發(fā)工具構(gòu)建楚辭研究知識關(guān)聯(lián)的過程如下：①由楚辭專家指導(dǎo)定義楚辭研究概念的層次結(jié)構(gòu)。②定義楚辭研究概念術(shù)語及屬性、關(guān)系及關(guān)系屬性。③本體編碼。④楚辭研究知識概念實(shí)例化。包括實(shí)例聲明、實(shí)例描述和關(guān)系關(guān)聯(lián)三部分；生成不少于1000個本體類、關(guān)系屬性、推理屬性和實(shí)例。⑤構(gòu)建楚辭研究語義概念詞典。建立楚辭研究知識庫的抽詞詞典，以詞匯作為楚辭研究知識的自動標(biāo)引、自動分類的工具和楚辭研究知識檢索的入口詞表。［7，8］其中每個概念都將能被清晰地定義和擁有可機(jī)器處理的語義。

3 楚辭知識庫網(wǎng)站前臺實(shí)現(xiàn)

知識庫網(wǎng)站前臺顯示使用了web2.0理念，結(jié)合了具有楚文化底蘊(yùn)的展示頁面。我們在設(shè)計整個知識庫系統(tǒng)的時候，考慮到“楚辭知識庫”網(wǎng)站的整體感，對知識庫的前臺頁面設(shè)計也進(jìn)行了VI整合，以便楚辭專業(yè)學(xué)者或是感興趣的用戶在進(jìn)行知識檢索和學(xué)習(xí)的同時，感受楚文化古韻的視覺沖擊。

在前臺設(shè)計中，為了使用戶使用更加方便，降低用戶楚辭學(xué)的專業(yè)門檻，我們將楚辭知識庫中的5個大類內(nèi)容分別做了聚合功能。在用戶不知從何處入手了解楚辭的時候，只要點(diǎn)擊左邊的5大類內(nèi)容，就可以輕而易舉地獲取楚辭知識。這里的聚合功能不同于傳統(tǒng)網(wǎng)站的簡單分類，而是用了“類聚合”的概念。使用“類聚合”，可以把無數(shù)條相關(guān)記錄放到N個不同的類中，這樣可以降低數(shù)據(jù)庫存儲容量，提高數(shù)據(jù)檢索的效率，并讓內(nèi)容錄入者減輕負(fù)擔(dān)，以此提高工作效率和系統(tǒng)利用率。

在前臺顯示檢索結(jié)果的時候，如前所述，其結(jié)果會通過推理機(jī)自動生成4個不同的屬性標(biāo)簽，即論文、著作、知識庫、圖片，另一種“類聚合”的表現(xiàn)形式，其以不同屬性的“類聚合”來展現(xiàn)我們知識庫的體系內(nèi)容，可以讓用戶在獲取信息時更加靈活、方便地收集楚辭信息。

4 楚辭知識庫構(gòu)建過程中的難點(diǎn)與解決構(gòu)思

選用計算機(jī)語義網(wǎng)構(gòu)建輔助文學(xué)研究的知識庫還處于起步階段。因而，以此為代表的基于本體的楚辭知識庫構(gòu)建還有很多問題需要關(guān)注和突破。目前需要突破的重點(diǎn)、難點(diǎn)主要有以下三個方面：

（1）楚辭研究知識中核心概念和擴(kuò)展概念語義關(guān)系網(wǎng)的構(gòu)建。我們擬根據(jù)IFLA的書目記錄功能需求FRBR，利用實(shí)體——屬性方法組建一個揭示楚辭書目結(jié)構(gòu)和關(guān)系的概念模型，從而構(gòu)建基于本體的楚辭文獻(xiàn)知識描述體系（見圖2）。

圖2 楚辭知識描述體系關(guān)系圖

在利用Protégé進(jìn)行開發(fā)時，所建立元類中的槽必須涉及FRBR的10個關(guān)鍵實(shí)體。以楚辭作品這項核心概念為例，元類中的槽需要包含：一組（作品、內(nèi)容表達(dá)、載體體現(xiàn)、單件）、二組（個人、團(tuán)體）、三組（概念、實(shí)物、事件、地點(diǎn)）。

（2）在知識庫構(gòu)建過程中，需解決以下兩個問題：①在楚辭研究領(lǐng)域內(nèi)，由于地域和習(xí)慣的不同，對同一事件或過程的表述存在結(jié)構(gòu)上的差異，需建立一個經(jīng)過論證的、具有一定擴(kuò)展性和概括性的標(biāo)準(zhǔn)結(jié)構(gòu)來規(guī)范數(shù)據(jù)的輸入和存儲；同時，數(shù)據(jù)的存儲模型和國際本體標(biāo)準(zhǔn)OWL要可以相互轉(zhuǎn)化，從而保證知識的可交換性，避免因結(jié)構(gòu)不同導(dǎo)致的重復(fù)工作。②由于語言內(nèi)在的和固有的動態(tài)性，決定了楚辭研究知識庫也是需要不斷發(fā)展和更新的，因此，需特別設(shè)置一個本體代理來對本體知識庫進(jìn)行被動式擴(kuò)充，從而保證知識庫的可擴(kuò)展性。［9］

（3）如何提高語義提取的準(zhǔn)確率，關(guān)鍵是如何在對文檔詞語切分處理、術(shù)語的自動提取、概念間關(guān)系提取和句法內(nèi)容分析時消除歧義。我們擬采用人工參與，結(jié)合現(xiàn)有的分詞工具、詞義消歧工具、術(shù)語及其關(guān)系提取，設(shè)計楚辭研究文檔分析器嵌入知識庫系統(tǒng)中，進(jìn)行語義提取、組織和處理。［10］

5 結(jié)束語

無論從語義網(wǎng)研究實(shí)踐來看，還是從計算機(jī)網(wǎng)絡(luò)輔助文學(xué)研究、文化傳承及教學(xué)開發(fā)來看，探索基于本體的文獻(xiàn)學(xué)知識組織與知識檢索理論、方法，并借助網(wǎng)絡(luò)平臺應(yīng)用于中國古代文學(xué)學(xué)科中的楚辭學(xué)研究領(lǐng)域只是一個研究起點(diǎn)。盡管還有許多難點(diǎn)及待開發(fā)的研究領(lǐng)域，但更重要的是，它超越了原始數(shù)據(jù)庫的簡單檢索，使基于本體的楚辭知識庫在檢索服務(wù)上實(shí)現(xiàn)了智能化。我們堅信，楚辭文獻(xiàn)語義化研究和楚辭知識庫的構(gòu)建將是網(wǎng)絡(luò)信息時代中國古代文學(xué)研究方式創(chuàng)新歷程的必要環(huán)節(jié)。

［1］ Princeton University.WordNet Program［EB/OL］.［2009－12－11］.http://www.cogsci.princeton.edu/～wn/.

［2］微軟研究院.NLP組 MindNet項目［EB/OL］.［2009－12－11］.http://research.microsoft.com/nlp/.

［3］美國加州大學(xué).Framenet項目［EB/OL］.［2009－12－11］.http://framenet.icsi.berkeley.edu/.

［4］羅鳳珠，等.語言，文學(xué)與資訊［M］.臺灣：新竹“國立”清華大學(xué)出版社，2004.

［5］連登崗.祖國通用語言文字的特點(diǎn)和地位［J］.南通大學(xué)學(xué)報（社會科學(xué)版），2009（1）：76－82.

［6］羅鳳珠，等.古代詩歌藝術(shù)數(shù)位博物館的設(shè)計與實(shí)現(xiàn)及相關(guān)的計算語言學(xué)研究［M］//語言，文學(xué)與資訊.臺灣：新竹“國立”清華大學(xué)出版社，2004：219－262.

［7］ Wallg M，Nie J.ALatent Semantic Structure Model for Text Classification［M］.Toronto:ACM－SIGIR－2003，Workshop on Mathematic/Formal Methods in Information Retrieval，2003.

［8］ Shaw－Taylor J，CristianiniN，Kemel Methodsfor Pattern Analysis［M］.China Maehine Press，2005.

［9］路耀華.思維模擬與知識工程［M］.北京：清華大學(xué)出版社；南寧：廣西科學(xué)技術(shù)出版社，1997.

［10］董慧，等.基于本體的數(shù)字圖書館檢索模型研究（Ⅰ）——體系結(jié)構(gòu)解析［J］.情報學(xué)報，2006（3）：269-275.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡