基于本體的教育資源語義檢索關(guān)鍵技術(shù)研究

2014-07-28 05:16劉琪王小正王磊

電腦知識(shí)與技術(shù) 2014年16期

劉琪　王小正　王磊

摘要：該文對(duì)基于本體的語義檢索涉及的幾個(gè)關(guān)鍵技術(shù)進(jìn)行了深入探究，包括教育資源本體的構(gòu)建、本體數(shù)據(jù)的存儲(chǔ)等。并在此基礎(chǔ)上設(shè)計(jì)出基于本體的自適應(yīng)Web信息抽取模型和本體數(shù)據(jù)及實(shí)例數(shù)據(jù)存儲(chǔ)模型。

關(guān)鍵詞：教育資源；本體；語義；檢索；數(shù)據(jù)存儲(chǔ)

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）16-3872-04

Abstract： This paper studies Ontology-Based of Semantic Retrieval Key Technology of Educational Resources， which includes ontology of educational resources construction and ontology data storage. Finally， the designs of adaptive web information extraction model based on ontology and ontology data and instance data storage model are described.

Key words： Ontology； Semantic； Retrieval

1 概述

目前的搜索系統(tǒng)遠(yuǎn)不夠智能，仍然需要大量的用戶交互才能獲得期望的搜索結(jié)果。研究并設(shè)計(jì)基于語義的垂直搜索引擎，其目標(biāo)就是對(duì)搜索結(jié)果進(jìn)行系統(tǒng)的知識(shí)整理，使每個(gè)用戶查詢的關(guān)鍵詞都能映射到知識(shí)庫(kù)的概念上。

搜索引擎開發(fā)涉及到多個(gè)關(guān)鍵技術(shù)，隨著Hadoop和Nutch等開源技術(shù)的發(fā)展，可以解決分布式搜索引擎開發(fā)中的站點(diǎn)爬行、內(nèi)容解析等問題。該文則主要從以下幾個(gè)方面研究基于本體的教育資源語義檢索涉及的關(guān)鍵技術(shù)，包括教育資源本體的構(gòu)建技術(shù)、本體數(shù)據(jù)的存儲(chǔ)、語義相似度算法等。

2 基本概念

語義搜索對(duì)網(wǎng)頁文檔信息所蘊(yùn)含的語義信息進(jìn)行充分挖掘，同時(shí)把用戶的檢索要求轉(zhuǎn)換成相應(yīng)的語義表示，基于領(lǐng)域本體對(duì)其進(jìn)行辨別和推理，從語義層面理解用戶查詢，并將基于本體推理的結(jié)果返回給用戶。語義信息，從廣義上講，包括語義實(shí)體、語法關(guān)系、實(shí)體上下文特征、文本的結(jié)構(gòu)特征等等，語義搜索引擎不僅給出了相關(guān)網(wǎng)絡(luò)文檔作為查詢結(jié)果，而且在本體中查詢推理的相關(guān)資源也可以同時(shí)被給出，語義搜索引擎作為一個(gè)新的網(wǎng)絡(luò)信息學(xué)研究熱點(diǎn)，已經(jīng)在國(guó)內(nèi)外迅速展開。

本體概念本是來源于哲學(xué)，最早只是一個(gè)哲學(xué)概念。古希臘哲學(xué)家亞里士多德是最早對(duì)本體進(jìn)行解釋和研究的。哲學(xué)領(lǐng)域?qū)Ρ倔w的定義為“對(duì)世界上客觀存在物的系統(tǒng)地描述，即存在論”，是對(duì)客觀存在的一個(gè)系統(tǒng)的解釋或說明，關(guān)心的是客觀現(xiàn)實(shí)的抽象本質(zhì)。

本體具有良好的概念層次結(jié)構(gòu)和對(duì)邏輯推理的支持，通過對(duì)概念的嚴(yán)格定義和概念之間的關(guān)系來確定概念精確含義，表示共同認(rèn)可的、可共享的知識(shí)，其木質(zhì)就是領(lǐng)域知識(shí)的共享和復(fù)用。本體作為一種能在語義和知識(shí)層次上描述信息系統(tǒng)的類模型建模工具，可以在相對(duì)獨(dú)立構(gòu)建和管理的服務(wù)之間提供可重用性和互操作性。因此，基于本體技術(shù)可以解決教育資源在語義層次的檢索問題。在此基礎(chǔ)上實(shí)現(xiàn)的基于本體的教育領(lǐng)域語義搜檢索，結(jié)合語義Web技術(shù)，使用領(lǐng)域本體元數(shù)據(jù)模型對(duì)用戶的查詢進(jìn)行語義化規(guī)范，依據(jù)領(lǐng)域本體模式抽取文檔中的知識(shí)，準(zhǔn)確地表達(dá)了用戶的查詢語義和作為被查詢對(duì)象的文檔語義，可以大大提高檢索的準(zhǔn)確性和檢索效率。

3 關(guān)鍵技術(shù)研究

3.1 教育資源本體的構(gòu)建技術(shù)

本體提供了關(guān)于某領(lǐng)域的通用的術(shù)語和概念，并對(duì)術(shù)語的含義以及術(shù)語間的關(guān)系進(jìn)行了描述。本體在信總檢索、信息管理、自然語言理解和問答系統(tǒng)等方面都有著重要的應(yīng)用。

人工構(gòu)述例典是最簡(jiǎn)單的方法，其中典型的有WordNet和HowNet。人工構(gòu)建詞典的優(yōu)點(diǎn)在于詞典的質(zhì)量高。缺點(diǎn)在于人工構(gòu)建詞典是非常耗時(shí)的，而且更新維護(hù)的代價(jià)非常高。為解決這個(gè)問題，科研人員展開眾多本體自動(dòng)構(gòu)建的研究工作。我們根據(jù)知識(shí)來源的結(jié)構(gòu)化程度，將本體的自動(dòng)構(gòu)建方法分為三類：基于文本的（無結(jié)構(gòu)）、基于數(shù)據(jù)庫(kù)的（結(jié)構(gòu)化的），和基于Web的（半結(jié)構(gòu)化的），該文提出了一個(gè)半自動(dòng)構(gòu)建教育資源本體庫(kù)模型。具體流程如下：

首先，根據(jù)教育領(lǐng)域的各種權(quán)威性的詞表來構(gòu)建領(lǐng)域本體，既可以根據(jù)詞表中概念間存在的簡(jiǎn)單語義關(guān)系構(gòu)建輕量級(jí)的本體，這種本體語義簡(jiǎn)單但優(yōu)點(diǎn)是容易通過編寫程序?qū)崿F(xiàn)大批量的自動(dòng)轉(zhuǎn)化?？梢赃x擇《教育資源建設(shè)技術(shù)規(guī)范》（CELTS-41）作為元數(shù)據(jù)方案，基于此定義出教育資源本體的核心類。具體實(shí)現(xiàn)可使用Protégé軟件進(jìn)行本體的構(gòu)造，使用Protégé提供的OWLvizTal插件，這個(gè)插件可以通過圖形的形式顯示構(gòu)建的教育資源本體中各子類的層次關(guān)系。在建立了教育領(lǐng)域本體的核心類之后，要確定本體概念間的屬性關(guān)系。Protégé中到的屬性關(guān)系包括兩種屬性：關(guān)系屬性與數(shù)值屬性。關(guān)系屬性表示概念間的邏輯關(guān)系，如前驅(qū)關(guān)系（hasPrecursor）、后繼關(guān)系（hasSuccessor）、包含關(guān)系（is_part_of）等，關(guān)系屬性有定義域與值域，即指明這一關(guān)系的方向。本體的類、關(guān)系屬性和數(shù)字屬性設(shè)計(jì)完成后，教育資源領(lǐng)域本體的總體架構(gòu)設(shè)計(jì)就完成了，之后要錄入教育資源信息，即實(shí)例信息數(shù)據(jù)。

在已有的本體庫(kù)基礎(chǔ)上，設(shè)計(jì)了基于本體的自適應(yīng)Web信息抽取平臺(tái)的模型視圖，該模型視圖如圖1所示：

其中，Web領(lǐng)域資源發(fā)現(xiàn)模塊：該模塊的功能是實(shí)現(xiàn)面向不同網(wǎng)頁類型的網(wǎng)絡(luò)爬蟲，定向獲取與教育領(lǐng)域相關(guān)的資源，通過機(jī)器學(xué)習(xí)技術(shù)，對(duì)所獲得的網(wǎng)頁數(shù)據(jù)進(jìn)行過濾，將獲得到的教育相關(guān)數(shù)據(jù)提交給基于本體的自適應(yīng)信息抽取模塊。

基于本體的自適應(yīng)Web信息抽取模塊：接收來自Web領(lǐng)域資源發(fā)現(xiàn)模塊的信息，結(jié)合相應(yīng)的抽取任務(wù)描述信息，調(diào)用相應(yīng)的抽取方法，完成不同類型數(shù)據(jù)的抽取工作。endprint

輸出模塊：對(duì)經(jīng)過驗(yàn)證后的輸出結(jié)果進(jìn)行輸出，寫入特定的數(shù)據(jù)庫(kù)或知識(shí)庫(kù)中，同時(shí)建立將抽取結(jié)果與相應(yīng)的本體之間的關(guān)系，實(shí)現(xiàn)本體的擴(kuò)充。

本體知識(shí)模塊：該模塊包含與待抽取目標(biāo)相關(guān)的本體知識(shí)，涉及不同的教育領(lǐng)域本體、數(shù)據(jù)庫(kù)描述本體、交互關(guān)系本體以及各種知識(shí)庫(kù)資源等。

3.2 本體數(shù)據(jù)及實(shí)例數(shù)據(jù)存儲(chǔ)模型

HBase是構(gòu)建在Apache Hadoop之上的稀疏的、面向列的分布式數(shù)據(jù)庫(kù)，是Google BigTable的開源實(shí)現(xiàn)。Hbase利用Hadoop HDFS作為其文件存儲(chǔ)系統(tǒng)，利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù)，利用Zookeeper作為協(xié)同服務(wù)，具有高可靠性、可伸縮性等特性，能夠?qū)Ａ繑?shù)據(jù)提供隨機(jī)、實(shí)時(shí)的讀寫訪問。HBase是目前流行的一種NoSQL數(shù)據(jù)庫(kù)，已經(jīng)得到了廣泛的應(yīng)用。

HBase以HTable數(shù)據(jù)表形式存儲(chǔ)數(shù)據(jù)，但是不同于關(guān)系型數(shù)據(jù)庫(kù)的基于行存儲(chǔ)，HTable是基于列存儲(chǔ)。在物理存儲(chǔ)上，HTable按照列族存儲(chǔ)，并且不存放空值，只存放有內(nèi)容的表格單元（cell），邏輯上值為空的列并不占用存儲(chǔ)空間，因此，表可以設(shè)計(jì)的非常稀疏。HTable的稀疏性非常適合用來存儲(chǔ)稀疏的OWL及RDF數(shù)據(jù)。

現(xiàn)有的OWL數(shù)據(jù)管理系統(tǒng)大都采用XML文件或傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)來存儲(chǔ)OWL數(shù)據(jù)，這種方式已難以高效地管理海量OWL數(shù)據(jù)。該文結(jié)合關(guān)系型OWL數(shù)據(jù)存儲(chǔ)模式以及分布式系統(tǒng)平臺(tái)，提出一種基于分布式數(shù)據(jù)庫(kù)HBase的OWL數(shù)據(jù)存儲(chǔ)模型構(gòu)思。

圖2為OWL課程本體信息，接著創(chuàng)建元數(shù)據(jù)表來保存這些本體信息。

HBClass表存儲(chǔ)本體定義中的類信息，類名為row-key，包含兩個(gè)列族：properties、subClass，分別存儲(chǔ)類包含的屬性信息和子類信息，用列族的列標(biāo)簽存儲(chǔ)值，通過動(dòng)態(tài)地增加列來存儲(chǔ)多值，cell值均為“1”。具體存儲(chǔ)結(jié)構(gòu)如表1所示：

HBProperty表存儲(chǔ)本體定義中的屬性信息，屬性名為row-key，包含四個(gè)列族：subProperty、inverseProperty、domain 和 range，分別存儲(chǔ)屬性的子屬性、逆屬性、定義域和值域信息，與HBClass表一樣用列族的列標(biāo)簽存儲(chǔ)值，通過動(dòng)態(tài)地增加列來存儲(chǔ)多值，cell值均為“1”。具體存儲(chǔ)結(jié)構(gòu)如表2所示：

創(chuàng)建HBInstance表用于記錄每個(gè)類所擁有的實(shí)例，該表以類名作為row-key，只有一個(gè)列族instances，用列標(biāo)簽存儲(chǔ)該類所擁有的實(shí)例URI，通過動(dòng)態(tài)地增加列來存儲(chǔ)多值，cell值均為“1”。

4 結(jié)束語

為了提高信息檢索的準(zhǔn)確性和高效性，該文主要結(jié)合教育資源本體構(gòu)建及本體分布式存儲(chǔ)技術(shù)對(duì)語義查詢進(jìn)行了探究。教育資源本體庫(kù)的構(gòu)建是一項(xiàng)系統(tǒng)工程，本體與語義網(wǎng)技術(shù)也還不完善，同時(shí)本人對(duì)本體領(lǐng)域的相關(guān)知識(shí)有限，所以本文所提出的教育資源語義檢索相關(guān)技術(shù)的合理性還有待驗(yàn)證。

參考文獻(xiàn)：

[1] 馮桂爾. 基于本體的教育資源探究[J].上海：計(jì)算機(jī)教育，2007.

[2] 胡宜敏. 農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D].合肥：中國(guó)科學(xué)技術(shù)大學(xué)，2012 .

[3] 李傳席. 基于本體的自動(dòng)Web信息抽取方法研究[D].合肥：中國(guó)科技技術(shù)大學(xué)，2012.

[4] 郭仲毅. 基于本體的教育資源個(gè)性化語義檢索研究[D].呼和浩特：內(nèi)蒙古大學(xué)， 2012 .

[5] 張靜，唐杰. 下一代搜索引擎的焦點(diǎn)：知識(shí)圖譜[J]. 北京：中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊， 2013， 9（4）.

[6] 鄭文良. 基于簡(jiǎn)單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D]. 沈陽：沈陽農(nóng)業(yè)大學(xué)， 2013.

[7 ] Song R， Liu H， Wen J， et al. Learning block importance models for web pages[C]. Proceedings of the 13th international conference on World Wide Web， NY， USA. ACM， 203-211. 2004.

[8] 田鹿. 基于語義Web技術(shù)的教育資源元數(shù)據(jù)方案的研究[D].呼和浩特：內(nèi)蒙古大學(xué)， 2008.

[9] 林培光，康海燕. 面向Web的個(gè)性化語義信息檢索技術(shù)[M]. 北京：中國(guó)財(cái)政經(jīng)濟(jì)出版社， 2009.

[10] 武成崗，焦文品，田啟家等. 基于本體論和多主體的信息檢索服務(wù)器[J]. 計(jì)算機(jī)研究與發(fā)展，2001， 36（6）： 641-647.

[11] Berners-Lee， Tim. The Semantic Web. Scienti?c American. Retrieved March 13， 2008.

[12] Cheng T， K.C. Chang. Entity Search Engine： Towards Agile Best-Effort Information Integration over the Web. In Proc. CIDR， 2007，108-113.

[13] Ulanoff， Lance. Google Knowledge Graph Could Change Search Forever. http：//mashable.com/2012/02/13/google-knowledge-graph-change-search

[14] Dean J， Ghemawat S. MapReduce： Simplified Data Processing on Large Clusters[J]. Communications of the ACM， 2008， 51（1）： 107-113.

[15] 朱敏. 基于HBase的RDF數(shù)據(jù)存儲(chǔ)與查詢研究[D].南京：南京大學(xué)， 2013.

[16] White T. Hadoop： The Definitive Guide[M]. O'Reilly Media， Inc.， 2012.

[17] Ghemawat S， Gobioff H， Leung S T. The Google file system[C]. ACM SIGOPS Operating Systems Review. ACM， 2003，37（5）： 29-43.

[18] George L. HBase： The Definitive Guide[M]. O'Reilly Media， Incorporated， 2011.endprint