本體論在網(wǎng)絡(luò)信息檢索中的應(yīng)用研究

2010-09-06 02:55:04程華道

湖北警官學(xué)院學(xué)報(bào) 2010年2期

關(guān)鍵詞：特征詞信息檢索本體論

程華道

(湖北警官學(xué)院，湖北武漢 430034)

本體論在網(wǎng)絡(luò)信息檢索中的應(yīng)用研究

程華道

(湖北警官學(xué)院，湖北武漢 430034)

現(xiàn)代社會信息資源的不斷豐富和人們對信息需求層次的不斷提高，對信息檢索技術(shù)的發(fā)展提出了挑戰(zhàn)。人們試圖將各種先進(jìn)的思想和方法引入信息檢索領(lǐng)域之中，促進(jìn)其理論和技術(shù)的深層次變革。由此，基于本體論的智能信息檢索研究逐步成為領(lǐng)域熱點(diǎn)。

本體論；網(wǎng)絡(luò)信息檢索；智能化檢索

一、引言

近年來，隨著網(wǎng)絡(luò)的快速發(fā)展，人們對網(wǎng)絡(luò)的依賴性也愈加強(qiáng)烈，這導(dǎo)致獲取網(wǎng)絡(luò)信息資源的需求不斷增強(qiáng)。網(wǎng)絡(luò)為人們帶來了空前便捷的信息交流，但同時(shí)也為信息檢索領(lǐng)域帶來了巨大的挑戰(zhàn)?；趫D書館分類信息檢索方案的目錄式搜索引擎的出現(xiàn)是互聯(lián)網(wǎng)歷史上的一個(gè)里程碑，但這種過于依賴人力的解決方案根本無力應(yīng)對互聯(lián)網(wǎng)上海量的數(shù)據(jù)。全文檢索式搜索引擎脫離了人工，提高了搜索引擎的信息處理速度，但同時(shí)帶來了另一個(gè)問題：關(guān)鍵詞匹配技術(shù)所得到的搜索結(jié)果與用戶查詢意圖相關(guān)度差。通用搜索引擎并未考慮用戶個(gè)性化的因素，正確的結(jié)果隱藏在大量的垃圾數(shù)據(jù)中。時(shí)至今日，網(wǎng)絡(luò)搜索引擎的信息查全率與查準(zhǔn)率還是難如人意，難以滿足市場的需求。

為了更好地解決上述問題，本體作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具，自被提出以來就引起了國內(nèi)外眾多科研人員的關(guān)注。本體論(Ontology)現(xiàn)已被廣泛應(yīng)用于人工智能、計(jì)算機(jī)科學(xué)等信息系統(tǒng)的研究和應(yīng)用，成為網(wǎng)絡(luò)信息智能檢索的最新研究熱點(diǎn)之一。其基本原理為將信息抽象為知識，按照本體論的原理，建立知識庫；將用戶檢索請求轉(zhuǎn)換為本體論規(guī)則下的概念，在知識庫中進(jìn)行匹配，查找在知識含義水平上的信息，然后將檢索結(jié)果返回給信息查詢者。其具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持，把本體融合到傳統(tǒng)信息檢索技術(shù)中去，不僅可以繼承傳統(tǒng)的概念信息檢索的優(yōu)點(diǎn)，還可以克服概念信息檢索中不能對概念關(guān)系進(jìn)行處理的局限性。本體論一方面可以把信息檢索從基于關(guān)鍵詞的層次提高到基于概念的層次，從而提高系統(tǒng)的查準(zhǔn)率與查全率；另一方面還可以對概念的相關(guān)性進(jìn)行推理，挖掘出用戶的真正需求所在，從而實(shí)現(xiàn)智能化的信息檢索。

二、本體論的概念

本體的概念起源于哲學(xué)領(lǐng)域。在哲學(xué)上，本體論泛指對客觀世界的本體描述，是客觀現(xiàn)實(shí)的一個(gè)抽象本質(zhì)，是研究實(shí)體存在性和實(shí)體存在本質(zhì)等方面的通用理論。本體論概念在被引入人工智能領(lǐng)域后，被賦予了更為具體的意義，但是最初人們對本體論的理解并不完善，因此它的定義也在不斷的發(fā)展變化中。目前，人工智能領(lǐng)域的本體定義已得到比較普遍的認(rèn)同：“本體是共享概念模型的明確的形式化規(guī)范說明。它包含四層含義：概念模型、顯性化、形式化和共享?！薄案拍钅Ｐ汀笔侵竿ㄟ^對客觀世界中一些現(xiàn)象的相關(guān)概念進(jìn)行抽象而得到的模型，它表示的含義獨(dú)立于具體的環(huán)境狀態(tài)。該抽象模型類似于一個(gè)字典或術(shù)語表，一般由領(lǐng)域內(nèi)的一組概念、公理和關(guān)系組成?！帮@性化”是指所使用的概念及使用這些概念的約束都有明確的定義和說明。“形式化”是指本體所包含的內(nèi)容應(yīng)該被計(jì)算機(jī)所理解，以便于計(jì)算機(jī)的處理?！肮蚕怼敝副倔w中體現(xiàn)的是共同認(rèn)可的知識，它不是某個(gè)個(gè)體私有的，而是可以被一個(gè)群體所接受的，反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集，從而實(shí)現(xiàn)系統(tǒng)間的知識共享和新系統(tǒng)的知識重用。共享和重用是使用本體所帶來的重要優(yōu)勢。

總之，本體通過對概念的嚴(yán)格定義和概念之間的關(guān)系來確定概念的精確含義，以表示共同認(rèn)可的、可共享的知識。因此把現(xiàn)實(shí)世界中某個(gè)應(yīng)用領(lǐng)域抽象或概括成一組概念及概念之間的關(guān)系，構(gòu)造出這個(gè)領(lǐng)域的本體，會使計(jì)算機(jī)對該領(lǐng)域的信息處理大為方便。

三、基于本體信息檢索的特點(diǎn)

（一）解決詞匯歧義

由于大量“一詞多義”現(xiàn)象的存在，用戶在提交這類關(guān)鍵詞進(jìn)行檢索時(shí)，常常導(dǎo)致系統(tǒng)無法了解用戶究竟是想檢索哪一種含義，也就是我們通常所說的表達(dá)差異的問題，這給基于關(guān)鍵詞的檢索系統(tǒng)帶來巨大的困難，成為長期困擾信息檢索領(lǐng)域的一個(gè)難以解決的問題。例如在基于關(guān)鍵詞的檢索系統(tǒng)中，假設(shè)用戶輸入關(guān)鍵詞“成本”進(jìn)行檢索，檢索后用戶可能會發(fā)現(xiàn)，包含有“機(jī)會成本”、“成本會計(jì)”、“成本控制”、“成本核算”、“生產(chǎn)成本”等關(guān)鍵詞的網(wǎng)頁文檔都作為匹配信息進(jìn)行返還，而用戶檢索的本意可能只是想查找關(guān)于成本控制方面的信息。

在本體論的協(xié)助下，系統(tǒng)可以有效地解決這一問題。當(dāng)用戶提交關(guān)鍵詞進(jìn)行檢索時(shí)，檢索系統(tǒng)首先對用戶輸入的關(guān)鍵詞借助于領(lǐng)域本體論判斷其所屬的可能領(lǐng)域，如果用戶輸入的關(guān)鍵詞在多個(gè)領(lǐng)域都有匹配，那么系統(tǒng)將會把匹配的各個(gè)領(lǐng)域的相關(guān)概念詞語與定義羅列給用戶，由用戶據(jù)此進(jìn)行相應(yīng)的選擇和判斷。這樣，一方面通過判斷和選擇的過程幫助用戶明確其知識需求，把未意識到的或者未明確清晰表達(dá)的客觀知識需求進(jìn)一步顯性化；另一方面用戶通過明確其檢索需求可以讓系統(tǒng)確定檢索詞在本體論中的確切位置，從而幫助系統(tǒng)理解用戶的檢索意圖，為用戶提供準(zhǔn)確的相關(guān)信息。例如，當(dāng)用戶輸入關(guān)鍵詞“成本”后，系統(tǒng)把它與本體論進(jìn)行匹配，當(dāng)發(fā)現(xiàn)關(guān)鍵詞“成本”在多個(gè)領(lǐng)域都有匹配時(shí)，系統(tǒng)就返回內(nèi)容供用戶選擇；接下來，用戶可以據(jù)此選擇出符合自己檢索要求的概念詞語，重新輸入檢索式進(jìn)行二次檢索。這樣，利用本體論就克服了用戶在提交檢索需求時(shí)輸入的關(guān)鍵詞不規(guī)范的問題，使用戶第二次輸入的關(guān)鍵詞與文檔的索引詞在語義上保持一致。

（二）智能化檢索

為克服利用單一關(guān)鍵詞進(jìn)行檢索時(shí)，由于檢索式短小而帶來的局限，在此提出了一種基于本體論的智能化檢索算法。所謂進(jìn)行智能化檢索就是用戶采用自然語言來描述檢索請求，這樣用戶提供了檢索的環(huán)境信息，增加了檢索關(guān)鍵詞的數(shù)量，幫助系統(tǒng)更好地理解用戶的檢索需求。

無論是哪一種形式的檢索，最終都將產(chǎn)生一組概念項(xiàng)和邏輯關(guān)系（與、或、非）的集合，被稱為用戶需求概念空間。知識檢索過程就是將用戶需求概念空間和事實(shí)數(shù)據(jù)概念空間進(jìn)行匹配的過程。但是，由于用戶的使用經(jīng)驗(yàn)不足、檢索式處理方法的缺陷等原因，常常導(dǎo)致形成的用戶需求概念空間存在各種問題，如不能真實(shí)反映用戶的實(shí)際檢索需求，存在不一致性和重復(fù)性、內(nèi)容不夠全面等問題，這些都將影響知識檢索的質(zhì)量。另外，有時(shí)用戶輸入的檢索式過于簡單，導(dǎo)致用戶需求概念空間中的概念項(xiàng)數(shù)量太少，難以形成有效的檢索。因此，為了充分理解和正確表示用戶的檢索需求，在對用戶概念空間進(jìn)行匹配之前，需要通過本體論中的各種關(guān)系對其進(jìn)行優(yōu)化和擴(kuò)展。

假設(shè)用戶的原始的概念空間為{K,Q}，其中K為用戶檢索式中的檢索概念項(xiàng)的集合，Q為概念項(xiàng)間邏輯關(guān)系的集合，則利用語言本體論對其進(jìn)行優(yōu)化的過程可以分為兩步：

第一步：將K中的用戶概念項(xiàng)映射為語言本體論中的概念，形成新的概念集合C；

第二步：根據(jù)語義關(guān)系和原始的邏輯關(guān)系Q，對C執(zhí)行邏輯轉(zhuǎn)換規(guī)則，確定新概念間的新邏輯關(guān)系，形成新的概念空間；

當(dāng)K中的所有用戶概念項(xiàng)都被映射為語言本體論中的概念后，則進(jìn)行第二步，即根據(jù)集合C中各概念間的語義關(guān)系對原有的邏輯關(guān)系進(jìn)行轉(zhuǎn)換，形成新概念間的新的邏輯關(guān)系。概念間的語義關(guān)系包括：同義關(guān)系、上位/下位關(guān)系、半義/全義關(guān)系和反義關(guān)系。轉(zhuǎn)換過程主要通過應(yīng)用一套邏輯轉(zhuǎn)換規(guī)則來實(shí)現(xiàn)，對應(yīng)于C中的任意兩個(gè)概念項(xiàng)i和j間的邏輯關(guān)系。

（三）文檔分析

1.提取

網(wǎng)頁文檔特征詞的抽取，我們可從以下兩點(diǎn)進(jìn)行：從標(biāo)題、小標(biāo)題、摘要和關(guān)鍵詞中直接提取特征詞；從正文中提取特征詞。

（1）從標(biāo)題、小標(biāo)題、摘要和關(guān)鍵詞中直接提取特征詞。對于大多數(shù)文檔而言，文檔的標(biāo)題、小標(biāo)題是最能直接體現(xiàn)文章主旨的提示，因此必須對這些部分進(jìn)行充分的特征詞挖掘。另外科技文檔中的關(guān)鍵詞和摘要也是需要進(jìn)行充分特征詞挖掘的部分。一般來說，由于作者的書寫習(xí)慣具有一定的穩(wěn)定性，我們總能通過一定的方法獲知其標(biāo)題、小標(biāo)題、關(guān)鍵詞和摘要的物理位置。標(biāo)題性文字通常在文檔中都會采用較大的字體、單獨(dú)一行或加黑等方法予以明示，而在HTML中更以Title加以標(biāo)記。關(guān)鍵詞和摘要在科技文獻(xiàn)中通常也會采用異于正文的字體和固定的位置給予明確。

（2）從正文中提取特征詞。有些詞語雖然沒有直接出現(xiàn)在標(biāo)題、小標(biāo)題中，但是有可能也是表達(dá)該網(wǎng)頁文檔主題的特征詞之一。對于這類特征詞的提取目前大多是采取基于頻率統(tǒng)計(jì)的算法來抽取這些詞語，其基本思想是：首先對一定數(shù)量的范例文檔進(jìn)行分析統(tǒng)計(jì)，得出某個(gè)特征詞在各個(gè)文檔中出現(xiàn)的相對頻率集，然后在語言學(xué)家和領(lǐng)域?qū)＜业膸椭麓_定該特征詞一個(gè)恰當(dāng)?shù)幕绢l率范圍。如果某詞語在所分析的源文檔中出現(xiàn)的頻率在上述基本頻率范圍內(nèi)，那么就可以認(rèn)為該詞語是表達(dá)該網(wǎng)頁文檔主題的特征詞之一。

2.確定所屬領(lǐng)域

抽取了一組能夠表達(dá)網(wǎng)頁文檔(標(biāo)引文獻(xiàn))主題內(nèi)容的特征詞，還應(yīng)該把特征詞語轉(zhuǎn)換為本體論中的概念詞語，以明確其真正含義。我們可以通過把該網(wǎng)頁文檔的特征詞與本體論中的概念及其設(shè)立的同義詞進(jìn)行匹配來實(shí)現(xiàn)這種轉(zhuǎn)換。匹配的結(jié)果可能出現(xiàn)三種情況：

（1）抽取出的特征詞與所創(chuàng)建的領(lǐng)域本體論中的任何概念及其設(shè)立的同義詞都不匹配，這時(shí)，可由領(lǐng)域?qū)＜液捅倔w論構(gòu)建者為該特征詞提供相應(yīng)的領(lǐng)域本體論描述。

（2）該特征詞語在本體論中只屬于一個(gè)領(lǐng)域，則只要通過本體論中的同義詞表，把該特征詞轉(zhuǎn)換為本體論中的概念詞語即可。

（3）該特征詞語在本體論中分屬于不同的領(lǐng)域，即出現(xiàn)“一詞多義”的現(xiàn)象，這時(shí)，我們可以借助本體論通過某種算法來確定文檔所屬領(lǐng)域。

具體的算法流程見圖3-1所示。

圖3-1 算法流程圖

3.進(jìn)行映射

明確了文檔特征詞所屬領(lǐng)域，把特征詞轉(zhuǎn)換為本體論中的概念詞語后，還需要把本體論中對應(yīng)的概念詞與特征詞所在的網(wǎng)頁文檔(標(biāo)引文獻(xiàn))關(guān)聯(lián)起來，我們可以通過創(chuàng)建特征詞在本體論中對應(yīng)的概念詞與特征詞所在的網(wǎng)頁文檔的對應(yīng)表，來建立網(wǎng)頁文檔與領(lǐng)域本體論之間的映射關(guān)系。

例如，有兩個(gè)含有關(guān)鍵詞“病毒”的網(wǎng)頁文檔，一個(gè)是指生物學(xué)領(lǐng)域的病毒，另一個(gè)是指計(jì)算機(jī)領(lǐng)域的病毒，那么通過上述方法確定了網(wǎng)頁文檔所屬領(lǐng)域之后，我們可以通過創(chuàng)建對應(yīng)表來建立網(wǎng)頁文檔與本體論之間的映射關(guān)系。

四、基于本體的信息檢索的基本設(shè)計(jì)思想

首先，在領(lǐng)域?qū)＜业膸椭?，建立相關(guān)領(lǐng)域的本體。本體的質(zhì)量是知識檢索的靈魂。構(gòu)建的本體越完善，越能保證檢索效率。確定本體的應(yīng)用范圍，在領(lǐng)域?qū)＜业膸椭拢_定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯，并從不同層次的形式化模式上給出這些詞匯（術(shù)語）和詞匯間相互關(guān)系的明確定義，這些定義應(yīng)該是明確的、無二義性的，是一組描述領(lǐng)域內(nèi)實(shí)體及其屬性和行為以及實(shí)體關(guān)系的詞匯、定義、公理、定理的集合。建立的本體應(yīng)該具備清晰性、一致性、完整性和可擴(kuò)展性。清晰性，就是本體中的術(shù)語無歧義地定義；一致性，就是術(shù)語之間關(guān)系邏輯上應(yīng)一致；完整性，是指本體中的概念及其關(guān)系應(yīng)是完整的，應(yīng)包含該領(lǐng)域內(nèi)所有概念，但往往很難達(dá)到，需不斷完善；而可擴(kuò)展性，即本體應(yīng)該能夠擴(kuò)展，在該領(lǐng)域不斷發(fā)展時(shí)能加入新的概念。

其次，收集信息源中的數(shù)據(jù)，并參照已建立的本體，把收集來的數(shù)據(jù)按規(guī)定的格式存儲在元數(shù)據(jù)庫（關(guān)系數(shù)據(jù)庫、知識庫等）中。

再次，對用戶檢索界面獲取的檢索請求，檢索轉(zhuǎn)換器按照本體把檢索請求轉(zhuǎn)換成規(guī)定的格式，在本體的幫助下從元數(shù)據(jù)庫中匹配出符合條件的數(shù)據(jù)集合。

最后，檢索的結(jié)果經(jīng)過定制處理后，返回給用戶。需要說明的是，如果檢索系統(tǒng)不需要太強(qiáng)的推理能力，本體可用概念圖的形式表示并存儲，數(shù)據(jù)可以保存在一般的關(guān)系數(shù)據(jù)庫中，采用圖的匹配技術(shù)來完成信息檢索。如果要求比較強(qiáng)的推理能力，一般需要用一種描述語言（如：Loom，Ontolingua等）表示本體，數(shù)據(jù)保存在知識庫中，采用描述語言的邏輯推理能力來完成信息檢索。由于本體能通過概念之間的關(guān)系來表達(dá)概念語義的能力，所以能夠提高檢索的查全率和查準(zhǔn)率。

五、結(jié)語

本體作為一種新的知識組織方式，力圖去解決知識的共享和重用問題，在知識越來越豐富的今天，受到了越來越多的關(guān)注，在許多方面有著廣泛的應(yīng)用前景。但是基于Ontology的信息檢索研究目前僅僅停留在理論研究方面，在具體的實(shí)施和系統(tǒng)構(gòu)建上還是有待加強(qiáng)，其中最大的原因就是Ontology理論和實(shí)踐的不成熟，而且運(yùn)行耗費(fèi)比較大，時(shí)間周期長，這些問題還有待于進(jìn)一步的解決。

［1］丁鳳玲.信息檢索中的本體論應(yīng)用[J].現(xiàn)代情報(bào),2007(3).

［2］宋曰聰,胡偉.基于本體的信息檢索系統(tǒng)的應(yīng)用研究[J].綿陽師范學(xué)院學(xué)報(bào),2007(5).

［3］尹紅麗.基于本體的個(gè)性化信息檢索技術(shù)研究[J].山東輕工業(yè)學(xué)院學(xué)報(bào),2008(2).

［4］郝嘉樹,王惠臨,劉耀.基于本體的跨語言信息檢索模型和關(guān)鍵技術(shù)研究[J].情報(bào)科學(xué),2009(2).

【責(zé)任編校：周文慧】

On Ontology Application on Network Information Retrieval

Cheng Huadao
(Hubei University of Police,Wuhan 430034,China)

Withthe enrichment oftheinformation resources inmodernsociety and theimprovement ofinformation needs of people,it challenges information retrieval technology.People try to introduce all kinds of advanced ideas and methods to the fieldof information retrieval,topromoteits theoryand technology ofdeep-rooted change.Thus,ontology-based intelligent information retrieval field of research has gradually become a hot spot.

ontology;network information retrieval;intelligent search

G25

1673 2391（2010）02—0115—04

20090920

程華道，男，湖北警官學(xué)院圖書館館員。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

本體論在網(wǎng)絡(luò)信息檢索中的應(yīng)用研究

一、引言

二、本體論的概念

三、基于本體信息檢索的特點(diǎn)

（一）解決詞匯歧義

（二）智能化檢索

（三）文檔分析

1.提取

2.確定所屬領(lǐng)域

3.進(jìn)行映射

四、基于本體的信息檢索的基本設(shè)計(jì)思想

五、結(jié)語

二、本體論的概念

三、基于本體信息檢索的特點(diǎn)

四、基于本體的信息檢索的基本設(shè)計(jì)思想

五、結(jié)語