基于領(lǐng)域本體的語義檢索關(guān)鍵技術(shù)研究

2013-04-29 00:44:03王璐于超董亞則彭馨儀

軟件工程 2013年9期

王璐　于超　董亞則　彭馨儀

摘要：針對基于關(guān)鍵詞匹配的傳統(tǒng)檢索方法存在的不足，通過將語義引入到檢索過程中，可以構(gòu)建一個(gè)建立在本體基礎(chǔ)上的語義檢索模型。為了提高檢索結(jié)果的準(zhǔn)確率和全面率，通過使用本體的語義推理是一種很有效的辦法。

關(guān) 鍵詞：查詢擴(kuò)展；語義檢索；領(lǐng)域本體；語義推理

1.引言

在Web 2.0時(shí)代，隨著互聯(lián)網(wǎng)信息海量增長，亟須一種有效的機(jī)制來支持用戶快速、準(zhǔn)確地查找和組織所需的網(wǎng)絡(luò)資源。然而，通過關(guān)鍵詞進(jìn)行檢索，只有那些包含著全部或者部分關(guān)鍵詞的目標(biāo)文檔或者目標(biāo)語句才能被檢索[1]，無法對用戶表示隱性信息。從本體技術(shù)誕生那一天開始，人們就試圖進(jìn)行基于本體的信息檢索，利用本體來提高檢索過程中系統(tǒng)對于語義的智能分析能力，從而達(dá)到提高檢索效率的目標(biāo)[2]。本文基于領(lǐng)域本體進(jìn)行語義擴(kuò)展，并在此基礎(chǔ)上提出了一個(gè)語義檢索模型。

2.領(lǐng)域本體構(gòu)建

對于概念化的規(guī)范而又明確的說明被稱為本體，本體的類型可以分為四種，即通用、任務(wù)、應(yīng)用和領(lǐng)域本體。領(lǐng)域本體是在特定的專業(yè)領(lǐng)域中可以重復(fù)被使用的概念化單位，提供了特定的專業(yè)領(lǐng)域內(nèi)的概念和概念關(guān)系，是對于領(lǐng)域概念的規(guī)范化表述。

在進(jìn)行領(lǐng)域本體構(gòu)建時(shí)，為了生成本體核心語義，需要通過多種獲取知識的方法將特定領(lǐng)域內(nèi)的概念及其關(guān)系，用準(zhǔn)確的自然語言描述出來，而整個(gè)的描述過程是一個(gè)自頂向下，逐步求精的抽象過程。領(lǐng)域本體構(gòu)建流程如圖1所示。

3.語義檢索模型的設(shè)計(jì)

基于本體的語義檢索模型主要包括查詢分析、文檔處理、信息檢索以及本體管理四大模塊，具體模型如圖2所示。

（1）本體管理

由于檢索的效果在很大程度上取決于本體定義的質(zhì)量，所以，基于本體的語義檢索系統(tǒng)的核心是領(lǐng)域本體。因此，在構(gòu)建基于本體的語義檢索模型時(shí)不僅僅要在模型初期精確的定義本體，更重要的是要隨著相應(yīng)的領(lǐng)域知識結(jié)構(gòu)的變化，及時(shí)準(zhǔn)確的調(diào)整本體的定義，從而保證模型建立的精確高效。

（2）文檔處理

通過網(wǎng)絡(luò)爬蟲將分布在Internet的Web文檔收集到檢索信息庫中，對原始信息的進(jìn)行分析處理，包括：去除HTML標(biāo)簽、去除停用詞等，以提高處理的效率。為了建立領(lǐng)域本體與目標(biāo)文檔之間的關(guān)聯(lián)需要進(jìn)行如下處理：第一步，預(yù)處理目標(biāo)文檔；第二步，從目標(biāo)文檔中抽取特征信息，生成特征詞；第三步，將本體與特征詞進(jìn)行匹配；第四步，實(shí)例化本體概念。

（3）查詢分析

通過查詢擴(kuò)展可以極大的改善檢索系統(tǒng)在檢索任務(wù)中的效率。所謂的查詢擴(kuò)展指的是：基于本體，把與初始查詢有關(guān)的詞語或者與初始查詢有關(guān)的語義概念添加到初始查詢當(dāng)中，從而得到一個(gè)新的查詢的過程。將本體中概念與概念的關(guān)聯(lián)程度進(jìn)行量化，將量化后的結(jié)果作為范圍擴(kuò)展的依據(jù)，從而通過領(lǐng)域本體實(shí)現(xiàn)了語義擴(kuò)展查詢?？蛻舳说牟樵冋Z句提交給檢索服務(wù)器之后，首先由檢索服務(wù)器對查詢語句進(jìn)行語義比對分析并獲取其關(guān)鍵詞，然后根據(jù)客戶端提供的優(yōu)化參數(shù)來進(jìn)行語義優(yōu)化擴(kuò)展查詢[3]。

（4）信息檢索

首先檢索模型通過比對本體庫中的信息以及經(jīng)過處理的查詢條件的相似度，然后根據(jù)相似度閾值進(jìn)行相似度排序。

為實(shí)現(xiàn)語義檢索模型相關(guān)功能，采用的開發(fā)技術(shù)如表1所示。

4.結(jié)論

結(jié)合傳統(tǒng)的信息檢索技術(shù)與本體技術(shù)，設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于本體的語義檢索模型。通過將基于本體的語義檢索系統(tǒng)與基于關(guān)鍵詞的檢索系統(tǒng)相比較，可以看出前者有效的克服了使用后者進(jìn)行檢索而產(chǎn)生的問題：

（1）為了提高檢索的準(zhǔn)確率，基于本體的檢索模型使用語義詞代替關(guān)鍵詞，借助于對語義進(jìn)行推理的方法來查找目標(biāo)文檔所隱含的語義關(guān)系。

（2）為了使檢索結(jié)果更好地滿足客戶的需求，以本體技術(shù)為核心，建立針對性強(qiáng)的本體知識庫。

下一步將通過本體學(xué)習(xí)不斷完善本體，使用語義標(biāo)注對關(guān)鍵詞進(jìn)行更好更優(yōu)的語義擴(kuò)展，以獲得更高效的檢索結(jié)果。

參考文獻(xiàn)

[1] 鄭世明，任在安，宋自林.基于Ontology的語義查詢分析研究[J].南京師范大學(xué)學(xué)報(bào)，2008，8（4）：63-67.

[2] 齊紅，張亮亮，李昕.基于玉米本體的語義檢索系統(tǒng)[J].計(jì)算機(jī)工程，2011，37（4）：34-37.

[3] 鄭廷，鄭誠.基于Lucene的語義檢索系統(tǒng)[J].計(jì)算機(jī)工程，2008，34（16）：92-94.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于領(lǐng)域本體的語義檢索關(guān)鍵技術(shù)研究