王璐 于超 董亞則 彭馨儀
摘 要:針對基于關(guān)鍵詞匹配的傳統(tǒng)檢索方法存在的不足,通過將語義引入到檢索過程中,可以構(gòu)建一個(gè)建立在本體基礎(chǔ)上的語義檢索模型。為了提高檢索結(jié)果的準(zhǔn)確率和全面率,通過使用本體的語義推理是一種很有效的辦法。
關(guān) 鍵 詞:查詢擴(kuò)展;語義檢索;領(lǐng)域本體;語義推理
1.引言
在Web 2.0時(shí)代,隨著互聯(lián)網(wǎng)信息海量增長,亟須一種有效的機(jī)制來支持用戶快速、準(zhǔn)確地查找和組織所需的網(wǎng)絡(luò)資源。然而,通過關(guān)鍵詞進(jìn)行檢索,只有那些包含著全部或者部分關(guān)鍵詞的目標(biāo)文檔或者目標(biāo)語句才能被檢索[1],無法對用戶表示隱性信息。從本體技術(shù)誕生那一天開始,人們就試圖進(jìn)行基于本體的信息檢索,利用本體來提高檢索過程中系統(tǒng)對于語義的智能分析能力,從而達(dá)到提高檢索效率的目標(biāo)[2]。本文基于領(lǐng)域本體進(jìn)行語義擴(kuò)展,并在此基礎(chǔ)上提出了一個(gè)語義檢索模型。
2.領(lǐng)域本體構(gòu)建
對于概念化的規(guī)范而又明確的說明被稱為本體,本體的類型可以分為四種,即通用、任務(wù)、應(yīng)用和領(lǐng)域本體。領(lǐng)域本體是在特定的專業(yè)領(lǐng)域中可以重復(fù)被使用的概念化單位,提供了特定的專業(yè)領(lǐng)域內(nèi)的概念和概念關(guān)系,是對于領(lǐng)域概念的規(guī)范化表述。
在進(jìn)行領(lǐng)域本體構(gòu)建時(shí),為了生成本體核心語義,需要通過多種獲取知識的方法將特定領(lǐng)域內(nèi)的概念及其關(guān)系,用準(zhǔn)確的自然語言描述出來,而整個(gè)的描述過程是一個(gè)自頂向下,逐步求精的抽象過程。領(lǐng)域本體構(gòu)建流程如圖1所示。
3.語義檢索模型的設(shè)計(jì)
基于本體的語義檢索模型主要包括查詢分析、文檔處理、信息檢索以及本體管理四大模塊,具體模型如圖2所示。
(1)本體管理
由于檢索的效果在很大程度上取決于本體定義的質(zhì)量,所以,基于本體的語義檢索系統(tǒng)的核心是領(lǐng)域本體。因此,在構(gòu)建基于本體的語義檢索模型時(shí)不僅僅要在模型初期精確的定義本體,更重要的是要隨著相應(yīng)的領(lǐng)域知識結(jié)構(gòu)的變化,及時(shí)準(zhǔn)確的調(diào)整本體的定義,從而保證模型建立的精確高效。
(2)文檔處理
通過網(wǎng)絡(luò)爬蟲將分布在Internet的Web文檔收集到檢索信息庫中,對原始信息的進(jìn)行分析處理,包括:去除HTML標(biāo)簽、去除停用詞等,以提高處理的效率。為了建立領(lǐng)域本體與目標(biāo)文檔之間的關(guān)聯(lián)需要進(jìn)行如下處理:第一步,預(yù)處理目標(biāo)文檔;第二步,從目標(biāo)文檔中抽取特征信息,生成特征詞;第三步,將本體與特征詞進(jìn)行匹配;第四步,實(shí)例化本體概念。
(3)查詢分析
通過查詢擴(kuò)展可以極大的改善檢索系統(tǒng)在檢索任務(wù)中的效率。所謂的查詢擴(kuò)展指的是:基于本體,把與初始查詢有關(guān)的詞語或者與初始查詢有關(guān)的語義概念添加到初始查詢當(dāng)中,從而得到一個(gè)新的查詢的過程。將本體中概念與概念的關(guān)聯(lián)程度進(jìn)行量化,將量化后的結(jié)果作為范圍擴(kuò)展的依據(jù),從而通過領(lǐng)域本體實(shí)現(xiàn)了語義擴(kuò)展查詢??蛻舳说牟樵冋Z句提交給檢索服務(wù)器之后,首先由檢索服務(wù)器對查詢語句進(jìn)行語義比對分析并獲取其關(guān)鍵詞,然后根據(jù)客戶端提供的優(yōu)化參數(shù)來進(jìn)行語義優(yōu)化擴(kuò)展查詢[3]。
(4)信息檢索
首先檢索模型通過比對本體庫中的信息以及經(jīng)過處理的查詢條件的相似度,然后根據(jù)相似度閾值進(jìn)行相似度排序。
為實(shí)現(xiàn)語義檢索模型相關(guān)功能,采用的開發(fā)技術(shù)如表1所示。
4.結(jié)論
結(jié)合傳統(tǒng)的信息檢索技術(shù)與本體技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于本體的語義檢索模型。通過將基于本體的語義檢索系統(tǒng)與基于關(guān)鍵詞的檢索系統(tǒng)相比較,可以看出前者有效的克服了使用后者進(jìn)行檢索而產(chǎn)生的問題:
(1)為了提高檢索的準(zhǔn)確率,基于本體的檢索模型使用語義詞代替關(guān)鍵詞,借助于對語義進(jìn)行推理的方法來查找目標(biāo)文檔所隱含的語義關(guān)系。
(2)為了使檢索結(jié)果更好地滿足客戶的需求,以本體技術(shù)為核心,建立針對性強(qiáng)的本體知識庫。
下一步將通過本體學(xué)習(xí)不斷完善本體,使用語義標(biāo)注對關(guān)鍵詞進(jìn)行更好更優(yōu)的語義擴(kuò)展,以獲得更高效的檢索結(jié)果。
參考文獻(xiàn)
[1] 鄭世明,任在安,宋自林.基于Ontology的語義查詢分析研究[J].南京師范大學(xué)學(xué)報(bào),2008,8(4):63-67.
[2] 齊紅,張亮亮,李昕.基于玉米本體的語義檢索系統(tǒng)[J].計(jì)算機(jī)工程,2011,37(4):34-37.
[3] 鄭廷,鄭誠.基于Lucene的語義檢索系統(tǒng)[J].計(jì)算機(jī)工程,2008,34(16):92-94.