楊清琳+錢文標+楊曉雷
摘 要:通過建立領域本體知識庫,改進傳統(tǒng)檢索系統(tǒng)基于關鍵詞匹配存在的缺陷,將用戶輸入的自然語言查詢經(jīng)分析推理后上升到語義層面,構(gòu)建了一個基于領域本體知識庫的語義檢索模型,提高了檢索性能。
關鍵詞:本體;知識庫;語義檢索
DOI:10.16640/j.cnki.37-1222/t.2018.04.196
0 引言
傳統(tǒng)的搜索引擎技術雖然日趨成熟,但其主要是通過關鍵詞機械式的匹配進行檢索,存在如下問題:返回大量與檢索主題無關或關聯(lián)很小的結(jié)果,用戶還需要二次篩選才能獲得所需信息;用戶需要的重要信息被漏檢;跟檢索主題無關的信息卻被作為結(jié)果檢索出來。本文結(jié)合領域本體知識庫,設計一個面向特定領域的語義檢索模型,將用戶輸入的自然語言查詢語句上升到語義層面,把握用戶真正的檢索意圖,提高檢索性能。
1 語義檢索的研究現(xiàn)狀
語義檢索技術為訪問Web信息提供了有效思路,關于該技術近幾年的研究工作,大致有基于本體的語義檢索、自然語言處理和基于概念的方法等。Voorhees使用本體中的同義詞和概念的子類關系對查詢擴展進行探索[1];Fernández利用本體層次結(jié)構(gòu)進行語義相似度的計算,并對文檔使用本體概念進行標注后建立索引,實現(xiàn)了增強式的語義檢索。國內(nèi)的相關研究如宋俊峰[2]提出的基于本體的信息檢索模型;武成崗在本體技術的基礎上建立的多主體信息檢索服務器。自然語言處理和基于概念的方法是另外兩種常用的語義檢索方法。分詞、短語識別和詞義消歧是自然語言處理中最為主要的技術[3]。
2 基于領域本體知識庫的語義檢索研究
2.1 本體知識庫
本體作為一種概念建模的手段,能夠利用本體節(jié)點中概念之間的關系描述出概念語義,而且還能實現(xiàn)邏輯推理。領域本體知識庫是通過將特定領域中的概念和關系進行抽象提取,作為一種領域信息資源有效的組織框架。基于本體技術來構(gòu)建領域知識庫,通過邏輯推理可以發(fā)掘概念之間不明確的信息和隱含語義關聯(lián)。將本體知識庫引入到信息檢索中,使用推理機制來擴展用戶查詢,實現(xiàn)從語義層面把握用戶輸入的查詢語言,通過推理理解用戶真正的檢索意圖,以排除自然語言表達描述存在的歧義,獲得用戶真正需要的有用信息,實現(xiàn)信息的智能語義檢索。
本文采用本體編輯工具Protege手動建立本體。抽取特定領域的概念來設計本體模型,編輯本體中的元素,包括類、屬性、實例,其中概念之間的主要關系為“同位”和“下位”。對構(gòu)建好的領域本體利用Jena進行相應的推理操作。
2.2 語義檢索模型設計
本文設計的語義檢索模型,主要由四大關鍵模塊組成,分別為:查詢自然語言預分析處理、本體知識推理、語料文檔前期處理和檢索結(jié)果排序,本體知識庫語義檢索模型如圖1所示。
2.2.1 查詢自然語言預分析處理
查詢自然語言預分析處理模塊接收用戶輸入的自然語言,采用ICTCLAS漢語分詞系統(tǒng)對用戶查詢語句請求進行分詞,并過濾查詢語句中的停用詞、特殊字符和無意義的詞,將用戶查詢語句分解為獨立的詞匯集合。
2.2.2 本體知識推理
具有語義推理能力是基于本體知識庫的語義檢索系統(tǒng)較基于關鍵字的檢索系統(tǒng)的最大優(yōu)勢,也是語義檢索系統(tǒng)模型的核心。推理系統(tǒng)通過將推理規(guī)則、策略編寫成程序代碼,實現(xiàn)語義自動推理。推理系統(tǒng)接收前期經(jīng)過查詢自然語言預分析處理的關鍵字后,結(jié)合本體知識庫中的推理策略實現(xiàn)語義推理。在本文的檢索模型中,由于所建立概念之間的主要關系為“同位”和“下位”,所以本文檢索模型只能實現(xiàn)這兩種邏輯關系的推理。原始檢索關鍵字經(jīng)過推理機進行語義推理后可以將本體知識庫中與概念相關的類、對應的實例及關系加入到檢索關鍵詞中,擴展原始查詢,再提交給檢索引擎進行檢索。
2.2.3 語料文檔前期處理
建立語義索引庫是語料文檔前期處理的最終目的。本文利用網(wǎng)絡爬蟲工具Crawler從互聯(lián)網(wǎng)上收集到近萬個Web文檔,存入檢索信息庫中作為測試語料,其處理過程如下:預處理web文檔,然后去除HTML標簽、停用詞等,提取存儲文檔中的文本信息;對文本信息進行分詞,并將特征信息作為特征詞提取出來;然后將特征詞比較匹配知識庫中的概念節(jié)點,并將概念的同義詞添加到文檔概念集中,形成文檔概念集;文檔概念集的權重利用TF-IDF算法來進行計算,在一定閾值內(nèi)的概念才作為文檔的語義向量;構(gòu)建倒排索引,其中概念列表存儲在內(nèi)存,而倒排列表和文檔集則存在磁盤。
2.2.4 檢索結(jié)果排序
檢索系統(tǒng)檢索出來的大量結(jié)果,用戶通常只關注排在前面的那些檢索結(jié)果,因此如何將用戶最關心的返回結(jié)果排在前面關系到檢索系統(tǒng)性能好壞。本文利用查詢與文檔之間的相關度(即文檔得分)來對結(jié)果進行排序,并采用TF-IDF特征項權重計算方法來計算文檔得分,其核心思想是:不同的概念在查詢和文檔中的重要程度是不一樣的,因此如何給查詢中的概念分配權重是文檔得分計算的基礎。最終進入到檢索系統(tǒng)的查詢向量由用戶原始查詢概念和經(jīng)過推理系統(tǒng)推理后的擴展查詢概念組成,本文分別計算原始查詢概念和擴展后查詢概念的權重,后對查詢向量中每個概念的權重進行求和得到文檔得分。
3 結(jié)束語
本文對傳統(tǒng)的信息檢索系統(tǒng)進行了改進,引入了本體知識庫,建立了一種基于領域本體知識庫的語義檢索模型。后續(xù)的研究工作是如何完善本體知識庫,實現(xiàn)對查詢關鍵詞更好更優(yōu)的語義查詢擴展,提高檢索系統(tǒng)性能;并對檢索到的文檔的排序算法進行深入研究,結(jié)合用戶的喜好,返回相關度高的結(jié)果文檔。
參考文獻:
[1]王旭陽,尉醒醒.基于本體的語義檢索方法[J].計算機工程與設計,2016,37(09):2538-2542.
[2]宋峻峰,張維明,肖衛(wèi)東等.基于本體的信息檢索模型研究[J].南京大學學報,2005,41(02):189-197.
[3]陳振標.基于本體的語義檢索技術研究[J].情報探索,2011(166):96-98.
作者簡介:楊清琳,工程師,研究方向:知識庫、本體論。endprint