基于領域本體知識庫的語義檢索研究

2018-02-07 09:51:05楊清琳錢文標楊曉雷

山東工業(yè)技術 2018年4期

關鍵詞：檢索系統(tǒng)知識庫本體

楊清琳+錢文標+楊曉雷

摘要：通過建立領域本體知識庫，改進傳統(tǒng)檢索系統(tǒng)基于關鍵詞匹配存在的缺陷，將用戶輸入的自然語言查詢經(jīng)分析推理后上升到語義層面，構(gòu)建了一個基于領域本體知識庫的語義檢索模型，提高了檢索性能。

關鍵詞：本體；知識庫；語義檢索

DOI：10.16640/j.cnki.37-1222/t.2018.04.196

0 引言

傳統(tǒng)的搜索引擎技術雖然日趨成熟，但其主要是通過關鍵詞機械式的匹配進行檢索，存在如下問題：返回大量與檢索主題無關或關聯(lián)很小的結(jié)果，用戶還需要二次篩選才能獲得所需信息；用戶需要的重要信息被漏檢；跟檢索主題無關的信息卻被作為結(jié)果檢索出來。本文結(jié)合領域本體知識庫，設計一個面向特定領域的語義檢索模型，將用戶輸入的自然語言查詢語句上升到語義層面，把握用戶真正的檢索意圖，提高檢索性能。

1 語義檢索的研究現(xiàn)狀

語義檢索技術為訪問Web信息提供了有效思路，關于該技術近幾年的研究工作，大致有基于本體的語義檢索、自然語言處理和基于概念的方法等。Voorhees使用本體中的同義詞和概念的子類關系對查詢擴展進行探索[1]；Fernández利用本體層次結(jié)構(gòu)進行語義相似度的計算，并對文檔使用本體概念進行標注后建立索引，實現(xiàn)了增強式的語義檢索。國內(nèi)的相關研究如宋俊峰[2]提出的基于本體的信息檢索模型；武成崗在本體技術的基礎上建立的多主體信息檢索服務器。自然語言處理和基于概念的方法是另外兩種常用的語義檢索方法。分詞、短語識別和詞義消歧是自然語言處理中最為主要的技術[3]。

2 基于領域本體知識庫的語義檢索研究

2.1 本體知識庫

本體作為一種概念建模的手段，能夠利用本體節(jié)點中概念之間的關系描述出概念語義，而且還能實現(xiàn)邏輯推理。領域本體知識庫是通過將特定領域中的概念和關系進行抽象提取，作為一種領域信息資源有效的組織框架。基于本體技術來構(gòu)建領域知識庫，通過邏輯推理可以發(fā)掘概念之間不明確的信息和隱含語義關聯(lián)。將本體知識庫引入到信息檢索中，使用推理機制來擴展用戶查詢，實現(xiàn)從語義層面把握用戶輸入的查詢語言，通過推理理解用戶真正的檢索意圖，以排除自然語言表達描述存在的歧義，獲得用戶真正需要的有用信息，實現(xiàn)信息的智能語義檢索。

本文采用本體編輯工具Protege手動建立本體。抽取特定領域的概念來設計本體模型，編輯本體中的元素，包括類、屬性、實例，其中概念之間的主要關系為“同位”和“下位”。對構(gòu)建好的領域本體利用Jena進行相應的推理操作。

2.2 語義檢索模型設計

本文設計的語義檢索模型，主要由四大關鍵模塊組成，分別為：查詢自然語言預分析處理、本體知識推理、語料文檔前期處理和檢索結(jié)果排序，本體知識庫語義檢索模型如圖1所示。

2.2.1 查詢自然語言預分析處理

查詢自然語言預分析處理模塊接收用戶輸入的自然語言，采用ICTCLAS漢語分詞系統(tǒng)對用戶查詢語句請求進行分詞，并過濾查詢語句中的停用詞、特殊字符和無意義的詞，將用戶查詢語句分解為獨立的詞匯集合。

2.2.2 本體知識推理

具有語義推理能力是基于本體知識庫的語義檢索系統(tǒng)較基于關鍵字的檢索系統(tǒng)的最大優(yōu)勢，也是語義檢索系統(tǒng)模型的核心。推理系統(tǒng)通過將推理規(guī)則、策略編寫成程序代碼，實現(xiàn)語義自動推理。推理系統(tǒng)接收前期經(jīng)過查詢自然語言預分析處理的關鍵字后，結(jié)合本體知識庫中的推理策略實現(xiàn)語義推理。在本文的檢索模型中，由于所建立概念之間的主要關系為“同位”和“下位”，所以本文檢索模型只能實現(xiàn)這兩種邏輯關系的推理。原始檢索關鍵字經(jīng)過推理機進行語義推理后可以將本體知識庫中與概念相關的類、對應的實例及關系加入到檢索關鍵詞中，擴展原始查詢，再提交給檢索引擎進行檢索。

2.2.3 語料文檔前期處理

建立語義索引庫是語料文檔前期處理的最終目的。本文利用網(wǎng)絡爬蟲工具Crawler從互聯(lián)網(wǎng)上收集到近萬個Web文檔，存入檢索信息庫中作為測試語料，其處理過程如下：預處理web文檔，然后去除HTML標簽、停用詞等，提取存儲文檔中的文本信息；對文本信息進行分詞，并將特征信息作為特征詞提取出來；然后將特征詞比較匹配知識庫中的概念節(jié)點，并將概念的同義詞添加到文檔概念集中，形成文檔概念集；文檔概念集的權重利用TF-IDF算法來進行計算，在一定閾值內(nèi)的概念才作為文檔的語義向量；構(gòu)建倒排索引，其中概念列表存儲在內(nèi)存，而倒排列表和文檔集則存在磁盤。

2.2.4 檢索結(jié)果排序

檢索系統(tǒng)檢索出來的大量結(jié)果，用戶通常只關注排在前面的那些檢索結(jié)果，因此如何將用戶最關心的返回結(jié)果排在前面關系到檢索系統(tǒng)性能好壞。本文利用查詢與文檔之間的相關度（即文檔得分）來對結(jié)果進行排序，并采用TF-IDF特征項權重計算方法來計算文檔得分，其核心思想是：不同的概念在查詢和文檔中的重要程度是不一樣的，因此如何給查詢中的概念分配權重是文檔得分計算的基礎。最終進入到檢索系統(tǒng)的查詢向量由用戶原始查詢概念和經(jīng)過推理系統(tǒng)推理后的擴展查詢概念組成，本文分別計算原始查詢概念和擴展后查詢概念的權重，后對查詢向量中每個概念的權重進行求和得到文檔得分。

3 結(jié)束語

本文對傳統(tǒng)的信息檢索系統(tǒng)進行了改進，引入了本體知識庫，建立了一種基于領域本體知識庫的語義檢索模型。后續(xù)的研究工作是如何完善本體知識庫，實現(xiàn)對查詢關鍵詞更好更優(yōu)的語義查詢擴展，提高檢索系統(tǒng)性能；并對檢索到的文檔的排序算法進行深入研究，結(jié)合用戶的喜好，返回相關度高的結(jié)果文檔。

參考文獻：

[1]王旭陽，尉醒醒.基于本體的語義檢索方法[J].計算機工程與設計，2016，37（09）：2538-2542.

[2]宋峻峰，張維明，肖衛(wèi)東等.基于本體的信息檢索模型研究[J].南京大學學報，2005，41（02）：189-197.

[3]陳振標.基于本體的語義檢索技術研究[J].情報探索，2011（166）：96-98.

作者簡介：楊清琳，工程師，研究方向：知識庫、本體論。endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于領域本體知識庫的語義檢索研究