国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于領域本體知識庫的語義檢索研究

2018-02-07 09:51:05楊清琳錢文標楊曉雷
山東工業(yè)技術 2018年4期
關鍵詞:檢索系統(tǒng)知識庫本體

楊清琳+錢文標+楊曉雷

摘 要:通過建立領域本體知識庫,改進傳統(tǒng)檢索系統(tǒng)基于關鍵詞匹配存在的缺陷,將用戶輸入的自然語言查詢經(jīng)分析推理后上升到語義層面,構(gòu)建了一個基于領域本體知識庫的語義檢索模型,提高了檢索性能。

關鍵詞:本體;知識庫;語義檢索

DOI:10.16640/j.cnki.37-1222/t.2018.04.196

0 引言

傳統(tǒng)的搜索引擎技術雖然日趨成熟,但其主要是通過關鍵詞機械式的匹配進行檢索,存在如下問題:返回大量與檢索主題無關或關聯(lián)很小的結(jié)果,用戶還需要二次篩選才能獲得所需信息;用戶需要的重要信息被漏檢;跟檢索主題無關的信息卻被作為結(jié)果檢索出來。本文結(jié)合領域本體知識庫,設計一個面向特定領域的語義檢索模型,將用戶輸入的自然語言查詢語句上升到語義層面,把握用戶真正的檢索意圖,提高檢索性能。

1 語義檢索的研究現(xiàn)狀

語義檢索技術為訪問Web信息提供了有效思路,關于該技術近幾年的研究工作,大致有基于本體的語義檢索、自然語言處理和基于概念的方法等。Voorhees使用本體中的同義詞和概念的子類關系對查詢擴展進行探索[1];Fernández利用本體層次結(jié)構(gòu)進行語義相似度的計算,并對文檔使用本體概念進行標注后建立索引,實現(xiàn)了增強式的語義檢索。國內(nèi)的相關研究如宋俊峰[2]提出的基于本體的信息檢索模型;武成崗在本體技術的基礎上建立的多主體信息檢索服務器。自然語言處理和基于概念的方法是另外兩種常用的語義檢索方法。分詞、短語識別和詞義消歧是自然語言處理中最為主要的技術[3]。

2 基于領域本體知識庫的語義檢索研究

2.1 本體知識庫

本體作為一種概念建模的手段,能夠利用本體節(jié)點中概念之間的關系描述出概念語義,而且還能實現(xiàn)邏輯推理。領域本體知識庫是通過將特定領域中的概念和關系進行抽象提取,作為一種領域信息資源有效的組織框架。基于本體技術來構(gòu)建領域知識庫,通過邏輯推理可以發(fā)掘概念之間不明確的信息和隱含語義關聯(lián)。將本體知識庫引入到信息檢索中,使用推理機制來擴展用戶查詢,實現(xiàn)從語義層面把握用戶輸入的查詢語言,通過推理理解用戶真正的檢索意圖,以排除自然語言表達描述存在的歧義,獲得用戶真正需要的有用信息,實現(xiàn)信息的智能語義檢索。

本文采用本體編輯工具Protege手動建立本體。抽取特定領域的概念來設計本體模型,編輯本體中的元素,包括類、屬性、實例,其中概念之間的主要關系為“同位”和“下位”。對構(gòu)建好的領域本體利用Jena進行相應的推理操作。

2.2 語義檢索模型設計

本文設計的語義檢索模型,主要由四大關鍵模塊組成,分別為:查詢自然語言預分析處理、本體知識推理、語料文檔前期處理和檢索結(jié)果排序,本體知識庫語義檢索模型如圖1所示。

2.2.1 查詢自然語言預分析處理

查詢自然語言預分析處理模塊接收用戶輸入的自然語言,采用ICTCLAS漢語分詞系統(tǒng)對用戶查詢語句請求進行分詞,并過濾查詢語句中的停用詞、特殊字符和無意義的詞,將用戶查詢語句分解為獨立的詞匯集合。

2.2.2 本體知識推理

具有語義推理能力是基于本體知識庫的語義檢索系統(tǒng)較基于關鍵字的檢索系統(tǒng)的最大優(yōu)勢,也是語義檢索系統(tǒng)模型的核心。推理系統(tǒng)通過將推理規(guī)則、策略編寫成程序代碼,實現(xiàn)語義自動推理。推理系統(tǒng)接收前期經(jīng)過查詢自然語言預分析處理的關鍵字后,結(jié)合本體知識庫中的推理策略實現(xiàn)語義推理。在本文的檢索模型中,由于所建立概念之間的主要關系為“同位”和“下位”,所以本文檢索模型只能實現(xiàn)這兩種邏輯關系的推理。原始檢索關鍵字經(jīng)過推理機進行語義推理后可以將本體知識庫中與概念相關的類、對應的實例及關系加入到檢索關鍵詞中,擴展原始查詢,再提交給檢索引擎進行檢索。

2.2.3 語料文檔前期處理

建立語義索引庫是語料文檔前期處理的最終目的。本文利用網(wǎng)絡爬蟲工具Crawler從互聯(lián)網(wǎng)上收集到近萬個Web文檔,存入檢索信息庫中作為測試語料,其處理過程如下:預處理web文檔,然后去除HTML標簽、停用詞等,提取存儲文檔中的文本信息;對文本信息進行分詞,并將特征信息作為特征詞提取出來;然后將特征詞比較匹配知識庫中的概念節(jié)點,并將概念的同義詞添加到文檔概念集中,形成文檔概念集;文檔概念集的權重利用TF-IDF算法來進行計算,在一定閾值內(nèi)的概念才作為文檔的語義向量;構(gòu)建倒排索引,其中概念列表存儲在內(nèi)存,而倒排列表和文檔集則存在磁盤。

2.2.4 檢索結(jié)果排序

檢索系統(tǒng)檢索出來的大量結(jié)果,用戶通常只關注排在前面的那些檢索結(jié)果,因此如何將用戶最關心的返回結(jié)果排在前面關系到檢索系統(tǒng)性能好壞。本文利用查詢與文檔之間的相關度(即文檔得分)來對結(jié)果進行排序,并采用TF-IDF特征項權重計算方法來計算文檔得分,其核心思想是:不同的概念在查詢和文檔中的重要程度是不一樣的,因此如何給查詢中的概念分配權重是文檔得分計算的基礎。最終進入到檢索系統(tǒng)的查詢向量由用戶原始查詢概念和經(jīng)過推理系統(tǒng)推理后的擴展查詢概念組成,本文分別計算原始查詢概念和擴展后查詢概念的權重,后對查詢向量中每個概念的權重進行求和得到文檔得分。

3 結(jié)束語

本文對傳統(tǒng)的信息檢索系統(tǒng)進行了改進,引入了本體知識庫,建立了一種基于領域本體知識庫的語義檢索模型。后續(xù)的研究工作是如何完善本體知識庫,實現(xiàn)對查詢關鍵詞更好更優(yōu)的語義查詢擴展,提高檢索系統(tǒng)性能;并對檢索到的文檔的排序算法進行深入研究,結(jié)合用戶的喜好,返回相關度高的結(jié)果文檔。

參考文獻:

[1]王旭陽,尉醒醒.基于本體的語義檢索方法[J].計算機工程與設計,2016,37(09):2538-2542.

[2]宋峻峰,張維明,肖衛(wèi)東等.基于本體的信息檢索模型研究[J].南京大學學報,2005,41(02):189-197.

[3]陳振標.基于本體的語義檢索技術研究[J].情報探索,2011(166):96-98.

作者簡介:楊清琳,工程師,研究方向:知識庫、本體論。endprint

猜你喜歡
檢索系統(tǒng)知識庫本體
Abstracts and Key Words
哲學分析(2023年4期)2023-12-21 05:30:27
對姜夔自度曲音樂本體的現(xiàn)代解讀
中國音樂學(2020年4期)2020-12-25 02:58:06
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設計中的應用
收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
信號處理(2018年1期)2018-09-03 07:53:04
收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
信號處理(2018年5期)2018-06-28 02:16:02
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
信號處理(2018年4期)2018-06-27 03:34:16
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
信號處理(2018年3期)2018-06-27 03:30:18
高速公路信息系統(tǒng)維護知識庫的建立和應用
《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
文學教育(2016年27期)2016-02-28 02:35:15
基于Drupal發(fā)布學者知識庫關聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
乌鲁木齐县| 旬阳县| 阿荣旗| 新建县| 女性| 宁远县| 慈溪市| 环江| 宜黄县| 酉阳| 九江市| 南华县| 彩票| 郯城县| 广安市| 壶关县| 临沭县| 中方县| 祁阳县| 遂川县| 陈巴尔虎旗| 鄂州市| 云阳县| 隆昌县| 抚州市| 和平区| 普格县| 荥阳市| 威信县| 定襄县| 金乡县| 阳城县| 会同县| 民勤县| 武川县| 广汉市| 响水县| 天长市| 大理市| 察雅县| 龙陵县|