国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于領(lǐng)域本體的語義檢索關(guān)鍵技術(shù)研究

2013-04-29 00:44:03王璐于超董亞則彭馨儀
軟件工程 2013年9期
關(guān)鍵詞:檢索系統(tǒng)信息檢索本體

王璐 于超 董亞則 彭馨儀

摘 要:針對基于關(guān)鍵詞匹配的傳統(tǒng)檢索方法存在的不足,通過將語義引入到檢索過程中,可以構(gòu)建一個(gè)建立在本體基礎(chǔ)上的語義檢索模型。為了提高檢索結(jié)果的準(zhǔn)確率和全面率,通過使用本體的語義推理是一種很有效的辦法。

關(guān) 鍵 詞:查詢擴(kuò)展;語義檢索;領(lǐng)域本體;語義推理

1.引言

在Web 2.0時(shí)代,隨著互聯(lián)網(wǎng)信息海量增長,亟須一種有效的機(jī)制來支持用戶快速、準(zhǔn)確地查找和組織所需的網(wǎng)絡(luò)資源。然而,通過關(guān)鍵詞進(jìn)行檢索,只有那些包含著全部或者部分關(guān)鍵詞的目標(biāo)文檔或者目標(biāo)語句才能被檢索[1],無法對用戶表示隱性信息。從本體技術(shù)誕生那一天開始,人們就試圖進(jìn)行基于本體的信息檢索,利用本體來提高檢索過程中系統(tǒng)對于語義的智能分析能力,從而達(dá)到提高檢索效率的目標(biāo)[2]。本文基于領(lǐng)域本體進(jìn)行語義擴(kuò)展,并在此基礎(chǔ)上提出了一個(gè)語義檢索模型。

2.領(lǐng)域本體構(gòu)建

對于概念化的規(guī)范而又明確的說明被稱為本體,本體的類型可以分為四種,即通用、任務(wù)、應(yīng)用和領(lǐng)域本體。領(lǐng)域本體是在特定的專業(yè)領(lǐng)域中可以重復(fù)被使用的概念化單位,提供了特定的專業(yè)領(lǐng)域內(nèi)的概念和概念關(guān)系,是對于領(lǐng)域概念的規(guī)范化表述。

在進(jìn)行領(lǐng)域本體構(gòu)建時(shí),為了生成本體核心語義,需要通過多種獲取知識的方法將特定領(lǐng)域內(nèi)的概念及其關(guān)系,用準(zhǔn)確的自然語言描述出來,而整個(gè)的描述過程是一個(gè)自頂向下,逐步求精的抽象過程。領(lǐng)域本體構(gòu)建流程如圖1所示。

3.語義檢索模型的設(shè)計(jì)

基于本體的語義檢索模型主要包括查詢分析、文檔處理、信息檢索以及本體管理四大模塊,具體模型如圖2所示。

(1)本體管理

由于檢索的效果在很大程度上取決于本體定義的質(zhì)量,所以,基于本體的語義檢索系統(tǒng)的核心是領(lǐng)域本體。因此,在構(gòu)建基于本體的語義檢索模型時(shí)不僅僅要在模型初期精確的定義本體,更重要的是要隨著相應(yīng)的領(lǐng)域知識結(jié)構(gòu)的變化,及時(shí)準(zhǔn)確的調(diào)整本體的定義,從而保證模型建立的精確高效。

(2)文檔處理

通過網(wǎng)絡(luò)爬蟲將分布在Internet的Web文檔收集到檢索信息庫中,對原始信息的進(jìn)行分析處理,包括:去除HTML標(biāo)簽、去除停用詞等,以提高處理的效率。為了建立領(lǐng)域本體與目標(biāo)文檔之間的關(guān)聯(lián)需要進(jìn)行如下處理:第一步,預(yù)處理目標(biāo)文檔;第二步,從目標(biāo)文檔中抽取特征信息,生成特征詞;第三步,將本體與特征詞進(jìn)行匹配;第四步,實(shí)例化本體概念。

(3)查詢分析

通過查詢擴(kuò)展可以極大的改善檢索系統(tǒng)在檢索任務(wù)中的效率。所謂的查詢擴(kuò)展指的是:基于本體,把與初始查詢有關(guān)的詞語或者與初始查詢有關(guān)的語義概念添加到初始查詢當(dāng)中,從而得到一個(gè)新的查詢的過程。將本體中概念與概念的關(guān)聯(lián)程度進(jìn)行量化,將量化后的結(jié)果作為范圍擴(kuò)展的依據(jù),從而通過領(lǐng)域本體實(shí)現(xiàn)了語義擴(kuò)展查詢??蛻舳说牟樵冋Z句提交給檢索服務(wù)器之后,首先由檢索服務(wù)器對查詢語句進(jìn)行語義比對分析并獲取其關(guān)鍵詞,然后根據(jù)客戶端提供的優(yōu)化參數(shù)來進(jìn)行語義優(yōu)化擴(kuò)展查詢[3]。

(4)信息檢索

首先檢索模型通過比對本體庫中的信息以及經(jīng)過處理的查詢條件的相似度,然后根據(jù)相似度閾值進(jìn)行相似度排序。

為實(shí)現(xiàn)語義檢索模型相關(guān)功能,采用的開發(fā)技術(shù)如表1所示。

4.結(jié)論

結(jié)合傳統(tǒng)的信息檢索技術(shù)與本體技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于本體的語義檢索模型。通過將基于本體的語義檢索系統(tǒng)與基于關(guān)鍵詞的檢索系統(tǒng)相比較,可以看出前者有效的克服了使用后者進(jìn)行檢索而產(chǎn)生的問題:

(1)為了提高檢索的準(zhǔn)確率,基于本體的檢索模型使用語義詞代替關(guān)鍵詞,借助于對語義進(jìn)行推理的方法來查找目標(biāo)文檔所隱含的語義關(guān)系。

(2)為了使檢索結(jié)果更好地滿足客戶的需求,以本體技術(shù)為核心,建立針對性強(qiáng)的本體知識庫。

下一步將通過本體學(xué)習(xí)不斷完善本體,使用語義標(biāo)注對關(guān)鍵詞進(jìn)行更好更優(yōu)的語義擴(kuò)展,以獲得更高效的檢索結(jié)果。

參考文獻(xiàn)

[1] 鄭世明,任在安,宋自林.基于Ontology的語義查詢分析研究[J].南京師范大學(xué)學(xué)報(bào),2008,8(4):63-67.

[2] 齊紅,張亮亮,李昕.基于玉米本體的語義檢索系統(tǒng)[J].計(jì)算機(jī)工程,2011,37(4):34-37.

[3] 鄭廷,鄭誠.基于Lucene的語義檢索系統(tǒng)[J].計(jì)算機(jī)工程,2008,34(16):92-94.

猜你喜歡
檢索系統(tǒng)信息檢索本體
Abstracts and Key Words
對姜夔自度曲音樂本體的現(xiàn)代解讀
收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
信號處理(2018年1期)2018-09-03 07:53:04
收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
信號處理(2018年5期)2018-06-28 02:16:02
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
信號處理(2018年4期)2018-06-27 03:34:16
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
信號處理(2018年3期)2018-06-27 03:30:18
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
吐鲁番市| 阳春市| 阳谷县| 封丘县| 鲁山县| 兴安县| 屏南县| 水城县| 额尔古纳市| 孟连| 冷水江市| 亳州市| 都江堰市| 临漳县| 常山县| 含山县| 龙海市| 建湖县| 霍林郭勒市| 望奎县| 吕梁市| 汽车| 蓝田县| 五指山市| 蚌埠市| 二手房| 桑植县| 阳泉市| 太保市| 德安县| 崇州市| 承德市| 益阳市| 杭锦旗| 鹿邑县| 南部县| 高阳县| 达拉特旗| 丰原市| 墨脱县| 泸西县|