国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

<bdo id="qyau6"></bdo>

<strike id="qyau6"></strike>

<ul id="qyau6"><dfn id="qyau6"></dfn></ul>

?

面向本體的智能信息檢索技術(shù)的研究

2011-02-09 01:56尹哲峰

制造業(yè)自動化 2011年4期

關(guān)鍵詞：信息檢索本體文檔

尹哲峰

（延邊大學，延吉 133002）

0 引言

隨著計算機技術(shù)以及網(wǎng)絡(luò)技術(shù)的快速發(fā)展，信息資源共享波及范圍越來越廣，信息資源量也越來越多。因此，面對如此多的信息量，如何有效定位需要的信息資源已經(jīng)成為人們關(guān)注的問題。信息檢索技術(shù)應運而生。

信息檢索就是從信息資源庫中，搜索出所需信息的過程與方法。而本體的本義是哲學方面的術(shù)語。本體具有較好的概念結(jié)構(gòu)以及邏輯推理，面向本體的智能信息檢索可以準確映射信息資源，提高檢索效率。本文就是重點研究面向本體的智能信息檢索技術(shù)。

1 相關(guān)理論概述

1.1 本體的層次化分類

本體的研究與實現(xiàn)是在不同層次上進行的，可以分為頂層本體、領(lǐng)域本體、任務本體以及應用本體四大層次，如圖1所示：

圖1 本體的層次化分類示意圖

其中，頂層本體主要涉及到一些概念。比如：空間、時間以及行為等，這些概念與問題或者領(lǐng)域是獨立的，而且頂層本體在一定區(qū)域內(nèi)是完全共享的。領(lǐng)域本體是針對某一領(lǐng)域而對應的一些術(shù)語。任務本體主要負責任務、活動的定義。任務本體與領(lǐng)域本體都可以采用頂層本體中共享的術(shù)語而表述各自的術(shù)語。而應用本體是針對應用而言的，可以引用領(lǐng)域本體或者任務本體中的概述描述。

1.2 智能信息檢索的標準

通常情況下，信息檢索是通過關(guān)鍵詞的匹配來實現(xiàn)的，但隨著信息量的增加，這樣的匹配檢索技術(shù)越來越不滿足需求。智能信息檢索就是通過智能檢索技術(shù)來實現(xiàn)，標準主要體現(xiàn)在兩個方面：檢索的查全率以及檢索的檢準率。

其中，查全率主要表示的是信息檢索結(jié)果中有用信息量與用戶需求信息量之間的比例，可以有效描述檢索結(jié)果的遺漏情況。查準率主要表示的是檢索結(jié)果中有效信息量與檢索總量之間的比例關(guān)系，主要描述的是檢索結(jié)果的有用性。常用的關(guān)鍵詞匹配檢索技術(shù)很難達到查全率以及查準率的全面兼顧。一個理想的智能信息檢索系統(tǒng)應該保證最高的查全率與查準率，也就是為1的結(jié)果。

2 面向本體的智能信息檢索

2.1 智能信息檢索的設(shè)計思想

本文提出的面向本體的智能信息檢索的設(shè)計思想如下描述：

首先，基于領(lǐng)域?qū)＜?，根?jù)檢索體系要求，建立該領(lǐng)域的本體；其次，充分收集相關(guān)信息數(shù)據(jù)，根據(jù)已經(jīng)建立的領(lǐng)域本體，將信息數(shù)據(jù)轉(zhuǎn)化成規(guī)定格式，并保存至數(shù)據(jù)庫；接著，從用戶界面相關(guān)的檢索框獲取特定的檢索請求，智能檢索器根據(jù)本體將檢索請求轉(zhuǎn)化為規(guī)定的格式，并基于本體從數(shù)據(jù)庫中檢索出與請求條件相匹配的數(shù)據(jù)。最后，將匹配的數(shù)據(jù)結(jié)果通過定制操作，傳輸?shù)接脩艚K端加以顯示。

需要注意的一點是，如果面向本體的智能信息檢索系統(tǒng)對于推理能力沒有太高的要求，那么系統(tǒng)中涉及到的本體可以采用概念圖加以描述，并保存。信息數(shù)據(jù)也可以存儲到普通的關(guān)系型數(shù)據(jù)庫中，根據(jù)圖匹配來實現(xiàn)智能信息的定位。但如果面向本體的智能信息檢索系統(tǒng)需要較強的推理功能，那必須通過本體語言，比如：OWL等加以描述，信息數(shù)據(jù)也應該存儲到知識倉庫，這樣就可以利用OWL之類的本體語言所具有的推理能力來完成信息定位，并保證較強的推理功能。

2.2 智能信息檢索的流程

本文研究的面向本體的智能信息檢索系統(tǒng)的框架如圖2所示：

圖2 面向本體的智能信息檢索系統(tǒng)的框架示意圖

根據(jù)系統(tǒng)框架圖，下面詳細研究一下智能信息檢索的流程。

1）構(gòu)造領(lǐng)域本體。智能信息檢索系統(tǒng)的關(guān)鍵之處在于領(lǐng)域本體，因為相關(guān)的信息、文檔特征、推理等都是基于領(lǐng)域本體的。所以，領(lǐng)域本體的構(gòu)造需要在領(lǐng)域?qū)＜业闹笇峦瓿伞?/p>

2）提取文檔的相關(guān)特征、語義推理的處理。根據(jù)領(lǐng)域本體將收集的文檔信息進行相關(guān)特征的提取，并進行語義方面的推理處理。傳統(tǒng)的信息檢索只是局限于索引器的索引信息提取，而且索引相關(guān)信息一般也只是通過貝葉斯或者統(tǒng)計方法來獲取，并不能很好地體現(xiàn)文檔之間的關(guān)聯(lián)性。而本文研究的智能信息檢索系統(tǒng)是基于領(lǐng)域本體，對收集的文檔信息進行特征提取，并完成語義方面的推理。這樣的處理步驟，不僅能夠很好地表述文檔的內(nèi)在信息，也可以描述文檔之間的關(guān)系，為后續(xù)的信息檢索奠定了基礎(chǔ)。由于語義方面的推理處理具有比較高的時間復雜度，所以可以將其中的一部分推理過程直接放在這第二階段預先完成，這樣可以有效提高在線檢索的速率。

3）信息語義的編碼加工。智能信息檢索系統(tǒng)對于語義處理后的數(shù)據(jù)統(tǒng)一編碼成XML格式，這樣便于信息處理，便于高速檢索。

4）將提交的查詢條件進行語義化的處理。用戶在使用智能信息檢索系統(tǒng)時，首先是提交查詢條件，系統(tǒng)會將查詢條件根據(jù)領(lǐng)域本體進行語義化方面的處理。該語義處理針對于多個查詢條件，并進一步明確各查詢條件之間的關(guān)聯(lián)性。

5）智能信息的檢索。智能信息檢索是系統(tǒng)的核心模塊，但由于前面幾個階段已經(jīng)完成了檢索的許多相關(guān)工作，所以該階段只需要將語義化處理后的查詢條件與數(shù)據(jù)庫中的所有信息進行對比，滿足條件的信息，直接轉(zhuǎn)發(fā)給定制模塊即可。

6）信息的定制處理。信息的定制處理就是對系統(tǒng)檢索出的數(shù)據(jù)進行后期的處理，比如：排序等。排序的時候，可以根據(jù)信息的相關(guān)性大小進行，這其中涉及到了排序算法，也是一個比較重要的研究內(nèi)容。

2.3 文檔信息數(shù)據(jù)的存儲

系統(tǒng)的信息庫必須具有特定的結(jié)構(gòu)，這樣才能有利于檢索效率。通常情況下，Internet網(wǎng)絡(luò)上的信息都是由HTML語言編寫的，但可惜HTML并不注重結(jié)構(gòu)性，只是注重各個元素的呈現(xiàn)，也缺少語義分析。而本文采用的是XML，因其簡易性以及功能優(yōu)秀性成為了替代HTML的網(wǎng)絡(luò)語言。

XML其實只是SGML的一個子集，它能夠很好地解決HTML語言不能描述內(nèi)容的不足，因此XML在電子交易、銀行、政府等各個領(lǐng)域都被廣泛使用。目前，XML已經(jīng)成為數(shù)據(jù)描述及交換的標準。此外，文檔類型定義DTD涉及到對XML結(jié)構(gòu)以及語法方面的規(guī)范定義。從邏輯意義上分析的話，可以將DTD對應的XML文檔直接保存到文檔表中，每個文檔表中的記錄都分別對應各自的XML文檔，也可以通過一個固定的DTD表來對所有DTD文檔進行管理。文檔表與DTD表之間的關(guān)系如圖3所示：

圖3 文檔表與DTD表之間的關(guān)系示意圖

2.4 在線語義推理的技術(shù)

針對本文研究的智能信息檢索系統(tǒng)，當終端用戶通過錄入一個檢索詞時，系統(tǒng)就會根據(jù)語義擴展后的信息庫，進行檢索滿足檢索詞要求的信息對象。如果終端用戶錄入的檢索詞是多個，那么系統(tǒng)就必須進行在線語義的推理。

系統(tǒng)在線語義推理的檢索過程主要包括：輸入檢索條件、檢索詞詞性的確定、檢索詞關(guān)系的確定、信息檢索以及返回檢索結(jié)果等。當終端用戶輸入相關(guān)檢索詞后，系統(tǒng)會按照領(lǐng)域本體確定檢索詞對應的詞性以及多個檢索詞間的關(guān)聯(lián)性。

比如：用戶的檢索詞是“李四數(shù)據(jù)的挖掘”，系統(tǒng)就需要根據(jù)檢索詞明確終端用戶的具體查詢意圖。通過領(lǐng)域本體來確定檢索詞的詞性，其中“李四”表示的是一個人的人名。而“數(shù)據(jù)的挖掘”表示的是數(shù)據(jù)庫范疇的概念。下一步就是確定檢索詞之間的關(guān)聯(lián)?！袄钏摹迸c“數(shù)據(jù)的挖掘”到底是什么關(guān)聯(lián)呢？它們之間是write的關(guān)系或者work-in的關(guān)系。這樣，系統(tǒng)就會給出這樣的推測結(jié)果：用戶終端需要查詢的是有關(guān)“李四撰寫的針對數(shù)據(jù)挖掘方面的文章或者專注”或者“李四參加的針對于數(shù)據(jù)挖掘相關(guān)的項目”。接著，系統(tǒng)在特定信息庫中進行有針對性的查詢，并將最終的查詢結(jié)果返回到終端用戶。

2.5 系統(tǒng)的推理算法描述

本文研究的面向本體的智能信息檢索系統(tǒng)在檢索失敗的情況下，需要根據(jù)領(lǐng)域本體對信息描述進行一定的推理。其中就涉及到了推理算法，該算法也是智能信息檢索系統(tǒng)中的關(guān)鍵部門。推理的過程其實就是一個進一步檢索的過程，生成相關(guān)的結(jié)果信息。下面研究一下系統(tǒng)相關(guān)的在線語義推理過程所涉及到的算示。

輸入部分：用戶錄入的N個檢索詞，系統(tǒng)的領(lǐng)域本體；

輸出部分：N個檢索詞之間的查詢公式；

算法部分：

Getback-result = NULL；

For ( i=1; i＜= 檢索詞的具體數(shù)目； i++)

{

Getback-result(i) = NULL；

在系統(tǒng)領(lǐng)域本體中查詢檢索詞對就的概念Ci；

對堆棧進行初始化操作，設(shè)置stack成為空；

For (j=1; j＜=Ci和根節(jié)點之間的距離值；j++)

{

確定Ci和其他父親節(jié)點間的路徑類型Fj，其中路徑是以有向邊加以表示；

進行入棧操作；

Push ( stack, Fj, Ci )

}

當堆棧stack不為空的時候

Getback-result (i ) = Getback-result ( i ) *pop (stack )

Getback-result = Getback-result Getbackresult ( i )；

}

Return Getback-result ( i ) }

3 結(jié)束語

在實際檢索過程中，人們越來越認識到通過基于本體的語義檢索的精確性以及高效性。本體在智能信息檢索系統(tǒng)中提供了必須的元語，該元語能夠生成有效的查詢與資源表述，通過本體建立的領(lǐng)域語義，可以提供標注信息，使檢索系統(tǒng)形成一個統(tǒng)一的認識。這些認識涉及到了域內(nèi)以域間的概念及聯(lián)系，從而提高了系統(tǒng)的聯(lián)想能力，也為終端用戶的檢索提供了有意義的信息?？傊?，本體已經(jīng)逐步成為智能信息檢索系統(tǒng)的知識表述，是整個系統(tǒng)的最核心部位。

[1] 張敏,宋睿華,馬少平. 基于語義關(guān)系查詢擴展的文檔重構(gòu)方法[J]. 計算機學報, 2009,(10).

[2] 張映海,何中市. 基于關(guān)鍵詞與語義概念結(jié)合的信息檢索研究[J]. 計算機應用, 2009,(12).

[3] 李振東,費翔林. 基于概念的信息檢索模型研究[J]. 南京大學學報(自然科學版), 2010,(01).

[4] Perez AG, Benjamins VR.Overview of Knowledge Sharing and Reuse Components: Ontologies and Problem-Solving Methods.Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods(KRR5).2009:1-15.

[5] 李曼,王大治,杜小勇,王珊.基于領(lǐng)域本體的Web服務動態(tài)組合[J]. 計算機學報, 2008,(04) .

[6] 洋,易禾,楊春. 基于關(guān)鍵詞語義擴展的檢索策略[J]. 計算機應用, 2009, (06) .

猜你喜歡

信息檢索本體文檔

淺談Matlab與Word文檔的應用接口

客聯(lián)(2022年3期)2022-05-31

有人一聲不吭向你扔了個文檔

中國新聞周刊(2021年26期)2021-07-27

眼睛是“本體”

哈哈畫報(2021年10期)2021-02-28

高職院校圖書館開設(shè)信息檢索課的必要性探討

科教導刊·電子版(2021年30期)2021-01-03

網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索發(fā)展

山西青年(2018年5期)2018-01-25

Word文檔高效分合有高招

電腦愛好者(2017年7期)2017-05-06

基于本體的機械產(chǎn)品工藝知識表示

制造業(yè)自動化(2017年2期)2017-03-20

基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究

現(xiàn)代計算機(2016年11期)2016-02-28

Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat

Asian Pacific Journal of Reproduction(2015年1期)2015-12-22

圖書與情報(2013年1期)2013-11-16

制造業(yè)自動化2011年4期

制造業(yè)自動化的其它文章: 基于變頻器技術(shù)的冷卻塔節(jié)能改造; 建下開采地表沉陷的有限元預測模擬; 齒輪傳動的失效分析及改善措施; 天圓地方鈑金構(gòu)件展開放樣系統(tǒng)的研究; 基于電感傳感器的刀具刃口參數(shù)檢測系統(tǒng); 基于Log-Gabor小波相位一致的掌紋識別算法研究

白山市| 溧水县| 图木舒克市| 威远县| 上思县| 耒阳市| 调兵山市| 海淀区| 德州市| 伊宁市| 监利县| 安塞县| 英超| 泰来县| 秦安县| 巴林左旗| 蕲春县| 陇川县| 张掖市| 息烽县| 甘洛县| 佛冈县| 衡阳县| 成武县| 高淳县| 镇沅| 荣昌县| 南乐县| 台东市| 祁阳县| 鄂托克旗| 平塘县| 平定县| 安乡县| 河北区| 博罗县| 井陉县| 大城县| 台南市| 荔波县| 红河县|

<fieldset id="kgm8g"></fieldset>

<del id="kgm8g"></del>