国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

P2P環(huán)境下數(shù)字圖書館系統(tǒng)基于語(yǔ)義的節(jié)點(diǎn)查詢擴(kuò)展研究

2014-09-27 12:32楊韋潔高瓏蘇靜
現(xiàn)代情報(bào) 2014年7期
關(guān)鍵詞:數(shù)字圖書館

楊韋潔+高瓏+蘇靜

〔摘要〕針對(duì)傳統(tǒng)數(shù)字圖書館中基于關(guān)鍵字的P2P查詢擴(kuò)展存在對(duì)用戶檢索詞語(yǔ)義信息解釋不足的缺陷,本文提出一種P2P環(huán)境下基于語(yǔ)義的節(jié)點(diǎn)查詢擴(kuò)展方法,通過(guò)把關(guān)鍵字關(guān)聯(lián)表和本體相結(jié)合,實(shí)現(xiàn)了一種個(gè)性化查詢擴(kuò)展方法,同時(shí)利用這種擴(kuò)展方法實(shí)現(xiàn)P2P中基于興趣網(wǎng)絡(luò)的搜索,能夠較大幅度提升檢索效率。

〔關(guān)鍵詞〕P2P;語(yǔ)義擴(kuò)展;關(guān)鍵字關(guān)聯(lián)表;數(shù)字圖書館

隨著信息技術(shù)的發(fā)展,數(shù)字圖書館的規(guī)模不斷擴(kuò)大,文本、視頻、音頻等流媒體資源急劇擴(kuò)充,網(wǎng)絡(luò)規(guī)模也不斷擴(kuò)大。為了解決傳統(tǒng)客戶機(jī)/服務(wù)器網(wǎng)絡(luò)結(jié)構(gòu)(C/S,Client/Server)在應(yīng)對(duì)數(shù)字圖書館日益龐大的存儲(chǔ)量和傳輸量帶來(lái)的讀者檢索體驗(yàn)遲滯、傳輸速度緩慢的影響,點(diǎn)對(duì)點(diǎn)(P2P,Peer to Peer)技術(shù)被越來(lái)越廣泛的應(yīng)用在數(shù)字圖書館中,讀者對(duì)建立在這種技術(shù)之上的數(shù)字圖書館檢索性能的要求也越來(lái)越高,而查詢擴(kuò)展作為信息檢索中的一個(gè)重要環(huán)節(jié),對(duì)于改善信息檢索中查全率和查準(zhǔn)率非常重要。不同于C/S結(jié)構(gòu),由于非結(jié)構(gòu)化P2P網(wǎng)絡(luò)具有動(dòng)態(tài)、完全分布式結(jié)構(gòu)的優(yōu)點(diǎn),它在數(shù)字圖書館檢索的應(yīng)用雖然比較廣泛,但仍然具有以下兩類問(wèn)題:(1)P2P中同樣存在“詞典問(wèn)題”,即由于大多數(shù)用戶提交的查詢?cè)~都是短詞,會(huì)出現(xiàn)缺少上下文信息而存在語(yǔ)義歧義現(xiàn)象;同時(shí)由于自然語(yǔ)言大量同義詞的存在,很可能會(huì)導(dǎo)致用戶所需要結(jié)果漏檢。(2)傳統(tǒng)的基于關(guān)鍵字的查詢擴(kuò)展會(huì)把與用戶檢索詞不相似而相關(guān)的結(jié)果漏檢也就是缺乏相關(guān)性推理機(jī)制,如,“醫(yī)生”和“疾病”兩個(gè)詞語(yǔ),盡管相關(guān)性很高,但由于其相似性非常低,所以經(jīng)常被漏檢。上述問(wèn)題歸結(jié)為一點(diǎn),就是缺乏對(duì)讀者檢索關(guān)鍵字進(jìn)行必要的語(yǔ)義信息和推理信息解釋。然而雖然之前的基于語(yǔ)義查詢擴(kuò)展方法能夠通過(guò)本體所提供的良好的層次化結(jié)構(gòu)和推理機(jī)制在概念層次上對(duì)P2P中節(jié)點(diǎn)用戶的查詢關(guān)鍵詞進(jìn)行必要的解釋和推理,但這種語(yǔ)義擴(kuò)展方式下,由于本體庫(kù)構(gòu)建后是靜態(tài)的,難以適應(yīng)對(duì)新詞或未收錄詞的擴(kuò)展需求。為了避免上述問(wèn)題,本文提出一種改進(jìn)方法,即將關(guān)鍵字關(guān)聯(lián)表和本體技術(shù)相結(jié)合,該方法首先利用節(jié)點(diǎn)本地本體庫(kù)擴(kuò)展檢索詞,然后采用歷史查詢記錄中的關(guān)鍵字關(guān)聯(lián)表再次對(duì)原始檢索詞進(jìn)行擴(kuò)展,最終對(duì)擴(kuò)展結(jié)果進(jìn)行權(quán)重更新,根據(jù)權(quán)重值從大到小輸出擴(kuò)展結(jié)果,以提高讀者對(duì)檢索結(jié)果的滿意程度。

1相關(guān)理論基礎(chǔ)

11查詢擴(kuò)展方法

“查詢擴(kuò)展”概念的提出,最早可以追溯到1986年,學(xué)者Van Rijsberge[1]指出“僅限于原查詢?cè)~來(lái)提高系統(tǒng)的檢索性能是有限的,必須對(duì)原查詢進(jìn)行修改以提高檢索性能”,同時(shí)他還指出,查詢擴(kuò)展主要涉及原查詢?cè)~的權(quán)重修改和加入與原查詢相關(guān)的詞。目前通過(guò)對(duì)現(xiàn)有大量國(guó)內(nèi)外文獻(xiàn)研究發(fā)現(xiàn),不同學(xué)者從不同角度對(duì)查詢擴(kuò)展方法進(jìn)行了研究,主要分為3個(gè)階段:①基于關(guān)鍵字的查詢擴(kuò)展技術(shù)。這一階段又按照擴(kuò)展詞來(lái)源不同有全局分析、局部分析、基于關(guān)聯(lián)規(guī)則分析、基于用戶查詢?nèi)罩痉治鲆约吧鲜龇椒ǖ娜我饨M合[2-3]。后來(lái)學(xué)者Song Jin等人[4]指出可以使用標(biāo)簽共現(xiàn)的方法發(fā)現(xiàn)擴(kuò)展詞。上述這些方法都是在符號(hào)匹配層次上進(jìn)行的擴(kuò)展,忽略了查詢語(yǔ)義及查詢概念之間的語(yǔ)義關(guān)聯(lián),因而沒有充分表達(dá)和擴(kuò)展用戶查詢意圖,也就不能從根本上消除用戶查詢意圖與檢索結(jié)果之間的語(yǔ)義偏差和用戶查詢的歧義性問(wèn)題,同時(shí)會(huì)出現(xiàn)查詢漂移問(wèn)題。②語(yǔ)義擴(kuò)展階段。該階段主要是把本體技術(shù)或概念圖等引入到查詢擴(kuò)展中,解決了對(duì)初始查詢?cè)~語(yǔ)義信息的充分挖掘。雖然語(yǔ)義擴(kuò)展能夠清晰的表達(dá)用戶檢索詞相關(guān)信息,但是單獨(dú)使用語(yǔ)義擴(kuò)展的缺陷也是比較明顯的,例如,靜態(tài)性或非即時(shí)性以及語(yǔ)料庫(kù)無(wú)關(guān)性。③前兩個(gè)階段的融合。這時(shí)的研究目的是為用戶提供個(gè)性化的查詢擴(kuò)展,使用的方法包括語(yǔ)義擴(kuò)展與用戶興趣模型相結(jié)合、語(yǔ)義擴(kuò)展與關(guān)聯(lián)規(guī)則相結(jié)合、語(yǔ)義擴(kuò)展與局部共現(xiàn)分析或互信息相結(jié)合、上下文感知矩陣與本體相結(jié)合、概念圖與知網(wǎng)相結(jié)合、語(yǔ)義擴(kuò)展與社會(huì)標(biāo)簽相結(jié)合等。

目前P2P中查詢擴(kuò)展主要有兩大類:基于關(guān)鍵詞的查詢擴(kuò)展和基于語(yǔ)義的查詢擴(kuò)展。目前基于關(guān)鍵詞的查詢擴(kuò)展研究主要是根據(jù)節(jié)點(diǎn)用戶歷史記錄進(jìn)行查詢擴(kuò)展,具體又有兩種方式:①分析用戶歷史查詢記錄,建立查詢關(guān)鍵詞與文檔用詞之間的關(guān)聯(lián)關(guān)系,為下一次擴(kuò)展提供候選詞依據(jù)[5-6];②分析用戶歷史記錄,建立查詢關(guān)鍵詞與文檔之間的關(guān)聯(lián)關(guān)系,可以對(duì)傳統(tǒng)局部上下文分析技術(shù)進(jìn)行改進(jìn)[6]。而P2P中基于語(yǔ)義的查詢擴(kuò)展根據(jù)語(yǔ)義的表現(xiàn)形式不同,分為兩種方式:①基于LSI的查詢擴(kuò)展方法,其主要思想是借助于LSI分別進(jìn)行本地和遠(yuǎn)程擴(kuò)展解決同義詞問(wèn)題,通過(guò)對(duì)兩個(gè)擴(kuò)展查詢結(jié)果的集合操作解決P2P中存在的查詢擴(kuò)展問(wèn)題[7];②基于本體的查詢擴(kuò)展方法,主要是指節(jié)點(diǎn)用戶根據(jù)語(yǔ)義詞典建立本體庫(kù)[8]或利用大眾標(biāo)簽建立本體庫(kù),據(jù)此進(jìn)行查詢擴(kuò)展。

綜上所述,可以看出現(xiàn)有P2P中的查詢擴(kuò)展基本上都是把關(guān)鍵字?jǐn)U展和語(yǔ)義擴(kuò)展人為地割裂開了,沒有把兩者相結(jié)合起來(lái)使用。適應(yīng)于P2P環(huán)境的關(guān)鍵字?jǐn)U展主要是利用節(jié)點(diǎn)關(guān)鍵詞關(guān)聯(lián)表進(jìn)行查詢擴(kuò)展,但這只是根據(jù)節(jié)點(diǎn)的歷史查詢記錄擴(kuò)展,缺乏查詢?cè)~的語(yǔ)義性擴(kuò)展。而P2P中基于語(yǔ)義的查詢擴(kuò)展難以適應(yīng)對(duì)新詞或未收錄詞擴(kuò)展的需求。因此,隨著科學(xué)技術(shù)的發(fā)展和理論研究的深入,網(wǎng)絡(luò)的普及和文化交流的日益密切,新詞不斷涌現(xiàn),盡管節(jié)點(diǎn)本體也在不斷地更新發(fā)展,但是仍然很難跟上應(yīng)用的腳步。

2基于關(guān)鍵字關(guān)聯(lián)表和本體的查詢擴(kuò)展

為了解決上述問(wèn)題,本文提出了一種新的語(yǔ)義查詢擴(kuò)展方法,即將關(guān)鍵字關(guān)聯(lián)表和本體技術(shù)相結(jié)合應(yīng)用到P2P查詢擴(kuò)展中,來(lái)彌補(bǔ)單獨(dú)使用基于本體查詢擴(kuò)展的缺陷。關(guān)鍵字關(guān)聯(lián)表建立在每一個(gè)節(jié)點(diǎn)上,通過(guò)記錄該節(jié)點(diǎn)歷史成功查詢記錄,使初始檢索詞與最終成功檢索用詞發(fā)生關(guān)聯(lián)關(guān)系,下一次將該成功檢索用詞直接作為擴(kuò)展候選詞使用。這種方法也是為用戶提供個(gè)性化檢索的一種途徑。通過(guò)該方法可以快速適應(yīng)新環(huán)境的變化,彌補(bǔ)利用本體進(jìn)行查詢擴(kuò)展的不足。

21關(guān)鍵字關(guān)聯(lián)表的建立endprint

關(guān)鍵字關(guān)聯(lián)表(如圖1所示)是根據(jù)節(jié)點(diǎn)用戶歷史查詢記錄,為每一個(gè)節(jié)點(diǎn)建立一個(gè)關(guān)鍵字關(guān)聯(lián)表,每個(gè)節(jié)點(diǎn)僅存儲(chǔ)本地節(jié)點(diǎn)的關(guān)鍵字關(guān)聯(lián)表信息,相當(dāng)于一個(gè)同義詞詞典,只是它是根據(jù)節(jié)點(diǎn)的歷史記錄建立的,在搜索時(shí)可以作為查詢擴(kuò)展的依據(jù)。關(guān)鍵字關(guān)聯(lián)表的構(gòu)建主要有兩種方法,一種建立用戶輸入的初始檢索詞和最后一個(gè)成功檢索詞之間的關(guān)聯(lián)關(guān)系,另一種是建立用戶檢索詞與成功檢索的結(jié)果文檔所使用的標(biāo)引詞之間的關(guān)聯(lián)關(guān)系。(如圖2所示)本文使用的關(guān)鍵字關(guān)聯(lián)表的構(gòu)建采用的是后者。也即將查詢?cè)~空間(用戶檢索詞)與目標(biāo)文檔標(biāo)引詞空間(成功檢索的結(jié)果文檔所使用的標(biāo)引詞)直接關(guān)聯(lián)起來(lái),建立查詢單詞與目標(biāo)文檔標(biāo)引詞之間的關(guān)聯(lián)關(guān)系,其中關(guān)聯(lián)權(quán)重可作為選擇查詢擴(kuò)展詞排序輸出的依據(jù)。

22語(yǔ)義擴(kuò)展架構(gòu)

利用本地本體庫(kù)對(duì)節(jié)點(diǎn)查詢?cè)~進(jìn)行初步擴(kuò)展,然后利用該節(jié)點(diǎn)的歷史查詢記錄對(duì)初次擴(kuò)展結(jié)果進(jìn)行再次擴(kuò)展合并,去掉一些語(yǔ)義相關(guān)但實(shí)際查詢不相關(guān)的擴(kuò)展分支,同時(shí)對(duì)概念樹上各個(gè)節(jié)點(diǎn)的權(quán)值進(jìn)行修正,只有滿足一定權(quán)值要求的概念才會(huì)被最終選中加入查詢,同時(shí)使得滿足一定要求的只在歷史記錄集中出現(xiàn)的詞也能夠被選中加入到最終的查詢?cè)~中。這種結(jié)合的算法克服了單獨(dú)算法的弊端,提供更好的查詢質(zhì)量。首先,可以過(guò)濾一些語(yǔ)義上相關(guān)但與實(shí)際的文檔集合不符合的擴(kuò)展詞,提高查準(zhǔn)率和查詢效率。另外,使用這種算法能夠向查詢擴(kuò)展詞集中添加語(yǔ)義概念樹上沒有收錄的擴(kuò)展詞。

基于本體的語(yǔ)義擴(kuò)展,核心任務(wù)是一系列語(yǔ)義推理——同義擴(kuò)展、語(yǔ)義蘊(yùn)含、外延擴(kuò)展及語(yǔ)義相關(guān)擴(kuò)展。本文采用如下方法選取擴(kuò)展詞,并賦予擴(kuò)展詞權(quán)值。

定義1基于本體的語(yǔ)義擴(kuò)展候選詞集:利用語(yǔ)義詞典WordNet為初始查詢?cè)~構(gòu)造概念樹。記為CForest{SenseTree1,SenseTree2,…,SenseTree n},其中,SenseTree i表示由查詢?cè)~的一個(gè)詞義生成的概念樹。根據(jù)各個(gè)詞在概念樹中的位置定義的權(quán)重,反映在語(yǔ)義方面是擴(kuò)展詞和初始查詢?cè)~的緊密程度。記為WeightSem(Concepti)=1/distance(Root,Concept),其中Root是初始查詢?cè)~,distance(Root,Concepti)是從初始查詢?cè)~到Concepti的最短距離。

定義2關(guān)鍵詞擴(kuò)展候選詞集:記為StaCandidates{T1,T2,…,Tm},是與初始查詢?cè)~最相關(guān)的m個(gè)候選查詢?cè)~。按照條件概率的方法計(jì)算每一個(gè)關(guān)聯(lián)關(guān)鍵字的權(quán)值,然后根據(jù)閾值排序輸出。

設(shè)歷史記錄中包含的文檔集為D,查詢用詞A與文檔標(biāo)引詞B的關(guān)聯(lián)權(quán)重設(shè)為B相對(duì)于A的條件概率,

3P2P下一種基于語(yǔ)義查詢擴(kuò)展的檢索模型

該模型采用基于超級(jí)節(jié)點(diǎn)的P2P網(wǎng)絡(luò)結(jié)構(gòu),它是一種采用超級(jí)節(jié)點(diǎn)來(lái)管理普通節(jié)點(diǎn)的半結(jié)構(gòu)化網(wǎng)絡(luò),既具有傳統(tǒng)集中式P2P系統(tǒng)的可控性和搜索效率高的特點(diǎn),又能充分發(fā)揮非結(jié)構(gòu)化P2P網(wǎng)絡(luò)擴(kuò)展性強(qiáng)、容錯(cuò)性好以及負(fù)載平衡等優(yōu)勢(shì)。網(wǎng)絡(luò)中各普通節(jié)點(diǎn)在本地超級(jí)節(jié)點(diǎn)的控制下直接建立連接。超級(jí)節(jié)點(diǎn)負(fù)責(zé)本地節(jié)點(diǎn)的集中認(rèn)證和管理,并與其他超級(jí)節(jié)點(diǎn)構(gòu)成對(duì)等結(jié)構(gòu),同時(shí)作為本地的服務(wù)提供者和服務(wù)接受者,負(fù)責(zé)本地節(jié)點(diǎn)與其他區(qū)域超級(jí)節(jié)點(diǎn)或一般節(jié)點(diǎn)的通信。超級(jí)節(jié)點(diǎn)負(fù)責(zé)消息在本組中的轉(zhuǎn)發(fā)。本文中選取度數(shù)較高的節(jié)點(diǎn)作為超級(jí)節(jié)點(diǎn),便于資源快速在對(duì)等網(wǎng)絡(luò)中傳播。圖3基于語(yǔ)義查詢擴(kuò)展的檢索模型

從圖3可以看出,該模型包括6大模塊:

(1)詞表管理模塊。主要由領(lǐng)域?qū)<覙?gòu)建領(lǐng)域詞匯表,同時(shí)對(duì)相關(guān)領(lǐng)域詞匯表進(jìn)行定期維護(hù)和更新,它是節(jié)點(diǎn)用戶對(duì)本體存儲(chǔ)資源的本體化和規(guī)范化描述的基礎(chǔ)。

(2)提問(wèn)處理模塊。該模塊主要是對(duì)用戶所提檢索問(wèn)題進(jìn)行分詞處理、詞性標(biāo)注、去掉停用詞和虛詞等操作,得到具有實(shí)際意義并能夠反應(yīng)用戶真實(shí)檢索意圖的關(guān)鍵詞。

(3)語(yǔ)義標(biāo)注模塊。語(yǔ)義標(biāo)注是根據(jù)有關(guān)本體為各個(gè)節(jié)點(diǎn)上的資源標(biāo)引概念類、概念屬性和其他元數(shù)據(jù)的過(guò)程。目前有三類語(yǔ)義標(biāo)引的方法,即人工標(biāo)引、領(lǐng)域文檔類型定義和文檔模式進(jìn)行概念映射和標(biāo)引、利用詞匯語(yǔ)義分析進(jìn)行標(biāo)引。本文是在第三類基礎(chǔ)上進(jìn)行基于本體的語(yǔ)義標(biāo)引,通過(guò)分析文檔特征詞匯,建立詞匯與本體概念之間的映射,采用領(lǐng)域本體對(duì)文檔進(jìn)行領(lǐng)域語(yǔ)義標(biāo)引。根據(jù)領(lǐng)域共享詞表和本地本體庫(kù),各節(jié)點(diǎn)對(duì)本地可共享信息資源實(shí)現(xiàn)語(yǔ)義標(biāo)引。

(4)本體管理模塊。本體管理模塊支持本體的創(chuàng)建和進(jìn)化,負(fù)責(zé)抽取節(jié)點(diǎn)數(shù)據(jù)的本體化描述,同時(shí)對(duì)節(jié)點(diǎn)本體中新概念進(jìn)行整合,對(duì)本地可共享信息資源的本體和節(jié)點(diǎn)用戶進(jìn)行管理并存放于本體庫(kù)中。

(5)匹配模塊。也即語(yǔ)義相似度計(jì)算,它是自然語(yǔ)言處理研究的重要組成部分,是衡量用戶查詢與資源信息匹配度的標(biāo)準(zhǔn)。傳統(tǒng)的概念語(yǔ)義相似度計(jì)算方法有基于距離的語(yǔ)義相似度、基于信息內(nèi)容的相似度計(jì)算方法、基于屬性的語(yǔ)義相似度計(jì)算方法,其中影響語(yǔ)義距離的因素主要有:語(yǔ)義重合度、語(yǔ)義深度、語(yǔ)義密度、語(yǔ)義屬性。但凡這3種方法單獨(dú)使用都會(huì)存在不足,目前的研究主要集中在把這3種方法混合使用。

(6)資源搜索模塊。由于對(duì)等網(wǎng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的不同,其資源搜索的路徑選擇亦不同。對(duì)非結(jié)構(gòu)化P2P來(lái)說(shuō),通常有:泛洪搜索、BFS、迭代深入、隨機(jī)游走等。而本文采用的是基于興趣網(wǎng)絡(luò)的搜索算法,通過(guò)引入興趣組,減輕了節(jié)點(diǎn)查找和路由負(fù)擔(dān),實(shí)現(xiàn)高效搜索和資源定位。當(dāng)一個(gè)提問(wèn)向量被發(fā)送到超級(jí)節(jié)點(diǎn)處,首先會(huì)與該節(jié)點(diǎn)進(jìn)行基于距離的相似度匹配,匹配成功后,依次與屬于該興趣組的普通節(jié)點(diǎn)本體庫(kù)和關(guān)聯(lián)表進(jìn)行查詢擴(kuò)展,其中興趣組的構(gòu)建過(guò)程包括3個(gè)步驟:①對(duì)每個(gè)節(jié)點(diǎn)資源抽取文件特征向量;②采用K-Means對(duì)文件向量空間聚類;③建立興趣索引表,在超級(jí)節(jié)點(diǎn)處記錄同一興趣的普通節(jié)點(diǎn)ID,在普通節(jié)點(diǎn)處記錄所屬超級(jí)節(jié)點(diǎn)ID。

4實(shí)例驗(yàn)證

以某高校圖書館館藏圖書查詢?yōu)槔?,分別以3種不同的算法進(jìn)行分析,通過(guò)對(duì)比分析查詢結(jié)果,對(duì)上述說(shuō)明進(jìn)行驗(yàn)證。根據(jù)文章所述各查詢算法的特點(diǎn)可知,關(guān)鍵詞搜索方便用于有信息記錄的用戶;語(yǔ)義是固定的語(yǔ)義庫(kù),可用于初次使用系統(tǒng)的用戶,只要搜索內(nèi)容在語(yǔ)義庫(kù)中便可進(jìn)行搜索,但不可進(jìn)行自動(dòng)的語(yǔ)義庫(kù)擴(kuò)展。兩者結(jié)合可以用戶初次檢索,并可以自動(dòng)更新擴(kuò)展語(yǔ)義庫(kù)。

關(guān)鍵詞搜索適合應(yīng)用于有信息記錄的搜索欄目中,對(duì)于首次搜索內(nèi)容,顯示結(jié)果會(huì)存在不準(zhǔn)確,內(nèi)容不全面的情況出現(xiàn)。

基于語(yǔ)義的搜索是建立在語(yǔ)義庫(kù)的基礎(chǔ)上的搜索方式,對(duì)于圖書館系統(tǒng)的部分語(yǔ)義庫(kù)內(nèi)容如圖4所示。圖4圖書館檢索系統(tǒng)語(yǔ)義庫(kù)示意圖

以搜索關(guān)鍵詞“蘋果”為例,進(jìn)行搜索試驗(yàn),基于語(yǔ)義庫(kù)和基于語(yǔ)義查詢擴(kuò)展的搜索結(jié)果對(duì)比顯示,如表1所示。表1檢索結(jié)果對(duì)比表

序號(hào)〖〗關(guān)鍵詞名稱基于語(yǔ)義的查詢相關(guān)結(jié)果個(gè)性化推薦結(jié)果1蘋果《iLike蘋果Final Cut Pro X非線性編輯》、《蘋果計(jì)算機(jī)應(yīng)用》、《蘋果電腦玩全攻略》、《蘋果電腦完全手冊(cè)》……《iLike蘋果Final Cut Pro X非線性編輯》、《蘋果計(jì)算機(jī)應(yīng)用》、《蘋果電腦玩全攻略》、《蘋果電腦完全手冊(cè)》、《蘋果的種植技術(shù)》……

表中包括字段有,關(guān)鍵詞序號(hào),關(guān)鍵詞名稱,查詢結(jié)果。如表1所示,由于語(yǔ)義庫(kù)中蘋果分類為社會(huì)科學(xué)類,所以結(jié)果顯示的均為蘋果電腦的相關(guān)內(nèi)容,而用戶事實(shí)上想搜索關(guān)于蘋果的飲食和種植方面書籍,但顯示結(jié)果中沒有這一項(xiàng)目。產(chǎn)生這一結(jié)果的原因就是建立的語(yǔ)義庫(kù)中蘋果所屬社會(huì)科學(xué)類,而目標(biāo)搜索結(jié)果為自然科學(xué)類。語(yǔ)義庫(kù)中缺少類別擴(kuò)展以及語(yǔ)義庫(kù)的靜態(tài)屬性造成了搜索的片面和不準(zhǔn)確。于是,筆者采用語(yǔ)義庫(kù)與關(guān)鍵詞的結(jié)合完成搜索擴(kuò)展,一方面補(bǔ)充語(yǔ)義庫(kù)靜態(tài)屬性的缺陷;另一方面彌補(bǔ)關(guān)鍵詞無(wú)記錄搜索的缺點(diǎn)。采用綜合搜索的結(jié)果,顯示結(jié)果除顯示蘋果電腦相關(guān)外,也加入了擴(kuò)展內(nèi)容,為用戶推薦蘋果的種植方面書籍。

由此對(duì)比可知,基于語(yǔ)義的查詢擴(kuò)展可以搜索到更加全面完整的結(jié)果,并且可以應(yīng)用于記錄和非記錄用戶的搜索查詢。endprint

關(guān)鍵字關(guān)聯(lián)表(如圖1所示)是根據(jù)節(jié)點(diǎn)用戶歷史查詢記錄,為每一個(gè)節(jié)點(diǎn)建立一個(gè)關(guān)鍵字關(guān)聯(lián)表,每個(gè)節(jié)點(diǎn)僅存儲(chǔ)本地節(jié)點(diǎn)的關(guān)鍵字關(guān)聯(lián)表信息,相當(dāng)于一個(gè)同義詞詞典,只是它是根據(jù)節(jié)點(diǎn)的歷史記錄建立的,在搜索時(shí)可以作為查詢擴(kuò)展的依據(jù)。關(guān)鍵字關(guān)聯(lián)表的構(gòu)建主要有兩種方法,一種建立用戶輸入的初始檢索詞和最后一個(gè)成功檢索詞之間的關(guān)聯(lián)關(guān)系,另一種是建立用戶檢索詞與成功檢索的結(jié)果文檔所使用的標(biāo)引詞之間的關(guān)聯(lián)關(guān)系。(如圖2所示)本文使用的關(guān)鍵字關(guān)聯(lián)表的構(gòu)建采用的是后者。也即將查詢?cè)~空間(用戶檢索詞)與目標(biāo)文檔標(biāo)引詞空間(成功檢索的結(jié)果文檔所使用的標(biāo)引詞)直接關(guān)聯(lián)起來(lái),建立查詢單詞與目標(biāo)文檔標(biāo)引詞之間的關(guān)聯(lián)關(guān)系,其中關(guān)聯(lián)權(quán)重可作為選擇查詢擴(kuò)展詞排序輸出的依據(jù)。

22語(yǔ)義擴(kuò)展架構(gòu)

利用本地本體庫(kù)對(duì)節(jié)點(diǎn)查詢?cè)~進(jìn)行初步擴(kuò)展,然后利用該節(jié)點(diǎn)的歷史查詢記錄對(duì)初次擴(kuò)展結(jié)果進(jìn)行再次擴(kuò)展合并,去掉一些語(yǔ)義相關(guān)但實(shí)際查詢不相關(guān)的擴(kuò)展分支,同時(shí)對(duì)概念樹上各個(gè)節(jié)點(diǎn)的權(quán)值進(jìn)行修正,只有滿足一定權(quán)值要求的概念才會(huì)被最終選中加入查詢,同時(shí)使得滿足一定要求的只在歷史記錄集中出現(xiàn)的詞也能夠被選中加入到最終的查詢?cè)~中。這種結(jié)合的算法克服了單獨(dú)算法的弊端,提供更好的查詢質(zhì)量。首先,可以過(guò)濾一些語(yǔ)義上相關(guān)但與實(shí)際的文檔集合不符合的擴(kuò)展詞,提高查準(zhǔn)率和查詢效率。另外,使用這種算法能夠向查詢擴(kuò)展詞集中添加語(yǔ)義概念樹上沒有收錄的擴(kuò)展詞。

基于本體的語(yǔ)義擴(kuò)展,核心任務(wù)是一系列語(yǔ)義推理——同義擴(kuò)展、語(yǔ)義蘊(yùn)含、外延擴(kuò)展及語(yǔ)義相關(guān)擴(kuò)展。本文采用如下方法選取擴(kuò)展詞,并賦予擴(kuò)展詞權(quán)值。

定義1基于本體的語(yǔ)義擴(kuò)展候選詞集:利用語(yǔ)義詞典WordNet為初始查詢?cè)~構(gòu)造概念樹。記為CForest{SenseTree1,SenseTree2,…,SenseTree n},其中,SenseTree i表示由查詢?cè)~的一個(gè)詞義生成的概念樹。根據(jù)各個(gè)詞在概念樹中的位置定義的權(quán)重,反映在語(yǔ)義方面是擴(kuò)展詞和初始查詢?cè)~的緊密程度。記為WeightSem(Concepti)=1/distance(Root,Concept),其中Root是初始查詢?cè)~,distance(Root,Concepti)是從初始查詢?cè)~到Concepti的最短距離。

定義2關(guān)鍵詞擴(kuò)展候選詞集:記為StaCandidates{T1,T2,…,Tm},是與初始查詢?cè)~最相關(guān)的m個(gè)候選查詢?cè)~。按照條件概率的方法計(jì)算每一個(gè)關(guān)聯(lián)關(guān)鍵字的權(quán)值,然后根據(jù)閾值排序輸出。

設(shè)歷史記錄中包含的文檔集為D,查詢用詞A與文檔標(biāo)引詞B的關(guān)聯(lián)權(quán)重設(shè)為B相對(duì)于A的條件概率,

3P2P下一種基于語(yǔ)義查詢擴(kuò)展的檢索模型

該模型采用基于超級(jí)節(jié)點(diǎn)的P2P網(wǎng)絡(luò)結(jié)構(gòu),它是一種采用超級(jí)節(jié)點(diǎn)來(lái)管理普通節(jié)點(diǎn)的半結(jié)構(gòu)化網(wǎng)絡(luò),既具有傳統(tǒng)集中式P2P系統(tǒng)的可控性和搜索效率高的特點(diǎn),又能充分發(fā)揮非結(jié)構(gòu)化P2P網(wǎng)絡(luò)擴(kuò)展性強(qiáng)、容錯(cuò)性好以及負(fù)載平衡等優(yōu)勢(shì)。網(wǎng)絡(luò)中各普通節(jié)點(diǎn)在本地超級(jí)節(jié)點(diǎn)的控制下直接建立連接。超級(jí)節(jié)點(diǎn)負(fù)責(zé)本地節(jié)點(diǎn)的集中認(rèn)證和管理,并與其他超級(jí)節(jié)點(diǎn)構(gòu)成對(duì)等結(jié)構(gòu),同時(shí)作為本地的服務(wù)提供者和服務(wù)接受者,負(fù)責(zé)本地節(jié)點(diǎn)與其他區(qū)域超級(jí)節(jié)點(diǎn)或一般節(jié)點(diǎn)的通信。超級(jí)節(jié)點(diǎn)負(fù)責(zé)消息在本組中的轉(zhuǎn)發(fā)。本文中選取度數(shù)較高的節(jié)點(diǎn)作為超級(jí)節(jié)點(diǎn),便于資源快速在對(duì)等網(wǎng)絡(luò)中傳播。圖3基于語(yǔ)義查詢擴(kuò)展的檢索模型

從圖3可以看出,該模型包括6大模塊:

(1)詞表管理模塊。主要由領(lǐng)域?qū)<覙?gòu)建領(lǐng)域詞匯表,同時(shí)對(duì)相關(guān)領(lǐng)域詞匯表進(jìn)行定期維護(hù)和更新,它是節(jié)點(diǎn)用戶對(duì)本體存儲(chǔ)資源的本體化和規(guī)范化描述的基礎(chǔ)。

(2)提問(wèn)處理模塊。該模塊主要是對(duì)用戶所提檢索問(wèn)題進(jìn)行分詞處理、詞性標(biāo)注、去掉停用詞和虛詞等操作,得到具有實(shí)際意義并能夠反應(yīng)用戶真實(shí)檢索意圖的關(guān)鍵詞。

(3)語(yǔ)義標(biāo)注模塊。語(yǔ)義標(biāo)注是根據(jù)有關(guān)本體為各個(gè)節(jié)點(diǎn)上的資源標(biāo)引概念類、概念屬性和其他元數(shù)據(jù)的過(guò)程。目前有三類語(yǔ)義標(biāo)引的方法,即人工標(biāo)引、領(lǐng)域文檔類型定義和文檔模式進(jìn)行概念映射和標(biāo)引、利用詞匯語(yǔ)義分析進(jìn)行標(biāo)引。本文是在第三類基礎(chǔ)上進(jìn)行基于本體的語(yǔ)義標(biāo)引,通過(guò)分析文檔特征詞匯,建立詞匯與本體概念之間的映射,采用領(lǐng)域本體對(duì)文檔進(jìn)行領(lǐng)域語(yǔ)義標(biāo)引。根據(jù)領(lǐng)域共享詞表和本地本體庫(kù),各節(jié)點(diǎn)對(duì)本地可共享信息資源實(shí)現(xiàn)語(yǔ)義標(biāo)引。

(4)本體管理模塊。本體管理模塊支持本體的創(chuàng)建和進(jìn)化,負(fù)責(zé)抽取節(jié)點(diǎn)數(shù)據(jù)的本體化描述,同時(shí)對(duì)節(jié)點(diǎn)本體中新概念進(jìn)行整合,對(duì)本地可共享信息資源的本體和節(jié)點(diǎn)用戶進(jìn)行管理并存放于本體庫(kù)中。

(5)匹配模塊。也即語(yǔ)義相似度計(jì)算,它是自然語(yǔ)言處理研究的重要組成部分,是衡量用戶查詢與資源信息匹配度的標(biāo)準(zhǔn)。傳統(tǒng)的概念語(yǔ)義相似度計(jì)算方法有基于距離的語(yǔ)義相似度、基于信息內(nèi)容的相似度計(jì)算方法、基于屬性的語(yǔ)義相似度計(jì)算方法,其中影響語(yǔ)義距離的因素主要有:語(yǔ)義重合度、語(yǔ)義深度、語(yǔ)義密度、語(yǔ)義屬性。但凡這3種方法單獨(dú)使用都會(huì)存在不足,目前的研究主要集中在把這3種方法混合使用。

(6)資源搜索模塊。由于對(duì)等網(wǎng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的不同,其資源搜索的路徑選擇亦不同。對(duì)非結(jié)構(gòu)化P2P來(lái)說(shuō),通常有:泛洪搜索、BFS、迭代深入、隨機(jī)游走等。而本文采用的是基于興趣網(wǎng)絡(luò)的搜索算法,通過(guò)引入興趣組,減輕了節(jié)點(diǎn)查找和路由負(fù)擔(dān),實(shí)現(xiàn)高效搜索和資源定位。當(dāng)一個(gè)提問(wèn)向量被發(fā)送到超級(jí)節(jié)點(diǎn)處,首先會(huì)與該節(jié)點(diǎn)進(jìn)行基于距離的相似度匹配,匹配成功后,依次與屬于該興趣組的普通節(jié)點(diǎn)本體庫(kù)和關(guān)聯(lián)表進(jìn)行查詢擴(kuò)展,其中興趣組的構(gòu)建過(guò)程包括3個(gè)步驟:①對(duì)每個(gè)節(jié)點(diǎn)資源抽取文件特征向量;②采用K-Means對(duì)文件向量空間聚類;③建立興趣索引表,在超級(jí)節(jié)點(diǎn)處記錄同一興趣的普通節(jié)點(diǎn)ID,在普通節(jié)點(diǎn)處記錄所屬超級(jí)節(jié)點(diǎn)ID。

4實(shí)例驗(yàn)證

以某高校圖書館館藏圖書查詢?yōu)槔?,分別以3種不同的算法進(jìn)行分析,通過(guò)對(duì)比分析查詢結(jié)果,對(duì)上述說(shuō)明進(jìn)行驗(yàn)證。根據(jù)文章所述各查詢算法的特點(diǎn)可知,關(guān)鍵詞搜索方便用于有信息記錄的用戶;語(yǔ)義是固定的語(yǔ)義庫(kù),可用于初次使用系統(tǒng)的用戶,只要搜索內(nèi)容在語(yǔ)義庫(kù)中便可進(jìn)行搜索,但不可進(jìn)行自動(dòng)的語(yǔ)義庫(kù)擴(kuò)展。兩者結(jié)合可以用戶初次檢索,并可以自動(dòng)更新擴(kuò)展語(yǔ)義庫(kù)。

關(guān)鍵詞搜索適合應(yīng)用于有信息記錄的搜索欄目中,對(duì)于首次搜索內(nèi)容,顯示結(jié)果會(huì)存在不準(zhǔn)確,內(nèi)容不全面的情況出現(xiàn)。

基于語(yǔ)義的搜索是建立在語(yǔ)義庫(kù)的基礎(chǔ)上的搜索方式,對(duì)于圖書館系統(tǒng)的部分語(yǔ)義庫(kù)內(nèi)容如圖4所示。圖4圖書館檢索系統(tǒng)語(yǔ)義庫(kù)示意圖

以搜索關(guān)鍵詞“蘋果”為例,進(jìn)行搜索試驗(yàn),基于語(yǔ)義庫(kù)和基于語(yǔ)義查詢擴(kuò)展的搜索結(jié)果對(duì)比顯示,如表1所示。表1檢索結(jié)果對(duì)比表

序號(hào)〖〗關(guān)鍵詞名稱基于語(yǔ)義的查詢相關(guān)結(jié)果個(gè)性化推薦結(jié)果1蘋果《iLike蘋果Final Cut Pro X非線性編輯》、《蘋果計(jì)算機(jī)應(yīng)用》、《蘋果電腦玩全攻略》、《蘋果電腦完全手冊(cè)》……《iLike蘋果Final Cut Pro X非線性編輯》、《蘋果計(jì)算機(jī)應(yīng)用》、《蘋果電腦玩全攻略》、《蘋果電腦完全手冊(cè)》、《蘋果的種植技術(shù)》……

表中包括字段有,關(guān)鍵詞序號(hào),關(guān)鍵詞名稱,查詢結(jié)果。如表1所示,由于語(yǔ)義庫(kù)中蘋果分類為社會(huì)科學(xué)類,所以結(jié)果顯示的均為蘋果電腦的相關(guān)內(nèi)容,而用戶事實(shí)上想搜索關(guān)于蘋果的飲食和種植方面書籍,但顯示結(jié)果中沒有這一項(xiàng)目。產(chǎn)生這一結(jié)果的原因就是建立的語(yǔ)義庫(kù)中蘋果所屬社會(huì)科學(xué)類,而目標(biāo)搜索結(jié)果為自然科學(xué)類。語(yǔ)義庫(kù)中缺少類別擴(kuò)展以及語(yǔ)義庫(kù)的靜態(tài)屬性造成了搜索的片面和不準(zhǔn)確。于是,筆者采用語(yǔ)義庫(kù)與關(guān)鍵詞的結(jié)合完成搜索擴(kuò)展,一方面補(bǔ)充語(yǔ)義庫(kù)靜態(tài)屬性的缺陷;另一方面彌補(bǔ)關(guān)鍵詞無(wú)記錄搜索的缺點(diǎn)。采用綜合搜索的結(jié)果,顯示結(jié)果除顯示蘋果電腦相關(guān)外,也加入了擴(kuò)展內(nèi)容,為用戶推薦蘋果的種植方面書籍。

由此對(duì)比可知,基于語(yǔ)義的查詢擴(kuò)展可以搜索到更加全面完整的結(jié)果,并且可以應(yīng)用于記錄和非記錄用戶的搜索查詢。endprint

關(guān)鍵字關(guān)聯(lián)表(如圖1所示)是根據(jù)節(jié)點(diǎn)用戶歷史查詢記錄,為每一個(gè)節(jié)點(diǎn)建立一個(gè)關(guān)鍵字關(guān)聯(lián)表,每個(gè)節(jié)點(diǎn)僅存儲(chǔ)本地節(jié)點(diǎn)的關(guān)鍵字關(guān)聯(lián)表信息,相當(dāng)于一個(gè)同義詞詞典,只是它是根據(jù)節(jié)點(diǎn)的歷史記錄建立的,在搜索時(shí)可以作為查詢擴(kuò)展的依據(jù)。關(guān)鍵字關(guān)聯(lián)表的構(gòu)建主要有兩種方法,一種建立用戶輸入的初始檢索詞和最后一個(gè)成功檢索詞之間的關(guān)聯(lián)關(guān)系,另一種是建立用戶檢索詞與成功檢索的結(jié)果文檔所使用的標(biāo)引詞之間的關(guān)聯(lián)關(guān)系。(如圖2所示)本文使用的關(guān)鍵字關(guān)聯(lián)表的構(gòu)建采用的是后者。也即將查詢?cè)~空間(用戶檢索詞)與目標(biāo)文檔標(biāo)引詞空間(成功檢索的結(jié)果文檔所使用的標(biāo)引詞)直接關(guān)聯(lián)起來(lái),建立查詢單詞與目標(biāo)文檔標(biāo)引詞之間的關(guān)聯(lián)關(guān)系,其中關(guān)聯(lián)權(quán)重可作為選擇查詢擴(kuò)展詞排序輸出的依據(jù)。

22語(yǔ)義擴(kuò)展架構(gòu)

利用本地本體庫(kù)對(duì)節(jié)點(diǎn)查詢?cè)~進(jìn)行初步擴(kuò)展,然后利用該節(jié)點(diǎn)的歷史查詢記錄對(duì)初次擴(kuò)展結(jié)果進(jìn)行再次擴(kuò)展合并,去掉一些語(yǔ)義相關(guān)但實(shí)際查詢不相關(guān)的擴(kuò)展分支,同時(shí)對(duì)概念樹上各個(gè)節(jié)點(diǎn)的權(quán)值進(jìn)行修正,只有滿足一定權(quán)值要求的概念才會(huì)被最終選中加入查詢,同時(shí)使得滿足一定要求的只在歷史記錄集中出現(xiàn)的詞也能夠被選中加入到最終的查詢?cè)~中。這種結(jié)合的算法克服了單獨(dú)算法的弊端,提供更好的查詢質(zhì)量。首先,可以過(guò)濾一些語(yǔ)義上相關(guān)但與實(shí)際的文檔集合不符合的擴(kuò)展詞,提高查準(zhǔn)率和查詢效率。另外,使用這種算法能夠向查詢擴(kuò)展詞集中添加語(yǔ)義概念樹上沒有收錄的擴(kuò)展詞。

基于本體的語(yǔ)義擴(kuò)展,核心任務(wù)是一系列語(yǔ)義推理——同義擴(kuò)展、語(yǔ)義蘊(yùn)含、外延擴(kuò)展及語(yǔ)義相關(guān)擴(kuò)展。本文采用如下方法選取擴(kuò)展詞,并賦予擴(kuò)展詞權(quán)值。

定義1基于本體的語(yǔ)義擴(kuò)展候選詞集:利用語(yǔ)義詞典WordNet為初始查詢?cè)~構(gòu)造概念樹。記為CForest{SenseTree1,SenseTree2,…,SenseTree n},其中,SenseTree i表示由查詢?cè)~的一個(gè)詞義生成的概念樹。根據(jù)各個(gè)詞在概念樹中的位置定義的權(quán)重,反映在語(yǔ)義方面是擴(kuò)展詞和初始查詢?cè)~的緊密程度。記為WeightSem(Concepti)=1/distance(Root,Concept),其中Root是初始查詢?cè)~,distance(Root,Concepti)是從初始查詢?cè)~到Concepti的最短距離。

定義2關(guān)鍵詞擴(kuò)展候選詞集:記為StaCandidates{T1,T2,…,Tm},是與初始查詢?cè)~最相關(guān)的m個(gè)候選查詢?cè)~。按照條件概率的方法計(jì)算每一個(gè)關(guān)聯(lián)關(guān)鍵字的權(quán)值,然后根據(jù)閾值排序輸出。

設(shè)歷史記錄中包含的文檔集為D,查詢用詞A與文檔標(biāo)引詞B的關(guān)聯(lián)權(quán)重設(shè)為B相對(duì)于A的條件概率,

3P2P下一種基于語(yǔ)義查詢擴(kuò)展的檢索模型

該模型采用基于超級(jí)節(jié)點(diǎn)的P2P網(wǎng)絡(luò)結(jié)構(gòu),它是一種采用超級(jí)節(jié)點(diǎn)來(lái)管理普通節(jié)點(diǎn)的半結(jié)構(gòu)化網(wǎng)絡(luò),既具有傳統(tǒng)集中式P2P系統(tǒng)的可控性和搜索效率高的特點(diǎn),又能充分發(fā)揮非結(jié)構(gòu)化P2P網(wǎng)絡(luò)擴(kuò)展性強(qiáng)、容錯(cuò)性好以及負(fù)載平衡等優(yōu)勢(shì)。網(wǎng)絡(luò)中各普通節(jié)點(diǎn)在本地超級(jí)節(jié)點(diǎn)的控制下直接建立連接。超級(jí)節(jié)點(diǎn)負(fù)責(zé)本地節(jié)點(diǎn)的集中認(rèn)證和管理,并與其他超級(jí)節(jié)點(diǎn)構(gòu)成對(duì)等結(jié)構(gòu),同時(shí)作為本地的服務(wù)提供者和服務(wù)接受者,負(fù)責(zé)本地節(jié)點(diǎn)與其他區(qū)域超級(jí)節(jié)點(diǎn)或一般節(jié)點(diǎn)的通信。超級(jí)節(jié)點(diǎn)負(fù)責(zé)消息在本組中的轉(zhuǎn)發(fā)。本文中選取度數(shù)較高的節(jié)點(diǎn)作為超級(jí)節(jié)點(diǎn),便于資源快速在對(duì)等網(wǎng)絡(luò)中傳播。圖3基于語(yǔ)義查詢擴(kuò)展的檢索模型

從圖3可以看出,該模型包括6大模塊:

(1)詞表管理模塊。主要由領(lǐng)域?qū)<覙?gòu)建領(lǐng)域詞匯表,同時(shí)對(duì)相關(guān)領(lǐng)域詞匯表進(jìn)行定期維護(hù)和更新,它是節(jié)點(diǎn)用戶對(duì)本體存儲(chǔ)資源的本體化和規(guī)范化描述的基礎(chǔ)。

(2)提問(wèn)處理模塊。該模塊主要是對(duì)用戶所提檢索問(wèn)題進(jìn)行分詞處理、詞性標(biāo)注、去掉停用詞和虛詞等操作,得到具有實(shí)際意義并能夠反應(yīng)用戶真實(shí)檢索意圖的關(guān)鍵詞。

(3)語(yǔ)義標(biāo)注模塊。語(yǔ)義標(biāo)注是根據(jù)有關(guān)本體為各個(gè)節(jié)點(diǎn)上的資源標(biāo)引概念類、概念屬性和其他元數(shù)據(jù)的過(guò)程。目前有三類語(yǔ)義標(biāo)引的方法,即人工標(biāo)引、領(lǐng)域文檔類型定義和文檔模式進(jìn)行概念映射和標(biāo)引、利用詞匯語(yǔ)義分析進(jìn)行標(biāo)引。本文是在第三類基礎(chǔ)上進(jìn)行基于本體的語(yǔ)義標(biāo)引,通過(guò)分析文檔特征詞匯,建立詞匯與本體概念之間的映射,采用領(lǐng)域本體對(duì)文檔進(jìn)行領(lǐng)域語(yǔ)義標(biāo)引。根據(jù)領(lǐng)域共享詞表和本地本體庫(kù),各節(jié)點(diǎn)對(duì)本地可共享信息資源實(shí)現(xiàn)語(yǔ)義標(biāo)引。

(4)本體管理模塊。本體管理模塊支持本體的創(chuàng)建和進(jìn)化,負(fù)責(zé)抽取節(jié)點(diǎn)數(shù)據(jù)的本體化描述,同時(shí)對(duì)節(jié)點(diǎn)本體中新概念進(jìn)行整合,對(duì)本地可共享信息資源的本體和節(jié)點(diǎn)用戶進(jìn)行管理并存放于本體庫(kù)中。

(5)匹配模塊。也即語(yǔ)義相似度計(jì)算,它是自然語(yǔ)言處理研究的重要組成部分,是衡量用戶查詢與資源信息匹配度的標(biāo)準(zhǔn)。傳統(tǒng)的概念語(yǔ)義相似度計(jì)算方法有基于距離的語(yǔ)義相似度、基于信息內(nèi)容的相似度計(jì)算方法、基于屬性的語(yǔ)義相似度計(jì)算方法,其中影響語(yǔ)義距離的因素主要有:語(yǔ)義重合度、語(yǔ)義深度、語(yǔ)義密度、語(yǔ)義屬性。但凡這3種方法單獨(dú)使用都會(huì)存在不足,目前的研究主要集中在把這3種方法混合使用。

(6)資源搜索模塊。由于對(duì)等網(wǎng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的不同,其資源搜索的路徑選擇亦不同。對(duì)非結(jié)構(gòu)化P2P來(lái)說(shuō),通常有:泛洪搜索、BFS、迭代深入、隨機(jī)游走等。而本文采用的是基于興趣網(wǎng)絡(luò)的搜索算法,通過(guò)引入興趣組,減輕了節(jié)點(diǎn)查找和路由負(fù)擔(dān),實(shí)現(xiàn)高效搜索和資源定位。當(dāng)一個(gè)提問(wèn)向量被發(fā)送到超級(jí)節(jié)點(diǎn)處,首先會(huì)與該節(jié)點(diǎn)進(jìn)行基于距離的相似度匹配,匹配成功后,依次與屬于該興趣組的普通節(jié)點(diǎn)本體庫(kù)和關(guān)聯(lián)表進(jìn)行查詢擴(kuò)展,其中興趣組的構(gòu)建過(guò)程包括3個(gè)步驟:①對(duì)每個(gè)節(jié)點(diǎn)資源抽取文件特征向量;②采用K-Means對(duì)文件向量空間聚類;③建立興趣索引表,在超級(jí)節(jié)點(diǎn)處記錄同一興趣的普通節(jié)點(diǎn)ID,在普通節(jié)點(diǎn)處記錄所屬超級(jí)節(jié)點(diǎn)ID。

4實(shí)例驗(yàn)證

以某高校圖書館館藏圖書查詢?yōu)槔謩e以3種不同的算法進(jìn)行分析,通過(guò)對(duì)比分析查詢結(jié)果,對(duì)上述說(shuō)明進(jìn)行驗(yàn)證。根據(jù)文章所述各查詢算法的特點(diǎn)可知,關(guān)鍵詞搜索方便用于有信息記錄的用戶;語(yǔ)義是固定的語(yǔ)義庫(kù),可用于初次使用系統(tǒng)的用戶,只要搜索內(nèi)容在語(yǔ)義庫(kù)中便可進(jìn)行搜索,但不可進(jìn)行自動(dòng)的語(yǔ)義庫(kù)擴(kuò)展。兩者結(jié)合可以用戶初次檢索,并可以自動(dòng)更新擴(kuò)展語(yǔ)義庫(kù)。

關(guān)鍵詞搜索適合應(yīng)用于有信息記錄的搜索欄目中,對(duì)于首次搜索內(nèi)容,顯示結(jié)果會(huì)存在不準(zhǔn)確,內(nèi)容不全面的情況出現(xiàn)。

基于語(yǔ)義的搜索是建立在語(yǔ)義庫(kù)的基礎(chǔ)上的搜索方式,對(duì)于圖書館系統(tǒng)的部分語(yǔ)義庫(kù)內(nèi)容如圖4所示。圖4圖書館檢索系統(tǒng)語(yǔ)義庫(kù)示意圖

以搜索關(guān)鍵詞“蘋果”為例,進(jìn)行搜索試驗(yàn),基于語(yǔ)義庫(kù)和基于語(yǔ)義查詢擴(kuò)展的搜索結(jié)果對(duì)比顯示,如表1所示。表1檢索結(jié)果對(duì)比表

序號(hào)〖〗關(guān)鍵詞名稱基于語(yǔ)義的查詢相關(guān)結(jié)果個(gè)性化推薦結(jié)果1蘋果《iLike蘋果Final Cut Pro X非線性編輯》、《蘋果計(jì)算機(jī)應(yīng)用》、《蘋果電腦玩全攻略》、《蘋果電腦完全手冊(cè)》……《iLike蘋果Final Cut Pro X非線性編輯》、《蘋果計(jì)算機(jī)應(yīng)用》、《蘋果電腦玩全攻略》、《蘋果電腦完全手冊(cè)》、《蘋果的種植技術(shù)》……

表中包括字段有,關(guān)鍵詞序號(hào),關(guān)鍵詞名稱,查詢結(jié)果。如表1所示,由于語(yǔ)義庫(kù)中蘋果分類為社會(huì)科學(xué)類,所以結(jié)果顯示的均為蘋果電腦的相關(guān)內(nèi)容,而用戶事實(shí)上想搜索關(guān)于蘋果的飲食和種植方面書籍,但顯示結(jié)果中沒有這一項(xiàng)目。產(chǎn)生這一結(jié)果的原因就是建立的語(yǔ)義庫(kù)中蘋果所屬社會(huì)科學(xué)類,而目標(biāo)搜索結(jié)果為自然科學(xué)類。語(yǔ)義庫(kù)中缺少類別擴(kuò)展以及語(yǔ)義庫(kù)的靜態(tài)屬性造成了搜索的片面和不準(zhǔn)確。于是,筆者采用語(yǔ)義庫(kù)與關(guān)鍵詞的結(jié)合完成搜索擴(kuò)展,一方面補(bǔ)充語(yǔ)義庫(kù)靜態(tài)屬性的缺陷;另一方面彌補(bǔ)關(guān)鍵詞無(wú)記錄搜索的缺點(diǎn)。采用綜合搜索的結(jié)果,顯示結(jié)果除顯示蘋果電腦相關(guān)外,也加入了擴(kuò)展內(nèi)容,為用戶推薦蘋果的種植方面書籍。

由此對(duì)比可知,基于語(yǔ)義的查詢擴(kuò)展可以搜索到更加全面完整的結(jié)果,并且可以應(yīng)用于記錄和非記錄用戶的搜索查詢。endprint

猜你喜歡
數(shù)字圖書館
淺析“互聯(lián)網(wǎng)+”時(shí)代的圖書館管理
新绛县| 团风县| 华阴市| 昌江| 昌都县| 苍梧县| 赤壁市| 江山市| 三江| 吉水县| 大城县| 沈丘县| 江达县| 岢岚县| 东城区| 蚌埠市| 米泉市| 额尔古纳市| 大埔县| 河池市| 花垣县| 化州市| 郯城县| 三门峡市| 湘潭市| 普陀区| 永德县| 怀远县| 巨鹿县| 江北区| 竹山县| 辽宁省| 页游| 锦州市| 泸定县| 正镶白旗| 清苑县| 阜阳市| 岢岚县| 盘山县| 宁蒗|