龔小龍,王明文,萬劍怡,王曉慶
(江西師范大學 計算機信息工程學院,江西 南昌 330022)
?
結(jié)合鄰近度的語義位置語言檢索模型
龔小龍,王明文,萬劍怡,王曉慶
(江西師范大學 計算機信息工程學院,江西 南昌 330022)
在傳統(tǒng)的檢索模型中,文檔與查詢的匹配計算主要考慮詞項的統(tǒng)計特征,如詞頻、逆文檔頻率和文檔長度,近年來的研究表明應用查詢詞項匹配在文檔中的位置信息可以提高查詢結(jié)果的準確性。如何更好地刻畫查詢詞在文檔中的位置信息并建模,是研究提高檢索效果的問題之一。該文在結(jié)合語義的位置語言模型(SPLM)的基礎上進一步考慮了詞的鄰近信息,并給出了用狄利克雷先驗分布來計算鄰近度的平滑策略,提出了結(jié)合鄰近度的位置語言檢索模型。在標準數(shù)據(jù)上的實驗結(jié)果表明,提出的檢索模型在性能上要優(yōu)于結(jié)合語義的位置語言模型。
語義位置語言模型;Dirichlet平滑;鄰近度信息;檢索模型
在過去的幾十年間,信息檢索領域出現(xiàn)了很多經(jīng)典的模型,諸如布爾模型、向量空間模型以及概率模型等。1998年,Ponte和Croft[1]首次將統(tǒng)計語言模型應用于信息檢索,提出了查詢似然語言模型,之后研究者又陸續(xù)提出了隱馬爾科夫模型、統(tǒng)計翻譯模型和風險最小化模型等,但是大多數(shù)檢索模型都是僅使用了詞在文檔中的頻率這一特征,而未考慮詞在文檔中的位置關系,對那些相同詞在不同文章中的位置和順序的不同,大多數(shù)檢索模型對這樣的文檔的檢索得分是一樣的,而考慮了位置關系的檢索模型的檢索效果就會有所區(qū)分。基于此,Lv和Zhai[2]提出了一種位置語言模型(PLM),該模型細微到每個位置建立一個語言模型,并成功應用于信息檢索,而且考慮了文檔中詞與詞的位置關系。但該模型還具有可完善的地方,在上述模型基礎上,余偉和王明文[3]對其做出了改進,提出了一種結(jié)合語義的位置語言模型(SPLM),并在文中提出了一種新的技術(shù)——“平滑互信息”來度量兩個詞之間的轉(zhuǎn)移概率。通過使用Jelinek-Mercer平滑和相對熵(KL)來衡量查詢詞的分布和查詢詞在文檔中的位置i的檢索得分。
信息檢索中的關鍵任務是對用戶的查詢所匹配的相關性文檔集進行排序。在這一領域里,概率模型已經(jīng)很成功地被應用于文檔的排序中。但是傳統(tǒng)的檢索模型并沒有考慮一篇文檔中查詢詞的鄰近度信息,而最近幾年提出的PLM模型和SPLM模型在其檢索模型中也沒有明確詳細地指出查詢詞在文檔中的鄰近度關系。鄰近度代表的是一篇文章中查詢詞和查詢詞之間的靠近程度和緊密程度,潛在的意思是,詞與詞之間如果越緊密,就越能說明它們的主題相關,也因此說明該文檔和用戶查詢的意圖是相關的。Beeferman,Berger和Lafferty[4]在其文中也表達出了詞項鄰近度對于詞與詞之間的依賴性有較強的影響。
先前也有一些研究將鄰近度因素整合到已有的檢索模型當中去[5-7],這些工作都說明了一個恰當?shù)泥徑炔呗缘脑O計可以提高概率檢索模型的性能。本文提出了在SPLM的檢索模型的基礎上,加入了查詢詞在文檔中的內(nèi)部結(jié)構(gòu)信息,即鄰近度信息,來提升文檔檢索的準確率,并且我們使用了Dirichlet先驗平滑方法來對比SPLM中的JM平滑的方法。實驗結(jié)果表明本文提出的加入鄰近度信息的檢索模型使得文檔檢索的準確率相比于原檢索模型有一定的提高。
本文組織如下:第2節(jié)對傳統(tǒng)的模型與鄰近度信息的結(jié)合進行了介紹與分析;第3節(jié)介紹結(jié)合鄰近度的語義位置語言檢索模型的構(gòu)建;第4節(jié)描述了多種不同的詞項鄰近度策略的計算方法;第5節(jié)介紹了實驗環(huán)境并對實驗結(jié)果進行了分析;第6節(jié)是工作總結(jié)。
詞項鄰近度所表達的是在一個指定的距離范圍中詞項同現(xiàn)的情況。國外有相當一部分工作是將詞項鄰近度的信息整合到傳統(tǒng)的布爾模型和概率模型當中,如Keen[8-9]首先嘗試將詞項鄰近度加入到布爾檢索模型中,而后Buttcher[10]等人提出將詞項鄰近度得分加入到BM25中以此得到對多個不同數(shù)據(jù)集合上效率的提升。Tao[6]等在文章中系統(tǒng)地闡述了五個鄰近度策略,并分別對KL距離的檢索模型中和BM25檢索模型中所達到的效率做了相應的比較。國內(nèi)相關的工作中韓中元、李生[11]等提出的利用近鄰信息取代聚類語言模型中的聚類信息,通過計算文檔之間的KL距離來選擇近鄰文檔,有助于消除聚類邊界文檔使用聚類語言模型時所帶來的不確定性影響。對鄰近度的建??梢钥醋魇情g接捕捉詞項獨立性的一種方法,在一些早期的工作當中,是通過計算查詢詞項在文檔中的跨度和密度來度量文檔間相似度得分的。文獻[6]嘗試將鄰近度因子分別和BM25概率模型與KL距離模型相結(jié)合,最終的得分函數(shù)表示為式(1)和式(2)。
Rank(Q,D)=BM25(q,d)+
(1)
Rank(Q,D)=KL(q,d)+
(2)
其中,KL(q,d),BM(q,d)是分別通過KL距離和BM25模型計算的排序得分,δ(q,d)是和查詢q有關的文檔d中的鄰近度距離的度量。
以上所有的工作主要集中在將詞項鄰近度信息整合到布爾模型和概率模型中,國內(nèi)外也有部分研究者嘗試將鄰近度信息加入到語言模型中。但也包含兩個主要的問題:1) 國內(nèi)多數(shù)研究如文獻[11]旨在處理文檔之間的鄰近關系,丁凡、王斌[12]在文中提出的融入詞項依存關系的檢索模型, 金凌、吳文虎[13]提出考慮一個句子中非相鄰詞之間的關系,通過距離加權(quán)函數(shù)來引入距離信息以及文獻[14]中提出的查詢詞項之間的平行概念效應,大部分對文檔中查詢詞項間的鄰近度沒有給出詳細的形式化定義。2) 國外研究者如文獻[15]中提出的整合鄰近度信息的語言模型較復雜(如式(3)),從而導致算法復雜度過高,效果雖有,但致使計算效率降低,
(3)
其中dl,i為詞i在文檔dl中的頻率,nl是文檔總長度,C為文檔集合,V為文檔集合中所有詞匯表的集合。Prox(wi)為詞項鄰近度得分,μ,λ為平滑參數(shù)。實驗部分將文獻[15]中提出的上述模型與本文提出的模型進行了復雜度的對比。
在語言模型方面,Lv和Zhai[2]提出的位置語言模型(PLM),余偉和王明文[3]提出的結(jié)合語義的位置語言模型(SPLM)在檢索效率方面都有不錯的效果。但以上語言模型中的平滑方法都忽略了文檔中詞項結(jié)構(gòu)的信息,本文結(jié)合SPLM模型,并利用Dirichlet平滑的方法,僅考慮查詢詞在文檔中的鄰近度信息,為確保降低計算復雜度,本文采用平滑方法與鄰近度線性結(jié)合的方式,以期能夠更好地利用詞在文檔中的分布,獲得檢索性能上的提升。
為了形成一個有效的查詢語句,用戶會盡可能用多的查詢詞來共同的表達其查詢的意圖。在文檔中查詢詞越是相近,此文檔就與查詢詞越相關,文檔就更能滿足用戶查詢的意圖。如給定兩篇文檔Da和Db,假設其他因素都是相同的,當查詢q中的查詢詞在Da中比在Db中出現(xiàn)的要更加鄰近,那我們可認為文檔Da相比于文檔Db和查詢q更相關。由此,在SPLM上的檢索模型中,增加查詢詞Wi為中心的鄰近度得分這個因素。
3.1 語義位置語言檢索模型的建立
在文獻[3]中首先引入一個隨機變量d,d表示文檔D中其他位置與目標位置i的距離,這個距離含有正負關系(d>0,表示在目標位置i的后面,d<0表示在目標位置i的前面)。由此,d=1-i,d=2-i, ...,d=|D|-i就是樣本空間一個劃分,根據(jù)全概率公式有式(4)。
(4)
p(j|D,i)和p(w|D,j)的估計以及模型中其他概率估計均可參看文獻[3]。并最終提出SPLM模型為式(5)。
(5)
其中k(i,j)是權(quán)重函數(shù)(式(6)),文獻[3]中選取高斯核函數(shù)來度量:
(6)
由上式可知: 當位置j離位置i越遠時,位置j對位置i的權(quán)重就越小。還可以對式(5)的分母進行如下近似計算:
(7)
由于文檔集中詞的稀疏性,需對SPLM進行Jelinek-Mercer平滑,即文獻[3] 最后提出的檢索模型為式(8)。
(8)
其中ε是平滑參數(shù),范圍[0,1];p(w|D,i)可采用式(5)計算。
3.2 結(jié)合鄰近度的語義位置語言檢索模型的建立
假設有一查詢“搜索引擎”和兩篇不同的文檔,文檔1中為“…搜索引擎…”,而文檔2中為“…搜索…引擎…” 直觀上看,文檔1中查詢詞是毗鄰的,文檔1理應比文檔2的排序得分高。相比之下,文檔2中兩個查詢詞不相鄰,并不能直接表達出作為名詞的“搜索引擎”的概念,而更可能是一篇同時闡述有關“搜索”和“引擎”兩個不同概念的文檔。這就說明文檔1查詢的相關性要強于文檔2,而事實上,在傳統(tǒng)平滑算法的語言模型中,這兩篇文檔對于該查詢的計算得分是相同的,這也暴露出語言模型中平滑方法的不足。
(9)
其中μ是平滑參數(shù),wi表示查詢語句中第i個位置的單詞,|q|是查詢語句的長度。
其次,使用w在查詢詞Q的分布和在文檔D中位置i的分布的差異性(負KL散度)來衡量文檔D中位置i的檢索得分,并取文檔中得分最高的前k個位置的平均得分作為文檔D的檢索得分:
(10)
所以如果位置i上w的分布與查詢詞中w的分布越一致,則檢索得分S(Q,D)就越高。其中topK表示文檔D中檢索得分最高的k個的位置。
第一, 如何定義一篇文檔中兩個不同的查詢詞之間的距離?
第二, 如何設計一個恰當?shù)姆蔷€性函數(shù)來將距離轉(zhuǎn)化為鄰近度得分?
4.1 詞項距離和鄰近度得分定義方法
首先來解決第一個問題。要想知道不同查詢詞之間的距離,先要知道每個查詢詞在文檔中的位置信息,但主要的困難在于一個查詢詞可能在一篇文檔中出現(xiàn)了多次。本文按如下方式來解決,設Q={Q1,Q2……Qn}代表一條查詢語句中不同的查詢詞,用另外一個集合PQi={Pi1,Pi2……Pim}來表示查詢詞Qi在文檔D中出現(xiàn)的所有位置。用Dis(x,y;D)(式(11)和式(12))來表示不同詞項間的距離。跟隨文獻[6]的工作,本文用詞項在文檔中的位置靠得最近的那段長度來作為這對詞項之間的距離。
Dis(Qi,Qj;D)=
(11)
(12)
|D|代表的是文檔D的長度,|PQi|代表的是查詢詞
Qi在文檔D中出現(xiàn)的次數(shù)。這里要注意到詞項對的距離是有對稱性的即Dis(Qi,Qj;D)=Dis(Qj,Qi;D)。
解決了查詢詞之間距離的問題之后,接下來定義一個函數(shù)來將距離轉(zhuǎn)化成詞項對的鄰近度得分。根據(jù)前面所得的分析可知,查詢詞距離越遠說明表達的意圖和文檔主題越不相關,那它們的得分也要相應的低些。下面的指數(shù)形式的公式(13)用來給鄰近度打分,其中arg是控制得分函數(shù)的參數(shù),distance代表的是距離:
(13)
所以最終的詞項鄰近度得分本文定義為式(14)。
(14)
4.2 以詞項為中心的鄰近度計算方法
基于以上的策略,考慮三種不同的詞項中心化鄰近度計算方法(Minimum,Average和Summation)。
定義1(基于最小距離的詞項鄰近度(MinDist)): 在這個策略中,查詢詞項的鄰近度得分是依靠查詢詞之間的最短距離來計算的,本文表示成式(15)。
(15)
定義2(基于平均距離的詞項鄰近度(Average)): 用所有查詢詞之間的平均距離來計算查詢詞項的鄰近度分數(shù),本文表示成式(16)。
(16)
定義3(基于所有詞項對鄰近度求和的詞項鄰近度(Summation)): 這個方法首先對任何一個查詢詞不同的配對進行鄰近度得分計算,然后再將其相加作為本查詢詞的鄰近度得分:
(17)
注意,以上提出的方法都要首先通過計算匹配查詢詞項之間的距離而后才能進行定義。
5.1 數(shù)據(jù)集與評價指標
5.1.1 數(shù)據(jù)集介紹與預處理
本文選取了三個常用的標準測試文檔集adi,
med, cran*ftp://ftp.cs.cornell.edu/pub/smart/,數(shù)據(jù)集的具體情況如表1所示。
預處理階段主要進行了以下步驟:
Step1 提取了每篇文檔中的
Step2 對< TITLE >和
中的內(nèi)容過濾非法字符(包括標點符號和阿拉伯數(shù)字等),只保留我們需要的英文單詞,然后將英文字母全部轉(zhuǎn)換成小寫形式;Step3 根據(jù)標準的英文停用詞表,對Step 2所得的文本去停用詞;
Step4 采用Porter Stemmer算法,對Step 3所得的文本進行詞干化處理。
表1 實驗中的數(shù)據(jù)集
值得注意的是,Zhai在文獻[17]的實驗采取了保留停用詞,文獻[18]中采取了去除停用詞。本文選擇的是后一種情況,理由是停用詞的加入會疏遠詞與詞的位置關系。當然停用詞不能去除得太多,因為這些詞畢竟含有語義。在計算鄰近度方面,我們只考慮了查詢語句中在總詞匯表中存在的查詢
詞,舍棄不在總詞匯表中的查詢詞,然后計算其相應的鄰近度。
5.1.2 參數(shù)設置與評價指標
本文對三種檢索算法進行了實驗: BM25和采用JM平滑的SPLM的檢索模型,兩者作為基準線;使用Dirichlet平滑改進的SPLM檢索模型,為了方便,實驗結(jié)果中簡記為“SPLM_1”;結(jié)合鄰近度的Dirichlet平滑的SPLM的檢索模型,實驗結(jié)果中簡記為“Pro_SPLM”。
本文的檢索模型和SPLM的檢索模型含有1個共同的參數(shù): topk,而Pro_SPLM,即公式(9),還另外含有2個參數(shù): arg,μ。通過對數(shù)據(jù)集上的訓練,按如下方法設置參數(shù): (1)對于topk,三個數(shù)據(jù)集都取2;(2)對于核函數(shù)中的σ和公式(9)中μ這兩個參數(shù),將在表2的結(jié)果中具體給出;(3)本文在三個數(shù)據(jù)集中統(tǒng)一對Dirichlet參數(shù)μ?。?100,150,200,……,1 000做了實驗。圖1為Adi數(shù)據(jù)集上的數(shù)據(jù)結(jié)果,給出選取不同μ,σ對檢索結(jié)果的影響,縱坐標為3-AVG的值;(4)在Pro_SPLM中一個重要的參數(shù)是arg,在第四部分中公式(13)提到,這個參數(shù)是用來控制不同查詢詞項鄰近度得分規(guī)模大小的。當前,本文按如下的范圍對arg進行設置: arg:1.1,1.2,……,2.0。本文選取最終的arg為1.7,在三個數(shù)據(jù)集上的效果都較好。SPLM中其他參數(shù)參照文獻[3]中的設置。
表2 三個檢索模型在三個數(shù)據(jù)集上的檢索性能
由于三個數(shù)據(jù)集上的相關文檔是無序的,因此采用了下面三個檢索度量指標:
(1) 3-AVG: 當召回率R分別達到三個等級(R=0.2,0.5,0.8)時,各自對應的準確率求均值作為3-AVG。
(2) 11-AVG: 當召回率R分別達到11個等級(R>0,R=0.1,0.2,...,0.9,1)時,所對應的準確率,再對這11個準確率取平均值作為11-AVG。
(3) MAP: 平均準確率是每篇相關文檔檢索出后的準確率的平均值。
5.2 檢索性能對比
表2給出了四個檢索模型在三個數(shù)據(jù)集上的檢索得分,需要說明的是:①粗體: 在每個數(shù)據(jù)集上,四個檢索模型中獲得最高檢索得分的數(shù)值使用粗體標出;②百分比: 分別表示SPLM_1在SPLM基礎上增加的百分比和Pro_SPLM在SPLM_1基礎上增加的百分比;③SPLM_1和Pro_SPLM下面的參數(shù): 表示兩個模型獲得最優(yōu)性能時所取的參數(shù)值。
這里要重點說明一下表2中Pro_SPLM用的鄰近度策略是PSumProx,本文在表4中進行了三種不同策略的比較。同樣我們在表3中給出了四種檢索模型在MAP評價標準下的對比,對比結(jié)果和在插值平均(3-AVG/11-AVG)的評價標準下的對比效果一致。
表4中展現(xiàn)的就是不同鄰近度得分計算策略分別在三個不同的數(shù)據(jù)集上的檢索性能的比較,可以看到PSumProx和PMinDist都要比PAveDist的性能好。同樣的還可以看到PSumProx比PMinDist性能上要優(yōu)越一點。
表3 MAP評價標準下的檢索性能對比
通過三個檢索模型的得分比較可發(fā)現(xiàn): SPLM_1在三個數(shù)據(jù)集上都要優(yōu)于SPLM;而Pro_SPLM在三個數(shù)據(jù)集上的檢索得分都要明顯好于SPLM和SPLM_1,特別是在adi上提升較大。直觀上來說,檢索效果對于那些更能從鄰近度信息中獲益的長查詢語句來說應該更好,但是先前有工作表明當使用了鄰近度的信息特征時,查詢語句的長度和檢索性能是成反比的[19]。而在本文工作當中正好說明了這點,經(jīng)過統(tǒng)計,adi和med數(shù)據(jù)集中的查詢語句的平均長度是三個數(shù)據(jù)集中比較短的,所以兩者檢索性能也是提高較多的。
表4 使用不同鄰近度策略的Pro_SPLM在三個數(shù)據(jù)集上的檢索性能
5.3 σ和μ對模型檢索性能的影響
在文獻[3]中,同樣做出了σ對模型的解釋,但它們是在PLM中和SPLM中做出的比較,本文主要是在SPLM_1和Pro_SPLM中說明。表2中,為了獲得最優(yōu)的性能,數(shù)據(jù)集最小的adi上σ在本文提出的模型中取40,稍大的med和cran都取了100。這說明,σ的取值變化是和數(shù)據(jù)集的大小成正比的,因本文考慮鄰近度時只考慮了查詢詞在文檔中的距離,實驗的過程中發(fā)現(xiàn),在adi數(shù)據(jù)集中,由于其數(shù)據(jù)量較小,文章的數(shù)量、長度和總詞匯量也相應的少,一條查詢語句中的查詢詞在文檔中出現(xiàn)的次數(shù)會比較少,并且本文丟棄了查詢語句中沒有在總詞匯表中出現(xiàn)的詞,這樣做的目的,一是為了提高查詢的準確率,二是為了簡化計算查詢詞之間的鄰近度得分。同理在med和cran中,由于這兩個數(shù)據(jù)集比較大,查詢詞分別在其文檔中出現(xiàn)的次數(shù)也會變多,相應查詢詞的檢索貢獻就會越大。在圖2中給出了adi數(shù)據(jù)集上的σ的敏感度分析,其他兩個數(shù)據(jù)集上的曲線規(guī)律是類似的。
圖2中曲線“SPLM_1_3-AVG”表示該數(shù)據(jù)集上基于SPLM_1的檢索模型對3-AVG評價指標的檢索得分,其他曲線代表含義可類推。由圖可知: SPLM_1和Pro_SPLM在σ=40時獲得最好性能;當σ小于35或大于45時,兩個模型的性能整體上都呈現(xiàn)遞減趨勢;因為Pro_SPLM和SPLM_1只是鄰近度上的區(qū)別,前者只是一個線性的結(jié)合,它們在變化趨勢基本上是持平的。
在圖3中表示出了在med數(shù)據(jù)集上不同的μ對檢索模型的性能影響。med數(shù)據(jù)集上當σ=100性能達到最好,圖3中的μ的范圍都是在σ=100時計算的,以此來獲得最優(yōu)的參數(shù)μ。圖3表明當μ=550,med數(shù)據(jù)集上的檢索性能達到最好,再當μ增大時,兩個模型的性能整體上保持平穩(wěn),趨于緩慢的下滑趨勢,斜率變化非常小,說明σ相對與μ來講,對模型的檢索性能影響更大一些。經(jīng)實驗表明,改進后的檢索模型對于不同的數(shù)據(jù)集,達到最優(yōu)性能的μ一般不同,但基本處于[500,600]上,μ對檢索模型性能的影響的效果和文獻[16]中分析的Dirichlet平滑的效果基本一致。
圖1 不同μ下,σ對評價標準的影響
圖2 σ對檢索性能的影響
圖 3 μ對檢索性能的影響
5.4 模型復雜度分析
算法1給出了本文提出的檢索模型的實現(xiàn)過程,算法2給出了式(3)的實現(xiàn)過程。給定數(shù)據(jù)集,本文提出的檢索模型在訓練過程中的時間復雜度分為:
1. O(Nd): 語義位置語言模型部分的復雜度主要來自文檔的長度N和文檔集的大小d。
2. O(NQ*Dis): 鄰近度模型中復雜度主要考慮查詢語句中所有查詢詞在文檔中的位置關系,即算法1中步驟2和步驟3。Q為查詢語句的長度,Dis為詞項之間最小距離。
3. O(Nd)+O(NQ*Dis): 與鄰近度模型線性結(jié)合,故本文提出的模型的總復雜度為上述兩部分之和。
給定相同的數(shù)據(jù)集,算法2在訓練過程中的復雜度分為:
1. O(Nd): 語言模型部分的復雜度主要來自文檔的長度N和文檔集的大小d。
2. O(NV*Dis): 公式(3)中給出的鄰近度模型主要考慮查詢詞和文檔集中所有詞項的位置關系,即算法2中步驟2其中V為詞匯表的長度。
3. O(Nd)*O(NV*Dis): 與鄰近度模型是整體結(jié)合,在實現(xiàn)過程中在要考慮語言模型的結(jié)構(gòu)。
則通過對比發(fā)現(xiàn),由于V>>Q,且多項式復雜度遠小于算法2的復雜度。則本文提出的模型在時間復雜度上具有一定優(yōu)勢。
算法1 結(jié)合鄰近度的語義位置語言檢索模型
輸入:
D=(x1,...,xN): 文檔向量
Q=(q1,...,qN): 查詢詞項向量
Dis (qi,qj;D): 查詢詞項在文檔中的距離
f>0: 查詢詞項距離轉(zhuǎn)換成鄰近度得分
1. 首先對數(shù)據(jù)集中文檔進行文檔向量化,并記錄每個單詞的位置信息。
2. 其次對數(shù)據(jù)集中對應的查詢語句向量化,并記錄每一個查詢詞在文檔中的位置。
3. 按照鄰近度策略計算每個查詢詞的鄰近度得分,只考慮文檔中查詢詞之間的位置關系。
輸出:
模型中利用Dirichlet平滑的語義位置語言檢索模型與鄰近度模型線性相加來計算Pμ(w|D,i),進而計算文檔檢索得分。
算法2 整合鄰近度的語言模型
輸入:
D=(x1,...,xN): 文檔向量
Q=(q1,...,qN): 查詢詞項向量
Dis (qi,qj;D): 查詢詞項在文檔中的距離
f>0: 查詢詞項距離轉(zhuǎn)換成鄰近度得分
1: 對文檔進行文檔向量化,記錄每個單詞的位置信息,以及整個數(shù)據(jù)集中詞匯表信息。
2: 計算查詢詞與詞匯表中所有單詞的鄰近度得分。見公式(3)。
輸出:
模型中利用Dirichlet平滑的語言模型與鄰近度模型整合為一體來計算 P(w|D,i),進而計算文檔檢索得分。
本文認為考慮查詢詞項鄰近度的信息能夠更合理地反映詞項在文檔中的分布,有助于提升檢索模型的效果,因此將查詢詞在文檔中的鄰近度信息整合到結(jié)合語義的位置語言模型當中去,提出結(jié)合鄰近度的語義位置語言檢索模型。進一步地,對于查詢詞在文檔中的位置關系給出詳細的解釋和關注。最后,在標準數(shù)據(jù)集上的測試了結(jié)合鄰近度的語義位置語言檢索模型的性能??傮w上有如下幾點工作: (1)采用Dirichlet先驗平滑方法對檢索模型提出改進,并結(jié)合鄰近度的信息;(2)對詞項之間的距離做了具體的定義,并引入非線性的函數(shù),將距離轉(zhuǎn)化成鄰近度得分;(3)引入三種不同的計算鄰近度得分策略,并在實驗中帶入不同檢索模型進行性能比較;(4)實驗表明基于Dirichlet平滑的SPLM檢索模型在性能上要優(yōu)于基于Jelinek-Mercer平滑的SPLM模型,而結(jié)合鄰近度的Pro_SPLM檢索也要明顯好于上述所有檢索模型;本文還分析了兩個模型對受參數(shù)μ和σ的影響程度,得出了最優(yōu)的μ取值范圍。未來將在以下方面進一步研究: (1)本文提出的模型只是在小數(shù)據(jù)集上進行實驗,在下一步的工作中將會在大數(shù)據(jù)集上進行檢測。(2)本文中提出的結(jié)合鄰近度的信息是線性的結(jié)合方式,即多項式模型,結(jié)合方式在不提高計算復雜度的前提下還有待進一步改善。
[1] Ponte J M, Croft W B. A language modeling approach to information retrieval [C]//Proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval,Melbourne,Austrailia: ACM,1998: 275-281.
[2] Yuanhua Lv,Chengxiang Zhai. Positional language models for information retrieval [C]//Proceedings of the 32nd international ACM SIGIR conference on research and development in information retrieval,Boston: ACM, 2009: 299-306.
[3] 余偉,王明文,萬劍怡,等. 結(jié)合語義的位置語言模型[J].北京大學學報(自然科學版),2013,49(2): 203-212.
[4] Beeferman D,Berger A, Lafferty J. A model of lexical attraction and repulsion [C]//Proceedings of the 8th Conference on European Chapter of the Association for Computational Linguistics,1997: 373-380.
[5] Bai J,Chang Y,Cui H,et al. Investigation of partial query proximity in web search [C]//Proceedings of the 21st Annual Conference on World Wide Web,Beijing,China: 2008: 1183-1184.
[6] Tao T, Zhai C. An exploration of proximity measures in information retrieval [C]//Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval,Amsterdam,Netherlands: ACM,2007: 295-302.
[7] Y Rasolofo, J Savoy. Term Proximity Scoring for Keyword-Based Retrieval Systems [C]//Lecture Notes in Computer Science,2003: 207-218.
[8] E Michael Keen. The use of term position devices in ranked output experiments [J]. The Journal of Documentation,1991,(47): 1-22.
[9] E Michael Keen. Some aspects of proximity searching in text retrieval systems [J]. Journal of Information Science,1992,(18): 89-98.
[10] Stefan Buttcher, Charles L A Clarke, Brad Lushman. Term proximity scoring for ad-hoc retrieval on very large text collections [C]//Proceedings of the 29th annual international ACM SIGIR conference,New York,USA: ACM,2006: 621-622.
[11] 韓中元,李生,齊浩亮,等. 面向信息檢索的近鄰語言模型[J]. 中文信息學報,2011,25(1): 67-70.
[12] 丁凡,王斌,白碩,等. 文檔檢索中句法信息的有效利用研究[J]. 中文信息學報,2008,22(4): 66-74.
[13] 金凌,吳文虎,鄭方,等. 距離加權(quán)統(tǒng)計語言模型及其應用[J]. 中文信息學報,2001,15(6): 47-52.
[14] 喬亞男,劉躍虎,齊勇. 查詢詞相似度加權(quán)的鄰近性檢索方法[J].模式識別與人工智能,2013,26(2): 191-194.
[15] Jinlei Zhao, Yeogirl Yun. A Proximity Language Model for information Retrieval[C]//Proceedings of the 32nd international ACM SIGIR conference, Boston, USA: ACM,2009: 291-298.
[16] Zhai C, Lafferty J. A study of smoothing methods for language models applied to ad hoc information retrieval [C]//Proceedings of the 24th annual international ACM SIGIR conference,New Orleans,Louisiana,USA: ACM,2001: 334-342.
[17] Zhai C, Lafferty J. Two-stage language models for information retrieval [C]//Proceedings of the 25th annual international ACM SIGIR conference on research and development in information retrieval,Tampere,F(xiàn)inland: ACM,2002: 49-56.
[18] Yuanhua Lv,Chengxiang Zhai. Positional Relevance Model for Pseudo-Relevance Feedback [C]//Proceedings of the 33rd international ACM SIGIR conference on research and development in information retrieval,Geneva,Switzerland: ACM,2010: 579-586.
[19] Krysta M Svore,Pallika H Kanani,Nazan Khan. How Good is a Span of Terms Exploiting Proximity to Improve Web Retrieval [C]//Proceedings of the 33rd international ACM SIGIR conference on research and development in information retrieval,Geneva,Switzerland: ACM,2010: 154-161.
Semantic Positional Language Retrieval Models with A Proximity Information
GONG Xiaolong, WANG Mingwen, WAN Jianyi, WANG Xiaoqing
(School of Computer Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China)
In most existing retrieval models, the calculations on the relevance between the document and the query are based on the statistical features, such as within-document frequencies, inverse document frequencies, document lengths and so on. Recent studies show that the term position information can promote the precision of the query results, but how to best employ this information remains an open issue. This paper proposes to integrate the terms proximity information into the semantic positional language model(SPLM), with a Dirichlet prior distribution as smoothing measure to compute proximity. The proposed semantic positional language retrieval models with a proximity information performs better than classical semantic positional language model in the experiments.
semantic positional language models; Dirichlet smooth; proximity information; retrieval model
龔小龍(1991-),碩士,主要研究領域為信息檢索與機器學習,數(shù)據(jù)挖掘。E-mail:gxl121438@sjtu.edu.cn王明文(1964-),博士,教授,主要研究領域為信息檢索,數(shù)據(jù)挖掘,自然語言處理。E-mail:mwwang@jxnu.edu.cn萬劍怡(1974-),博士,教授,主要研究領域為智能信息處理。E-mail:wanjianyi@aliyun.com
1003-0077(2015)04-0183-09
2013-07-23 定稿日期: 2013-11-25
國家自然科學基金(60963014,61163006,61203313);江西省科技廳自然科學基金(20132BAB201038)
TP391
A