王雅蓉 李亮 吳勝利
摘 要:對支持檢索結(jié)果多樣化任務(wù)的信息源選擇進(jìn)行了研究。分析了現(xiàn)有研究的不足,提出利用詞向量提取文本的語義特征,在此基礎(chǔ)上實現(xiàn)文檔建模和信息源選擇。采用ClueWeb12b-13數(shù)據(jù)集構(gòu)建實驗平臺和進(jìn)行實驗,基于R方法的評價結(jié)果表明,所提出的方法優(yōu)于現(xiàn)有的方法GLS和MnStD,且在不同條件下性能穩(wěn)定。
關(guān)鍵詞:聯(lián)邦搜索;信息源選擇;檢索結(jié)果多樣化;詞向量
中圖分類號:TP391.3 文獻(xiàn)標(biāo)識碼:A
文章編號:2096-1472(2018)-11-01-05
1 引言(Introduction)
聯(lián)邦搜索是一種信息檢索形式,主要用于檢索多個分布的、獨立性較高的信息源[1-3]。目前,一些大型的搜索引擎,如LinkedIn等,通過聯(lián)邦的方式來完成搜索任務(wù)。對于用戶提交的特定查詢,聯(lián)邦檢索系統(tǒng)分析各子檢索系統(tǒng)中的數(shù)據(jù)源,選擇一些相關(guān)文檔數(shù)目較多者,向那些選中的子檢索系統(tǒng)移交檢索請求,然后回收各子檢索系統(tǒng)的檢索結(jié)果并加以合并,最后將合并的結(jié)果返回給用戶[3,4]。聯(lián)邦搜索使得用戶通過統(tǒng)一的用戶界面同時訪問多個獨立的信息源,可用性較高。
檢索結(jié)果多樣化[5,6]是信息檢索的一項重要任務(wù),其目的是使得結(jié)果列表中的文檔不僅與查詢相關(guān),而且要求這些文檔覆蓋與查詢相關(guān)的各個方面。在大多數(shù)的檢索環(huán)境中,特別是對于查詢詞較少的短查詢,用戶的查詢意圖往往不夠清晰明確,不同的用戶對某一查詢項也可能存在不同的查詢需求。對于檢索結(jié)果進(jìn)行多樣化處理可以更好地提升用戶的檢索體驗。
支持檢索結(jié)果多樣化任務(wù)的信息源選擇研究,要求選擇的信息源組合不僅與主查詢相關(guān),而且需要與查詢的一個或多個子主題相關(guān)。即被選的數(shù)據(jù)源不僅要包含較多的相關(guān)文檔,而且要覆蓋盡可能多的查詢子主題。這要求算法不僅需要考慮數(shù)據(jù)源中文檔與查詢的相關(guān)性,也需要考慮各數(shù)據(jù)源之間文檔內(nèi)容的冗余度和新穎性[7-9]。
對于那些支持信息檢索的結(jié)果多樣化算法,一般有兩種不同的假設(shè)。一種假設(shè)是:對于用戶的任何查詢,搜索引擎預(yù)先知道與該查詢相對應(yīng)的所有子查詢的檢索意圖。另一種假設(shè)是搜索引擎無此信息。要使第一種假設(shè)成立,需要做大量的準(zhǔn)備工作。尤其是對于一些即席查詢(Ad Hoc)而言,準(zhǔn)備工作難度和工作量很大。根據(jù)假設(shè)的不同,結(jié)果多樣化算法分為顯式和隱式兩種。類似地,聯(lián)邦搜索中的多樣化數(shù)據(jù)源選擇算法一般也可以分為顯式和隱式兩種。作為一種顯式的信息源選擇算法,Hong和Si[9]提出了DivD和DivS。這兩者均將一種典型的顯式多樣化重排算法PM-2[5]用于聯(lián)邦搜索的信息源選擇中。該算法性能較佳。然而由于顯式方法本身依賴于子查詢信息,同時需要計算文檔集與所有子查詢的相關(guān)性,計算成本很高,因此這類方法的實際應(yīng)用價值仍有待商榷。針對這個問題,隱式方法在不依賴額外子查詢信息的前提下,通過其他方法實現(xiàn)多樣化信息源選擇。作為一種隱式的信息源選擇算法,Naini等人提出了一種利用文檔分類來近似子查詢的GLS方法[7]。然而由于文檔集中不相關(guān)文檔的數(shù)量遠(yuǎn)遠(yuǎn)多于相關(guān)文檔的數(shù)量,因此文檔分類與子查詢之間的差異較大,導(dǎo)致算法多樣化性能不足。Benjamin和Wu[8]將投資組合理論應(yīng)用于聯(lián)邦檢索中的信息源選擇,提出了MnStD方法。該方法的主要特點是通過在多樣化重排中加入風(fēng)險因素,降低所選信息源之間的內(nèi)容冗余度,提升所選信息源列表的新穎性,從而得到較優(yōu)的多樣化信息源選擇結(jié)果。然而降低風(fēng)險與多樣化性能也沒有直接的關(guān)系,因此算法性能并不出色。由此可見,如何在不依賴額外子查詢的條件下,實現(xiàn)多樣化性能較高的隱式信息源選擇算法是一項具有挑戰(zhàn)性的任務(wù)。
本文提出一種利用詞向量的隱式信息源選擇算法WbRS(Word representation-based Resource Selection for search result diversification)。在此基礎(chǔ)上,我們結(jié)合文本語義和詞項—詞頻統(tǒng)計兩方面的特征于文檔建模,這樣可以更準(zhǔn)確地計算各信息源之間的內(nèi)容相似度,進(jìn)一步提高信息源選擇的性能。
2 詞向量(Distributed word representation)
詞向量,也被稱為詞編碼,是詞的分布式特征表述(Distributed Word Representation)[10,11]。它通過深度學(xué)習(xí)方法將單個詞項表示為m維語義空間中的一個向量。
Bengio[10]利用經(jīng)典三層神經(jīng)網(wǎng)絡(luò)構(gòu)建n元語言模型,通過在廣泛的語料庫中訓(xùn)練模型得到廣泛認(rèn)可的詞向量,其模型如圖1所示。其中,表示一個詞序列的前n-1個詞。V表示語料庫中所有詞項構(gòu)成的詞匯表,|V|表示這個詞匯表的大小,即詞項數(shù)量。m為語義空間的維度,即詞向量的維度,表示詞項的詞向量,是模型的輸入層。在整個模型中每個詞對應(yīng)著唯一的1*m維的詞向量。模型通過已知的前n-1個詞,預(yù)測第n個詞出現(xiàn)的概率,這n-1個詞的詞向量組成矩陣。模型的隱藏層由偏置項d和激活函數(shù)組成。輸出層共有|V|個節(jié)點,每個結(jié)點的值表示詞序列中下一個詞為的概率,通過激活函數(shù)可以得到最終歸一化的概率值。因此,模型輸出層y的計算如式(1)所示。
其中,b為包含|V|個元素的輸出層偏置項。W表示從輸入層到輸出層直連邊的權(quán)重矩陣,當(dāng)模型中不存在直連邊時,將W置為0。U表示從隱藏層到輸出層的權(quán)重矩陣,d為隱藏層偏置項,包含h個元素。H為隱藏層權(quán)重矩陣。最終通過隨機(jī)梯度下降法優(yōu)化模型中的參數(shù),得到詞匯表中各詞項的詞向量表示。研究表明[11,12],詞項的這種向量表示可以較為準(zhǔn)確地挖掘詞項語義,提取文本內(nèi)容主題特征,本文將詞向量技術(shù)應(yīng)用至聯(lián)邦檢索的信息源選擇中。
3 WbRS算法(Algorithm WbRS)
本節(jié)介紹基于詞向量的多樣化信息源選擇算法WbRS。用詞向量對文檔建模,得到文檔在語義層的相似度得分,將這個得分加入到文檔多樣化重排的計算中,最終得到多樣的信息源選擇結(jié)果。
WbRS算法第一部分是用詞向量技術(shù)訓(xùn)練樣本相關(guān)文檔集,得到文檔內(nèi)所有詞項的向量表示。樣本相關(guān)文檔集指的是,通過有效的檢索系統(tǒng)(如Indri[13]、terrier等)在樣本文檔集中對用戶查詢進(jìn)行檢索,得到查詢的相關(guān)性文檔列表,中所有文檔組成的文檔集即為相關(guān)樣本文檔集。V表示這個文檔集的詞匯表。將作為語料庫,利用詞向量技術(shù)訓(xùn)練,得到詞匯表V中各詞項在m維語義空間中的向量表示。V中各詞項的詞向量表示組成|V|*m維的矩陣W。
已有研究利用詞向量技術(shù),在語料庫中訓(xùn)練得到性能較優(yōu)的詞項向量表示。其中,Mikolov和Chen等人[14]用循環(huán)神經(jīng)網(wǎng)絡(luò)模型來訓(xùn)練語言模型,提出并開源詞向量技術(shù)word2vec。Google利用word2vec在廣泛語料庫上訓(xùn)練模型,得到并公開了詞向量表示。大量研究表明[12,15,16],Google采用word2vec模型訓(xùn)練得到的詞向量表示,在大部分性能評價指標(biāo)中均取得較優(yōu)的結(jié)果。這些詞向量表示可以準(zhǔn)確地挖掘詞項語義[11,12],直接將其應(yīng)用至本算法,可以提升算法運行效率,同時保證較好的實驗性能。本文直接將Google通過word2vec技術(shù)訓(xùn)練得到的詞向量表示應(yīng)用至WbRS算法中。
算法的第二部分,利用word2vec技術(shù)得到的詞向量表示計算文檔相似度,并對樣本文檔相關(guān)性排序列表進(jìn)行多樣化重排。首先,利用詞向量矩陣W實現(xiàn)文檔建模,得到各文檔的向量表示。然后,利用這些文檔向量計算文檔間的相似度。最后實現(xiàn)樣本文檔的多樣化重排。
本節(jié)擬采用簡潔高效的加權(quán)平均方法,根據(jù)算法第一部分中詞項在語義空間中的向量表示,將文檔表示為語義空間中的向量。已有研究證明[11,12],用加權(quán)平均的方法處理文檔中的詞向量,具有較高的可行性。WbRS首先統(tǒng)計一篇文檔內(nèi)所有詞項的出現(xiàn)頻率和文檔內(nèi)的詞項數(shù)量,得到文檔的詞項-詞頻向量表示。另一方面,對照詞向量矩陣W,可以得到文檔內(nèi)各個詞項的詞向量表示。并由這些詞向量組成文檔的詞向量矩陣。此時,文檔基于詞向量的向量表示,如式(2)所示。
其中,表示文檔中的詞項數(shù)量。因此文檔與的相似度計算可以用向量與的向量夾角余弦值表示。
本方法中是文檔內(nèi)詞項-詞頻得到的文檔向量表示。為由word2vec得到的由文檔內(nèi)各詞項在語義空間中的詞向量組成的映射矩陣。其中考察了傳統(tǒng)的詞項的詞頻特征,即文檔中出現(xiàn)頻率越高的詞項,對文檔內(nèi)容越為重要。經(jīng)過詞向量矩陣映射,將僅考慮詞頻的文檔向量,轉(zhuǎn)化為在m維語義空間中的文檔向量,通過可以分析文檔的語義相似度。
然而,式(2)中的是僅考慮詞頻的向量,忽略了語料庫中包含某詞項的文檔數(shù),即反文檔頻率IDF。因而,對本節(jié)提出的式(2)做出進(jìn)一步改進(jìn),采用TF-IDF加權(quán)的詞向量表示。
TF值表示文檔中詞項的出現(xiàn)頻率,是文檔中詞項、詞頻的歸一化度量,描述了詞項在文檔中的重要程度。TF的計算如式(3)。
其中,表示詞項t在文檔中的TF值,表示文檔中詞項t的出現(xiàn)頻數(shù)。式(3)中對詞項的出現(xiàn)頻率取對數(shù),使得文檔中某些高頻詞匯和低頻詞匯的TF值更具有可比性。
文檔倒置頻率IDF,表示包含某詞項的文檔數(shù)量,它反映了文檔集中某詞項的重要性。因為包含詞項t的文檔越少,則表明這些文檔對詞項t越為重要。詞項t的文檔倒置頻率的經(jīng)典計算如式(4)所示。
其中,N表示文檔集中的文檔總數(shù),為包含詞項t的文檔數(shù)量?;赥F-IDF的文檔詞項向量可以表示為。
用替代式(2)中基于詞項-詞頻的文檔向量表示,可以得到文檔基于TF-IDF權(quán)重和詞向量的文檔向量表示。
文檔,相似度可以轉(zhuǎn)化為求解文檔對應(yīng)向量與夾角的余弦值,文檔,在語義空間Φ中的相似度計算,如式(6)所示。
相似度計算,如式(6)所示。
其中,表示向量空間中在第t維語義空間中的特征。
結(jié)合文檔相似度和文檔的查詢相關(guān)度,WbRS方法用經(jīng)典的貪心選擇策略,對樣本文檔相關(guān)性排序列表進(jìn)行多樣化重排,得到多樣化的文檔排序列表。重排過程中,依次貪心地選擇使得目標(biāo)函數(shù)得分最高的文檔,加入到已排序列表末尾,直到所有文檔被加入重排列表中。目標(biāo)函數(shù)要求候選文檔與查詢保持足夠的相關(guān)性,同時要求與中的所有文檔的相似度最小,如式(7)所示。
其中,表示文檔與查詢項的相關(guān)度得分,為文檔在向量空間Φ中的內(nèi)容相似度,為平衡參數(shù)。
與傳統(tǒng)的多樣化重排方法不同,WbRS方法在計算文檔相似度過程中,采用基于word2vec和TF-IDF權(quán)重的文檔向量得到較為準(zhǔn)確的文檔內(nèi)容相似度。這種方法結(jié)合了傳統(tǒng)的TF-IDF權(quán)重,綜合考慮了文檔中詞項的出現(xiàn)頻率和文檔倒排頻率,同時基于詞向量技術(shù),將傳統(tǒng)的統(tǒng)計語言模型映射為語義空間中的文檔向量模型,因而可以提高重排列表的多樣化性能。算法中使用加權(quán)平均方法,由文檔中各詞項的詞向量計算得到文檔向量,方法簡潔高效且能取得較好的實驗性能。
算法第三部分通過樣本文檔多樣化排序列表,對信息源進(jìn)行多樣化排名。列表中的各文檔在與查詢相關(guān)的同時,文檔之間存在足夠的差異度,這些文檔按照最優(yōu)順序排列,構(gòu)成了樣本文檔的多樣化列表。另一方面,由來自各信息源的樣本文檔組成,這些樣本相關(guān)文檔在對應(yīng)的信息源中都存在著一些相似文檔與之對應(yīng)。中文檔的多樣化排名,反映了各信息源整體的查詢相關(guān)性和內(nèi)容新穎度。各信息源根據(jù)樣本文檔在中的排名,獲得不同的分值。并按照各信息源得分對它們進(jìn)行排名,得到信息源的排名列表,這個得分由公式得到。Cormack等人[17]的研究表明,通過倒數(shù)模型,可以將文檔排名轉(zhuǎn)換為有效的文檔得分。
算法1(基于詞向量的多樣化信息源選擇算法WbRS)
輸入:查詢,中央樣本文檔集相關(guān)性排序列表,平衡參數(shù),詞向量矩陣W,目標(biāo)函數(shù),計分函數(shù)G。
輸出:多樣化信息源結(jié)果列表R
/*第一部分,構(gòu)建文檔向量空間模型Φ*/
1 用詞向量技術(shù)訓(xùn)練中文檔,得到詞向量矩陣W
/*第二部分,執(zhí)行文檔列表多樣化*/
2 for each do
3
4
5 end for
6
7 while || > 0 do
8 for each do
9
10 end for
11
12
13 end while
/*第三部分,信息源排序*/
14
15 for each do
16 for each and do
17
18 end for
19 end for
20 按s值從大到小順序為信息源排序,得到信息源多樣化排序
列表R
21 return R
算法中,表示詞項t在文檔中的TF權(quán)重,表示t的IDF權(quán)重。為文檔中的詞項數(shù)量。為維向量,表示中詞項的TF-IDF權(quán)重。為維矩陣,由中各詞項的詞向量表示組成。為1*m維向量,表示文檔在m維語義空間中的向量表示。為信息源的多樣化得分。為候選信息源數(shù)量。表示文檔d包含在信息源中。
4 實驗(Experiment)
4.1 數(shù)據(jù)集
本文實驗數(shù)據(jù)來自國際信息檢索會議(Text Retrieval Conference, TREC)在網(wǎng)絡(luò)檢索任務(wù)中提供的Clueweb12-B13英文數(shù)據(jù)集2。Clueweb12-B13數(shù)據(jù)集解壓縮后約為1.95T,包含52,343,021篇網(wǎng)頁。本文在ClueWeb12-B13上構(gòu)建100個子檢索系統(tǒng),這100個子檢索系統(tǒng)內(nèi)包含了ClueWeb12-B13的全體文檔。本實驗首先在ClueWeb12-B13中隨機(jī)選取1%的網(wǎng)頁文本得到約52萬個網(wǎng)頁文檔,使用K-means算法對這些網(wǎng)頁文檔作簡單的文本聚類,迭代50次得到100個文本聚類中心,這100個聚類中心就對應(yīng)著聯(lián)邦檢索系統(tǒng)的100個子系統(tǒng)。分別計算ClueWeb12-B13上的52,343,021篇文檔與這100個聚類中心的距離,為每篇文檔選擇與之最近的聚類中心,則該文檔被分配至這個聚類中心對應(yīng)的子檢索系統(tǒng)中。重復(fù)這個過程,直至ClueWeb12-B13中的所有文檔都被分配完畢,得到最終的100個子檢索系統(tǒng)。最后,從各子檢索系統(tǒng)中,隨機(jī)選取1%的文檔作為各子檢索系統(tǒng)的樣本文檔,這100個子系統(tǒng)的樣本文檔構(gòu)成中央樣本文檔集。這100個子檢索系統(tǒng)和樣本文檔集,共同構(gòu)成本文的聯(lián)邦檢索實驗環(huán)境。表1給出了更多的統(tǒng)計數(shù)據(jù)。
本實驗選用了TREC Web Track 2013[18]和TREC Web Track 2014[19]中的100個查詢。
4.2 評價方法
經(jīng)典的基于R多樣化評價方法[8,9],是聯(lián)邦檢索信息源選擇應(yīng)對檢索結(jié)果多樣化常用的評價標(biāo)準(zhǔn)。
其中,表示由算法選出的K個信息源構(gòu)成的組合,M代表常用的檢索結(jié)果多樣化的評價標(biāo)準(zhǔn),如:ERR-IA、nERR-IA、NRBP、nNRBP、α-nDCG、MAP-IA、P-IA等。
4.3 WbRS算法性能評估與分析
本節(jié)采用ReDDE+MMR[7,9]算法作為實驗基線,對比現(xiàn)有的隱式信息源選擇算法研究中最新的研究成果GLS[7]和MnStD[8]算法。設(shè)置信息源選擇數(shù)=3、5和10,分別考察信息源選擇數(shù)量較少,數(shù)量適中和數(shù)量較多,三種情形下算法的多樣化性能。采用R(ERR-IA@20)、R(nERR-IA@20)、R(α-nDCG@20)、R(NRBP)和R(nNRBP)作為評價標(biāo)準(zhǔn),實驗對比結(jié)果分別如表2—表4所示。
從表2—表4中可以發(fā)現(xiàn),在基于R評價方法的各種多樣化指標(biāo)中,WbRS算法的實驗性能明顯優(yōu)于ReDDE+MMR方法,多樣化性能較好。在R(ERR-IA@20),R(nERR-IA@20),R(α-nDCG@20),R(NRBP)和R(nNRBP)多項指標(biāo)中,WbRS算法性能均表現(xiàn)最佳。其中,在R(ERR-IA@20)評價指標(biāo)中,=3時,WbRS算法相較于GLS和MnStD算法,多樣化性能分別提升了10.9%和10.7%。=5時,WbRS算法相較于GLS和MnStD算法,多樣化性能分別提升了5.1%和5.1%。=10時,WbRS算法相較于GLS和MnStD算法,多樣化性能分別提升了10.1%和10.2%。在各項指標(biāo)中,WbRS都有著較優(yōu)的表現(xiàn)。實驗表明,基于詞向量和TF-IDF權(quán)重實現(xiàn)的信息源選擇算法WbRS,可以有效提高信息源選擇的多樣化性能。
4.4 WbRS算法的穩(wěn)定性觀測與分析
本節(jié)對比不同信息源選擇數(shù)N_c時WbRS算法的性能,并分析算法的穩(wěn)定性。設(shè)置N_c的范圍為{3,4,5,6,7,8,9,10},圖2和圖3分別給出在R(MAP-IA@20)與R(P-IA@20)兩種評價指標(biāo)中,WbRS、GLS和MnStD算法的性能對比。
從圖2和圖3可以發(fā)現(xiàn),隨著N_c的增加,各種算法的R(MAP-IA@20)、R(P-IA@20)評價值均有明顯提升。這表明隨著信息源選擇數(shù)的增加,各種算法選擇的信息源組C_K均能覆蓋更多的查詢子主題。其中,WbRS算法的性能始終優(yōu)于GLS和MnStD,這表明對于信息源選擇數(shù)的變化,WbRS算法均能保持較優(yōu)的多樣化性能,算法性能相對穩(wěn)定。
5 結(jié)論(Conclusion)
本文將自然語言處理的最新研究成果——詞向量技術(shù)應(yīng)用至聯(lián)邦搜索中多樣化的信息源選擇研究中。提出了一種隱式的多樣化信息源選擇方法WbRS。實驗結(jié)果表明,與最新的隱式多樣化信息源選擇方法MnStD和GLS算法相比,WbRS算法能有效提高信息源選擇結(jié)果的多樣化性能,且算法性能較為穩(wěn)定。
結(jié)果合并和結(jié)果顯示是聯(lián)邦檢索中另兩項重要的任務(wù),也是我們下一步的工作。在結(jié)果合并任務(wù)中,我們繼續(xù)探討基于詞向量技術(shù)的方法。在結(jié)果顯示任務(wù)中,我們將探討層次化的多樣化文檔檢索結(jié)果顯示方法。
參考文獻(xiàn)(References)
[1] 楊海鋒,陸偉.聯(lián)邦檢索研究綜述[J].圖書情報工作,2015,59(1):134-143.
[2] 耿騫,劉暢.分布式檢索系統(tǒng)及其體系結(jié)構(gòu)[J].國家圖書館學(xué)刊,2004(2):69-73.
[3] 萬常選,鄧松,劉喜平,等.Web數(shù)據(jù)源選擇技術(shù)[J].軟件學(xué)報,2013,24(4):781-797.
[4] Shokouhi M,Si L.Federated Search[J].Foundations & Trends in Information Retrieval,2011,5(1):1-102.
[5] Dang V,Croft W B.Diversity by proportionality:an election-based approach to search result diversification[C].International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2012:65-74.
[6] Markowitz H M.Foundations of Portfolio Theory[J].Journal of Finance,1991,46(2):469-477.
[7] Naini K D,Siberski W,Siberski W.Scalable and Efficient Web Search Result Diversification[J].ACM Transactions on the Web,2016,10(3):1-30.
[8] Benjamin Ghansah,Shengli Wu.A Mean-Variance Analysis Based Approach for Search Result Diversification in Federated Search[J].International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems,2016,24(02):195-211.
[9] Hong D,Si L.Search result diversification in resource selection for federated search[C].International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2013:613-622.
[10] Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2006,3(6):1137-1155.
[11] Mnih A,Hinton G.A scalable hierarchical distributed language model[C].International Conference on Neural Information Processing Systems.Curran Associates Inc,2008:1081-1088.
[12] Kusner M J,Sun Y,Kolkin N I,et al.From word embeddings to document distances[C].International Conference on International Conference on Machine Learning.JMLR.org,2015:957-966.
[13] Metzler D,Croft W B.Combining the language model and inference network approaches to retrieval[J].Information Processing & Management,2004,40(5):735-750.
[14] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space.CoRR abs/1301.3781(2013).
[15] Goldberg Y,Levy O.word2vec Explained:deriving Mikolov et al.negative-sampling word-embedding method[J].Eprint Arxiv,2014,9:1402-1407.
[16] Levy O,Goldberg Y.Neural word embedding as implicit matrix factorization[J].Advances in Neural Information Processing Systems,2014,3:2177-2185.
[17] Cormack G V,Clarke C L A,Buettcher S.Reciprocal rank fusion outperforms condorcet and individual rank learning methods[C].International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2009:758-759.
[18] Collins-Thompson K,Bennett P,Diaz F,et al.Overview of the TREC 2013 webtrack[C].TREC,2013.
[19] Collins-Thompson K,Macdonald C,Bennett P,et al.TREC 2014 web track overview[C].TREC,2014.
作者簡介:
王雅蓉(1994-),女,碩士生.研究領(lǐng)域:信息檢索.
李 亮(1994-),男,碩士生.研究領(lǐng)域:信息檢索.
吳勝利(1965-),男,博士,教授.研究領(lǐng)域:信息檢索.