王書鑫,衛(wèi)冰潔,魯 驍,王 斌
(1. 中國科學(xué)院大學(xué) 中國科學(xué)院計算技術(shù)研究所,北京 100190 2. 國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029;3. 中國科學(xué)院信息工程研究所,北京 100093)
?
面向微博搜索的時間敏感的排序?qū)W習(xí)方法
王書鑫1,衛(wèi)冰潔2,魯 驍2,王 斌3
(1. 中國科學(xué)院大學(xué) 中國科學(xué)院計算技術(shù)研究所,北京 100190 2. 國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029;3. 中國科學(xué)院信息工程研究所,北京 100093)
近年來微博檢索已經(jīng)成為信息檢索領(lǐng)域的研究熱點。相關(guān)的研究表明,微博檢索具有時間敏感性。已有工作根據(jù)不同的時間敏感性假設(shè),例如,時間越新文檔越相關(guān),或者時間越接近熱點時刻文檔越相關(guān),得到多種不同的檢索模型,都在一定程度上提高了檢索效果。但是這些假設(shè)主要來自于觀察,是一種直觀簡化的假設(shè),僅能從某個方面反映時間因素影響微博排序的規(guī)律。該文驗證了微博檢索具有復(fù)雜的時間敏感特性,直觀的簡化假設(shè)并不能準確地描述這種特性。在此基礎(chǔ)上提出了一個利用微博的時間特征和文本特征,通過機器學(xué)習(xí)的方式來構(gòu)建一個針對時間敏感的微博檢索的排序?qū)W習(xí)模型(TLTR)。在時間特征上,考察了查詢相關(guān)的全局時間特征以及查詢-文檔對的局部時間特征。在TREC Microblog Track 2011-2012數(shù)據(jù)集上的實驗結(jié)果表明,TLTR模型優(yōu)于現(xiàn)有的其他時間敏感的微博排序方法。
時間敏感;排序?qū)W習(xí);微博搜索
微博作為一種新興的Web 2.0媒體,使得海量的用戶參與到信息的制造、傳播和消費過程中。如何從這些具有豐富上下文環(huán)境的文檔中通過檢索滿足用戶的信息需求,是微博檢索亟待解決的問題。微博檢索具有和傳統(tǒng)Web檢索不同的特點: 首先,檢索內(nèi)容不同,例如,微博文本較短、含有主題詞和各種表情符號和URL地址等。這些特點使得微博檢索可使用的信息更加豐富;其次,微博檢索的排序方式不同。由于微博檢索中用戶查詢通常與當前發(fā)生的事件有關(guān),因此相對于傳統(tǒng)檢索查詢來說微博查詢更具時間敏感性[1]。本文主要針對微博查詢的時間敏感性展開研究。
如何將時間信息融合到檢索過程中,以往的工作主要集中在以下兩個方面[2]: 1)將查詢和文檔的文本相似性和時間相似性組合成為一個線性模型。2)將查詢和文檔依據(jù)文本內(nèi)容和時間因素構(gòu)建為一種新的概率模型,使用這個概率模型來計算查詢和文檔的相關(guān)性。
本文從時間因素影響微博排序的假設(shè)出發(fā),對公開的微博檢索數(shù)據(jù)集的查詢進行了時間分布的分析,驗證了微博查詢是一種時間敏感的查詢,而且不同的查詢,時間因素在其排序過程中影響也不相同,之前直觀簡化的假設(shè)并不能夠完整的概括這種規(guī)律。本文提出使用排序?qū)W習(xí)的方法來確定時間因素對微博排序影響的時間敏感的排序?qū)W習(xí)方法。
本文的主要貢獻是: 1)對微博查詢的相關(guān)文檔的時間分布進行了考察,分析了時間因素對微博排序影響的復(fù)雜性。2)提出使用查詢的時間特征分布的全局特征,如查詢文檔時間分布熵、查詢文檔平均時間、查詢文檔高峰時間,以及查詢和文檔對的局部特征如時間間隔、時間衰減、距離平均時間、距離高峰時間等特征為時間特征組;3)結(jié)合文本特征學(xué)習(xí)排序模型,并通過實驗驗證了時間敏感的排序?qū)W習(xí)方法的有效性。
文章內(nèi)容結(jié)構(gòu)如下: 第2節(jié)介紹相關(guān)工作;第3節(jié)介紹了微博查詢的時間分布的分析和提出TLTR模型;第4節(jié)介紹了提出的時間和實體的特征;第5節(jié)描述實驗設(shè)置和結(jié)果,最后總結(jié)并展望了未來的工作。
已有的研究工作中,融合時間信息的排序方法有文獻[3-4]。在文獻[3]中, Li和Croft提出了基于時間先驗語言模型。針對給定查詢,時間越新的文檔應(yīng)該越相關(guān)。通過修改文檔的先驗P(TD),使得P(TD)是以文檔集合中最新時間到文檔發(fā)布時間的間隔大小衰減的指數(shù)分布。該先驗可以表示為:
(1)
其中TC表示整個文檔集合中最近的時間,TD則表示文檔的創(chuàng)建時間。在文獻[4]中Efron和Golovchinsky擴展了上面的方法,認為不同查詢的指數(shù)分布的參數(shù)不相同,給出了參數(shù)估計的方法,進一步驗證了該方法的有效性。
除了上面一般的文檔的時序檢索模型,也有研究者針對微博這種時間敏感的查詢,提出了針對微博檢索的時間感知的檢索模型。如衛(wèi)等在文獻[5-6]中研究了將微博時間信息融入到排序模型的方法,認為查詢時間越靠近查詢熱門時刻,文檔應(yīng)該更重要。基于這樣的假設(shè),文獻[6]提出了基于熱門時刻的語言模型(HTLM),在MAP和P@30指標上均優(yōu)于基本查詢似然模型和文獻[3]所提出模型,驗證了基于熱門時刻假設(shè)的有效性。在文獻[7]中,TakiMiyanishi提出利用時間信息來進行查詢擴展的工作,將時間波動和Recency信息組合到查詢擴展的過程中,從而提高了檢索效果。文獻[8]研究了一種基于時間密度估計的查詢反饋算法在微博檢索中的應(yīng)用。文獻[9]則提出了一種時間敏感的概念(concept)感知的查詢擴展方法。
排序?qū)W習(xí)是使用機器學(xué)習(xí)的理論來構(gòu)建排序模型的方法,是近年來機器學(xué)習(xí)理論應(yīng)用到信息檢索領(lǐng)域的重要進展之一。多數(shù)優(yōu)秀的排序?qū)W習(xí)方法學(xué)習(xí)如何從查詢-文檔對中提取的特征中,訓(xùn)練組合成一個判別式模型,對查詢和文檔的相關(guān)性進行判斷。排序?qū)W習(xí)的兩個基本特點就是1)基于特征;2)判別式的模型。根據(jù)優(yōu)化目標的不同,排序?qū)W習(xí)可以分為以下三種主要的方式: 1)Pointwise方式,損失函數(shù)主要是優(yōu)化對于單個文檔的預(yù)測值和真實值的差。2)Pairwise方式,將排序問題轉(zhuǎn)化預(yù)測兩對文檔之間的順序問題,一般的Pairwise方式,是對兩對文檔之間順序問題做分類,相應(yīng)的每對文檔順序的分類錯誤率作為損失函數(shù)。3)Listwise方式,一般有兩類,一類是針對檢索的評價指標比如NDCG做優(yōu)化。另一類針對非檢索評價指標優(yōu)化,常見的有最小化代理損失函數(shù)(SurrogateLossFunction)。本文實驗主要使用了經(jīng)典的基于Pairwise的RankingSVM[10]和基于Listwise的ListNet[11],后者使用的打分函數(shù)均為線性。
也有些其他工作[2,12-16]使用LearningtoRank框架來組合微博檢索中的多個特征,比如用戶權(quán)威度、hashtags和轉(zhuǎn)發(fā)次數(shù)等。文獻[15]則認為微博的查詢之間并不相同,從而提出一個將一般的排序模型和查詢偏向(Query-Biased)的排序模型組合起來的新的排序方法。但是大多數(shù)LearningtoRank的方法并沒有系統(tǒng)地考慮時間因素對微博排序的影響,因此在微博排序中的時間因素并沒有被完全利用。文獻[2]提出一種LearningtoRank的方法解決時間敏感的Web檢索,但是Web檢索和微博檢索具有不同的時間敏感性特點,使得針對Web檢索的特征并不適用于微博檢索。文獻[16]在假設(shè)用戶檢索偏向最近和最相關(guān)文檔的基礎(chǔ)上,研究Recency、作者信息等諸多特征,驗證了Recency信息在微博檢索中的有效性。
綜上所述,本文認為時間敏感的微博的檢索中,簡單直觀的假設(shè)不能完全概括時間因素對微博檢索排序的影響。以往的工作并沒有系統(tǒng)的考察時間因素對微博排序?qū)W習(xí)的影響。本文將驗證時間因素影響微博排序的復(fù)雜性,并提出使用排序?qū)W習(xí)的框架去解決時間敏感的微博排序的問題。
本節(jié)主要通過微博檢索數(shù)據(jù)集分析微博查詢的時間敏感特性,驗證時間信息對微博排序的影響是復(fù)雜的,難以用一個簡化直接的假設(shè)進行概括。然后提出使用排序?qū)W習(xí)框架來組合微博檢索中時間特征進行相關(guān)度判斷的方法。
3.1 微博查詢的時間分析
本小節(jié)將以TRECMicroblogTrack2011—2012年所發(fā)布的110個微博查詢標注集合分析微博查詢的時間敏感性。微博數(shù)據(jù)集包含從2011年1月23日到2011年2月7日共17天的數(shù)據(jù)。將標注答案集合作為查詢的相關(guān)文檔集合,把使用基本檢索模型(如查詢似然模型)檢索得到的前 500篇文檔作為偽相關(guān)文檔集合。為了考察查詢對應(yīng)的相關(guān)文檔和偽相關(guān)文檔的時間分布,本文使用與文獻[5]相同的方法來觀察查詢的相關(guān)文檔時間分布的特性,方法簡述如下: 首先將文檔集合按照天數(shù)劃分為17天,然后統(tǒng)計落在每天間隔的文檔比率,構(gòu)成一個文檔集合在時間上的概率分布。
為了分析微博查詢的時間特性,選取四個不同特點的微博查詢?yōu)槔?。分別為: 第17天查詢的MB001,對應(yīng)的查詢詞是“bbcworldservicestaffcuts”;第10天查詢的MB045,對應(yīng)的查詢詞是“politicalcampaignsandsocialmedia”;第15天查詢的MB060,對應(yīng)的查詢詞是“fishingguidebooks”;第17天查詢的MB078,對應(yīng)的查詢詞是“mcdonaldsfood”。其相關(guān)文檔和偽相關(guān)文檔的時間分布圖如圖1所示。
解讀圖1的關(guān)鍵是,關(guān)注相關(guān)文檔和偽相關(guān)文檔時間分布的趨勢和在相同時間點相關(guān)文檔分布比率與偽相關(guān)文檔分布比率的差距(Gap)。相同的趨勢意味著相關(guān)文檔集合和偽相關(guān)文檔集合在時間分布上有類似的性質(zhì)。而差距則意味著,通過檢索模型得到的偽相關(guān)文檔集合需要提高或降低在此時間點的文檔的比重,調(diào)整召回文檔在此時間點的分布概率。子圖中,兩條時間分布曲線的差距,意味著需要通過將時間因素加入排序模型,使得相關(guān)文檔和偽相關(guān)文檔的時間分布趨于一致。這也是對時間敏感的排序模型的直觀解釋。
從圖中可以明顯可以看出,1)對于任意給定查詢,相關(guān)文檔和偽相關(guān)文檔的分布曲線分布趨勢比較一致,相關(guān)文檔集合和偽相關(guān)文檔集合具有相似的時間特性。2)微博查詢相關(guān)文檔的時間分布曲線不盡相同。對于1),由于給定查詢來說,相關(guān)文檔和偽相關(guān)文檔具有相似的時間特性,所以對于一個測試集合中查詢來說,通過基本的檢索模型如查詢似然模型得到該查詢的偽相關(guān)文檔集合,其時間特征可以用來近似表征相關(guān)文檔的時間特征。對于2)來說,從圖1可以明顯看出,不同查詢之間的文檔分布不盡相同。
對于查詢MB001來說,相關(guān)和偽相關(guān)文檔集合在時間上的分布存在著高峰時期,尤其在第四天,偽相關(guān)文檔的在高峰時期返回的文檔比例顯然不足,所以對于基本檢索模型返回偽相關(guān)文檔集來說,應(yīng)該提高第四天前后文檔的返回權(quán)重,讓高峰時刻的微博的權(quán)重更高,排到更高的位置。MB001(“bbcworldservicestaffcuts”)查詢的信息需求是,關(guān)注在2011年1月底所發(fā)生的英國BBC廣播電視公司將WorldService中32個世界語言服務(wù)中的近1/5關(guān)停,并裁員650人的事件的相關(guān)信息。當這則新聞發(fā)出的時候,大量的關(guān)于此事的微博被發(fā)送、轉(zhuǎn)發(fā)和評論。這解釋了第四天相關(guān)文檔出現(xiàn)高峰的現(xiàn)象。考慮用戶的信息需求,用戶所關(guān)心的顯然是此事件相關(guān)的信息,所以具有很明確的事件性,應(yīng)該返回更多高峰時刻附近的文檔。
而對于查詢MB078,整個相關(guān)文檔的時間分布比較均勻,和偽相關(guān)文檔的分布趨勢比較符合,但在查詢的當天即第17天,相關(guān)文檔的分布有了突然的提高,但是偽相關(guān)文檔分布則在17天的返回比率相對不足,這反映了需要提高新文檔權(quán)重的要求。MB078的查詢內(nèi)容是“mcdonaldsfood”,用戶此查詢的信息需求是最近的麥當勞食品信息,這就是說用戶更偏好新的信息。
而查詢MB060,則相關(guān)文檔和偽相關(guān)文檔在整個時間分布上比較符合,時間分布也比較均勻,這反映了此查詢對時間并不敏感,基于文本相似度的檢索模型就能很好地滿足用戶的信息需求。從另一個角度來看,MB060(“fishingguidebooks”)是一種知識信息的查詢,并不具有明顯的時間特性。查詢MB045,則反映了查詢和時間因素更加復(fù)雜的關(guān)系,沒有比較直觀的解釋。
圖1 TREC Microblog Track 2011—2012年查詢的相關(guān)文檔時間分布圖抽樣
圖2 Microblog Track 2011—2012年中所有110個查詢的距離分布
進一步地,本文將標注集合的110個查詢的時間分布按照KL距離使用多維尺度變換(MDS)技術(shù)顯示在圖2中,從圖2中可以看出不同查詢的時間分布比較分散,各查詢的時間分布并不相同,這說明單一假設(shè)的查詢時間分布是不準確的。
總結(jié)來說,微博檢索的信息需求是與時間高度相關(guān)的,是一種時間敏感的檢索。微博檢索的相關(guān)文檔分布是多樣的,時間因素在決定微博檢索排序中起到的作用是不盡相同的,很難用一個統(tǒng)一的直觀的假設(shè)去概括。
對于多特征復(fù)雜影響的檢索系統(tǒng),近年來,機器學(xué)習(xí)和信息檢索結(jié)合形成的排序?qū)W習(xí)方法是一個行之有效的解決辦法,可以有效地提高檢索系統(tǒng)的效果。
3.2 排序?qū)W習(xí)框架
排序模型一般是在一系列人工標注的查詢-文檔集合上通過有監(jiān)督學(xué)習(xí)(SupervisedLearning)得到的,那么對于線性的打分函數(shù),訓(xùn)練排序模型本質(zhì)上可以是對某個特征xi決定一個相關(guān)系數(shù)。對于一個新的文檔-查詢對(d′,q′)來說,排序模型使用對特征的加權(quán)求和來決定文檔的相關(guān)得分:
(2)
這里N是特征的維度,特征的權(quán)重可以直觀的顯示特征的重要性。如何提取出影響微博排序的時間因素的特征,是排序模型能否有效的關(guān)鍵。
根據(jù)第3節(jié)介紹的排序?qū)W習(xí)的理論,排序?qū)W習(xí)的基礎(chǔ)就是特征的提取,特征提取的好壞是方法成敗的關(guān)鍵。針對微博檢索來說,所提取的特征主要是以下兩大類: 時間特征和實體特征,如表1總結(jié)所示。
表1 時間敏感的微博檢索的特征
4.1 時間特征
在使用排序模型的框架時,一般先使用基本模型得到偽相關(guān)文檔集合,把偽相關(guān)文檔集合作為待排序的候選集合,然后對候選集合進行重排序。
對于給定的查詢q和候選文檔集合D中的候選文檔d來說,有些時間特征是只與查詢q有關(guān),而與候選文檔d的時間特征無關(guān),這類特征,本文稱之為全局特征。而另外一些時間特征則與查詢q和文檔d都有關(guān)系,本文稱這類特征為局部特征。
4.1.1 全局特征
為了得到查詢的全局特征,需要知道查詢的相關(guān)文檔的時間分布特征,而對于一個測試集合中的查詢來說,相關(guān)文檔的分布不可能知道。根據(jù)前面的分析和假設(shè): 偽相關(guān)文檔分布(前500篇)和相關(guān)文檔分布一致性較好,所以可以使用偽相關(guān)文檔(前500篇)的特征去近似代替相關(guān)文檔的總體時間分布特征。
觀察圖1很容易得出一個特征,就是帶有明顯事件相關(guān)的這類查詢的分布相對更加集中些,而沒有明顯事實相關(guān)的查詢這分布更加均勻。那么如何衡量分布的集中離散情況呢?這里引入了分布熵的特征:
(3)
這里p(x)(i)代表了文檔集合在時間段i的概率。在本文中,使用的是天作為基本的時間段。
均值反應(yīng)的是整體分布中時間的分布傾向,m表示有文檔總數(shù)。
(4)
峰值[12]反應(yīng)了整體分布中最多文檔分布的天數(shù),其中c(i)代表了落在時間段i的文檔。
(5)
最新時間[10]是指近似相關(guān)文檔集合中最新的文檔時間。
(6)
4.1.2 局部特征:
時間差衡量了查詢時間與文檔發(fā)表時間的差值。定義如下:
(7)
其中tq是查詢發(fā)生的時間,tdi是文檔的時間。ti衡量了查詢時間到文檔發(fā)布時間差。時間衰減定義了查詢到文檔發(fā)布時間的指數(shù)衰減[3]。定義如下:
(8)
文檔發(fā)布時間距離該查詢的平均偽相關(guān)文檔時間為:
(9)
文檔發(fā)布時間距離該查詢熱點時刻的時間間隔為:
(10)
th表示該查詢所對應(yīng)的熱點時刻。我們通過觀察查詢得到的偽相關(guān)文檔和相關(guān)文檔的分布可以得出,熱點時刻分布具有相似性。我們將查詢得到的相關(guān)文檔,按照天數(shù)劃分,找到該查詢所對應(yīng)的文檔分布最多的天數(shù)作為熱點天數(shù)。
在特征的提取和選擇過程中,對特征進行交叉組合具有重要的意義,尤其對線性的打分函數(shù)有著重要的作用。本文將ti,tde,tai,thi分別和分布熵h進行交叉得到一組新的特征ti*h,tde*h,tai*h,thi*h,如表1所示。
4.2 實體特征
除了使用上面提到的時間特征以外,本文還抽取微博實體特征,目的是衡量查詢和微博實體之間的相似度。由于本研究主要是考察微博檢索的排序中時間因素的影響,作為對比的其他模型也只能使用相同的文本相似度量。所以本文主要提取了查詢似然模型的打分作為文本相似度的度量,即將log (p(Q|MD))記為qlSim。
本節(jié)將通過實驗驗證本文所提出的時間敏感的排序?qū)W習(xí)方法。5.1節(jié)描述了實驗數(shù)據(jù)和設(shè)置,5.2節(jié)展示了實驗結(jié)果,并對實驗結(jié)果做了分析說明。
5.1 實驗數(shù)據(jù)和設(shè)置
本實驗所使用的數(shù)據(jù)是TREC Microblog Track所發(fā)布的2011年1月23日-2011年2月8日共17天的Twitter的數(shù)據(jù)。去除了非英文的和轉(zhuǎn)發(fā)的微博,并對微博內(nèi)容進行了預(yù)處理,比如去除了@信息和網(wǎng)址信息。預(yù)處理后的文檔集合一共包含9 679 710篇文檔。所使用的查詢集合是TREC Microblog Track 2011~2012年發(fā)布的共110個查詢。
本文使用開源的Lemur平臺做實驗平臺,在該平臺首先測試了查詢似然檢索模型(記為QL),并將各查詢的前1 500篇文檔做為偽相關(guān)文檔集合,也是后面其他實驗的待排序集合。然后測試了Li和Croft的基于時間的語言模型(記為TLM),衛(wèi)的熱點時刻語言模型系列最佳的模型(記為HTLM-AdaptiveMultiML)和本文提出的TLTR模型的對比實驗。
本文選擇查詢似然檢索模型作為Baseline,平滑方式選擇Jelinek-Mercer。其中實驗的所有參數(shù)是在P@30指標最優(yōu)的情況下,使用5折交叉驗證的方法選擇的。所有參數(shù)如表2所示。
本文采用的時間敏感的排序方法主要使用了基于Pairwise的Ranking-SVM和基于ListWise的ListNet。使用TREC Microblog檢索常用的兩個排序?qū)W習(xí)框架MAP和P@30作為評價指標。其中P@30反映了檢索結(jié)果的準確性,MAP衡量了整個檢索的結(jié)果的質(zhì)量。
表2 實驗最優(yōu)參數(shù)的取值
5.2 實驗結(jié)果及分析
相關(guān)的實驗結(jié)果如表3所示,我們對本文提出的兩個模型TLTR(RankingSVM)和TLTR(ListNet)與基準模型QL進行了Wilcoxon符號秩檢驗(顯著性水平為0.05)。
表3 基于時間的排序?qū)W習(xí)方法的實驗結(jié)果
從表3中,可以看出融入時間信息到檢索過程的TLM、HTLM、TLTR_RankingSVM和TLTR_ListNet,均比基準QL模型無論在MAP還是P@30指標上有提高。以TLM為例,顯然融入Recency信息的語言模型使得文檔返回質(zhì)量有所提高,但是由于未正確描述時序影響的規(guī)律,P@30這樣的指標反而有所下降。這表明在微博檢索中,時間信息對排序有作用,但是時間因素對排序的影響是復(fù)雜的。
本文提出的TLTR方法在兩項指標上比查詢似然模型要好,其中效果最好的TLTR(listNet)比基準模型QL在MAP上提高了5.8%, 在P@30指標上提高了10.2%。而且TLTR_ListNet好于基于“時間越新,文檔越相關(guān)”假設(shè)的TLM模型,分別在MAP和P@30上提高了3.0%和11.9%。TLTR_ListNet也好于“越靠近熱點時刻,文檔越相關(guān)”假設(shè)的HTLM-AdaptiveMultiML模型,分別在MAP和P@30上提高了2.4%和8.7%。從總的效果提升來看,在指標P@30上比MAP上提升效果更加明顯,這說明時間敏感的排序模型排序準確性有很大提高,尤其在真實檢索環(huán)境中,用戶更加關(guān)注P@30的指標。
另外基于PairWise的TLTR-RankingSVM 稍遜于基于ListWise的TLTR-ListNet,這與排序?qū)W習(xí)中一般的Listwise方法考慮了列表整體而比Pointwise和Pairwise的方法效果要好是一致的。
針對時間敏感的微博查詢,如何將微博的時間因素體現(xiàn)在微博檢索的排序結(jié)果中是本研究的核心問題。在以往的研究中或者將文本相似性和時間相似性加以啟發(fā)式的組合,或者將時間信息結(jié)合在檢索的概率模型中,常見的比如定義時間因素為文檔的先驗。這兩種方法都對時間因素影響微博排序的方式做了各種假設(shè): 或者是“時間越新文檔越相關(guān)”,或者“時間與整個查詢的熱點時刻越近越相關(guān)”。實際上,微博檢索中時間因素的影響是比較復(fù)雜的,難以用簡單直觀的假設(shè)去具體描述。這就需要我們有一種有力的工具來對時間因素對微博檢索的影響建模。本文使用排序?qū)W習(xí)方法,分析了微博時間檢索的影響的不確定性,并且提取了微博查詢時間的全局和局部特征,提出了基于時間因素的微博檢索排序?qū)W習(xí)方法,通過在TREC Microblog Track數(shù)據(jù)集上的實驗,證明了本方法的有效性。
在本文的研究過程中,作者也發(fā)現(xiàn)了不同類型的微博查詢,時間因素對微博排序的影響也不相同,本文提出的各種時間特征也在不同查詢中起到了不同的作用。這使得在整體上對特征進行效果分析是不準確或具有誤導(dǎo)性的。我們接下來的工作是希望根據(jù)不同類型的查詢建立一個查詢依賴的排序模型,并分析各個時間特征在不同查詢的排序中起的作用。對于時間敏感的微博檢索也有其他的研究思路,1)在本文中,只使用了文本的發(fā)布時間,而實際上,微博中也有指示時間的詞語,比如“2日”,“前天”等,這些詞語也是對微博的時間的描述,也應(yīng)該加以考慮。2)在加入時間因素的微博檢索的排序?qū)W習(xí)中,需要進一步挖掘時間特征,或者使用核函數(shù)來組合復(fù)雜的特征。
[1] Teevan J, Ramage D, Morris M R. TwitterSearch: a comparison of microblog search and web search[C]//Proceedings of the 4th ACM international conference on Web search and data mining. ACM, 2011: 35-44.
[2] Kanhabua N, Nrv?g K. Learning to rank search results for time-sensitive queries[C]//Proceedings of the 21st ACM international conference on information and knowledge management. ACM, 2012: 2463-2466.
[3] Li X, Croft W B. Time-based language models[C]//Proceedings of the 12th international conference on Information and knowledge management. ACM, 2003: 469-475.
[4] Efron M, Golovchinsky G. Estimation methods for ranking recent information[C]//Proceedings of the 34th international ACM SIGIR conference on research and development in Information Retrieval. ACM, 2011: 495-504.
[5] Wei B, Zhang S, Li R, et al. A time-aware language model for microblog retrieval[R]//Report of TREC Microblog Adhoc Track, 2012.
[6] 衛(wèi)冰潔, 王斌. 面向微博搜索的時間感知的混合語言模型[J]. 計算機學(xué)報, 2014, 37(1):229-237.
[7] Miyanishi T, Seki K, Uehara K. Combining recency and topic-dependent temporal variation for microblog search[M]//Advances in Information Retrieval. Springer Berlin Heidelberg, 2013: 331-343.
[8] Efron M, Lin J, He J, et al. Temporal feedback for tweet search with non-parametric density estimation[C]//Proceedings of the 37th international ACM SIGIR conference on research & development in information retrieval. ACM, 2014: 33-42.
[9] Miyanishi T, Seki K, Uehara K. Time-aware latent concept expansion for microblog search[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media. 2014.
[10] Herbrich R, Graepel T, Obermayer K. Large margin rank boundaries for ordinal regression[J]. Advances in neural information processing systems, 1999: 115-132.
[11] Cao Z, Qin T, Liu T Y, et al. Learning to rank: from pairwise approach to listwise approach[C]//Proceedings of the 24th international conference on machine learning. ACM, 2007: 129-136.
[12] Ounis I, Macdonald C, Lin J, et al. Overview of the trec-2011 microblog track[C]//Proceedings of the 20th Text REtrieval Conference. 2011.
[13] Metzler D, Cai C. USC/ISI at TREC 2011: Microblog Track[C]//Proceedings of the TREC. 2011.
[14] Miyanishi T, Okamura N, Liu X, et al. TREC 2011 Microblog Track Experiments at Kobe University[R].
[15] Zhang X, He B, Luo T, et al. Query-biased learning to rank for real-time twitter search[C]//Proceedings of the 21st ACM international conference on Information and knowledge management. ACM, 2012: 1915-1919.
[16] Damak F, Pinel-Sauvagnat K, Boughanem M, et al. Effectiveness of State-of-the-art Features for Microblog Search[C]//Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013: 914-919.
Temporal Sensitive Learning to Rank Method for Microblog Search
WANG Shuxin1, WEI Bingjie2, LU Xiao2, WANG Bin3
(1. University of Chinese Academy of Sciences, Institute of Computing Technology, CAS, Beijing 100190, China;2. National Computer Network Emergency Response Technical Team/Coordination Center, Beijing 100029, China;3. Institute of Information Engineering, CAS, Beijing 100093, China)
Microblog search has become a hot research problem in information retrieval area in recent years. Related work shows that most queries in microblog search are time-sensitive. To address this problem, many existing methods were proposed based on different time-sensitive assumptions, such as, “the newer of a document, the more important it is” or “the closer to the peak point a document is, the more important it is”. All these methods have improved retrieval effectiveness somehow. However, it is hard to summarize the temporal role in ranking of microblog search to one straight forward assumption as above. In this paper, our study on temporal distributions of relevant documents of different queries shows the complexity of temporal role in ranking; therefore, simple straight forward assumptions are not accurate. We proposed to use the temporal and entity evidences of query-document pairs to train a time-sensitive learning to rank model to tackle this problem. As for temporal features, both global features of query and local features of query-documents pair are extracted. Experimental results show that TLTR significantly improves the retrieval effectiveness over existing time aware ranking models on TREC Microblog Track 2011—2012 data set.
time-sensitive; learning to rank; microblog search
王書鑫(1985—),博士研究生,主要研究領(lǐng)域為信息檢索與數(shù)據(jù)挖掘。E-mail:wangshuxin@ict.ac.cn衛(wèi)冰潔(1987—),博士,工程師,主要研究領(lǐng)域為微博檢索及數(shù)據(jù)挖掘。E-mail:weibingjie1986@163.com王斌(1972—),博士,研究員,主要研究領(lǐng)域為信息檢索與自然語言處理。E-mail:wangbin@iie.ac.cn
1003-0077(2015)04-0175-08
2014-12-25 定稿日期: 2015-06-18
中國科學(xué)院先導(dǎo)專項課題(XDA06030200)
TP391
A