胡 熠,劉云峰,段建勇,熊展志,喬建秀,張梅
(1. 阿里巴巴(中國)網(wǎng)絡(luò)技術(shù)有限公司, 浙江 杭州 310052; 2. 騰訊公司, 廣東 深圳 200230; 3. 北方工業(yè)大學(xué) 信息工程學(xué)院, 北京 100144)
網(wǎng)頁搜索中查詢時效性的實時計算模型
胡 熠1,劉云峰2,段建勇3,熊展志2,喬建秀2,張梅3
(1. 阿里巴巴(中國)網(wǎng)絡(luò)技術(shù)有限公司, 浙江 杭州 310052; 2. 騰訊公司, 廣東 深圳 200230; 3. 北方工業(yè)大學(xué) 信息工程學(xué)院, 北京 100144)
網(wǎng)頁搜索中的查詢時效性是指查詢對新聞網(wǎng)頁的需求。這種時間相關(guān)的因素,在網(wǎng)頁排序過程中用于平衡其他非時間性因素,使排序更好地滿足用戶體驗。為此該文提出了一種查詢時效性的實時計算模型: 從用戶搜索和媒體報道兩個角度,分別對時效性建模,然后這兩種不同來源的時效性相互補充,綜合計算某個時刻用戶搜索某個查詢時,其綜合時效性得分。這個量化得分在網(wǎng)頁排序階段用于提高或抑制新聞網(wǎng)頁的露出;同時也為網(wǎng)頁搜索結(jié)果中展現(xiàn)新聞直達(dá)區(qū)提供依據(jù)。在人工評測以及用戶點擊通過率統(tǒng)計上,該模型均取得了不錯的實際效果。
查詢時效性;時效性用戶模型;時效性媒體模型
網(wǎng)頁搜索中的查詢(Query)時效性是指查詢對新聞網(wǎng)頁的需求。用戶在搜索框里輸入一個查詢時,有很多潛在的意圖,其中很重要的是對時效性的需求。例如,用戶搜索“釣魚島”,更傾向于了解當(dāng)前釣魚島爭端引發(fā)的中日局勢,而不是幾年前釣魚島的情況,或者釣魚島的百科、地理、人文知識。所以搜索引擎需要識別查詢是否和時下受關(guān)注的熱門事件相關(guān),即它的時效性,為之后搜索的各個階段提供幫助。查詢時效性發(fā)揮兩個主要作用:
1. 新聞加強(qiáng)(News Boost)。時效性較高的查詢,對應(yīng)的新聞網(wǎng)頁通常剛出現(xiàn)不久,沒有積累足夠的Page Rank, Click等信息,在排序競爭中容易排在后面,但是這些新聞網(wǎng)頁又是用戶此時此刻最希望看到的。所以通過時效性因素把新聞網(wǎng)頁調(diào)整到搜索結(jié)果的合適位置,使得新聞網(wǎng)頁能及時露出,是恰當(dāng)和必要的。
2. 新聞直達(dá)區(qū)(News Box)。決定是否需要在網(wǎng)頁搜索結(jié)果中展現(xiàn)特定的聚合信息,即新聞直達(dá)區(qū)。如果時效性較高的查詢能召回相關(guān)度較高的近期新聞網(wǎng)頁,則會在搜索結(jié)果頁中展現(xiàn)新聞直達(dá)區(qū),提高用戶的關(guān)注度和體驗。
本文提出了一種實時計算查詢時效性的模型,應(yīng)用到搜索引擎中,并做了評測。由于時效性有一定的主觀性,對模型的評價,本文既使用了人工評測的方式,同時也參考用戶搜索后的點擊通過率指標(biāo),驗證了模型的有效性。綜合來看,本文的貢獻(xiàn)在于:
1. 根據(jù)發(fā)現(xiàn)時效性的源頭,引入時效性用戶模型和時效性媒體模型,互為補充,使得查詢時效性計算對時效性查詢的識別覆蓋度、準(zhǔn)確性都有較好的表現(xiàn)。
2. 時效性因素實際應(yīng)用于搜索引擎,為調(diào)整排序、生成新聞直達(dá)區(qū)提供了量化依據(jù)。
對查詢時效性的計算,從本質(zhì)上來講是對時序流數(shù)據(jù)[1]的數(shù)據(jù)挖掘,其相關(guān)研究由來已久。流數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)的地方在于,流數(shù)據(jù)(在本文是查詢的流和新聞數(shù)據(jù)的流)持續(xù)到達(dá),而且速度快、規(guī)模大。而基于流數(shù)據(jù)模型的數(shù)據(jù)挖掘技術(shù),包括聚類分析[2]、密度估計[3]等在實際應(yīng)用中得到了廣泛的應(yīng)用。文獻(xiàn)[4]則綜合介紹了基于流數(shù)據(jù)模型挖掘的一些算法。
在基于流數(shù)據(jù)的任務(wù)中,和本文查詢時效性計算相關(guān)的研究有話題發(fā)現(xiàn)(Topic Detection,TD)。話題定義: 一個話題由一個種子事件或活動以及與其直接相關(guān)的事件或活動組成[5]。話題檢測的主要任務(wù)是檢測預(yù)先未知的話題, 在“未知”這個屬性上和查詢時效性相似。所以TD和本文研究的查詢時效性都需要在毫不知情的情況下構(gòu)造檢測模型,也就是需要預(yù)先設(shè)計一個檢測模型,并根據(jù)這一模型檢測陸續(xù)到達(dá)的數(shù)據(jù)流,從中鑒別最新的話題或查詢時效性。 對于TD而言,更麻煩的在于隨時間發(fā)展,媒體對話題的報道隨時間逐漸漂移。需要利用后續(xù)報道不斷檢測相關(guān)而新穎的信息對話題模型進(jìn)行調(diào)整[6],同時屏蔽話題模型更新過程中引入的噪聲。
查詢時效性計算在用戶查詢數(shù)據(jù)流和媒體報道流中,把查詢作為一個特征,這和流數(shù)據(jù)特征提取的工作,也有相似之處。R Swan等人[7]研究了從普通文檔(非結(jié)構(gòu)化文檔)中,發(fā)現(xiàn)隨時間頻率有顯著變化的名實體特征,只考察某個時間段內(nèi)新聞報道中出現(xiàn)的人名,組織名等實體名詞,并在最后的評測中采用人工評測的方法。只關(guān)注名實體,就不能對任意一個查詢計算其時效性。俞曉明等人的研究工作[8],從短文本(如手機(jī)短信)中抽取時間敏感的字串,結(jié)合流數(shù)據(jù)的Deltoid算法[9],應(yīng)用于海量短文本的實時在線處理。文獻(xiàn)[8]在各個時間段形成大量的候選子串,再使用Deltoid算法判斷候選字符串在某個時間段上是否具有時效性,這種判斷主要依賴絕對頻率的比較。由于每個時間段采樣數(shù)據(jù)量不同,絕對頻率不能客觀的反映某時間段上的這個候選字符串的重要程度。
在本節(jié),我們提出了一種從用戶搜索和媒體報道兩方面建模的方法,命名為UMM(User and Media Model)。本文考慮的出發(fā)點是: 時效性比較高的事件,在用戶搜索的查詢流上,會有搜索次數(shù)上的顯著差異;新聞媒體也會對時下熱門事件集中報道。而媒體和用戶又有不一樣的地方: 媒體更主流和權(quán)威,更側(cè)重于有影響力的大事件,而用戶的搜索則更草根,可以兼顧到比較小眾的事件。基于這樣的數(shù)據(jù)理解,本文分別設(shè)計了時效性用戶模型和時效性媒體模型。在用戶模型中,我們主要觀察搜索引擎查詢流中查詢的搜索頻次的變化;對新聞媒體的報道,則是查看和查詢相關(guān)新聞的篇數(shù)。這兩種數(shù)據(jù)來源的模型,相互印證和補充,使得對查詢時效性的計算不遺漏、不偏頗。
3.1 查詢時效性計算模型
本文把條件概率P(x|q)作為查詢時效性建模的初始對象。其中q表示查詢,x表示是否具有時效性:x∈{0,1}。0表示沒有時效性,1表示具有時效性。我們關(guān)心P(x=1|q),采用如式(1)所示的分解形式。
(1)
{U,M}表示計算q時效性的來源的集合,目前只有兩個,一個是用戶(U),一個是媒體(M)。本文假定用戶搜索一個事件和媒體報道一個事件,相互之間獨立。盡管用戶的搜索可能會受到媒體報道的影響,但為了處理上的方便,認(rèn)為這種獨立性假設(shè)是合理的。由此,得到式(2)。
(2)
(3)
本文設(shè)定U和M的重要程度相當(dāng),即α=β=0.5。下面分別闡述時效性用戶模型和媒體模型的計算。
3.2 查詢時效性的用戶模型
概率P(x=1|q,U)表示在用戶模型下,一個查詢具有時效性的概率。從本質(zhì)來講,這是一個基于時序的模型: 在一定的時間窗口T內(nèi),用一個查詢q搜索頻次的“變化趨勢”作為時效性計算的依據(jù)。我們把時間窗口T劃分為T個原子的,不可再分的時間片段。定義第一個時間片段的時間戳是1,最后一個時間片段的時間戳是T。對其中某個時間片段t而言,其表示的單位時間范圍內(nèi),用戶搜索查詢q的頻次占除q之外的其他所有查詢搜索頻次之和的比例如式(4)所示。
(4)
t和上個片段t-1的“比例差”是計算時效性用戶模型的基礎(chǔ)特征。前后兩個時間片段的比例差值,可正可負(fù),如式(5)所示。
(5)
(6)
整個T時間段內(nèi)的累積比例差RsumT(q)反映了整體搜索引擎用戶在T時間內(nèi)對事件關(guān)注程度的“上升”和“下降”之間的博弈。累積比例差代入到Sigmoid函數(shù)作為一個查詢的用戶模型時效性值如式(7)所示。
(7)
用戶模型在實際應(yīng)用時,時間窗口T取12小時(在實驗環(huán)節(jié)有進(jìn)一步闡述),時間片段取1分鐘。這個算法描述了整體用戶搜索查詢次數(shù)的變化趨勢,并把這種趨勢抽象出特征進(jìn)行累積。一般來講,持續(xù)報道中的熱門事件,會累積越來越大的比例差值,使得時效性在不斷增加,趨近于1。而隨著整體搜索引擎用戶對這個事件的關(guān)注度降低,累積的比例差會被慢慢抵消,從而使得時效性降低。顯然,這是一個O(T)時間復(fù)雜度的算法。
3.3 查詢時效性媒體模型
媒體模型主要觀察新聞媒體對查詢的“報道”情況。本文定義一個新聞網(wǎng)頁“報道”了查詢,是指這個新聞網(wǎng)頁標(biāo)題對查詢的全覆蓋,即查詢中的所有詞在標(biāo)題中都出現(xiàn),且和這個標(biāo)題具有一定的相關(guān)度。
一段時間窗口內(nèi)對查詢報道的新聞網(wǎng)頁標(biāo)題的篇數(shù),在時間軸上形成有一個報道數(shù)量的分布。如“曹操墓”在某時間點,前溯180天內(nèi)的每天報道數(shù)量如圖1所示。
圖 1
在疑似曹操墓被發(fā)現(xiàn)之前,新聞網(wǎng)頁提及“曹操墓”的非常少,而在疑似曹操墓被發(fā)現(xiàn)之后,報道“曹操墓”的數(shù)量急劇增長。隨著時間的流逝,新聞媒體對“曹操墓”的關(guān)注開始降溫,出現(xiàn)了后期報道篇數(shù)總體下降的趨勢。在這個時間軸上任意一個時間點上,透過新聞媒體報道來看“曹操墓”的新聞時效性,得到符合用戶主觀認(rèn)知的時效性值,是媒體模型設(shè)計的目的。
為了計算一個查詢的時效性值,媒體模型按某個時間戳把從當(dāng)前時間向前回溯的180天(或30天,10天)劃分成兩個子時間窗口。這兩個子時間窗口互為對比。對比的時間子段分別是從當(dāng)天算起向過去追溯的時間段Tnew和進(jìn)一步向前追溯的時間段Told。Tnew和Told的比例根據(jù)需要設(shè)定。如Tnew取最近的時間跨度30天(或10天、3天),Told取Tnew之前時間跨度150天(或20天、7天)。確定了子時間窗口后,根據(jù)新聞網(wǎng)頁的創(chuàng)建時間把新聞網(wǎng)頁分配到這兩個子時間窗口內(nèi),計算查詢每天的報道數(shù)量。這兩個子時間窗口上每天查詢的報道篇數(shù)是媒體模型需要的基礎(chǔ)數(shù)據(jù),其實質(zhì)是利用報道了查詢的新聞網(wǎng)頁的篇數(shù)來間接估計查詢本身的時效性。
媒體模型通過卡方檢驗判斷這個查詢在這兩個子時間窗口內(nèi)的發(fā)生比率是否具有顯著差異。這個變化的顯著性作為查詢的時效性值。表1是媒體模型用到的基礎(chǔ)數(shù)據(jù)。
表1 卡方校驗中的四分表
其中,a表示在Tnew時間段中報道了查詢的網(wǎng)頁篇數(shù);b在Tnew時間段中沒有報道查詢的網(wǎng)頁篇數(shù);c在Told時間段中報道查詢的網(wǎng)頁篇數(shù);d在Told時間段中沒有報道查詢的網(wǎng)頁篇數(shù)。四分表卡方檢驗的基礎(chǔ)算法為式(8)。
(8)
本文的媒體模型從兩個方面對卡方算法做了針對時效性計算的優(yōu)化。
1. 按命中的新聞網(wǎng)頁出現(xiàn)的時間不同,以權(quán)重的方式修正a,b,c,d: 在Tnew子時間窗口內(nèi),越靠近當(dāng)前時間的時間戳,權(quán)重越高,報道或沒有報道的篇數(shù)作適當(dāng)?shù)姆糯?;在Told子時間窗口越遠(yuǎn)離現(xiàn)在的時間戳,權(quán)重越高,報道或沒有報道篇數(shù)作適當(dāng)?shù)姆糯蟆R?80天時間跨度為例,今天的時間戳定義為tnow, 180天前的時間戳定義為tstart, 時間界限的時間戳定義為tline, 某一天的時間戳定義為tx,這一天報道q或沒有報道的篇數(shù)為m,按上述原則,m將修正為m′,如式(9)所示。
(9)
每一天m→m′的變化,會使得調(diào)整后的a′,b′,c′,d′,n′代替原來的無權(quán)重的a,b,c,d,n。 另外,媒體模型只關(guān)心查詢時效性值的相對大小,所以固定值n在真正計算時可以忽略。調(diào)整后的卡方統(tǒng)計量的計算如(10)所示。
(10)
2. 在媒體模型中,本文使用了三個時間跨度,分別是180天、30天、10天。同時,定義了三個時間界線,分別是30天、10天、3天。在這三套卡方值計算的基礎(chǔ)上,選擇最大的輸出。選最大的原因是為了對突發(fā)事件有較好的敏感性,另一方面對稍過氣的查詢q,時效性值不至于急劇下降,整體有較好的平滑性,如式(11)所示。
χ2(q)*=
(11)
同樣的,使用Sigmoid函數(shù)對計算得到的卡方值做歸一化處理,得到式(12)。
(12)
由于卡方計算存在對稱性,對Told大量報道,而Tnew較少報道的查詢,說明熱度已過,算法對卡方值折半,即式(11)中μ=0.5,否則μ=1。媒體模型是O(T)時間復(fù)雜度的算法。
4.1 實驗設(shè)置
我們設(shè)計了兩個實驗來驗證本文提出的查詢時效性計算模型。第一個實驗從搜索引擎的實際查詢?nèi)罩局须S機(jī)挑選一定數(shù)量的查詢,作為人工評測對象,由三個評測人員分別對每一個查詢進(jìn)行時效性判定。本文和參考文獻(xiàn)中的一些方法做了對比。因為人工評測數(shù)據(jù)少且有一定的主觀性,所以本文設(shè)計了第二個實驗,用基于搜索結(jié)果頁中新聞直達(dá)區(qū)和新聞網(wǎng)頁的點擊通過率,即大量用戶搜索后的點擊行為,從另一個方面反映模型的好壞。
4.2 評價方法
4.2.1 人工評測
從用戶的檢索日志中,排重后隨機(jī)挑選1 000個query作為評測對象,由三個評測人員對每一個查詢進(jìn)行判定是否具有時效性。由于每個人的主觀性和知識面不同,對一個查詢是否具有時效性的判斷有一定主觀性,所以采用少數(shù)服從多數(shù)的原則: 兩人以上認(rèn)為一個查詢具有時效性,則是一個正例,反之,是一個反例。
本文在新聞媒體數(shù)據(jù)上使用Chi[7],以及Deltoid算法[9],作為和本文模型的對比。Deltoid沒有設(shè)定絕對閾值,而是設(shè)定差值比例超過20%這樣的相對閾值。同時,只使用用戶模型或媒體模型,也作為對比的模型加入到了實驗中。是否具有時效性可看成是一個0-1分類的判定,所以本文使用常用的召回率、準(zhǔn)確率和F1-measure指標(biāo)。實驗結(jié)果見表2。
表2 五種時效性計算模型的召回率、準(zhǔn)確率和F1-measure對比
表2中UMM(用戶媒體模型)在人工驗證集上的性能是所有結(jié)果中最優(yōu)的,相比Deltoid和Chi,有顯著提高;而對比兩個單來源的時效性模型 (OnlyU或者OnlyM),性能也有明顯改善。另一方面,正如之前的分析,文獻(xiàn)[7,9]中的方法有自身的缺點,對時效性查詢覆蓋不好或者準(zhǔn)確性不夠。人工評測的方式能在一定程度上驗證模型的差異, 但由于評測數(shù)據(jù)規(guī)模和評測人員的知識背景、對事件認(rèn)知的不同,對一個查詢是否是具有時效性會有意見相左的情況。所以,另一個實驗是基于大量用戶的點擊行為來驗證時效性模型。
4.2.2 點擊通過率(Click Through Rate, CTR)評測
表3 五種時效性計算模型的新聞直達(dá)區(qū)、新聞網(wǎng)頁加強(qiáng)展現(xiàn)比例以及CTR對比
表3中各個方法對新聞直達(dá)區(qū)的觸發(fā)和新聞網(wǎng)頁加強(qiáng)的應(yīng)用,適應(yīng)各自的最佳閾值??梢钥吹経MM在用戶點擊通過率指標(biāo)上也具有明顯的優(yōu)勢。這主要是因為結(jié)合用戶模型和媒體模型比單用一個模型覆蓋度更好,而且通過相互校驗,準(zhǔn)確性也更高。 而直接移植過來的方法[7,9]由于受限于自身方法的缺點,表現(xiàn)不佳。
4.2.3 時間窗口大小選擇實驗
為了選擇用戶模型和媒體模型各自的時間窗口,本文還通過從某個初始窗口大小開始,逐步增加時間窗口的方法,觀察時間窗口大小對時效性整體性能的影響,即時間窗口不斷增加時F1-measure的表現(xiàn)。由于用戶模型和媒體模型相對獨立,所以通過兩次實驗分別確定時間窗口的大小。
我們使用不同時間跨度的窗口來研究時間窗口對時效性整體性能的影響。表4第二行表示用戶模型從初始的T=2小時開始,每次增加兩個小時得到F1-measure曲線圖。 而表4第三行則是媒體模型從初始的T=40天開始,每次增加20天得到的F1-measure曲線圖。由于OnlyU和OnlyM時間窗口增加的時間點的個數(shù)相同,所以把兩列數(shù)據(jù)合并表示,如表4所示。
表4 Only U和Only M的時間窗口大小變化時F1-measure對比
表4中第二行的結(jié)果表明OnlyU在時間跨度逐漸增大的過程中,F(xiàn)1-measure逐漸上升,到了大約12個小時的時候,獲得了相對較高的性能。而在表4第三行中,表明OnlyM也是隨著F1-measure先升后降,大致確定其時間窗口在180天的時候,可以得到相對較好的性能。實驗顯示時間窗口不是極端大或極端小時能取得最優(yōu)的性能。這是因為窗口小的時候,雖然在事件爆發(fā)時,有足夠的敏感度,但由于窗口小,很容易被填充,使得在流數(shù)據(jù)到來的過程中,對查詢熱度識別能力反而下降。同樣的,時間窗口過大,會導(dǎo)致敏感度不足。適當(dāng)?shù)拇翱冢瓤梢员WC相對高的敏感度,也可以增強(qiáng)對數(shù)據(jù)震蕩的抗干擾能力。
本文考察了查詢時效性計算的兩個來源,即用戶搜索行為和媒體報道,針對這兩個數(shù)據(jù)來源設(shè)計了相應(yīng)的時效性模型。通過計算查詢的時效性,對搜索的返回結(jié)果進(jìn)行適當(dāng)調(diào)整: 把時效性較高的查詢對應(yīng)的新聞網(wǎng)頁排名提高;展現(xiàn)新聞直達(dá)區(qū)。
綜合來看,對查詢表達(dá)的意義,本文的UMM可以給出一個合理的時效性打分。對有時效性的查詢,在其熱度過去之后,能保有并衰減其時效性,使得持續(xù)追蹤報道的頁面也有機(jī)會露出。然后隨著時間推進(jìn),新聞頁面的其他非時間因子(Page Rank, Click等)累積足夠之后,在沒有時效性的幫助時,也不妨礙它們的露出。
本文相比以往工作的優(yōu)勢在于:
1. 通過兩個來源相互校驗和補充,提高了對查詢時效性識別的覆蓋能力和準(zhǔn)確性;
2. 給每個查詢計算一個合理的分值,柔性處理,應(yīng)用到實際搜索引擎中,效果良好;
3. 便于擴(kuò)展,可以加入新來源,或者通過查詢聚類等手段,擴(kuò)大UMM的覆蓋能力;
4. 實時性好,能滿足在線大流量的搜索訪問。
需要特別說明的是,本文雖然用整個查詢作為時效性的計算單位,但是完全可以把計算范圍推廣到查詢中的任意語言單元,也就是可以先計算查詢中單個查詢詞的時效性,再組合生成整個查詢的時效性,實現(xiàn)靈活搭配。
[1] Babcock B, Babu S, Datar M, et al. Models and issues in data streams[C]//Proceedings of the 21st ACM SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems. Madison: ACM Press, 2002: 1-16.
[2] Guha S, Mishra N, Motwani R, et al. Clustering data streams[C]//Proceedings of the 41st Annual Symposium on Foundations of Computer Science, FOCS 2000. Redondo Beach: IEEE Computer Society, 2000: 359-366.
[3] Zhou A, Cai Z, Wei L, et al. M-Kernel merging: Towards density estimation over data streams[C]//Proceedings of the 8th International Conference on Database Systems for Advanced Applications (DASFAA 2003). Kyoto: IEEE Computer Society, 2003: 285-292.
[4] Garofalakis M, Gehrke J, Rastogi R. Querying and mining data stream: you only get one look-A tutorial[C]//Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data. Madison: ACM Press, 2002: 635.
[5] 鄭偉,張宇,鄒博偉,等. 基于相關(guān)性模式的中文話題跟蹤研究[C]//全國第九屆計算語言學(xué)學(xué)術(shù)會議, 2007.
[6] 李保利,俞士汶. 話題識別與跟蹤研究[J ]. 計算機(jī)工程與應(yīng)用, 2003,39(17):6-10.
[7] R Swan, J Allan. Extracting significant time varying features from text[C]//Proceeding of the 8th International Conference on Information and Knowledge Management, New York: ACM Press, 1999: 38-45.
[8] 俞曉明,許洪波. 短文本時間敏感字串的提取[C]//第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議. 2007.
[9] G Cormode, S Muthukrishnan. What’s New: Finding Significant Difference in Network Data Stream[J]. IEEE/ACM Transactions on Networking, 2005, 13(6): 1219-1232.
The Real-time Computing Model of Time-sensitive Queries in Web Search
HU Yi1, LIU Yunfeng2, DUAN Jianyong3, XIONG Zhanzhi2, QIAO Jianxiu2, ZHANG Mei3
(1. Alibaba Inc, Hangzhou, Zhejiang 310052, China; 2. Tencent Inc, Shenzhen, Guangdong 200230,China; 3. College of Information Engineering, North China University of Technology, Beijing 100144,China)
The time-sensitive of queries in web search refer to the requirement of news webs. This time-related factor is used to balance the other factors in the ranking of webs to satisfy users’ search needs. In this paper, the author presents a computing model for time-sensitive of queries by modeling users’ search behaviors and the media reports, separately. Then, these two kinds of sub-models are combined to compute final time-sensitive scores of queries in the searching process. The time-sensitive scores give the ranking a quantified evidence to boost or reduce the weights of news webs and, further, provide supports for special news information box appeared on the result page after searching. The proposed model yields satisfactory performances and effective feedback from users in both artificial and clicks through rate experiments.
time-sensitive queries; user model of time-sensitive queries; media model of time-sensitive queries
胡熠(1978—),博士,高級技術(shù)專家,主要研究領(lǐng)域為電子商務(wù)、搜索引擎及自然語言處理。E?mail:erwin.huy@alibaba?inc.com劉云峰(1977—),博士,專家工程師,主要研究領(lǐng)域為自然語言處理和機(jī)器學(xué)習(xí)。E?mail:glen@vip.qq.com段建勇(1978—),博士,副教授,主要研究領(lǐng)域為中文信息處理。E?mail:duanjy@hotmail.com
1003-0077(2016)01-0079-06
2013-09-25 定稿日期: 2014-04-15
國家自然科學(xué)基金(61103112);國家社會科學(xué)基金(11CTQ036);國家語委十二五規(guī)劃基金(YB125-10);北京市哲學(xué)社會科學(xué)規(guī)劃基金(13SHC031)
TP391
A