陳雪松,張帆,劉奕群*,羅成,張敏,馬少平
(1.青海大學(xué) 計(jì)算機(jī)技術(shù)與應(yīng)用系,青海 西寧 810016;2.清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京信息科學(xué)與技術(shù)國家研究中心,北京 100084)
這是一個數(shù)據(jù)的時代,人們每天都被大量的數(shù)據(jù)包圍著,網(wǎng)絡(luò)上的數(shù)據(jù)資源更是不可勝數(shù),如何從海量的數(shù)據(jù)中盡快地且高質(zhì)量地尋找出所需數(shù)據(jù)的需求,催生了信息檢索學(xué)科[1-2]的發(fā)展。信息檢索的一個重要載體是搜索引擎,當(dāng)人們遇到問題的時候,便會通過搜索引擎尋找答案。
目前,廣泛應(yīng)用的信息檢索方式是網(wǎng)頁搜索,隨著日益增長的物質(zhì)文化需求,用戶對網(wǎng)頁搜索形式的文本檢索有了更高的要求,同時,也希望能搜索到更多類型的信息,比如圖像、音樂、視頻等等。圖像搜索便是一個應(yīng)運(yùn)而生的信息檢索場景。在圖像搜索環(huán)境下,用戶有著多樣的搜索意圖[3-4]。演講者作匯報(bào)展示時,會尋找恰當(dāng)?shù)膱D片輔助表達(dá)自己的主題;行人走在路邊遇到不認(rèn)識的植物,希望圖像搜索能夠滿足自己的知識需求;辦公人員在煩躁的時刻也希望能通過搞笑圖片調(diào)節(jié)自己的情緒。獲取用戶在不同搜索意圖下的滿意度是提高搜索引擎性能和競爭力的重要方式。實(shí)際搜索環(huán)境下,收集每次查詢會話后的用戶滿意度將會是一種花費(fèi)很大并且難以實(shí)施的方法,也會對用戶的搜索體驗(yàn)產(chǎn)生負(fù)面影響。最近的研究表明,網(wǎng)頁搜索場景下,用戶在瀏覽過程中與搜索引擎的交互行為如鼠標(biāo)的移動、點(diǎn)擊,滑輪的滾動等,都是預(yù)測滿意度的強(qiáng)信號[5-8]。借助于用戶和搜索引擎的交互行為對用戶滿意度進(jìn)行預(yù)測的方法可大致總結(jié)為兩種:一是從交互行為信息中設(shè)計(jì)特征來預(yù)測滿意度[3,9],二是對用戶的動作序列進(jìn)行建模來預(yù)測用戶滿意度[10-11]。
Fig.1 Difference between web search and image search圖1 網(wǎng)頁搜索和圖片搜索區(qū)別示意圖
從網(wǎng)頁搜索到圖像搜索,如圖1所示,整體搜索結(jié)果(Search Engine Result Pages,SERPs)的展示形式由一維變成了二維;每個搜索結(jié)果的展示內(nèi)容由標(biāo)題加摘要變成了縮略圖加關(guān)鍵字;同時,翻頁的控制方式也由點(diǎn)擊按鈕變成了滾動滑輪。圖像搜索和網(wǎng)頁搜索在搜索結(jié)果的展示方式,用戶與搜索引擎的交互方式等方面的改變,勢必影響了用戶與搜索引擎的交互行為。在圖像搜索環(huán)境中,用戶與搜索引擎的交互行為的變化決定了用戶滿意度的預(yù)測方法需要重新考量。
本文收集了圖像搜索環(huán)境下,1 500多個用戶查詢會話中的交互行為和用戶滿意度的反饋,分析了衡量搜索引擎性能的評價(jià)指標(biāo)在圖像搜索環(huán)境下的表現(xiàn)情況,根據(jù)指標(biāo)表現(xiàn)來設(shè)計(jì)用戶在瀏覽過程中的動作特征,將其作為梯度提升決策樹算法(GBDT)的特征來訓(xùn)練模型從而預(yù)測用戶滿意度,同時將用戶在瀏覽過程中,存在的動作作為馬爾可夫模型(Markov Model)的狀態(tài),根據(jù)動作序列,生成用戶在滿意和不滿意查詢下的狀態(tài)轉(zhuǎn)移概率圖,對用戶滿意度進(jìn)行預(yù)測。最后,本文設(shè)計(jì)了GBDT和馬爾可夫模型的組合模型來預(yù)測用戶滿意度,準(zhǔn)確率達(dá)到了78%。
在20世紀(jì)90年代,用戶滿意度首先被Su引入到信息檢索領(lǐng)域[12],用來表示當(dāng)用戶擁有一個查詢需求或者目標(biāo)的時候,他對于搜索引擎返回結(jié)果的滿意程度。Jones等人[13]強(qiáng)調(diào)了用戶滿意度的重要性并且將其作為信息檢索評估的基礎(chǔ)。用戶滿意度在信息檢索評估中占有了極其重要的地位,因此有了很多相關(guān)的工作。Al-Maskari[14]調(diào)研了在信息檢索中,影響用戶滿意度的一些因素。Wang等人[15]論證了用戶的滿意程度在搜索結(jié)果相關(guān)性評估和查詢建議條目中的重要作用。Hassan的工作表明[16],用戶滿意度在衡量搜索引擎性能時的價(jià)值比查詢和結(jié)果的相關(guān)性更重要。用戶滿意度的重要性引導(dǎo)著預(yù)測用戶滿意度工作的開展。他們通過三種不同的方式來衡量點(diǎn)擊到訪頁面(Landing Page)停留時間,進(jìn)而對單次點(diǎn)擊的用戶滿意度進(jìn)行預(yù)測。也有學(xué)者[8]創(chuàng)新性地建立起鼠標(biāo)的移動軌跡中存在的模式來預(yù)測用戶滿意度。同時,Mehrotra等人[17]通過用戶在查詢過程中點(diǎn)擊、滾動等動作的次序?qū)τ脩魸M意度進(jìn)行預(yù)測。隨著移動端搜索流量的增加,很多學(xué)者也開始關(guān)注移動搜索場景下,用戶滿意度的預(yù)測方法。
本文在選擇GBDT模型特征時,參考了搜索引擎性能的評價(jià)指標(biāo)[18-20]。搜索引擎性能評價(jià)的方式主要包括離線評價(jià)方式和在線評價(jià)方式。其中離線評價(jià)方式考慮了查詢文檔對的相關(guān)性、結(jié)果的位置、用戶的執(zhí)著程度等因素,該評價(jià)方法需要外部評估人員進(jìn)行標(biāo)注,成本較高,因此本文不采用離線指標(biāo)作為特征對用戶滿意度進(jìn)行預(yù)測。對于網(wǎng)頁搜索中被廣泛使用的在線指標(biāo),如點(diǎn)擊率、點(diǎn)擊結(jié)果排名、UCTR、PLC等,本文通過基于Concordance的區(qū)分度等指數(shù)來衡量這些指標(biāo)在預(yù)測用戶滿意度中的效用,將效用高的指標(biāo)選為特征,用來訓(xùn)練模型,預(yù)測滿意度。同時,本文針對圖像搜索場景,提出了一些新的特征。
本文所使用的馬爾可夫模型主要考慮了在查詢過程中,連續(xù)的動作所存在的潛在的關(guān)系對用戶滿意度的影響。Hassan[6]比較了成功的查詢和不成功的查詢中動作的狀態(tài)轉(zhuǎn)移概率問題,并通過馬爾可夫模型預(yù)測用戶的查詢是否是一次成功的查詢。Wu等人[21]提出了一些預(yù)測用戶滿意度時,可以作為馬爾可夫狀態(tài)的用戶動作。本文考慮了用戶在查詢過程中,不同的動作轉(zhuǎn)移應(yīng)占有不同權(quán)重的問題,并且總結(jié)了滿意和不滿意查詢中存在的典型的動作轉(zhuǎn)移模式。
實(shí)驗(yàn)采用在校內(nèi)有償招募被試者的方式收集數(shù)據(jù),被試者依次來到實(shí)驗(yàn)室,在指定的機(jī)器上進(jìn)行指定任務(wù)的圖像搜索,在每次查詢會話完成后,被試者需進(jìn)行滿意度打分。
在該實(shí)驗(yàn)數(shù)據(jù)收集過程中,被試者通過Google Chrome瀏覽器,在17英寸,分辨率為1 366×768像素的LCD顯示器上進(jìn)行圖像搜索任務(wù)。用戶在搜索過程中所有的查詢內(nèi)容、鼠標(biāo)移動、點(diǎn)擊、劃入(劃出)元素、滑輪的滾動、標(biāo)簽的切換等信息都會被記錄下來。
本實(shí)驗(yàn)在高校招募了36名本科生(13名女生和22名男生),年齡分布在18到25周歲,來自于工科、人文、社會科學(xué)和藝術(shù)院系等。所有的被試者在實(shí)驗(yàn)之前均有圖像搜索的經(jīng)歷。
實(shí)驗(yàn)開始前,被試者首先要完成一個熱身性質(zhì)的圖像搜索任務(wù),從而熟悉整個用戶實(shí)驗(yàn)。然后被試者按照網(wǎng)頁提示的信息依次進(jìn)行12個圖像搜索任務(wù)。對于每一個任務(wù),被試者會首先看到任務(wù)的描述信息,該描述信息用來模擬真實(shí)搜索中的用戶需求,比如說通過圖像搜索引擎找到一張哈利波特的海報(bào)用來做PPT。實(shí)驗(yàn)的具體流程如下:
被試者先讀任務(wù)描述,然后用通俗的語言把任務(wù)重述一遍,保證徹底理解了模擬的用戶需求。然后,被試者點(diǎn)擊“開始任務(wù)”按鈕進(jìn)行圖像搜索。當(dāng)被試者認(rèn)為任務(wù)完成或者找不到滿意的結(jié)果時,便可以點(diǎn)擊“結(jié)束任務(wù)”按鈕來結(jié)束。任務(wù)結(jié)束后,被試者在該任務(wù)下的每次查詢內(nèi)容將再次展示出來,實(shí)驗(yàn)會要求被試者對每次查詢進(jìn)行5個等級的用戶滿意度打分。
本文通過評測在線指標(biāo)與用戶滿意度(5級標(biāo)注)的Pearson相關(guān)系數(shù)和Concordance一致性指數(shù)及基于Concordance的區(qū)分度指數(shù)進(jìn)行GDBT模型特征的選擇,利用sklearn中GradientBoostingClassifier分類器進(jìn)行訓(xùn)練,采用十折交叉驗(yàn)證的方式進(jìn)行模型評價(jià)。
Pearson相關(guān)系數(shù)和Concordance一致性指數(shù)為常用的相關(guān)性評價(jià)指標(biāo),本文不再具體介紹?;贑oncordance的區(qū)分度指數(shù)算法設(shè)計(jì)如下:
算法1 基于Concordance的區(qū)分度指數(shù)算法INPUT:在線指標(biāo)特征向量OnlineMetricVector,滿意度向量SatisfactionVectorOUTPUT:區(qū)分度指數(shù)distinction1:function CONCORDANCE(OnlineMetricVector,Satis factionVector)2: PairNum←03: PostiveCorrectionScore←04: NegativeCORRECTION Score←05: avg←OnlineMetricVector6: for i=0 j→ LengthOfOnlineMetricVector d07: for j=i→LengthOfSatisfactionVector do8: PairNum←PairNum+19: product←(OnlineMetric[i]一OnlineMetric[j])/avg*(Satisfaction[i]-Satusfactuib[j])10: if product>α then11: PostiveCorrectionScore←PostiveCorrectionScore+112: end if13: if product<α then14: NegativeCorrectionScore←NegativeCorrectionScore+115: end if16: if α<=product<=α then1 7: PostiveCorrectionScore←PostiveCorrectionScore+118: NegativeCorrectionScore←NegativeCorrectionScore+119: end if20: end for21: end for22: Normalization(PostiveCorrectionScore,NegativeCorrectionScore)23: ConcordanceValue=Max(PostiveCorrectionScore,NegativeCorrectionScore)24: distinction=abs(PostiveCorrectionScore-NegativeCorrectionScore)25: return distinction26:end function
在算法1中,在線指標(biāo)特征向量OnlineMetricVector的定義為
(1)
(2)
其中Satisfactionn表示第n次查詢中,用戶的滿意度情況。
在Concordance算法中,由于在線指標(biāo)特征數(shù)值較多,并且存在一定的計(jì)算誤差(鼠標(biāo)移動距離,滑輪滾動等都不是絕對精確的數(shù)值)對于任意兩個對應(yīng)位置上歸一化后的在線指標(biāo)特征和用戶滿意度數(shù)值相差不大時(即絕對值小于α),則認(rèn)為該對位置上的值既支持兩個向量呈正相關(guān),又支持兩個向量呈負(fù)相關(guān)。如果該種位置對數(shù)量較多,就會導(dǎo)致兩個向量的正相關(guān)和負(fù)相關(guān)Concordance一致性指數(shù)都比較大,但是該在線指標(biāo)特征并不能很好地體現(xiàn)出用戶的滿意度,為了解決此類問題,本文提出了基于Concordance的區(qū)分度指數(shù),其數(shù)值大小體現(xiàn)了支持兩個向量正相關(guān)和負(fù)相關(guān)的差值。該區(qū)分度指數(shù)與Concordance一致性指數(shù)在衡量在線指標(biāo)是否可以作為GBDT模型特征時各有所長,本文在選取作為模型特征的在線指標(biāo)時綜合考慮了Pearson相關(guān)系數(shù)和上述兩個指數(shù)。
在傳統(tǒng)的網(wǎng)頁搜索中,常用的在線指標(biāo)匯總?cè)绫?所示。
表1 在線指標(biāo)及其描述
本文充分考慮了圖像搜索場景下的應(yīng)用環(huán)境,提出了如下特征:
Query id:query id中的id表示在同一查詢?nèi)蝿?wù)下,當(dāng)前查詢屬于該任務(wù)中的第幾次查詢。該特征與用戶滿意度呈一般負(fù)相關(guān),也就是說,在同一任務(wù)下,用戶的查詢次數(shù)越多,越容易出現(xiàn)不滿意的查詢。
LastClickToEnd:用戶在當(dāng)前查詢下,最后一次點(diǎn)擊的時間點(diǎn)與查詢結(jié)束的時間點(diǎn)之間的時間長度。該指標(biāo)與用戶滿意度呈現(xiàn)較強(qiáng)的負(fù)相關(guān)性。也就是說,用戶在點(diǎn)擊圖片后,與結(jié)束查詢的時間越短,滿意程度越高。如果用戶在查詢結(jié)束和最后一次點(diǎn)擊之間存在較多的動作,比如說hover(鼠標(biāo)懸浮),scroll(滑輪滾動)等,就意味著用戶還在尋找著更合適的圖片,容易感到不滿意?,F(xiàn)有的結(jié)論表示用戶的最后一次點(diǎn)擊一般是得到了滿意的結(jié)果來結(jié)束查詢,用戶滿意后就會停止查詢,用戶最后一次點(diǎn)擊發(fā)生后,結(jié)束查詢的時間越短,用戶滿意的可能性就越大,該指標(biāo)能體現(xiàn)用戶的這種行為。
QueryTermNum:用戶使用圖像搜索引擎時,輸入的查詢內(nèi)容不同,對圖像搜索引擎返回的結(jié)果的期望不同。比如說用戶輸入“襯衫”和“寬松款女士白色襯衫”時,前者表示用戶對搜索引擎有一個寬泛的要求,只要是襯衫即可,后者表示用戶對圖像搜索引擎返回的屬性有了“寬松款”、“女士”、“白色”的要求,期待搜索引擎的返回的結(jié)果能夠滿足所有屬性,因此,需要有一個對查詢內(nèi)容復(fù)雜度衡量的指標(biāo)。借助自然語言處理(NLP)中的jieba分詞工具,對用戶提交的所有query進(jìn)行分詞處理。去掉了查詢內(nèi)容中的停用詞、連詞等,對查詢內(nèi)容中剩下的以形容詞、名詞為主的單詞進(jìn)行加權(quán)、計(jì)數(shù)得到一個簡單的用于估計(jì)查詢內(nèi)容復(fù)雜度的數(shù)值。結(jié)果表明,該數(shù)值與用戶滿意度存在較弱的負(fù)相關(guān),即查詢內(nèi)容中包含單詞越多,數(shù)值越大,用戶滿意度越低。也就是說用戶提交的查詢內(nèi)容中包含的查詢詞越多,搜索引擎越難以讓用戶滿意。
Distribution:在查詢中,將鼠標(biāo)懸停時間、鼠標(biāo)的移動距離和鼠標(biāo)的移動速度劃分為不同的區(qū)間,統(tǒng)計(jì)不同區(qū)間中特征在特征總數(shù)的占比,用來作為在線指標(biāo)。其中鼠標(biāo)移動速度特征表現(xiàn)較好。對于鼠標(biāo)移動速度來說,鼠標(biāo)移動速度非常快([0,0.5]px/ms)的比重越大用戶在查詢中越容易不滿意,鼠標(biāo)移動速度在[0.5,∞px/ms]的比重越大,用戶越容易滿意。換句話說,用戶鼠標(biāo)移動速度快的比例大,代表著用戶沒有在搜索結(jié)果頁面中檢查到滿意的結(jié)果,是一種不耐煩的表現(xiàn)。
NonMoveTimeRatio:已有研究表明[22],在以文字為主的網(wǎng)頁中,鼠標(biāo)移動和人的注意力有很高的相關(guān)性,因此,用戶在鼠標(biāo)移動和鼠標(biāo)不移動的兩個狀態(tài)下,對搜索結(jié)果頁面的檢查方式不一樣。在鼠標(biāo)不移動的狀態(tài)下,搜索結(jié)果中很有可能有用戶感興趣的內(nèi)容,用戶的注意力集中,注意力切換較慢;在鼠標(biāo)移動的狀態(tài)下,用戶在查找內(nèi)容,注意力切換快。在一次查詢會話中,用戶注意力集中的時間的比例可通過如下公式計(jì)算(T[start,end]表示該次查詢會話的總時間,Tmouse_movei表示第i次鼠標(biāo)移動的時間),將該比例作為指標(biāo),表現(xiàn)較好。
(3)
指標(biāo)TTFC,TTLC,LCTE的應(yīng)用場景是在查詢會話中存在至少一次點(diǎn)擊的情況,但在用戶的實(shí)際搜索中,有些查詢會話并不存在點(diǎn)擊行為,對于該類會話,假定點(diǎn)擊行為發(fā)生的時間距離標(biāo)記時刻(TTFC和TTLC的標(biāo)記時刻是查詢會話開始的時刻,LCTE的標(biāo)記時刻是查詢會話結(jié)束的時刻)無窮遠(yuǎn)。根據(jù)2.1節(jié)中所提出的特征顯著性評測方法,對2.2節(jié)中所有特征進(jìn)行篩選,篩選后的特征及其在3種評測方法下的表現(xiàn)如表2所示。
表2 GBDT特征顯著性評測結(jié)果
Fig.2 Performance to predict user satisfaction by our designed features圖2 本文所設(shè)計(jì)特征在預(yù)測用戶滿意度時的表現(xiàn)
本文首先把用戶滿意度分成兩類,用戶滿意度為4,5的查詢看作是用戶滿意的查詢,用戶滿意度為1,2,3的查詢看作是用戶不滿意的查詢。除本文提出的5個特征外,剩余的所有在線指標(biāo)為特征訓(xùn)練的模型作為baseline。圖2展示了本文所設(shè)計(jì)的特征在預(yù)測用戶滿意度時的表現(xiàn),所有特征對預(yù)測用戶滿意度均有不同程度的貢獻(xiàn)。
將上述所有的在線指標(biāo)作為特征用于常見分類器的訓(xùn)練,如k-近鄰(KNN)、支持向量機(jī)(SVM)、樸素貝葉斯(Naive Bayesian)、GBDT等模型,同時把Wu等人[17]工作中所設(shè)計(jì)的特征訓(xùn)練生成GBDT模型的表現(xiàn)作為Baseline,所有模型的性能對比如表3所示。
表3 模型性能對比圖
通過上表可以看出,在所有的分類器中,GBDT模型表現(xiàn)最好。兩個GBDT模型作為對比,本文所采用的特征訓(xùn)練所得的模型表現(xiàn)較好,精度提高了3.77%,同時在Wu的工作中,用到的特征數(shù)量是33個,在本文的模型中,用于GBDT模型的特征數(shù)量有23個。
在馬爾可夫模型中,本文考慮了用戶在整個查詢會話中,動作轉(zhuǎn)移概率的問題。比如說從查詢開始到點(diǎn)擊動作,從點(diǎn)擊動作到滑輪滾動動作等動作間的轉(zhuǎn)移概率。本文將所有的動作劃分為了六類,具體動作及其描述如表4所示。
表4 馬爾可夫模型中動作狀態(tài)及其描述
本文首先將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,在訓(xùn)練集中,將其劃分為用戶滿意的數(shù)據(jù)集部分和用戶不滿意的數(shù)據(jù)集部分,為兩部分?jǐn)?shù)據(jù)集生成兩個狀態(tài)轉(zhuǎn)移矩陣,也就意味著生成了用戶滿意情況下的狀態(tài)轉(zhuǎn)移圖和用戶不滿意情況下的狀態(tài)轉(zhuǎn)移圖。用戶滿意情況下的狀態(tài)轉(zhuǎn)移圖如圖3所示,用戶不滿意情況下的狀態(tài)轉(zhuǎn)移圖如圖4所示。
Fig.3 Transition diagram under satisfaction圖3 用戶滿意情況下的狀態(tài)轉(zhuǎn)移圖
Fig.4 Transition diagram under dissatisfaction圖4 用戶不滿意情況下的狀態(tài)轉(zhuǎn)移圖
根據(jù)測試集中一次查詢會話中的動作序列來預(yù)測用戶滿意度時,兩個狀態(tài)轉(zhuǎn)移圖均可計(jì)算當(dāng)前查詢所包含的動作序列的得分。該查詢在哪個狀態(tài)轉(zhuǎn)移圖的得分越高,就可以說明該查詢中的動作序列更符合其狀態(tài)轉(zhuǎn)移圖的預(yù)測結(jié)果。將此馬爾可夫模型作為baseline。
對于馬爾可夫模型中存在的任意兩個動作轉(zhuǎn)移,它支持所在查詢是滿意或者不滿意的程度不同,通過比較用戶滿意和不滿意情況下,狀態(tài)轉(zhuǎn)移概率的比值,可以將兩種情況下的典型動作模式篩選出來。典型動作模式生成算法如下。
算法2 用戶在滿意和不滿意查詢中典型動作模式得分算法INPUT:用戶在滿意查詢中的狀態(tài)轉(zhuǎn)移矩陣SatTransitionMatrix,用戶在不滿意查詢中的狀態(tài)轉(zhuǎn)移矩陣DSatTransition-MtrixOUTPUT:滿意查詢中的動作模式SatActionPattern,不滿意查詢中的動作模式DSatActionPattern1:function GETACTIONPATTERN(SatTM = SatTransitionMatrix.DSatTM = D SatTransitionMtrixl2: states←[start,hover,click,down,up,end]3: for OriginaIState=start→end do4: for DestinationState=start→end do5: SatOvetDSatValue← SatTM[OriginalState][DestinationState]/DSatTM[OriginaIState][DestinationState]6: DSatOverSatValue← DSatTM[OriginaIState][DestinationState]/SatTM[OriginalState][DestinationState]7: if Sat0verDSatValue>1+α then8: SatActionPattern[OriginalStatel][DestinationState]←SatOverDSatValue9: end if10: if DSatOvetSatValue>1+α then11: DSatActionPattern[OriginalState][DestinationState]←DSatOverDSatValue12: end if13: end for14: end for15:end function
用戶在滿意或者不滿意情況下,存在的典型動作模式如圖5和圖6所示。
Fig.5 Typical action pattern under satisfaction search圖5 用戶在滿意查詢中的典型動作模式
Fig.6 Typical action pattern under dissatisfaction search圖6 用戶在不滿意查詢中的典型動作模式
如果用戶在一次查詢會話中的動作序列為{start, click, end},該序列是用戶在滿意查詢下典型動作模式中所存在的序列,在該典型動作模式中得分較高,故而用戶該次查詢滿意的概率較大。
通過對查詢結(jié)束前一個動作內(nèi)容(包括start,scroll,hover,jump in, jump out)進(jìn)行統(tǒng)計(jì)分析,得到不同滿意度下的查詢結(jié)束前動作分布圖(見圖7),由動作分布圖可以看出,用戶滿意度較低(用戶滿意度為1,2,3)的查詢中,用戶一般以scroll結(jié)束查詢,用戶滿意度高的查詢中,用戶會以jump in(鼠標(biāo)點(diǎn)擊圖片鏈接后返回搜索結(jié)果頁面)結(jié)束查詢。用戶以scroll作為查詢結(jié)束的最后一個動作,意味著用戶在結(jié)束當(dāng)前查詢前,仍然用鼠標(biāo)滾動滑輪,試圖尋找著滿意的答案,該行為是用戶不滿意的一個強(qiáng)信號;用戶以jump in作為查詢結(jié)束的最后一個動作,意味著用戶在搜索結(jié)果頁面中點(diǎn)擊了一個圖片鏈接,用戶在檢查landing page(圖片詳情頁面)后,對整個查詢是滿意的,回到搜索結(jié)果頁面(jump in)后,就直接結(jié)束了當(dāng)前查詢。因此,加權(quán)馬爾可夫模型提高了這兩個動作預(yù)測用戶滿意度時的權(quán)重。
Fig.7 Distribution of last action before query session under different user satisfaction圖7 不同滿意度下的查詢結(jié)束前動作分布圖
最后,本文將GBDT模型和馬爾可夫模型結(jié)合對用戶滿意度進(jìn)行預(yù)測。首先,在馬爾可夫模型中抽取出了兩類特征,一類是馬爾可夫模型的預(yù)測輸出值,一類是馬爾可夫模型中所存在的典型動作模式的得分情況。
(1) 馬爾可夫模型預(yù)測結(jié)果作為特征:馬爾可夫模型的輸出值可以為GBDT模型提供2維的特征,一維是用戶是否滿意(0或者1,離散值),一維是用戶滿意或者不滿意的可能性(1左右的值,比1越大,代表模型認(rèn)為用戶滿意的可能性越大,比1越小,代表模型認(rèn)為用戶不滿意的可能性越大,連續(xù)值)。
(2) 馬爾可夫典型動作模式作為特征:分別計(jì)算要預(yù)測查詢會話中存在的動作轉(zhuǎn)移在用戶滿意和不滿意情況下典型動作模式圖的總得分作為GBDT模型的特征,對用戶滿意度進(jìn)行預(yù)測。
本文將抽取的馬爾可夫模型的特征添加至GBDT模型已有的特征中,生成GBDT+馬爾可夫特征模型(GBDT+Markov’s features Model),對用戶滿意度進(jìn)行預(yù)測。同時,對于同一查詢會話的用戶滿意度預(yù)測,GBDT模型和馬爾可夫模型都會有一個預(yù)測結(jié)果,本文提出的GBDT與馬爾可夫置信度選擇模型(Confidence Selection Model)是將兩個模型中置信度高的結(jié)果作為對用戶的滿意度預(yù)測的最終結(jié)果。
將GBDT模型和馬爾可夫基準(zhǔn)模型作為baseline,本文提出的所有拓展模型的表現(xiàn)如表5所示(其中,括號中第一個值代表相對于馬爾可夫基準(zhǔn)模型的表現(xiàn),第二個值代表相對于作為baseline的GBDT模型的表現(xiàn))。
表5 模型性能表
在所有模型中,GBDT與馬爾可夫置信度選擇模型的預(yù)測結(jié)果的效果最好,預(yù)測的精度達(dá)到了78.1%。整體上來看,GBDT相關(guān)的模型比單純基于馬爾可夫模型的相關(guān)模型(馬爾可夫基準(zhǔn)模型和加權(quán)馬爾可夫模型)表現(xiàn)要好一些。
用戶滿意度是衡量搜索引擎性能的關(guān)鍵因素。準(zhǔn)確地預(yù)測用戶滿意度可以輔助搜索引擎不斷改良,從而具有更高的行業(yè)競爭力。在傳統(tǒng)的網(wǎng)頁搜索中,根據(jù)用戶與搜索引擎交互過程中存在的特征和用戶使用搜索引擎時的動作序列能夠準(zhǔn)確地預(yù)測用戶的滿意度。相較于網(wǎng)頁搜索,圖像搜索引擎提供了不同的結(jié)果展示方式,改變了用戶與搜索引擎的交互行為。本文圍繞著圖像搜索環(huán)境下的用戶滿意度預(yù)測方法進(jìn)行設(shè)計(jì)、研究。
本文首先提出了基于Concordance的區(qū)分度指數(shù),用來衡量用戶與搜索引擎之間的交互信息中存在的一些特征在預(yù)測用戶滿意度時的效用。其次,針對圖像搜索環(huán)境下,提出了的新的特征來描述用戶與圖像搜索引擎間的交互行為,進(jìn)而預(yù)測用戶滿意度。并設(shè)計(jì)算法總結(jié)出了用戶在滿意查詢和不滿意查詢中存在的典型動作模式。最后,本文整合了用戶的行為特征,動作模式,動作狀態(tài)轉(zhuǎn)移情況等,設(shè)計(jì)出的模型在預(yù)測用戶滿意度時的準(zhǔn)確率達(dá)到了78%左右。本工作對在線指標(biāo)的設(shè)計(jì),用戶滿意度的預(yù)測等相關(guān)領(lǐng)域的研究都有著一定的參考價(jià)值。
本文中所使用的數(shù)據(jù)集包含了約1 500次本科生進(jìn)行圖像搜索的信息,是一個較小的數(shù)據(jù)集,該數(shù)據(jù)集在被試者的職業(yè)、年齡上存在局限性,因此所提出用戶滿意度預(yù)測模型的泛化能力有待評價(jià)。由于數(shù)據(jù)集較小,對于用戶在搜索過程中的動作類型區(qū)分較少,用戶的行為特征提取較為寬泛,也是導(dǎo)致用戶滿意度的預(yù)測精度不是很高的原因之一。在實(shí)際的圖像搜索環(huán)境中,用戶可以同時看到多個搜索結(jié)果,在對比圖像結(jié)果后才進(jìn)行點(diǎn)擊查看,圖像本身的吸引性等內(nèi)容特征也對用戶的滿意度影響較大,因此用戶與圖像搜索引擎存在著更多、更復(fù)雜的交互行為有待研究。同時,如何更好地解釋用于預(yù)測用戶滿意度的特征的含義也是今后的研究方向之一。