張輝,馬少平
(清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京100084)
搜索引擎作為訪問網(wǎng)絡(luò)信息資源最重要的工具,在人們的工作、學(xué)習(xí)和生活中發(fā)揮著至關(guān)重要的作用。搜索引擎根據(jù)用戶提交的查詢內(nèi)容,返回搜索引擎結(jié)果頁面(search engine results page,SERP),它通常包含1個(gè)典型的搜索結(jié)果列表,每條搜索結(jié)果包括標(biāo)題、摘要和網(wǎng)址等文本信息,隨著搜索引擎技術(shù)的發(fā)展,也可能包含圖片、視頻、投票等更多的信息[1]。SERP可以看作原始文檔的“文摘”(abstract),“摘要”(summary)或者“片段”(snippet),用戶對于原始文檔一無所知,只能根據(jù)看到的搜索結(jié)果進(jìn)行閱讀、認(rèn)知和判斷。因此,搜索結(jié)果的質(zhì)量直接影響用戶的搜索交互過程[2-3]。為吸引用戶有限的注意力,引導(dǎo)用戶關(guān)注更重要的內(nèi)容,搜索引擎往往采用突顯技術(shù),比如增加插圖、圖標(biāo)、文本標(biāo)記或可視化等[4-5]。以往的研究大都集中在評(píng)價(jià)搜索結(jié)果文本內(nèi)容質(zhì)量,還沒有學(xué)者評(píng)價(jià)搜索結(jié)果文本呈現(xiàn)方式效果。本文研究重點(diǎn)為在確定的查詢和搜索結(jié)果的情況下,宏觀和微觀自動(dòng)化評(píng)價(jià)不同展示策略(方式)的優(yōu)劣,力圖關(guān)注搜索結(jié)果評(píng)估的多個(gè)方面,如內(nèi)容、展現(xiàn)形式、豐富搜索結(jié)果質(zhì)量評(píng)估體系的完備性;根據(jù)用戶調(diào)查和訪談,提出視覺力、信息力和有效力這3個(gè)維度的結(jié)果展現(xiàn)效果評(píng)價(jià)體系,且這3個(gè)維度并不局限于特定的查詢和領(lǐng)域。實(shí)驗(yàn)顯示該方法,在傳統(tǒng)文本搜索結(jié)果的展示效果評(píng)價(jià)方面,與人工標(biāo)注結(jié)果和用戶A/B實(shí)驗(yàn)結(jié)果具有較高一致性,因此該方法具有較強(qiáng)的可操作性;另外,使用定序回歸分析模型(ordinal logistic regression model,OLRM)分析和研究這3個(gè)維度的重要性。
本文搜索結(jié)果示例如圖1所示,調(diào)查用戶閱讀這條搜索結(jié)果時(shí)所記住的內(nèi)容,詢問他們認(rèn)為這條搜索結(jié)果是否與查詢“認(rèn)知能力”相關(guān),并且詢問是否會(huì)點(diǎn)擊這條結(jié)果。調(diào)查顯示:當(dāng)以圖1(a)顯示搜索結(jié)果時(shí),95%用戶認(rèn)為這條結(jié)果與查詢相關(guān)并且會(huì)點(diǎn)擊它,記住最多的3 個(gè)詞語為“認(rèn)知能力”“篩選”和“信息”,而當(dāng)以圖1(b)顯示搜索結(jié)果時(shí),只有40%用戶認(rèn)為這條結(jié)果與查詢相關(guān)并點(diǎn)擊它,記住最多的3個(gè)詞語是“荒島”“金幣”和“參賽者”??梢钥闯?,即使相同的文本內(nèi)容,采用不同的文本突顯技術(shù),所展示的效果以及帶給用戶的感受是不同的,并影響用戶判斷相關(guān)性和獲取信息。
對搜索結(jié)果摘要質(zhì)量評(píng)估的研究由來已久,將生成搜索結(jié)果摘要的過程看成原始文檔生成自動(dòng)文摘的過程,并將文本自動(dòng)文摘評(píng)價(jià)方法應(yīng)用到該領(lǐng)域。主要包括2種方法:一是直接與人工形成的標(biāo)準(zhǔn)文摘進(jìn)行對比,同時(shí)評(píng)價(jià)該文摘內(nèi)容的完整性和語句連貫性,現(xiàn)在應(yīng)用廣泛的為LIN等[6-7]提出的ROUGE 方法;二是面向任務(wù)的評(píng)價(jià),把搜索結(jié)果摘要放在1個(gè)具體的搜索任務(wù)中,比較不同搜索結(jié)果摘要的具體表現(xiàn),測試其對用戶搜索行為或者滿意度的影響[8-9]。這2種評(píng)價(jià)各有優(yōu)缺點(diǎn),在評(píng)價(jià)搜索結(jié)果文本內(nèi)容的質(zhì)量方面,可以綜合運(yùn)用。
對于SERP 展示的研究主要集中在頁面要素布局、大小以及排列方式。對于用戶搜索行為的影響,一般通過設(shè)置受控的用戶實(shí)驗(yàn)或者真實(shí)的用戶搜索日志數(shù)據(jù)進(jìn)行研究分析[10-12]。這些研究集中在宏觀的整體SERP顯示策略,而沒有重點(diǎn)研究單條搜索結(jié)果的展示策略。以往的研究就是針對不同的突顯策略下,單條搜索結(jié)果的展示形式對用戶搜索過程的影響。對于同樣的文本內(nèi)容,選擇不同的突顯策略,將會(huì)對用戶搜索過程產(chǎn)生極大的影響,SERP或者Snippet中突顯比例過高或者數(shù)量過多,都會(huì)降低用戶滿意度和搜索效率[13]。
搜索結(jié)果摘要的評(píng)價(jià)不僅包括內(nèi)容的評(píng)價(jià)[14-16],而且包括展示形式的評(píng)價(jià),這樣才能真實(shí)反映1個(gè)結(jié)果,與用戶的實(shí)際感受和認(rèn)知相一致。該問題目前面臨2個(gè)方面的挑戰(zhàn):一是科學(xué)和明確地定義“好的結(jié)果”非常困難,本文的研究采用組合評(píng)價(jià)的思想,假設(shè)內(nèi)容評(píng)價(jià)和展示方式評(píng)價(jià)之間相互獨(dú)立,將搜索結(jié)果的評(píng)價(jià)劃分為內(nèi)容的評(píng)價(jià)和基于相同內(nèi)容的展示方式評(píng)價(jià);二是搜索結(jié)果摘要的評(píng)價(jià)是與具體查詢?nèi)蝿?wù)相關(guān),必須是在查詢和原始文檔都確定的情況下,才能進(jìn)行評(píng)價(jià),當(dāng)沒有用戶查詢時(shí),其評(píng)價(jià)便失去意義。本文將搜索結(jié)果的評(píng)價(jià)分為2步,在內(nèi)容評(píng)價(jià)的基礎(chǔ)上,基于相同內(nèi)容開展搜索結(jié)果展示效果的評(píng)價(jià),雖然與最終的整體評(píng)價(jià)還有一定的距離,但是它是目前可行的方案。
用戶受控實(shí)驗(yàn)或者人工標(biāo)注都要耗費(fèi)大量的人力和物力,人們期待能夠有自動(dòng)的評(píng)價(jià)算法,計(jì)算并比較2種不同搜索結(jié)果。本文總結(jié)前人工作中與搜索結(jié)果摘要展現(xiàn)效果相關(guān)的因素,然后進(jìn)行用戶眾包調(diào)查和標(biāo)注,最后,根據(jù)用戶調(diào)查和標(biāo)注的結(jié)果與經(jīng)常使用搜索引擎的實(shí)際用戶和專業(yè)的網(wǎng)頁設(shè)計(jì)者進(jìn)行訪談,確定影響搜索結(jié)果摘要呈現(xiàn)方式的15 個(gè)因素,如表1所示。
圖1 文本搜索結(jié)果示例Fig.1 Example of a snippet
表1 搜索結(jié)果展示效果評(píng)價(jià)體系Table 1 Snippet presentation evaluation system
以往的研究成果和本文開展的用戶標(biāo)注結(jié)果顯示:用戶認(rèn)為搜索結(jié)果中含有相關(guān)的視頻或插圖、合適的文本突顯比例、豐富的文本突顯信息以及可信的數(shù)據(jù)來源能夠增加用戶的閱讀和認(rèn)知體驗(yàn),提高信息的檢索效率。
對于搜索結(jié)果,當(dāng)查詢和搜索結(jié)果內(nèi)容都確定時(shí),2 條結(jié)果的展示差異主要源于突顯策略的差異。目前商用搜索引擎在搜索結(jié)果文本展示方面,通常采用查詢詞標(biāo)紅的突顯策略,可以將這1個(gè)策略作為參照基準(zhǔn)。評(píng)估展現(xiàn)形式的優(yōu)劣,一種方法是對比參照基準(zhǔn),進(jìn)行人工標(biāo)注或者用戶受控實(shí)驗(yàn),定性地評(píng)估;另一種方法是根據(jù)表1提出的影響因素,計(jì)算其展示效果得分,自動(dòng)化定量地評(píng)估。
對于評(píng)價(jià)體系中視覺力中的每個(gè)因素,如果結(jié)論為“是”,計(jì)1分,否則計(jì)0分。本文的研究重點(diǎn)是純文本搜索結(jié)果的展示效果,統(tǒng)一采用沒有視頻和插圖的搜索結(jié)果,視覺力得分都為0,可以忽略不計(jì)。對于信息力,若查詢或答案包含多個(gè)詞語,則計(jì)算平均相關(guān)性。相關(guān)性計(jì)算采用Word2Vec算法(https://code.google.com/p/word2vec/)基于SogouT 數(shù)據(jù)集(http://www.sogou.com/labs/dl/t-e.html)訓(xùn)練得到詞向量,相關(guān)性為詞向量的余弦相似度得分。如果不知道答案或答案為空,則此項(xiàng)為0分。合適的標(biāo)紅比例和數(shù)量能夠吸引用戶注意力但不會(huì)讓用戶產(chǎn)生困擾,它應(yīng)該是一個(gè)區(qū)間,在區(qū)間內(nèi)取1分,否則取0分。根據(jù)用戶標(biāo)注的結(jié)果,本文采用的標(biāo)紅數(shù)量區(qū)間為[2,7],標(biāo)紅比例區(qū)間為[10%,20%]。突顯內(nèi)容的可讀性可以采用中文詞語的難度等級(jí)、單字詞的數(shù)量以及非漢字字符的數(shù)量計(jì)算,并且進(jìn)行(0,1)歸一化處理,其中難度等級(jí)依據(jù)《漢語水平詞匯與漢字等級(jí)大綱》,對于未收錄詞語和漢字,按最高難度等級(jí)計(jì)算。對于有效力,如果結(jié)論為“是”,計(jì)1分,否則計(jì)0分。其中權(quán)威性為該網(wǎng)站的流量排名,并進(jìn)行(0,1)歸一化處理。最后,對3個(gè)維度得分進(jìn)行加權(quán)平均,本文選用的加權(quán)系數(shù)都為1/3,最終得到單條搜索結(jié)果的展示效果得分。對于圖1中的2種展示,計(jì)算其展示效果得分分別為0.23和0.07,圖1(a)所示的突顯內(nèi)容與查詢更相關(guān)并且可讀性更強(qiáng)。
中文搜索用戶提交查詢多以關(guān)鍵詞為主,而且93.15%的查詢少于3 個(gè)[17]。選取NTCIR Imine[18]中的12 對共24 個(gè)中文查詢,包括2 對(4 個(gè))導(dǎo)航類查詢(navigational tasks,NA),2 對(4 個(gè))事 務(wù) 類 查 詢(transactional tasks,TR)和8 對(16 個(gè))信 息 類 查 詢(informational tasks,IN),每對任務(wù)的查詢需求類似,難度相當(dāng)。搜索結(jié)果來自于Google 搜索引擎,去除SERP 中含有圖片、視頻等的垂直結(jié)果,僅選取包含純文本的前10 條結(jié)果,最終得到24 個(gè)查詢和對應(yīng)的240個(gè)搜索結(jié)果。
將Google 搜索引擎展示的搜索結(jié)果作為對比基準(zhǔn),記為P1。為與P1進(jìn)行對比,人工標(biāo)注另一種搜索結(jié)果的展示方式,記為P2。本文提供給用戶查詢?nèi)蝿?wù)說明、查詢以及無任何文本突顯效果的搜索結(jié)果,讓用戶根據(jù)任務(wù)需求和查詢的理解,標(biāo)注重要的、對于完成搜索任務(wù)有價(jià)值的、該被突顯的詞/短語。每條搜索結(jié)果邀請10名用戶標(biāo)注,若某個(gè)詞語被4名以上用戶標(biāo)注為突顯詞,這個(gè)詞語就會(huì)被突出顯示。這么設(shè)定則是為了與Google 突顯策略保持相近的標(biāo)紅比例。
為分析不同維度對搜索結(jié)果呈現(xiàn)效果的影響程度,實(shí)驗(yàn)要求標(biāo)注用戶對P2策略下240個(gè)搜索結(jié)果的呈現(xiàn)效果進(jìn)行總體打分以及對信息力和有效力特征分別打分(視覺力維度得分全部為0),分?jǐn)?shù)為0~3 共4級(jí)(其中3 表示呈現(xiàn)效果非常好,0 表示呈現(xiàn)效果極差)。共邀請4名標(biāo)注者,標(biāo)注者之間的平均kappa系數(shù)為0.507,這是一個(gè)中等一致的結(jié)果[19]。
使用式(1)所示的OLRM模型[20]對評(píng)價(jià)體系的2個(gè)維度和總得分的關(guān)系進(jìn)行分析。
logit(Overall≤j)=α+β1X1+β2X2(1)
式中:Overall為總體呈現(xiàn)效果得分;j為呈現(xiàn)效果的所有可能得分常數(shù),取值為[1,3];X1和X2分別為信息力和有效力維度特征;α為截距;β為每個(gè)特征的系數(shù),該系數(shù)越大,則表示該特征對總得分的影響越大。表2所示為對4 名標(biāo)注者的標(biāo)注結(jié)果進(jìn)行模型擬合的結(jié)果,其中β為不同維度特征擬合出來的系數(shù),p為顯著性水平,p越小,說明對應(yīng)維度特征的貢獻(xiàn)越顯著。
表2 標(biāo)注結(jié)果回歸分析Table 2 Regression analysis of annotated results
對于擬合出的模型,人們主要關(guān)心的是不同維度特征對應(yīng)β相對大小。值得注意的是,不同的標(biāo)注者擬合的β之間不能直接進(jìn)行比較。從表2可以看出:特征對應(yīng)的p均小于0.01,說明這2 個(gè)維度特征對搜索結(jié)果最終呈現(xiàn)效果均有顯著影響;其對應(yīng)的β均為正值,說明這些特征與呈現(xiàn)效果是正相關(guān)的。信息力特征的β較高,說明結(jié)果文本標(biāo)題和摘要內(nèi)容的突顯效果相比于信息來源和作者等附加信息是更加重要的特征。
為了進(jìn)一步分析15 個(gè)特征的重要性,利用一種簡單打分的方法,采用式(2)計(jì)算得分G來衡量單個(gè)特征k的區(qū)分能力。
計(jì)算所有特征的G如表3所示,特征編號(hào)與表1一致。從表3可以發(fā)現(xiàn):共計(jì)有8個(gè)特征具有一定的區(qū)分能力,打分最高的3 個(gè)特征屬于信息力的維度,分別為標(biāo)題突顯詞與查詢的相關(guān)性、摘要中突顯詞的數(shù)量以及摘要中突顯詞與查詢的相關(guān)性。
表3 特征參數(shù)的影響力GTable 3 InfluenceG score of characteristic parameters
將24 個(gè)查詢和240 個(gè)搜索結(jié)果形成10 份調(diào)查問卷,每份問卷對應(yīng)24個(gè)問題,如圖2所示。每個(gè)問題對應(yīng)一個(gè)查詢和同一個(gè)搜索結(jié)果的2 種不同展示形式,邀請眾多用戶進(jìn)行人工評(píng)測,選擇對哪種顯示方式更加滿意。對方式一和方式二的選項(xiàng)進(jìn)行了隨機(jī)設(shè)置。
對每個(gè)問卷,收集100 個(gè)使用搜索引擎超過3年且學(xué)歷為本科以上的用戶數(shù)據(jù),這樣對應(yīng)每一個(gè)查詢(搜索結(jié)果),都有100個(gè)人工評(píng)測的滿意度。
對于240個(gè)搜索結(jié)果,根據(jù)調(diào)查問卷,若更多的用戶滿意P1,則P1記1分,而P2記0分;否則P1記0分,P2記1分。若兩者人數(shù)相同,則都記1分。對于對于240個(gè)搜索結(jié)果,利用自動(dòng)評(píng)價(jià)算法,得到P1和P2展示效果得分,若P1>P2,則P1記1分,P2記0分;否則P1記0分,P2記1分。若兩者人數(shù)相同,則都記1分。計(jì)算自動(dòng)算法得到的結(jié)果與人工評(píng)測得到結(jié)果的相關(guān)性系數(shù),P1策略下Spearman 系數(shù)為0.853,P2策略下Spearman 系數(shù)為0.859,說明利用本文提出的自動(dòng)算法以達(dá)到與人工評(píng)測相近的水平。
每個(gè)查詢有SERP的10 個(gè)搜索結(jié)果,用戶對于SERP的滿意度采用10個(gè)結(jié)果的算數(shù)平均滿意度,統(tǒng)計(jì)結(jié)果如圖3所示。
平均47%用戶滿意P2的展示方式,滿意P1的用戶僅有24%,而另外29%用戶認(rèn)為兩者區(qū)別不大。對應(yīng)24個(gè)查詢?nèi)蝿?wù)SERP,用戶更滿意其中18個(gè)使用P2展示策略的SERP,4 個(gè)使用P1展示策略的SERP,而另外2 個(gè)SERP 使用2 種展示策略給用戶的感覺差別不大。從圖3可以看出:對于搜索引擎而言,P2比P1更好。但是對于某一任務(wù)來說,哪種策略更好是不確定的,這也說明展示效果與查詢?nèi)蝿?wù)相關(guān)。
圖2 滿意度人工評(píng)測調(diào)查問卷示例Fig.2 An example of satisfaction questionnaire
本文開發(fā)的實(shí)驗(yàn)用搜索引擎可以完成正常的搜索功能,同時(shí)記錄用戶的鼠標(biāo)交互數(shù)據(jù)。本文共邀請12 個(gè)參與者完成2 種展示的對照實(shí)驗(yàn),每人完成24個(gè)查詢,其中12個(gè)查詢采用P1展示而另外12個(gè)采用P2展示。采用希臘拉丁方法和隨機(jī)序列的方法,保證每個(gè)任務(wù)以相同的概率展現(xiàn)給用戶,對于每種展示下的每個(gè)任務(wù),可以收集到6個(gè)用戶的搜索數(shù)據(jù),統(tǒng)計(jì)結(jié)果如表4所示,其中,?代表下降且統(tǒng)計(jì)顯著性指標(biāo)p<0.1。相比于P1的展示策略,P2展示策略下,用戶閱讀摘要的時(shí)間更短,并且點(diǎn)擊次數(shù)、長度和最大排名都明顯減少,說明用戶花費(fèi)更少的時(shí)間就能獲得滿意的結(jié)果,極大地提高搜索效益。因此,P2是比P1更好的突顯策略。這與人工評(píng)測和自動(dòng)評(píng)測得到的結(jié)論相一致。
圖3 SERP滿意度統(tǒng)計(jì)結(jié)果Fig.3 SERP satisfaction statistics results
表4 用戶A/B測試實(shí)驗(yàn)結(jié)果Table 4 User A/B test experimental results
1)在信息需求飛速增長的時(shí)代,建立適合搜索引擎實(shí)際應(yīng)用環(huán)境的搜索結(jié)果評(píng)估體系與自動(dòng)評(píng)估算法成為信息檢索領(lǐng)域的重要研究課題。本文提出一個(gè)綜合考慮視覺力、信息力和有效力這3個(gè)維度共15個(gè)指標(biāo)的搜索結(jié)果展示效果評(píng)價(jià)體系,該體系具有較強(qiáng)的可操作性,與人工標(biāo)注結(jié)果和用戶A/B實(shí)驗(yàn)結(jié)果取得了相一致的結(jié)論;使用邏輯回歸模型擬合結(jié)果顯示,信息力和有效力都對搜索結(jié)果的展示效果有顯著影響,且信息力的影響更大。
2)搜索結(jié)果的展示效果的評(píng)估是一個(gè)復(fù)雜的任務(wù),它與實(shí)際查詢?nèi)蝿?wù)類型、領(lǐng)域和信息需求都緊密相關(guān),下一步將結(jié)合查詢?nèi)蝿?wù)的領(lǐng)域和類型,完善評(píng)價(jià)體系;提取合適的客觀特征,實(shí)現(xiàn)搜索引擎結(jié)果展示效果的自動(dòng)評(píng)價(jià)。