搜索引擎結(jié)果展示效果自動(dòng)評(píng)價(jià)方法

2019-07-20 07:36張輝馬少平

中南大學(xué)學(xué)報(bào)（自然科學(xué)版） 2019年6期

張輝，馬少平

(清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系，智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室，北京100084)

搜索引擎作為訪問網(wǎng)絡(luò)信息資源最重要的工具，在人們的工作、學(xué)習(xí)和生活中發(fā)揮著至關(guān)重要的作用。搜索引擎根據(jù)用戶提交的查詢內(nèi)容，返回搜索引擎結(jié)果頁面(search engine results page，SERP)，它通常包含1個(gè)典型的搜索結(jié)果列表，每條搜索結(jié)果包括標(biāo)題、摘要和網(wǎng)址等文本信息，隨著搜索引擎技術(shù)的發(fā)展，也可能包含圖片、視頻、投票等更多的信息[1]。SERP可以看作原始文檔的“文摘”(abstract)，“摘要”(summary)或者“片段”(snippet)，用戶對于原始文檔一無所知，只能根據(jù)看到的搜索結(jié)果進(jìn)行閱讀、認(rèn)知和判斷。因此，搜索結(jié)果的質(zhì)量直接影響用戶的搜索交互過程[2-3]。為吸引用戶有限的注意力，引導(dǎo)用戶關(guān)注更重要的內(nèi)容，搜索引擎往往采用突顯技術(shù)，比如增加插圖、圖標(biāo)、文本標(biāo)記或可視化等[4-5]。以往的研究大都集中在評(píng)價(jià)搜索結(jié)果文本內(nèi)容質(zhì)量，還沒有學(xué)者評(píng)價(jià)搜索結(jié)果文本呈現(xiàn)方式效果。本文研究重點(diǎn)為在確定的查詢和搜索結(jié)果的情況下，宏觀和微觀自動(dòng)化評(píng)價(jià)不同展示策略(方式)的優(yōu)劣，力圖關(guān)注搜索結(jié)果評(píng)估的多個(gè)方面，如內(nèi)容、展現(xiàn)形式、豐富搜索結(jié)果質(zhì)量評(píng)估體系的完備性；根據(jù)用戶調(diào)查和訪談，提出視覺力、信息力和有效力這3個(gè)維度的結(jié)果展現(xiàn)效果評(píng)價(jià)體系，且這3個(gè)維度并不局限于特定的查詢和領(lǐng)域。實(shí)驗(yàn)顯示該方法，在傳統(tǒng)文本搜索結(jié)果的展示效果評(píng)價(jià)方面，與人工標(biāo)注結(jié)果和用戶A/B實(shí)驗(yàn)結(jié)果具有較高一致性，因此該方法具有較強(qiáng)的可操作性；另外，使用定序回歸分析模型(ordinal logistic regression model，OLRM)分析和研究這3個(gè)維度的重要性。

1 相關(guān)研究

本文搜索結(jié)果示例如圖1所示，調(diào)查用戶閱讀這條搜索結(jié)果時(shí)所記住的內(nèi)容，詢問他們認(rèn)為這條搜索結(jié)果是否與查詢“認(rèn)知能力”相關(guān)，并且詢問是否會(huì)點(diǎn)擊這條結(jié)果。調(diào)查顯示：當(dāng)以圖1(a)顯示搜索結(jié)果時(shí)，95%用戶認(rèn)為這條結(jié)果與查詢相關(guān)并且會(huì)點(diǎn)擊它，記住最多的3 個(gè)詞語為“認(rèn)知能力”“篩選”和“信息”，而當(dāng)以圖1(b)顯示搜索結(jié)果時(shí)，只有40%用戶認(rèn)為這條結(jié)果與查詢相關(guān)并點(diǎn)擊它，記住最多的3個(gè)詞語是“荒島”“金幣”和“參賽者”?？梢钥闯?，即使相同的文本內(nèi)容，采用不同的文本突顯技術(shù)，所展示的效果以及帶給用戶的感受是不同的，并影響用戶判斷相關(guān)性和獲取信息。

對搜索結(jié)果摘要質(zhì)量評(píng)估的研究由來已久，將生成搜索結(jié)果摘要的過程看成原始文檔生成自動(dòng)文摘的過程，并將文本自動(dòng)文摘評(píng)價(jià)方法應(yīng)用到該領(lǐng)域。主要包括2種方法：一是直接與人工形成的標(biāo)準(zhǔn)文摘進(jìn)行對比，同時(shí)評(píng)價(jià)該文摘內(nèi)容的完整性和語句連貫性，現(xiàn)在應(yīng)用廣泛的為LIN等[6-7]提出的ROUGE 方法；二是面向任務(wù)的評(píng)價(jià)，把搜索結(jié)果摘要放在1個(gè)具體的搜索任務(wù)中，比較不同搜索結(jié)果摘要的具體表現(xiàn)，測試其對用戶搜索行為或者滿意度的影響[8-9]。這2種評(píng)價(jià)各有優(yōu)缺點(diǎn)，在評(píng)價(jià)搜索結(jié)果文本內(nèi)容的質(zhì)量方面，可以綜合運(yùn)用。

對于SERP 展示的研究主要集中在頁面要素布局、大小以及排列方式。對于用戶搜索行為的影響，一般通過設(shè)置受控的用戶實(shí)驗(yàn)或者真實(shí)的用戶搜索日志數(shù)據(jù)進(jìn)行研究分析[10-12]。這些研究集中在宏觀的整體SERP顯示策略，而沒有重點(diǎn)研究單條搜索結(jié)果的展示策略。以往的研究就是針對不同的突顯策略下，單條搜索結(jié)果的展示形式對用戶搜索過程的影響。對于同樣的文本內(nèi)容，選擇不同的突顯策略，將會(huì)對用戶搜索過程產(chǎn)生極大的影響，SERP或者Snippet中突顯比例過高或者數(shù)量過多，都會(huì)降低用戶滿意度和搜索效率[13]。

搜索結(jié)果摘要的評(píng)價(jià)不僅包括內(nèi)容的評(píng)價(jià)[14-16]，而且包括展示形式的評(píng)價(jià)，這樣才能真實(shí)反映1個(gè)結(jié)果，與用戶的實(shí)際感受和認(rèn)知相一致。該問題目前面臨2個(gè)方面的挑戰(zhàn)：一是科學(xué)和明確地定義“好的結(jié)果”非常困難，本文的研究采用組合評(píng)價(jià)的思想，假設(shè)內(nèi)容評(píng)價(jià)和展示方式評(píng)價(jià)之間相互獨(dú)立，將搜索結(jié)果的評(píng)價(jià)劃分為內(nèi)容的評(píng)價(jià)和基于相同內(nèi)容的展示方式評(píng)價(jià)；二是搜索結(jié)果摘要的評(píng)價(jià)是與具體查詢?nèi)蝿?wù)相關(guān)，必須是在查詢和原始文檔都確定的情況下，才能進(jìn)行評(píng)價(jià)，當(dāng)沒有用戶查詢時(shí)，其評(píng)價(jià)便失去意義。本文將搜索結(jié)果的評(píng)價(jià)分為2步，在內(nèi)容評(píng)價(jià)的基礎(chǔ)上，基于相同內(nèi)容開展搜索結(jié)果展示效果的評(píng)價(jià)，雖然與最終的整體評(píng)價(jià)還有一定的距離，但是它是目前可行的方案。

2 評(píng)價(jià)體系及自動(dòng)評(píng)價(jià)算法

用戶受控實(shí)驗(yàn)或者人工標(biāo)注都要耗費(fèi)大量的人力和物力，人們期待能夠有自動(dòng)的評(píng)價(jià)算法，計(jì)算并比較2種不同搜索結(jié)果。本文總結(jié)前人工作中與搜索結(jié)果摘要展現(xiàn)效果相關(guān)的因素，然后進(jìn)行用戶眾包調(diào)查和標(biāo)注，最后，根據(jù)用戶調(diào)查和標(biāo)注的結(jié)果與經(jīng)常使用搜索引擎的實(shí)際用戶和專業(yè)的網(wǎng)頁設(shè)計(jì)者進(jìn)行訪談，確定影響搜索結(jié)果摘要呈現(xiàn)方式的15 個(gè)因素，如表1所示。

圖1 文本搜索結(jié)果示例Fig.1 Example of a snippet

表1 搜索結(jié)果展示效果評(píng)價(jià)體系Table 1 Snippet presentation evaluation system

以往的研究成果和本文開展的用戶標(biāo)注結(jié)果顯示：用戶認(rèn)為搜索結(jié)果中含有相關(guān)的視頻或插圖、合適的文本突顯比例、豐富的文本突顯信息以及可信的數(shù)據(jù)來源能夠增加用戶的閱讀和認(rèn)知體驗(yàn)，提高信息的檢索效率。

對于搜索結(jié)果，當(dāng)查詢和搜索結(jié)果內(nèi)容都確定時(shí)，2 條結(jié)果的展示差異主要源于突顯策略的差異。目前商用搜索引擎在搜索結(jié)果文本展示方面，通常采用查詢詞標(biāo)紅的突顯策略，可以將這1個(gè)策略作為參照基準(zhǔn)。評(píng)估展現(xiàn)形式的優(yōu)劣，一種方法是對比參照基準(zhǔn)，進(jìn)行人工標(biāo)注或者用戶受控實(shí)驗(yàn)，定性地評(píng)估；另一種方法是根據(jù)表1提出的影響因素，計(jì)算其展示效果得分，自動(dòng)化定量地評(píng)估。

對于評(píng)價(jià)體系中視覺力中的每個(gè)因素，如果結(jié)論為“是”，計(jì)1分，否則計(jì)0分。本文的研究重點(diǎn)是純文本搜索結(jié)果的展示效果，統(tǒng)一采用沒有視頻和插圖的搜索結(jié)果，視覺力得分都為0，可以忽略不計(jì)。對于信息力，若查詢或答案包含多個(gè)詞語，則計(jì)算平均相關(guān)性。相關(guān)性計(jì)算采用Word2Vec算法(https://code.google.com/p/word2vec/)基于SogouT 數(shù)據(jù)集(http://www.sogou.com/labs/dl/t-e.html)訓(xùn)練得到詞向量，相關(guān)性為詞向量的余弦相似度得分。如果不知道答案或答案為空，則此項(xiàng)為0分。合適的標(biāo)紅比例和數(shù)量能夠吸引用戶注意力但不會(huì)讓用戶產(chǎn)生困擾，它應(yīng)該是一個(gè)區(qū)間，在區(qū)間內(nèi)取1分，否則取0分。根據(jù)用戶標(biāo)注的結(jié)果，本文采用的標(biāo)紅數(shù)量區(qū)間為[2,7]，標(biāo)紅比例區(qū)間為[10%,20%]。突顯內(nèi)容的可讀性可以采用中文詞語的難度等級(jí)、單字詞的數(shù)量以及非漢字字符的數(shù)量計(jì)算，并且進(jìn)行(0,1)歸一化處理，其中難度等級(jí)依據(jù)《漢語水平詞匯與漢字等級(jí)大綱》，對于未收錄詞語和漢字，按最高難度等級(jí)計(jì)算。對于有效力，如果結(jié)論為“是”，計(jì)1分，否則計(jì)0分。其中權(quán)威性為該網(wǎng)站的流量排名，并進(jìn)行(0,1)歸一化處理。最后，對3個(gè)維度得分進(jìn)行加權(quán)平均，本文選用的加權(quán)系數(shù)都為1/3，最終得到單條搜索結(jié)果的展示效果得分。對于圖1中的2種展示，計(jì)算其展示效果得分分別為0.23和0.07，圖1(a)所示的突顯內(nèi)容與查詢更相關(guān)并且可讀性更強(qiáng)。

3 實(shí)驗(yàn)結(jié)果和分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

中文搜索用戶提交查詢多以關(guān)鍵詞為主，而且93.15%的查詢少于3 個(gè)[17]。選取NTCIR Imine[18]中的12 對共24 個(gè)中文查詢，包括2 對(4 個(gè))導(dǎo)航類查詢(navigational tasks,NA)，2 對(4 個(gè))事務(wù) 類查詢(transactional tasks,TR)和8 對(16 個(gè))信息類查詢(informational tasks，IN)，每對任務(wù)的查詢需求類似,難度相當(dāng)。搜索結(jié)果來自于Google 搜索引擎，去除SERP 中含有圖片、視頻等的垂直結(jié)果，僅選取包含純文本的前10 條結(jié)果，最終得到24 個(gè)查詢和對應(yīng)的240個(gè)搜索結(jié)果。

將Google 搜索引擎展示的搜索結(jié)果作為對比基準(zhǔn)，記為P1。為與P1進(jìn)行對比，人工標(biāo)注另一種搜索結(jié)果的展示方式，記為P2。本文提供給用戶查詢?nèi)蝿?wù)說明、查詢以及無任何文本突顯效果的搜索結(jié)果，讓用戶根據(jù)任務(wù)需求和查詢的理解，標(biāo)注重要的、對于完成搜索任務(wù)有價(jià)值的、該被突顯的詞/短語。每條搜索結(jié)果邀請10名用戶標(biāo)注，若某個(gè)詞語被4名以上用戶標(biāo)注為突顯詞，這個(gè)詞語就會(huì)被突出顯示。這么設(shè)定則是為了與Google 突顯策略保持相近的標(biāo)紅比例。

3.2 影響因素重要性分析

為分析不同維度對搜索結(jié)果呈現(xiàn)效果的影響程度，實(shí)驗(yàn)要求標(biāo)注用戶對P2策略下240個(gè)搜索結(jié)果的呈現(xiàn)效果進(jìn)行總體打分以及對信息力和有效力特征分別打分(視覺力維度得分全部為0)，分?jǐn)?shù)為0～3 共4級(jí)(其中3 表示呈現(xiàn)效果非常好，0 表示呈現(xiàn)效果極差)。共邀請4名標(biāo)注者，標(biāo)注者之間的平均kappa系數(shù)為0.507，這是一個(gè)中等一致的結(jié)果[19]。

使用式(1)所示的OLRM模型[20]對評(píng)價(jià)體系的2個(gè)維度和總得分的關(guān)系進(jìn)行分析。

logit(Overall≤j)=α+β1X1+β2X2(1)

式中：Overall為總體呈現(xiàn)效果得分；j為呈現(xiàn)效果的所有可能得分常數(shù)，取值為[1,3]；X1和X2分別為信息力和有效力維度特征；α為截距；β為每個(gè)特征的系數(shù)，該系數(shù)越大，則表示該特征對總得分的影響越大。表2所示為對4 名標(biāo)注者的標(biāo)注結(jié)果進(jìn)行模型擬合的結(jié)果，其中β為不同維度特征擬合出來的系數(shù)，p為顯著性水平，p越小，說明對應(yīng)維度特征的貢獻(xiàn)越顯著。

表2 標(biāo)注結(jié)果回歸分析Table 2 Regression analysis of annotated results

對于擬合出的模型，人們主要關(guān)心的是不同維度特征對應(yīng)β相對大小。值得注意的是，不同的標(biāo)注者擬合的β之間不能直接進(jìn)行比較。從表2可以看出：特征對應(yīng)的p均小于0.01，說明這2 個(gè)維度特征對搜索結(jié)果最終呈現(xiàn)效果均有顯著影響；其對應(yīng)的β均為正值，說明這些特征與呈現(xiàn)效果是正相關(guān)的。信息力特征的β較高，說明結(jié)果文本標(biāo)題和摘要內(nèi)容的突顯效果相比于信息來源和作者等附加信息是更加重要的特征。

為了進(jìn)一步分析15 個(gè)特征的重要性，利用一種簡單打分的方法，采用式(2)計(jì)算得分G來衡量單個(gè)特征k的區(qū)分能力。

計(jì)算所有特征的G如表3所示，特征編號(hào)與表1一致。從表3可以發(fā)現(xiàn)：共計(jì)有8個(gè)特征具有一定的區(qū)分能力，打分最高的3 個(gè)特征屬于信息力的維度，分別為標(biāo)題突顯詞與查詢的相關(guān)性、摘要中突顯詞的數(shù)量以及摘要中突顯詞與查詢的相關(guān)性。

表3 特征參數(shù)的影響力GTable 3 InfluenceG score of characteristic parameters

3.3 與人工評(píng)測的一致性對比

將24 個(gè)查詢和240 個(gè)搜索結(jié)果形成10 份調(diào)查問卷，每份問卷對應(yīng)24個(gè)問題，如圖2所示。每個(gè)問題對應(yīng)一個(gè)查詢和同一個(gè)搜索結(jié)果的2 種不同展示形式，邀請眾多用戶進(jìn)行人工評(píng)測，選擇對哪種顯示方式更加滿意。對方式一和方式二的選項(xiàng)進(jìn)行了隨機(jī)設(shè)置。

對每個(gè)問卷，收集100 個(gè)使用搜索引擎超過3年且學(xué)歷為本科以上的用戶數(shù)據(jù)，這樣對應(yīng)每一個(gè)查詢(搜索結(jié)果)，都有100個(gè)人工評(píng)測的滿意度。

對于240個(gè)搜索結(jié)果，根據(jù)調(diào)查問卷，若更多的用戶滿意P1，則P1記1分，而P2記0分；否則P1記0分，P2記1分。若兩者人數(shù)相同，則都記1分。對于對于240個(gè)搜索結(jié)果，利用自動(dòng)評(píng)價(jià)算法，得到P1和P2展示效果得分，若P1>P2，則P1記1分，P2記0分；否則P1記0分，P2記1分。若兩者人數(shù)相同，則都記1分。計(jì)算自動(dòng)算法得到的結(jié)果與人工評(píng)測得到結(jié)果的相關(guān)性系數(shù)，P1策略下Spearman 系數(shù)為0.853，P2策略下Spearman 系數(shù)為0.859，說明利用本文提出的自動(dòng)算法以達(dá)到與人工評(píng)測相近的水平。

每個(gè)查詢有SERP的10 個(gè)搜索結(jié)果，用戶對于SERP的滿意度采用10個(gè)結(jié)果的算數(shù)平均滿意度，統(tǒng)計(jì)結(jié)果如圖3所示。

平均47%用戶滿意P2的展示方式，滿意P1的用戶僅有24%，而另外29%用戶認(rèn)為兩者區(qū)別不大。對應(yīng)24個(gè)查詢?nèi)蝿?wù)SERP，用戶更滿意其中18個(gè)使用P2展示策略的SERP，4 個(gè)使用P1展示策略的SERP，而另外2 個(gè)SERP 使用2 種展示策略給用戶的感覺差別不大。從圖3可以看出：對于搜索引擎而言，P2比P1更好。但是對于某一任務(wù)來說，哪種策略更好是不確定的，這也說明展示效果與查詢?nèi)蝿?wù)相關(guān)。

圖2 滿意度人工評(píng)測調(diào)查問卷示例Fig.2 An example of satisfaction questionnaire

3.4 與用戶A/B測試實(shí)驗(yàn)一致性對比

本文開發(fā)的實(shí)驗(yàn)用搜索引擎可以完成正常的搜索功能，同時(shí)記錄用戶的鼠標(biāo)交互數(shù)據(jù)。本文共邀請12 個(gè)參與者完成2 種展示的對照實(shí)驗(yàn)，每人完成24個(gè)查詢，其中12個(gè)查詢采用P1展示而另外12個(gè)采用P2展示。采用希臘拉丁方法和隨機(jī)序列的方法，保證每個(gè)任務(wù)以相同的概率展現(xiàn)給用戶，對于每種展示下的每個(gè)任務(wù)，可以收集到6個(gè)用戶的搜索數(shù)據(jù)，統(tǒng)計(jì)結(jié)果如表4所示，其中，?代表下降且統(tǒng)計(jì)顯著性指標(biāo)p<0.1。相比于P1的展示策略，P2展示策略下，用戶閱讀摘要的時(shí)間更短，并且點(diǎn)擊次數(shù)、長度和最大排名都明顯減少，說明用戶花費(fèi)更少的時(shí)間就能獲得滿意的結(jié)果，極大地提高搜索效益。因此，P2是比P1更好的突顯策略。這與人工評(píng)測和自動(dòng)評(píng)測得到的結(jié)論相一致。

圖3 SERP滿意度統(tǒng)計(jì)結(jié)果Fig.3 SERP satisfaction statistics results

表4 用戶A/B測試實(shí)驗(yàn)結(jié)果Table 4 User A/B test experimental results

4 結(jié)論與展望

1)在信息需求飛速增長的時(shí)代，建立適合搜索引擎實(shí)際應(yīng)用環(huán)境的搜索結(jié)果評(píng)估體系與自動(dòng)評(píng)估算法成為信息檢索領(lǐng)域的重要研究課題。本文提出一個(gè)綜合考慮視覺力、信息力和有效力這3個(gè)維度共15個(gè)指標(biāo)的搜索結(jié)果展示效果評(píng)價(jià)體系，該體系具有較強(qiáng)的可操作性，與人工標(biāo)注結(jié)果和用戶A/B實(shí)驗(yàn)結(jié)果取得了相一致的結(jié)論；使用邏輯回歸模型擬合結(jié)果顯示，信息力和有效力都對搜索結(jié)果的展示效果有顯著影響，且信息力的影響更大。

2)搜索結(jié)果的展示效果的評(píng)估是一個(gè)復(fù)雜的任務(wù)，它與實(shí)際查詢?nèi)蝿?wù)類型、領(lǐng)域和信息需求都緊密相關(guān)，下一步將結(jié)合查詢?nèi)蝿?wù)的領(lǐng)域和類型，完善評(píng)價(jià)體系；提取合適的客觀特征，實(shí)現(xiàn)搜索引擎結(jié)果展示效果的自動(dòng)評(píng)價(jià)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡