岑榮偉,劉奕群,張 敏,茹立云,馬少平
(智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌),清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京100084)
作為當(dāng)前網(wǎng)絡(luò)信息檢索的主要工具,搜索引擎已成為人們?cè)L問(wèn)互聯(lián)網(wǎng)資源的有效手段。據(jù)最新CNNIC統(tǒng)計(jì)報(bào)告顯示[1],截止2009年底,中國(guó)網(wǎng)民規(guī)模已達(dá)3.84億人,其中搜索引擎的使用率為73.3%,即搜索引擎用戶規(guī)模達(dá)到2.81億。如何向網(wǎng)絡(luò)用戶提供優(yōu)質(zhì)的搜索服務(wù),幫助用戶定位所需的網(wǎng)絡(luò)目標(biāo)資源,最大規(guī)模的吸引客戶使用,一直是商用搜索引擎公司所關(guān)注的重點(diǎn)。網(wǎng)絡(luò)用戶行為分析是認(rèn)識(shí)用戶意圖和了解用戶興趣的主要方法之一,受到了研究界和產(chǎn)業(yè)界的廣泛關(guān)注,已成為網(wǎng)絡(luò)信息檢索和知識(shí)挖掘的重要研究領(lǐng)域之一。
搜索引擎日志記錄著用戶和搜索引擎交互的相關(guān)行為信息,是研究和分析真實(shí)網(wǎng)絡(luò)用戶行為的主要載體,利用搜索引擎日志對(duì)用戶行為進(jìn)行分析的方法已經(jīng)被產(chǎn)業(yè)界和研究界所廣泛采用。早在網(wǎng)絡(luò)信息檢索工具廣泛流行之前,用戶相關(guān)反饋信息已被一般的網(wǎng)站及公司應(yīng)用于了解用戶興趣目的、維護(hù)網(wǎng)站系統(tǒng)等方面。Cockburn[2]和Tauscher[3]等人分別在90年代中期對(duì)w eb用戶的瀏覽行為進(jìn)行了調(diào)研和分析。90年代后期,隨著搜索引擎的廣泛使用,搜索用戶行為也被相關(guān)企業(yè)和研究人員所關(guān)注。1998年,Silverstein[4]等人對(duì)商業(yè)搜索引擎的用戶日志進(jìn)行了大規(guī)模的分析。2006年,余慧佳[5]等人對(duì)中文環(huán)境下的網(wǎng)絡(luò)用戶日志進(jìn)行了大規(guī)模的分析和研究。除了統(tǒng)計(jì)分析之外,人們也開(kāi)始關(guān)注日志中所包含的群體智慧信息,并應(yīng)用這些信息為搜索引擎系統(tǒng)所服務(wù),如搜索結(jié)果重排序[6],檢索函數(shù)學(xué)習(xí)[7],搜索引擎自動(dòng)性能評(píng)價(jià)等[8]。
本文通過(guò)對(duì)一個(gè)月規(guī)模的中文商業(yè)搜索引擎日志的分析,研究真實(shí)網(wǎng)絡(luò)環(huán)境下的中文搜索引擎用戶的行為特點(diǎn)。與以往工作不同的是,在分析過(guò)程中,我們通過(guò)對(duì)用戶意圖進(jìn)行區(qū)分的方法,統(tǒng)計(jì)和分析不同查詢目的下的用戶行為差異性。通過(guò)相關(guān)分析,我們希望能夠進(jìn)一步了解用戶,為中文搜索引擎系統(tǒng)的改進(jìn)和算法優(yōu)化等提供一定依據(jù)和方向。
以下從本研究的相關(guān)工作展開(kāi)討論,闡明用戶行為分析領(lǐng)域已有方面的研究成果和存在的問(wèn)題;然后分析用戶和搜索引擎可能的交互過(guò)程,并介紹相關(guān)日志數(shù)據(jù);接著,基于大規(guī)模用戶日志分析網(wǎng)絡(luò)搜索引擎用戶的相關(guān)行為特點(diǎn);最后給出相關(guān)總結(jié)和啟示。
根據(jù)Sullivan的統(tǒng)計(jì)[9],2004年底,Google作為世界上索引量最大和訪問(wèn)頻率最高的搜索引擎,能夠索引到超過(guò)80億的網(wǎng)絡(luò)頁(yè)面,其每天處理的用戶查詢超過(guò)2.5億個(gè)。據(jù)最新CNN IC的統(tǒng)計(jì)報(bào)告顯示[1],截止2009年12月31日,我國(guó)的搜索引擎用戶已達(dá)2.81億。百度、谷歌、搜狗等在線搜索引擎已成為人們?nèi)粘TL問(wèn)的網(wǎng)絡(luò)工具。
1998年,Silverstein等人對(duì)大規(guī)模英文搜索日志進(jìn)行了分析[4],結(jié)論指出對(duì)于85%的查詢用戶都只翻看了查詢結(jié)果的第一頁(yè)內(nèi)容;77%的用戶只提交了一次查詢,且沒(méi)有進(jìn)行修改等等。這些結(jié)論都對(duì)英文搜索引擎的算法改進(jìn)和發(fā)展起到了有益的作用。2006年,余慧佳[5]等人對(duì)中文環(huán)境下的網(wǎng)絡(luò)用戶日志進(jìn)行了大規(guī)模的分析和研究,被作為改進(jìn)搜索引擎系統(tǒng)性能的基本依據(jù)。本文在文獻(xiàn)[5]工作的基礎(chǔ)上,繼續(xù)對(duì)中文環(huán)境下的大規(guī)模網(wǎng)絡(luò)用戶日志進(jìn)行分析,同時(shí)構(gòu)建以導(dǎo)航和色情為查詢目的的查詢集合,考察不同查詢需求下的用戶行為差異性。
對(duì)網(wǎng)絡(luò)用戶行為中所包含的群體智慧信息的研究已成為當(dāng)前信息檢索領(lǐng)域的主要研究?jī)?nèi)容。2005年,Joachims[10]對(duì)搜索用戶點(diǎn)擊的有效性開(kāi)展了一項(xiàng)基礎(chǔ)性研究工作,被稱為“眼睛跟蹤”(Eye-tracking),其通過(guò)分析用戶點(diǎn)擊行為的決策過(guò)程,挖掘用戶點(diǎn)擊過(guò)程中蘊(yùn)含的智慧信息。最近,Dow ney[11]等人基于用戶查詢?nèi)罩拘畔?lái)挖掘用戶查詢和目標(biāo)頁(yè)面之間的關(guān)系。
網(wǎng)絡(luò)搜索用戶在信息查詢時(shí)通常和搜索引擎系統(tǒng)之間有一個(gè)交互過(guò)程。首先,用戶有一個(gè)查詢需求主題或者查詢目的。根據(jù)該主題或目的,用戶基于已有的搜索經(jīng)驗(yàn)和知識(shí)構(gòu)造出查詢關(guān)鍵詞,并將其提交給在線搜索引擎系統(tǒng),如百度、谷歌、搜狗等。搜索引擎系統(tǒng)根據(jù)用戶提交的查詢關(guān)鍵詞采用一定的算法和檢索策略返回可能相關(guān)的結(jié)果文檔列表。用戶通過(guò)對(duì)比返回結(jié)果文檔的相關(guān)信息,如標(biāo)題、摘要、URL、前后結(jié)果文檔等,點(diǎn)擊認(rèn)為可能相關(guān)的能滿足其搜索目的的結(jié)果文檔。如果該結(jié)果文檔滿足搜索需求,用戶則可能離開(kāi)該查詢主題的搜索。反之,如果不滿足搜索需求,用戶會(huì)返回搜索結(jié)果頁(yè),繼續(xù)查找其他可能相關(guān)的結(jié)果文檔并進(jìn)行點(diǎn)擊;或者修改查詢關(guān)鍵詞,進(jìn)一步和搜索引擎系統(tǒng)進(jìn)行交互。當(dāng)用戶對(duì)點(diǎn)擊結(jié)果文檔滿意或者認(rèn)為無(wú)法找到相關(guān)結(jié)果文檔時(shí),其會(huì)選擇離開(kāi)當(dāng)前查詢主題,或者換一個(gè)搜索引擎系統(tǒng)繼續(xù)搜索。圖1展示了用戶和搜索引擎系統(tǒng)之間的交互過(guò)程。
為分析真實(shí)網(wǎng)絡(luò)用戶的搜索行為,我們?cè)谝患抑逃盟阉饕娴膸椭?收集到一段時(shí)間內(nèi)的真實(shí)網(wǎng)絡(luò)用戶和該搜索引擎的交互日志。這些日志包含了2009年5月1日到2009年5月30日共30天網(wǎng)絡(luò)用戶和該搜索引擎的交互日志記錄。這些日志總共有7.56億條日志信息,其中有1.01億用戶Session和2.83億用戶查詢。表1列出了用戶訪問(wèn)日志的相關(guān)信息內(nèi)容。
圖1 網(wǎng)絡(luò)搜索用戶訪問(wèn)流程
表1 用戶訪問(wèn)日志信息項(xiàng)
為分析不同查詢需求下用戶的不同行為特點(diǎn),我們?cè)谒杏脩舨樵兊募仙咸崛深愄厥庥脩舻牟樵兗?導(dǎo)航查詢集合和色情查詢集合。我們從百度的“hao123”網(wǎng)站(http:/www.hao123.com/)上抓取相關(guān)網(wǎng)站的鏈接文本,通過(guò)人工挑選和過(guò)濾后,將其和用戶日志中的查詢的交集作為導(dǎo)航查詢?cè)~集合,其包含1.72萬(wàn)個(gè)獨(dú)立的導(dǎo)航查詢?cè)~。日志中用戶提交該導(dǎo)航詞集合中的查詢有1 557萬(wàn)個(gè)。另外,在該搜索引擎公司的幫助下,基于查詢文本內(nèi)容,我們對(duì)日志中所有的查詢進(jìn)行了是否為色情詞的判斷,提取出15萬(wàn)個(gè)獨(dú)立色情查詢?cè)~,對(duì)應(yīng)1 969萬(wàn)個(gè)用戶查詢,這些查詢?cè)~構(gòu)成色情查詢?cè)~集合。
基于上述三個(gè)不同類型的查詢集合(全集、導(dǎo)航詞集合和色情詞集合),我們可以對(duì)用戶的行為進(jìn)行有區(qū)別的分析和研究,考察不同查詢目的下的用戶在搜索行為上的差異性。下一節(jié),我們將從用戶查詢和用戶點(diǎn)擊等方面分析用戶行為特點(diǎn)。
當(dāng)前主流的搜索引擎以查詢關(guān)鍵詞為載體進(jìn)行檢索,因此用戶提交的查詢?cè)~長(zhǎng)度,提交的查詢次數(shù)以及提交查詢的類型決定了用戶傳遞給搜索引擎的信息內(nèi)容和信息量。
4.1.1 查詢長(zhǎng)度
查詢長(zhǎng)度是指用戶提交的查詢關(guān)鍵詞中含有幾個(gè)詞或字。在這里我們分兩個(gè)層次進(jìn)行分析:一是未分詞通過(guò)用戶自主的以空格隔開(kāi)作為查詢計(jì)數(shù)的方式;另一個(gè)是經(jīng)過(guò)分詞后的單詞數(shù)作為計(jì)數(shù)。圖2顯示了在日志中用戶查詢長(zhǎng)度和用戶數(shù)的變化情況。
圖2 網(wǎng)絡(luò)用戶查詢?cè)~長(zhǎng)度分布
從圖2可以看到,查詢中的詞數(shù)和用戶數(shù)呈指數(shù)分布(Pow er-Law)關(guān)系,隨著查詢中詞數(shù)的增加,用戶數(shù)急速下降,即大部分用戶只提交很少的幾個(gè)詞。同時(shí)可以看到,分詞后比分詞前有較多的詞數(shù),經(jīng)計(jì)算,分詞前平均為1.10個(gè)查詢?cè)~,分詞后平均為3.11個(gè)查詢?cè)~,這說(shuō)明用戶不習(xí)慣對(duì)查詢?cè)~進(jìn)行主動(dòng)分詞處理,而習(xí)慣于輸入一個(gè)短語(yǔ)或短句。該分詞前的平均長(zhǎng)度與文獻(xiàn)[5]分析的結(jié)果1.85個(gè)詞有一定差距,主要是因?yàn)榻y(tǒng)計(jì)方法不一樣,文獻(xiàn)[5]統(tǒng)計(jì)的是非重復(fù)查詢,而這里是按查詢的提交次數(shù)進(jìn)行統(tǒng)計(jì)。
4.1.2 用戶查詢修改率
用戶在提交查詢后,如果對(duì)當(dāng)前搜索結(jié)果不滿意,或者用戶仍想獲取更多的信息,則用戶可能修改查詢?cè)~,進(jìn)一步和搜索引擎交互。我們?cè)谌惒煌愋偷牟樵冊(cè)~集合上比較用戶的查詢修改率,表2展示了相關(guān)用戶查詢修改率的信息。
表2 不同查詢類型下的用戶查詢修改率
從表2可以看到,用戶的查詢修改率較高(50%左右),這說(shuō)明當(dāng)前搜索引擎用戶的整體滿意度較低,全集上有56%的用戶查詢有查詢修改的現(xiàn)象。同時(shí)也說(shuō)明幾個(gè)簡(jiǎn)單的查詢關(guān)鍵詞很難準(zhǔn)確描述用戶的查詢意圖,造成了用戶和搜索引擎之間進(jìn)行信息傳遞的瓶頸。
4.1.3 查詢推薦點(diǎn)擊率
查詢推薦是搜索引擎根據(jù)用戶提交的查詢?cè)~,構(gòu)造幾個(gè)新查詢?cè)~推薦給用戶,幫助用戶表達(dá)其查詢意圖。查詢推薦通常展示在搜索結(jié)果底端,一般推薦10個(gè)查詢?cè)~。表3展示了在不同集合上的相關(guān)搜索的點(diǎn)擊率。
表3 不同查詢類型下的查詢推薦點(diǎn)擊率
從表3中可以看出,在全集上用戶查詢推薦的點(diǎn)擊率為11.9%,和色情查詢?cè)~的查詢推薦點(diǎn)擊率基本類似。該比例相對(duì)較低,占用戶查詢修改的1/5左右,說(shuō)明用戶較少使用搜索引擎提供的查詢推薦,主要原因可能是該功能提供在搜索結(jié)果頁(yè)底端,用戶習(xí)慣于自己修改查詢。同時(shí),從表3中可以看到導(dǎo)航詞的查詢推薦點(diǎn)擊率比一般查詢?cè)~的查詢推薦點(diǎn)擊率低,說(shuō)明當(dāng)前搜索引擎對(duì)導(dǎo)航查詢?cè)~處理的較好。
4.1.4 問(wèn)題式查詢比例
搜索引擎提供的搜索功能是幫助用戶找到信息。問(wèn)題式查詢是用戶提出需求最直接的方式。然而隨著用戶搜索經(jīng)驗(yàn)的豐富以及方便性原則,用戶通常只輸入幾個(gè)簡(jiǎn)短的查詢關(guān)鍵詞,而忽略相關(guān)疑問(wèn)詞。然而在日志中仍有一部分用戶以提問(wèn)的方式使用搜索引擎。在這里,我們統(tǒng)計(jì)了這部分用戶的比例。我們總共收集了152個(gè)疑問(wèn)詞,如“什么”、“哪里”、“如何”等。若用戶提交的查詢中包含了其中某個(gè)疑問(wèn)詞,我們則認(rèn)為該查詢是問(wèn)題式查詢。根據(jù)統(tǒng)計(jì)(見(jiàn)表4),我們發(fā)現(xiàn)問(wèn)題式查詢占所有查詢的2.96%,整體用戶比例不多。
表4 問(wèn)題式查詢比例
用戶點(diǎn)擊是用戶在瀏覽相關(guān)的搜索結(jié)果頁(yè)面后進(jìn)行的相關(guān)動(dòng)作,是用戶對(duì)搜索引擎結(jié)果性能的一個(gè)判斷。根據(jù)不同類型的查詢,其點(diǎn)擊行為差異較大。如對(duì)于導(dǎo)航類查詢,用戶一般只要一個(gè)目標(biāo)頁(yè)面,對(duì)于信息類查詢,用戶則可能會(huì)訪問(wèn)多個(gè)結(jié)果頁(yè)面,獲取較為全面的信息。在這里我們對(duì)用戶的點(diǎn)擊行為進(jìn)行相關(guān)分析。
4.2.1 查詢點(diǎn)擊率
當(dāng)搜索引擎根據(jù)用戶提交的查詢返回相關(guān)結(jié)果后,用戶會(huì)點(diǎn)擊認(rèn)為可能相關(guān)的結(jié)果,或者不點(diǎn)擊任何結(jié)果。表5統(tǒng)計(jì)了用戶點(diǎn)擊搜索結(jié)果的比例。
表5 查詢點(diǎn)擊比例
通過(guò)表5可知,并不是所有用戶在查詢之后都點(diǎn)擊搜索結(jié)果。對(duì)于所有查詢,只有56%的查詢有用戶點(diǎn)擊,導(dǎo)航類和色情類查詢點(diǎn)擊率相對(duì)較高。用戶不點(diǎn)擊搜索結(jié)果的原因較多,如返回結(jié)果不佳直接換查詢,點(diǎn)擊搜索引擎的相關(guān)垂直搜索(如音樂(lè)類查詢),點(diǎn)擊相關(guān)廣告信息等。
4.2.2 首次點(diǎn)擊時(shí)間
首次點(diǎn)擊時(shí)間是指搜索引擎根據(jù)用戶提交的查詢返回搜索結(jié)果和用戶第一次點(diǎn)擊之間的時(shí)間間隔,該時(shí)間一定程度上反應(yīng)了搜索引擎搜索結(jié)果頁(yè)展現(xiàn)的效果。若該時(shí)間較長(zhǎng),則說(shuō)明搜索結(jié)果并不直觀,需要用戶進(jìn)行一定的思考和判斷。圖3統(tǒng)計(jì)了各查詢類型的用戶首次點(diǎn)擊時(shí)間的分布(這里只對(duì)那些點(diǎn)擊了搜索結(jié)果的查詢進(jìn)行統(tǒng)計(jì))。
圖3 用戶查詢的首次點(diǎn)擊時(shí)間分布
通過(guò)圖3可知,大部分查詢的首次點(diǎn)擊時(shí)間較短,對(duì)于所有查詢?cè)~,56.0%的查詢其首次點(diǎn)擊時(shí)間在5秒以內(nèi)(<5秒)。對(duì)于導(dǎo)航詞,這一比例更高,達(dá)76.7%。對(duì)于色情詞,這一比例略小,為45.5%。另外,我們可以看到在全集和色情查詢?cè)~上,有超過(guò)10%的用戶,其首次點(diǎn)擊時(shí)間超過(guò)20秒,這部分點(diǎn)擊的原因較多,如搜索結(jié)果性能差,用戶查看比較的時(shí)間較多,或者用戶中間轉(zhuǎn)移了注意力等。
4.2.3 首次/最后一次點(diǎn)擊位置分布
用戶根據(jù)搜索的返回結(jié)果,查看結(jié)果文檔對(duì)應(yīng)的標(biāo)題、摘要、URL地址以及和其他結(jié)果比較,然后點(diǎn)擊對(duì)應(yīng)位置的結(jié)果頁(yè)面。點(diǎn)擊的搜索結(jié)果位置影響著用戶的體驗(yàn)。若用戶想要的結(jié)果頁(yè)面需要通過(guò)滾屏或翻頁(yè)來(lái)實(shí)現(xiàn),則用戶體驗(yàn)較低。圖4展示了首次點(diǎn)擊和最后一次點(diǎn)擊在各個(gè)位置上的查詢分布(對(duì)有結(jié)果點(diǎn)擊的查詢進(jìn)行統(tǒng)計(jì))。
圖4 首次/最后一次點(diǎn)擊的位置分布
根據(jù)圖4可以看到,51.4%的所有查詢其首次點(diǎn)擊落在第一位,而導(dǎo)航類有72.0%,色情類查詢只有36.8%。最后一次點(diǎn)擊落在第一位的分布比首次點(diǎn)擊略小,而落在第4位及之后位置的比例略大,這基本符合用戶從上往下看的規(guī)律。同時(shí)可以看到對(duì)于導(dǎo)航詞,其首次點(diǎn)擊和最后一次點(diǎn)擊落在5位之外(rank>5)的比例分別只有3.1%和5.3%。而色情詞的首次點(diǎn)擊和最后一次點(diǎn)擊落在5位之外的比例較大,分別有14.9%和31.7%。其原因主要可能是導(dǎo)航詞有確定的目標(biāo),搜索引擎處理的較好,用戶如果沒(méi)有找到對(duì)應(yīng)的結(jié)果頁(yè)面則會(huì)通過(guò)換查詢來(lái)繼續(xù)查找。而色情詞沒(méi)有確定的目標(biāo)頁(yè)面,以閱覽為目的,因此一般用戶通過(guò)滾屏或翻頁(yè)來(lái)實(shí)現(xiàn)目標(biāo)的查找。
4.2.4 查詢內(nèi)點(diǎn)擊數(shù)分布
用戶根據(jù)搜索的返回結(jié)果,查看結(jié)果展示內(nèi)容并進(jìn)行點(diǎn)擊,用戶會(huì)根據(jù)點(diǎn)擊后看到的頁(yè)面內(nèi)容,選擇繼續(xù)點(diǎn)擊或者其他行為。點(diǎn)擊次數(shù)的多少反應(yīng)了用戶對(duì)結(jié)果的感受。用戶對(duì)結(jié)果不滿意時(shí),其可能繼續(xù)點(diǎn)擊查找信息。同時(shí),對(duì)于確定類型的查詢用戶相對(duì)點(diǎn)擊較少,反之可能有較多的點(diǎn)擊。圖5展示了同一查詢內(nèi)點(diǎn)擊次數(shù)的分布(對(duì)有結(jié)果點(diǎn)擊的查詢進(jìn)行統(tǒng)計(jì))。
圖5 同查詢內(nèi)點(diǎn)擊次數(shù)分布
通過(guò)圖5可以看到在用戶有點(diǎn)擊的查詢中有63.7%的用戶其只點(diǎn)擊一次結(jié)果頁(yè)面,對(duì)于導(dǎo)航詞有77.4%,色情詞為57.2%。通過(guò)統(tǒng)計(jì)平均可知(表6),對(duì)于有點(diǎn)擊的查詢,其每個(gè)查詢平均點(diǎn)擊次數(shù)為1.81次,對(duì)于所有查詢,其平均點(diǎn)擊次數(shù)為1.01次。從中可以看到,一般用戶點(diǎn)擊次數(shù)較少。結(jié)合表3中56.0%的查詢點(diǎn)擊率以及表2中全集56.1%的查詢修改率,我們推測(cè)一般用戶更傾向于查詢更換來(lái)尋找信息,而不是通過(guò)點(diǎn)擊,而對(duì)色情類查詢的用戶傾向于使用更多的點(diǎn)擊來(lái)獲取更多的信息。
表6 查詢平均點(diǎn)擊次數(shù)
本文通過(guò)大規(guī)模真實(shí)網(wǎng)絡(luò)搜索用戶日志的分析,對(duì)用戶搜索行為進(jìn)行相關(guān)研究,挖掘出相關(guān)用戶搜索行為特點(diǎn),如查詢長(zhǎng)度、查詢修概率、相關(guān)搜索點(diǎn)擊率、首次/最后一次點(diǎn)擊、查詢點(diǎn)擊率等。同時(shí),基于不同類型的查詢,對(duì)用戶搜索需求進(jìn)行區(qū)分,進(jìn)而發(fā)現(xiàn)不同查詢目的的搜索行為差異性,如對(duì)導(dǎo)航查詢用戶偏向于找到單一目標(biāo)頁(yè)面為主,對(duì)于色情查詢?cè)~,用戶搜索更像一般的網(wǎng)絡(luò)瀏覽。由于不同目的用戶的行為差異性,提示我們?cè)谔幚聿煌脩粜枨髸r(shí),應(yīng)采用不同的檢索模型以及不同的結(jié)果展現(xiàn)形式。在文中,我們還發(fā)現(xiàn)用戶習(xí)慣于輸入簡(jiǎn)短的詞或短句,雖然這種模式造成了用戶和搜索引擎系統(tǒng)之間進(jìn)行信息交互的瓶頸,但由于其簡(jiǎn)單方便性,這種模式短期內(nèi)很難被替代。
用戶行為分析作為改進(jìn)搜索引擎性能和服務(wù)的重要手段,在網(wǎng)絡(luò)信息檢索和知識(shí)挖掘領(lǐng)域都具有重要的意義。研究用戶行為,挖掘用戶興趣與目的是當(dāng)前各搜索引擎關(guān)注的重點(diǎn)。在今后的工作中,我們將進(jìn)一步挖掘用戶日志中的相關(guān)信息,研究用戶行為,挖掘群體智慧信息,提高搜索引擎性能。
[1] CNNIC(China Internet Netw ork Information Center).The 25st report in development of Internet in China[R].http://www.cnnic.net.cn/up load files/pdf/2010/1/15/101600.pd f.2010.
[2] Cockburn,A.and Jones,S.Which way now?Analysing and easing inadequacies in WWW navigation[J].International Journal of Human-Computer Studies,1996,45,105-129.
[3] Tauscher,L.,&G reenberg,S.How peop le revisit w eb pages:Empirical findings and imp lications for the design of history systems[J].International Journal of H uman-Computer Studies,1997,47,97-137.
[4] Craig Silverstein,M onika Henzinger,HannesMarais,et al.Analysis of a very large Web search enginequery log[C]//SIGIR Forum,1998,33(1):6-12.
[5] 余慧佳,劉奕群,張敏,茹立云,馬少平.基于大規(guī)模日志分析的網(wǎng)絡(luò)搜索引擎用戶行為研究[J].中文信息學(xué)報(bào),2007,21(1):109-114.
[6] Agichtein E,Brill E,Dumais S.Improving web search ranking by incorporating user behavior information[C]//SIGIR06,New York,NY,USA,2006:19-26.
[7] Dou Z,Song R,Yuan X,Wen J.A re click-through data adequate for learning web search rankings?[C]//Proceeding of the CIKM'08.ACM,New York,NY,2008:73-8.
[8] Liu Y,Cen R,Zhang M,Ru L,Ma S.Automatic Search Engine Evaluation Based On User Behavior Analysis[J].Journal of Softw are,2008,19(11):3023-3032.
[9] Danny Su llivan,Search Engine Sizes[R].In search engine w atch website,http://searchenginew atch.com/reports/article.php/2156481.
[10] Joachim s T,G ranka L,Pan B,Hembrooke H,Gay G.Accurately interp reting click through data as imp licit feedback[C]//Proceedings of the SIGIR'05.ACM,New York,NY,2005:154-161.
[11] Dow ney,D.,Dumais,S.,Lieb ling,D.,and H orvitz,E.2008.Understanding the relationship betw een searchers'queries and in formation goals[C]//Proceeding of the CIKM'08.ACM,New York,NY,2008:449-458.