田永昌,李 穎
(1.裝甲兵工程學(xué)院信息系,北京 100072;2.裝甲兵工程學(xué)院科研部,北京 100072)
當(dāng)前,絕大多數(shù)搜索引擎的搜索結(jié)果依據(jù)的是用戶輸入的關(guān)鍵詞和網(wǎng)頁的權(quán)值,并沒有考慮不同用戶的個(gè)性化差異。一種情況是不同用戶在輸入相同的查詢關(guān)鍵詞時(shí)得到的結(jié)果基本相同,沒有表現(xiàn)出用戶興趣的差異化;另一種情況是語言存在同義詞、近義詞以及其他一些復(fù)雜語義關(guān)系的現(xiàn)象[1],用戶提供的關(guān)鍵詞往往只是其查詢意圖的某一種表達(dá)形式,這就會(huì)導(dǎo)致與其他表達(dá)形式相關(guān)的網(wǎng)頁沒有被搜索到,從而降低搜索效率甚至導(dǎo)致搜索失敗。這2種情況都不可能令用戶滿意。所以,信息檢索領(lǐng)域的一個(gè)關(guān)鍵問題就是怎樣使用戶從海量的信息中獲取對自己有價(jià)值的內(nèi)容,從而提高檢索效率。
查詢擴(kuò)展技術(shù)作為查詢處理和優(yōu)化的關(guān)鍵技術(shù)之一,能有效提高信息檢索的效率。查詢擴(kuò)展技術(shù)在上個(gè)世紀(jì)70年代就已經(jīng)被提出來了[2]。它在初始查詢的基礎(chǔ)上加入新的查詢詞,從而能更加準(zhǔn)確地把握用戶的查詢意圖,減少查詢請求與相關(guān)文檔不能匹配的現(xiàn)象,提高搜索性能。目前查詢擴(kuò)展技術(shù)的方法很多,大致可以歸結(jié)為3類:基于詞典的查詢擴(kuò)展、自動(dòng)局部分析方法和自動(dòng)全局分析方法[3-5]。基于詞典的查詢擴(kuò)展一般采用WordNet、MindNet和HowNet等詞典[6-8],選擇與初始查詢存在同義、近義或者上下文關(guān)系的詞進(jìn)行擴(kuò)展,例如李力沛等人[9]采用個(gè)性化詞典,提出了一種改進(jìn)的基于二級向量的搜索引擎?zhèn)€性化服務(wù)模型并通過實(shí)驗(yàn)證明了其有效性;自動(dòng)局部分析是基于初始查詢所得到的結(jié)果集中的相關(guān)文檔,利用相關(guān)文檔的有關(guān)信息來擴(kuò)展查詢,例如王旭陽等人[10]提出了一種基于本體和局部上下文分析的查詢擴(kuò)展方法,通過改進(jìn)篩選函數(shù)并結(jié)合局部上下文對候選擴(kuò)展概念集進(jìn)行2次篩選,在一定程度上提高了查詢性能;自動(dòng)全局分析是對全部文檔中的詞或詞組進(jìn)行相關(guān)分析,計(jì)算每對詞或詞組間的關(guān)聯(lián)程度,根據(jù)預(yù)先計(jì)算的詞間相關(guān)關(guān)系將與查詢用詞關(guān)聯(lián)程度最高的詞或詞組加入原查詢以生成新的查詢,例如王衛(wèi)國等人[11]提出了一種混合的個(gè)性化查詢擴(kuò)展模型,該模型通過潛在語義分析建立潛在語義空間,并在潛在語義空間中計(jì)算得到查詢的概念相關(guān)擴(kuò)展詞和興趣相關(guān)擴(kuò)展詞,較好地提高了檢索效率。通過分析這些方法可知:采用詞典的查詢擴(kuò)展方法,雖然在一定程度上提高了查全率,但同時(shí)也降低了查準(zhǔn)率,而且詞典大都是人工建立的,不可能包含所有的詞條,比較有局限性;自動(dòng)局部分析方法的一個(gè)重要前提是假設(shè)前N篇初始檢索文檔是相關(guān)的,但如果這個(gè)前提假設(shè)不成立,就會(huì)造成選取的擴(kuò)展詞與查詢意圖不相關(guān),從而導(dǎo)致查詢結(jié)果與主題不相符,降低檢索性能;自動(dòng)全局分析方法的擴(kuò)展詞來源于整個(gè)語料庫,需要對總的文檔集進(jìn)行訓(xùn)練,而這必然會(huì)導(dǎo)致系統(tǒng)開銷過大,所以單純地將自動(dòng)全局分析方法應(yīng)用到互聯(lián)網(wǎng)的海量信息中進(jìn)行檢索的可行性不大。
本文通過從用戶的興趣或者偏好中挖掘出來的興趣知識(shí)建立興趣知識(shí)庫,并結(jié)合查詢擴(kuò)展策略實(shí)現(xiàn)個(gè)性化服務(wù),提出一種基于興趣模型的搜索引擎查詢擴(kuò)展方法。該方法能通過興趣模型優(yōu)化查詢擴(kuò)展詞,使得用戶的搜索更加快速、準(zhǔn)確,實(shí)現(xiàn)個(gè)性化查詢擴(kuò)展。
獲取用戶的興趣知識(shí)是實(shí)現(xiàn)查詢個(gè)性化的研究基礎(chǔ)。通過獲取的興趣知識(shí)能夠更準(zhǔn)確地把握用戶的查詢意圖。用戶的興趣知識(shí)來源主要包括以下4個(gè)方面[12]:1)用戶的瀏覽信息和查詢關(guān)鍵詞,這些信息都保存在搜索引擎的用戶日志里面;2)用戶保存在收藏夾中的網(wǎng)頁或者下載到本地的文檔信息;3)用戶在網(wǎng)頁停留的時(shí)間以及點(diǎn)擊次數(shù),時(shí)間越長,點(diǎn)擊次數(shù)越多,表明用戶對該網(wǎng)頁越感興趣;4)用戶在與系統(tǒng)進(jìn)行交互時(shí),提交的個(gè)人信息。Agent智能代理[13-14]作為一種軟件實(shí)體,封裝了很多Web挖掘算法。它能在復(fù)雜的計(jì)算環(huán)境中持續(xù)自主地挖掘用戶的興趣知識(shí),并對興趣知識(shí)進(jìn)行保存和更新。用戶可以根據(jù)實(shí)際需要定義Agent信息。本文采用基于A-gent智能代理的數(shù)據(jù)挖掘模式,實(shí)時(shí)獲取用戶興趣知識(shí),建立興趣知識(shí)庫。
傳統(tǒng)上的查詢一般以關(guān)鍵詞作為查詢擴(kuò)展的中心,它只是一種符號(hào)層面上的機(jī)械式擴(kuò)展,割裂了詞語之間的語義關(guān)系,這會(huì)導(dǎo)致查詢擴(kuò)展詞與用戶的查詢意圖不匹配,出現(xiàn)查詢偏移的現(xiàn)象,最終降低查詢效率。而基于概念的查詢擴(kuò)展,能以初始查詢?yōu)橹行?,對查詢關(guān)鍵詞進(jìn)行深層次的語義擴(kuò)展。因此,本文中的關(guān)鍵詞都采用HNC理論[15]中的概念符號(hào)體系表示。HNC理論是由黃曾陽先生建立的一套相當(dāng)完備的關(guān)于語言概念空間的理論,它用基元化的符號(hào)表示自然語言的語義知識(shí),對語義的表達(dá)具有概念化、層次化和網(wǎng)絡(luò)化的特性。HNC概念表述體系簡單概括起來就是把概念分為抽象概念和具體概念,對抽象概念用五元組和語義網(wǎng)絡(luò)來表達(dá),對具體概念采取掛靠展開近似表達(dá),因此概念越相近,其概念表示式就越相似。例如下面幾組HNC符號(hào):
HNC概念符號(hào)雖然只是一種詞語語義的表達(dá)方式,但它可以將詞語的文字符號(hào)有效地映射到概念基元符號(hào)上。它蘊(yùn)含著概念聯(lián)想的豐富知識(shí),使得建立在概念基元上的相關(guān)運(yùn)算更加方便。
在獲取用戶興趣知識(shí)和用HNC概念符號(hào)表示這些興趣知識(shí)后,就要對用戶的興趣建立一個(gè)模型。對于一個(gè)任意給定的文檔,都可以看作是由若干個(gè)特征項(xiàng)組成的一個(gè)集合,這些特征項(xiàng)包括字、詞以及短語等。所以,本文對用戶的興趣知識(shí)和歷史查詢都采用向量空間模型進(jìn)行表示。向量空間模型一般都會(huì)選擇文本的關(guān)鍵詞作為特征項(xiàng),但是本文采用關(guān)鍵詞對應(yīng)的HNC概念符號(hào)作為特征項(xiàng),這樣可以將文本從關(guān)鍵詞層面提升到語義空間層面,在一定程度上可以提高識(shí)別用戶查詢意圖的能力。
假設(shè)用戶興趣知識(shí)向量有n個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞和其對應(yīng)的權(quán)重作為一個(gè)二元組,這n個(gè)二元組就構(gòu)成了用戶的興趣向量,所以用戶的興趣向量可以形式化表示為:
其中,特征項(xiàng) ci(1≤i≤n)表示興趣知識(shí)關(guān)鍵詞,用HNC概念符號(hào)表示,wi為ci對應(yīng)的權(quán)重值。例如:
一個(gè)用戶歷史查詢向量的表達(dá)式為:
其中,特征項(xiàng)hj(1≤j≤m)為歷史查詢的關(guān)鍵詞,也用HNC概念符號(hào)表示,?wj是hj對應(yīng)的權(quán)重值。
一般情況下,用戶感興趣的信息都包含在用戶的歷史搜索信息中,這些歷史搜索信息包括用戶的興趣知識(shí)和歷史查詢。所以,本文的查詢擴(kuò)展的數(shù)據(jù)都來源于這些歷史搜索信息。系統(tǒng)根據(jù)需要,從用戶興趣模型庫中調(diào)用這些歷史搜索信息來指導(dǎo)用戶查詢,并重新調(diào)整用戶查詢的表達(dá)式,從而對用戶的查詢請求進(jìn)行優(yōu)化擴(kuò)展。
假設(shè)用戶在系統(tǒng)中輸入了一個(gè)查詢,經(jīng)過預(yù)處理之后,得到初始查詢表達(dá)式Q,即一個(gè)關(guān)鍵詞序列q1,q2,...,qn(n為查詢概念的個(gè)數(shù))。則將一個(gè)關(guān)鍵詞qn'(1≤n'≤n)和興趣向量C的相關(guān)度作為該查詢關(guān)鍵詞的權(quán)重,表示如下:
式(2)中,wi表示興趣向量中第i個(gè)興趣知識(shí)關(guān)鍵詞對應(yīng)的權(quán)重,sim(qn',Ci)表示當(dāng)前查詢關(guān)鍵詞qn'和興趣向量中第 i個(gè)關(guān)鍵詞Ci的概念相似度,HNC提供了概念相似度計(jì)算方法[16],這里不再贅述。
初始查詢Q的向量表達(dá)式為:
當(dāng)前查詢Q和一個(gè)歷史查詢H的相似度表示為:
假設(shè),在歷史查詢的記錄中,與當(dāng)前查詢Q的關(guān)鍵詞有相同概念表達(dá)式的查詢記錄有n個(gè),其中,第k個(gè)查詢記錄對應(yīng)的瀏覽文檔有rk條,則可計(jì)算出用戶對第k個(gè)查詢記錄的關(guān)注度為:
從式(5)不難看出,當(dāng)某一歷史查詢中包含瀏覽文檔的記錄數(shù)目越多,用戶對這個(gè)查詢記錄的關(guān)注度越高,也就是說用戶對其更感興趣。
假設(shè),在歷史查詢的記錄中,與當(dāng)前查詢Q的關(guān)鍵詞有相同概念表達(dá)式的歷史查詢記錄有n個(gè),第k個(gè)歷史查詢記錄H與當(dāng)前查詢Q的相似度為sim(Q,H)k,且用戶對第k個(gè)查詢記錄的關(guān)注度為Ak,那么第k個(gè)歷史查詢記錄的用戶興趣度可表示為:
根據(jù)用戶興趣模型來調(diào)整用戶查詢的表達(dá)式,實(shí)現(xiàn)查詢擴(kuò)展的工作流程如圖1所示。
圖1 查詢擴(kuò)展的工作流程圖
查詢擴(kuò)展的主要步驟如下:
1)系統(tǒng)獲得用戶的查詢輸入以后,對其進(jìn)行預(yù)處理,主要是分詞和概念識(shí)別,得到初始查詢概念序列表達(dá)式;
2)根據(jù)式(2)計(jì)算初始查詢概念序列的每個(gè)關(guān)鍵詞qi與興趣向量C的概念相關(guān)度˙w,作為關(guān)鍵詞qi的權(quán)重值,根據(jù)公式(3)得到初始化的查詢向量Q;
3)根據(jù)式(4)計(jì)算當(dāng)前查詢Q與歷史查詢H的相似度sim(Q,H);
4)根據(jù)式(5)計(jì)算與當(dāng)前查詢Q有相同概念表達(dá)式的歷史查詢記錄的關(guān)注度;
5)在步驟3)和步驟4)的基礎(chǔ)上,根據(jù)式(6)計(jì)算用戶對相關(guān)歷史查詢記錄H的興趣度I;
6)對用戶興趣度I進(jìn)行判斷,如果大于閾值,則從相關(guān)歷史查詢記錄Q'的關(guān)鍵詞中選出k個(gè)最大的作為查詢擴(kuò)展詞;如果小于閾值,說明當(dāng)前查詢是一個(gè)新查詢,此時(shí)查詢不能實(shí)現(xiàn)擴(kuò)展。
為了衡量搜索引擎查詢性能,實(shí)驗(yàn)使用與原查詢最相關(guān)的前100篇文檔作為查詢擴(kuò)展的基礎(chǔ),并選擇前10個(gè)與原查詢興趣度最高的詞加入到原查詢中形成新的查詢,然后對前100篇返回文檔進(jìn)行人工分析,并以查全率和查準(zhǔn)率作為主要性能指標(biāo),在查全率為10%到100%這10個(gè)區(qū)間內(nèi)分別比較查準(zhǔn)率的變化情況,并將本文的查詢擴(kuò)展方法與基于關(guān)鍵詞的查詢擴(kuò)展方法相比較,統(tǒng)計(jì)結(jié)果如表1所示。
表1 查詢性能比較
通過表1可得到本文的查詢擴(kuò)展方法的平均查準(zhǔn)率為51.9%,查詢性能相對于基于關(guān)鍵詞的查詢擴(kuò)展的原查詢提升了29.1%,效果明顯。
另外,實(shí)驗(yàn)中還發(fā)現(xiàn),并不是查詢擴(kuò)展詞越多,查詢性能就越好。不同擴(kuò)展詞個(gè)數(shù)對查準(zhǔn)率的影響如圖2所示。
圖2 不同擴(kuò)展詞個(gè)數(shù)對查準(zhǔn)率的影響
當(dāng)初始查詢加入6個(gè)擴(kuò)展詞時(shí)查詢的性能最好,超過6個(gè)擴(kuò)展詞后性能下降明顯,這是由于權(quán)重低的擴(kuò)展詞不但不能起到優(yōu)化查詢的作用,反而會(huì)加入噪聲從而產(chǎn)生查詢歧義,造成“查詢漂移”,所以查詢擴(kuò)展詞不是越多越好。
本文在用戶興趣知識(shí)庫的基礎(chǔ)上,提出了一種基于興趣模型的查詢擴(kuò)展方法,并對查詢擴(kuò)展的工作流程作了比較詳細(xì)的敘述。實(shí)驗(yàn)表明,這種基于興趣模型的查詢擴(kuò)展方法能夠有效地輔助用戶利用搜索引擎搜索到自己感興趣的信息,在一定程度上彌補(bǔ)了用戶查詢信息不足的缺陷。由于本文的方法依賴用戶瀏覽結(jié)果文檔的數(shù)目,所以并沒有考慮瀏覽記錄是否含有不符合用戶需求的噪聲結(jié)果數(shù)據(jù),考慮在下一步工作中加入權(quán)值的影響因素,從而進(jìn)一步改善整個(gè)搜索模型的性能。
[1] 胡澤文,王效岳,白如江.基于SUMO和WordNet本體集成的文本分類模型研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011(1):31-38.
[2] 馬云龍,林原,林鴻飛.基于權(quán)重標(biāo)準(zhǔn)化SimRank方法的查詢擴(kuò)展技術(shù)研究[J].中文信息學(xué)報(bào),2011,25(1):28-34.
[3] 董守斌,袁華.網(wǎng)絡(luò)信息檢索[M].西安:西安電子科技大學(xué)出版社,2010:129-139.
[4] 劉暢.基于用戶興趣及本體術(shù)語關(guān)系的查詢擴(kuò)展[D].保定:河北大學(xué),2013.
[5] 黃名選,嚴(yán)小衛(wèi),張師超.查詢擴(kuò)展技術(shù)進(jìn)展與展望[J].計(jì)算機(jī)應(yīng)用與軟件,2007,24(11):1-4.
[6] 李海芳,史俊冰,段利國,等.一種基于含糊同義詞的查詢擴(kuò)展方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(12):41-43.
[7] 王磊.基于概念語義空間的語義查詢擴(kuò)展技術(shù)研究[D].洛陽:河南科技大學(xué),2012.
[8] 王水利,黃廣君,霍亞格.基于語義分析的查詢擴(kuò)展方法[J].計(jì)算機(jī)工程,2011,37(16):77-79.
[9] 李力沛,羅穎.基于個(gè)性化詞典的搜索引擎查詢擴(kuò)展模型[J].電腦知識(shí)與技術(shù),2012,8(28):6764-6770.
[10] 王旭陽,蕭波.基于本體和局部上下文分析的查詢擴(kuò)展方法[J].計(jì)算機(jī)工程,2012,38(7):57-59.
[11] 王衛(wèi)國,徐煒民.基于潛在語義分析的個(gè)性化查詢擴(kuò)展模型[J].計(jì)算機(jī)工程,2010,36(21):43-45.
[12] 張璇.油田信息搜索引擎?zhèn)€性化排序方法研究[D].大慶:東北石油大學(xué),2013.
[13] 李春杰,崔紅霞.基于多Agent搜索行為分析的用戶興趣模型[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(2):182-185.
[14] 梁美玉,杜軍平,高田.基于領(lǐng)域知識(shí)的個(gè)性化智能語義檢索系統(tǒng)[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,42(z1):865-869.
[15] 黃曾陽.HNC(概念層次網(wǎng)絡(luò))理論[M].北京:清華大學(xué)出版社,1998.
[16] 晉耀紅.HNC(概念層次網(wǎng)絡(luò))語言理解技術(shù)及其應(yīng)用[M].北京:科學(xué)出版社,2006.