張帆,申艷光,王敏
(1.河北鋼鐵集團(tuán)邯寶公司,河北邯鄲056015;2.河北工程大學(xué)信息與電氣工程學(xué)院,河北邯鄲056038)
隨著互聯(lián)網(wǎng)上信息數(shù)據(jù)爆炸式地增長,互聯(lián)網(wǎng)用戶不再滿足于人工分揀分類目錄搜索的第一代搜索引擎和依靠超鏈接分析機(jī)器抓取技術(shù)的第二代搜索引擎提供的單一的搜索結(jié)果,而希望得到和個(gè)人興趣偏好更為相關(guān)的個(gè)性化搜索服務(wù),為了滿足用戶的這一需求,應(yīng)運(yùn)而生了個(gè)性化搜索技術(shù)。
搜索引擎生存的關(guān)鍵是利用用戶信息針對(duì)性地改善搜索服務(wù)質(zhì)量,提高用戶搜索體驗(yàn)。為了向不同用戶提供更為個(gè)性化、滿意度更高的搜索結(jié)果,個(gè)性化搜索時(shí)需要搜集、存儲(chǔ)、挖掘和分析用戶信息,這不可避免地觸及了個(gè)人隱私這一公眾敏感神經(jīng)。更為重要的是,在搜索引擎所掌握的海量信息中,除了個(gè)人隱私之外,還有可能涉及到國家經(jīng)濟(jì)和政府機(jī)密信息,威脅國家安全。隨著個(gè)性化搜索技術(shù)的飛速發(fā)展,隱私保護(hù)和搜索結(jié)果滿意度之間急劇深化的矛盾已經(jīng)成為了目前互聯(lián)網(wǎng)技術(shù)研究亟待解決的問題。
個(gè)性化搜索是以用戶為中心的信息搜索技術(shù),它獲取以多種形式表達(dá)的用戶信息,并綜合利用這些用戶信息,提高搜索引擎的性能,以滿足不同用戶的個(gè)性化需求。目前絕大多數(shù)的研究主要集中在用戶個(gè)人信息的搜集、用戶描述文件建立、搜索結(jié)果排序和系統(tǒng)評(píng)價(jià)四個(gè)方面。
用戶個(gè)人信息的搜集技術(shù)主要包括顯式、隱式和復(fù)合式三類方式。用戶個(gè)人信息的顯式搜集方式主要是請(qǐng)求用戶的主動(dòng)參與,用戶向搜索系統(tǒng)主動(dòng)提供并描述其個(gè)性化需求的相關(guān)信息。用戶個(gè)人信息的隱式搜集方式主要是搜集用戶在操作過程中的行為。而復(fù)合式方式則結(jié)合了顯式搜集和隱式搜集兩種方式。
采用顯式的用戶個(gè)人信息搜集方式的系統(tǒng)有SiteSeer等[1]。用戶個(gè)人信息顯式搜集方式能使搜索系統(tǒng)獲取準(zhǔn)確的用戶個(gè)人信息,但需要用戶花費(fèi)多余的精力參與反饋,降低了用戶搜索體驗(yàn)。而WebWatcher等系統(tǒng)[2]以及建立用戶層級(jí)樹的方法[3]采用了隱式的用戶個(gè)人信息搜集方式。用戶個(gè)人信息隱式搜集方式避免用戶在使用過程中被頻繁要求做額外的操作,但是存在搜集信息不準(zhǔn)確,不能準(zhǔn)確反映用戶意圖的缺陷。考慮到顯式和隱式這兩種方法的優(yōu)缺點(diǎn),不少系統(tǒng)采用對(duì)這兩類用戶信息搜集方式折中后的復(fù)合式信息搜集方法,例如論文搜索系統(tǒng)CiteSeer等[4]。該復(fù)合式方法只要求用戶在關(guān)鍵點(diǎn)上的主動(dòng)參與,為了保證最佳的用戶體驗(yàn),在大多數(shù)時(shí)間上則采用隱式搜集的方式。
獲取和組織用戶個(gè)人信息形成用戶描述文件,該文件表達(dá)了用戶的興趣偏好,在搜索過程中將準(zhǔn)確的用戶信息提供給搜索引擎,返回給用戶較好的搜索結(jié)果,用戶描述文件的結(jié)構(gòu)分為樹型和非樹型兩種。樹型結(jié)構(gòu)的用戶描述文件都是基于目前網(wǎng)上最大的人工編制的分類檢索系統(tǒng)—開放式分類目錄搜索系統(tǒng) ODP(Open Directory Project)產(chǎn)生的,它繼承了ODP高度覆蓋性和準(zhǔn)確性以及消除二義性的優(yōu)點(diǎn),例如:基于ODP本體論概念的用戶描述文件等[5],但是ODP本身具有缺乏自由度和擴(kuò)展性的缺陷。在非樹型結(jié)構(gòu)的用戶描述文件方面,有胖模式非結(jié)構(gòu)化的用戶描述文件等[6]。非樹型結(jié)構(gòu)的用戶描述文件缺乏層次結(jié)構(gòu),用戶不能自治信息開放程度。
排序方法直接影響著個(gè)性化搜索結(jié)果。最初的研究根據(jù)網(wǎng)頁本身的屬性,提出PageRank的概念[7],對(duì)互聯(lián)網(wǎng)上的頁面進(jìn)行評(píng)分,在搜索時(shí)將得分較高的網(wǎng)頁排在搜索結(jié)果列表的前面返回給用戶。該方法沒有利用任何用戶信息,因此無法提供更貼切用戶自身、滿意度更高的搜索結(jié)果。
隨后展開的研究建立在通用的搜索結(jié)果基礎(chǔ)上,結(jié)合用戶描述文件,在客戶端或服務(wù)器端進(jìn)行搜索結(jié)果的重排序[2,6,8],將貼切用戶的個(gè)性化搜索結(jié)果排列在搜索結(jié)果列表中比較靠前的位置,讓用戶更方便的找到自己滿意的信息。在客戶端重排序的方法受限于傳輸帶寬,致使排序準(zhǔn)確度受限;在服務(wù)器端重排序的方法可以得到較準(zhǔn)確的搜索結(jié)果,但加大了服務(wù)器的負(fù)載,并且存在泄露用戶隱私信息的威脅。
目前對(duì)個(gè)性化搜索系統(tǒng)的評(píng)價(jià)一般都需要人工參與,用戶人工標(biāo)注各個(gè)查詢結(jié)果的正確性,綜合這些人工標(biāo)注結(jié)果來評(píng)測個(gè)性化搜索系統(tǒng)的性能。主要常用三種方法:準(zhǔn)確率評(píng)價(jià)方法[9]、用戶打分評(píng)測機(jī)制[10]和DCG評(píng)測算法[11]。
準(zhǔn)確率評(píng)價(jià)方法:參與評(píng)測的用戶標(biāo)注每次查詢返回的前N個(gè)結(jié)果的正確性,系統(tǒng)利用每次查詢前N個(gè)結(jié)果中標(biāo)注為正確的結(jié)果所占比例作為評(píng)價(jià)指標(biāo)來評(píng)價(jià)系統(tǒng)的性能,評(píng)價(jià)指標(biāo)的值越高則說明系統(tǒng)的性能越好。該方法的計(jì)算公式簡單,減少了參與評(píng)測用戶的工作量,容易實(shí)現(xiàn),但是在無指導(dǎo)的情況下用戶標(biāo)注時(shí)的隨意性較大。
用戶打分評(píng)測機(jī)制:每個(gè)用戶根據(jù)搜索結(jié)果與自己所需信息的符合程度對(duì)每次查詢返回的前N個(gè)結(jié)果打分,將所有用戶對(duì)搜索結(jié)果打分的平均值作為系統(tǒng)性能的評(píng)價(jià)指標(biāo)。該方法將用戶對(duì)結(jié)果的評(píng)價(jià)劃分為很多不同的等級(jí),給出將查詢結(jié)果標(biāo)注為某一等級(jí)的詳細(xì)依據(jù),在一定程度上指導(dǎo)用戶的評(píng)價(jià)行為,更加規(guī)范用戶的標(biāo)準(zhǔn)行為。
DCG評(píng)測算法:把DCG(Discounted Cumulative Gain)公式融入到對(duì)查詢結(jié)果人工打分的方式中,結(jié)合用戶對(duì)搜索結(jié)果的打分和結(jié)果的排序位置,將得出的計(jì)算值作為系統(tǒng)性能的評(píng)測指標(biāo)。該方法結(jié)合用戶的使用習(xí)慣,對(duì)系統(tǒng)做出更加符合實(shí)際情況的整體評(píng)價(jià)。
綜上,目前個(gè)性化搜索的研究重點(diǎn)在于如何提供更智能的搜索方式、個(gè)性化的搜索結(jié)果和高效的搜索能力,較少研究用戶的隱私保護(hù)技術(shù)問題。
根據(jù)隱私泄露方式,目前針對(duì)隱私保護(hù)的研究主要集中在兩個(gè)方面:用訪問控制和加密手段防止未經(jīng)許可的數(shù)據(jù)訪問和用泛化數(shù)據(jù)的手段保護(hù)發(fā)布數(shù)據(jù)的安全。
主要有預(yù)防和檢測兩類手段。預(yù)防手段主要包括定義、執(zhí)行和限制用戶訪問敏感信息和數(shù)據(jù)的訪問控制技術(shù)和加密技術(shù)兩種安全手段。檢測手段主要包括審計(jì)和入侵檢測兩種數(shù)據(jù)安全技術(shù)。審計(jì)用于對(duì)數(shù)據(jù)訪問、修改的事后審查。入侵檢測對(duì)內(nèi)、外攻擊和誤操作提供一種積極主動(dòng)的實(shí)時(shí)保護(hù),在系統(tǒng)受到危害之前攔截相應(yīng)入侵,主要有基于基因算法的方法[12]等。
目前最常用的隱私保護(hù)數(shù)據(jù)發(fā)布技術(shù)主要有k-匿名[13]、l-多樣。k-匿名使得每個(gè)元組的質(zhì)量指標(biāo)值都與其他k-1個(gè)元組的質(zhì)量指標(biāo)值相同,從而保護(hù)了數(shù)據(jù)所有者的隱私。對(duì)l-多樣性進(jìn)行擴(kuò)展,提出t-近似的概念[14],即每個(gè)匿名組中的敏感屬性分布具有與整體的敏感屬性近似的分布。
綜上,雖然傳統(tǒng)的數(shù)據(jù)安全技術(shù)和新興的隱私保護(hù)數(shù)據(jù)發(fā)布技術(shù)能夠?qū)?shù)據(jù)中的敏感信息和隱私信息起到較好的保護(hù)作用,但是,絕大部分傳統(tǒng)的隱私保護(hù)技術(shù)無法直接應(yīng)用于個(gè)性化搜索引擎中的隱私保護(hù)。
目前針對(duì)個(gè)性化搜索中隱私保護(hù)技術(shù)研究的很少,主要提出建立用戶信息層級(jí)樹的方法,允許用戶控制個(gè)人隱私的開放程度,但該層級(jí)樹的建立缺乏一個(gè)統(tǒng)一的標(biāo)準(zhǔn),不利于挖掘群體性的信息,同時(shí)也增加了用戶的負(fù)擔(dān),其次分析了個(gè)性化搜索的隱私保護(hù)中可能遇到的種種問題,在此基礎(chǔ)上提出了隱私保護(hù)的四個(gè)等級(jí)[8],但其等級(jí)的劃分缺乏大量的理論依據(jù),還需要進(jìn)一步考證其準(zhǔn)確性和實(shí)用性。
個(gè)性化搜索系統(tǒng)已被廣為開發(fā),但其研究的重點(diǎn)還處于如何提高搜索結(jié)果質(zhì)量和用戶體驗(yàn)的環(huán)節(jié)。雖然傳統(tǒng)的數(shù)據(jù)安全技術(shù)與新興的隱私保護(hù)數(shù)據(jù)挖掘和發(fā)布技術(shù)能夠?qū)γ舾袛?shù)據(jù)起到較好的保護(hù)作用,但目前絕大部分的隱私保護(hù)技術(shù)無法直接應(yīng)用于個(gè)性化搜索中的隱私保護(hù)。針對(duì)個(gè)人信息搜集、傳輸、使用、存儲(chǔ)和挖掘的保護(hù)方法研究方面還處于起步階段和缺乏對(duì)個(gè)性化搜索中隱私保護(hù)整體框架研究的情況,將來有必要對(duì)此開展研究來解決個(gè)性化搜索中的隱私保護(hù)問題,推動(dòng)個(gè)性化搜索引擎的健康發(fā)展。
[1]JAMES RUCKER,MARCOS J,POLANCO.Personalized navigation for the Web[J].Communications of the ACM, 1997,40(3):73-76.
[2] DUNJA MLADENIC.Machine learning for better Web browsing[A].Proc.of AAAI 2000 Spring Symposium Technical Reports on Adaptive User Interfaces[C].American:Association for Artificial Inteuigence,2000.82-84.
[3]YABO XU,BENYU ZHANG,ZHENG CHEN,et al.Privacy-enhancing personalized Web search[J].In:Proc.Of WWW2007,May 8-12,2007:591-600.
[4]BOLLACKER KURT D,LAWRENCE STEVE,GILES C LEE.Discovering relevant scientific literature on the Web [J].Intelligent Systems and Their Applications,2000,15 (2):42-47.
[5]AHU SIEG,BAMSHAD MOBASHER,ROBIN BUR KE. Web search personalization with ontological user profiles [A].Proc.of CIKM'07,November 6-8[C].Lisboa,Portugal:Acm,2007.525-534.
[6]JAIME TEEVAN,SUSAN T.DUMAIS,ERIC HORVITZ. Personalizing search via automated analysis of interests and activities[A].Proc.of 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'05),August 15-19[C].Salvador,Brazil:Acm,2005.449-456.
[7]LARRY PAGE,SERGEY BRIN,MOTWANI R,et al.The Pagerank citation ranking:bringing order to the Web[R]. Technical Report,Stanford University,1998.
[8]XUEHUA SHEN,BIN TAN,CHENGXIANG ZHAi.Privacy protection in personalized search[R].SIGIR Forum,June 2007:4-17.
[9]FERRAGINA P,GULLI A.A personalized search engine based on Web snippet hierarchical clustering[A].International World Wide Web Conference[C].Chiba,Japan:Acm, 2005.801-810.
[10]PA CHIRITA,W NEJDL,R PAIU,C KOHLSCHǜTTER. Using ODP metadata to personalize search[A].Proceedings of the 28th annual international ACM SIGIR[C].Salvador, Brazil:Acm,2005.178-185.
[11]J TEEVAN,ST DUMAIS,E HORVITZ.Personalizing search via automated analysis of interests and activities [A].Proceedings of the 28th Annual International ACM SIGIR[C].Salvador,Brazil:Acm,2005.449-456.
[12]蘇璞睿,李德全,馮登國.基于基因規(guī)劃的主機(jī)異常入侵檢測模型[J].軟件學(xué)報(bào),2003,14(6):1120-1126.
[13]TOCHUKWU IWUCHUKWU,JEFFREY F,NAUGHTON.K -Anonymization as spatial indexing:Toward scalable and incremental anonymization[A].Proc.of VLDB 2007[C]. Vienna,Austria:Acm,2007.746-757.
[14]NINGHUI LI,TIANCHENG LI,Suresh venkatasubramanian t-closeness:Privacy beyondK-anonymity and l-diversity[A].Data Engineering[C].Istanbul,2007.106-115.