吳清強,鮑彬彬
(廈門大學(xué)軟件學(xué)院,廈門 361005)
用戶行為可靠性評價綜合框架*
吳清強,鮑彬彬
(廈門大學(xué)軟件學(xué)院,廈門 361005)
用戶行為可靠性評價對于網(wǎng)絡(luò)服務(wù)的發(fā)展具有重要作用,已有研究分別從概率統(tǒng)計、用戶意圖、用戶行為模式以及數(shù)據(jù)挖掘等角度對其進行廣泛研究。本文在定義網(wǎng)絡(luò)用戶行為的可靠性評價基礎(chǔ)上,梳理現(xiàn)有算法和模型,針對現(xiàn)有評價模型存在的問題,提出一種包括用戶行為數(shù)據(jù)收集層、用戶行為劃分層、用戶行為模式訓(xùn)練層、不可靠用戶行為鑒別層以及用戶行為管理與控制層的用戶行為可靠性評價綜合模型框架,能夠在一定程度上解決用戶行為可靠性評價中的惡意機器人問題。
用戶行為可靠性;可靠性評價;可信用戶行為
隨著計算機技術(shù)發(fā)展,互聯(lián)網(wǎng)在人們生活中越來越普及,分析用戶網(wǎng)絡(luò)行為,挖掘用戶行為規(guī)律具有重要意義。然而,在開放的網(wǎng)絡(luò)環(huán)境中,用戶行為數(shù)據(jù)的獲取通常伴隨網(wǎng)絡(luò)用戶非正常行為所產(chǎn)生的異常、惡意和噪聲數(shù)據(jù)(這些異常數(shù)據(jù)大部分來自爬蟲機器人),影響用戶行為模型構(gòu)建及其可靠性評估。由于檢索引擎的需要(如百度和谷歌等,主要是為用戶提供更好的檢索服務(wù)),因此現(xiàn)實中會有大量爬蟲機器人;但其中也存在大量惡意機器人,其目的是復(fù)制整個網(wǎng)站或從網(wǎng)站下載有價值信息以謀取暴利,對服務(wù)器進行惡意攻擊使其崩潰或無法為用戶提供正常服務(wù),因此對機器人的不同行為需區(qū)別對待。
在可信網(wǎng)絡(luò)中,用戶身份可信并不等同用戶行為可信[1],高可信用戶也可能存在不可靠的、低可信的用戶行為,甚至將個人可信身份附在惡意機器人上,讓惡意機器人模擬用戶行為進而產(chǎn)生大量不可信行為。對于這類用戶行為,需要進行甄別并區(qū)分對待,甚至降低這類用戶身份的可信度。對用戶行為的可信度研究,不僅能降低或避免惡意用戶行為,也能降低監(jiān)控或阻止惡意用戶的成本,進而提升服務(wù)水平和服務(wù)質(zhì)量。
對用戶行為可靠性進行分析和評估,剔除不可靠的、不可信的用戶行為,對于提升網(wǎng)絡(luò)服務(wù)的水平和質(zhì)量有重要的作用。本文試圖在分析現(xiàn)有用戶行為可靠性評價模型的基礎(chǔ)上,總結(jié)歸納現(xiàn)有評價模型的不足,進而提出一個有助于改善這些不足的評價綜合模型框架。
2.1 用戶行為及其可靠性
用戶行為指用戶在使用網(wǎng)絡(luò)服務(wù)過程中產(chǎn)生的瀏覽、點擊、下載等行為,是用戶使用網(wǎng)絡(luò)服務(wù)的體現(xiàn)。互聯(lián)網(wǎng)信息復(fù)雜多樣,用戶從中獲取有用信息,但卻很難獲得想要的信息。為給用戶提供更方便有效的增值服務(wù),使用戶能快速獲得網(wǎng)絡(luò)服務(wù)和所需信息,網(wǎng)絡(luò)機器人需發(fā)揮信息收集、整理和分析功能,利用處理后的信息為用戶提供針對性服務(wù)(如不同搜索引擎開發(fā)的機器人爬蟲[2])。但部分惡意機器人爬蟲,通過惡意或非法請求獲取各種資源,該行為對服務(wù)器產(chǎn)生巨大壓力和重大影響[3]。惡意機器人爬蟲行為是不可靠的用戶行為,在具體工作中必須檢測出這類機器人并盡量阻止其訪問服務(wù)器,以免因惡意行為造成服務(wù)器請求的負擔(dān),進而影響其他用戶的網(wǎng)絡(luò)服務(wù)。
在可信網(wǎng)絡(luò)中,可信范圍主要包括三方面,服務(wù)提供者的可信、網(wǎng)絡(luò)信息傳輸?shù)目尚藕徒K端用戶的可信。其中,終端用戶的可信又分為終端用戶身份可信和終端用戶行為可信,終端用戶身份可信指終端用戶的身份真實有效,終端用戶行為可信指終端用戶的行為是否符合服務(wù)器對其的信任要求[4]。本文僅對可信網(wǎng)絡(luò)中的終端用戶行為可信進行研究。
用戶行為的可信評價實質(zhì)是用戶行為可靠性的度量,可信行為等價于可靠用戶行為,不可信行為等價于不可靠用戶行為。因此,本文將用戶行為的可信評價等價于用戶行為的可靠性度量,這兩個概念是等價的、可相互替代的。
2.2 可靠性評價
網(wǎng)絡(luò)用戶行為可靠性評價是一個復(fù)雜的數(shù)據(jù)收集、分析和推理過程[5],也是與上下文和時間相關(guān)的一個動態(tài)過程。用戶行為可靠性具有動態(tài)性和模糊性特征,這是用戶行為可靠性評估的最大挑戰(zhàn),用戶行為所在的環(huán)境上下文也會隨著時間的推移而動態(tài)變化,因而通常具有一定的時間滯后性。由于用戶自身的不可靠行為對服務(wù)器和用戶服務(wù)的影響相對較小,因此已有研究主要集中在由機器人產(chǎn)生的不可靠用戶行為上。部分不可靠的機器人用戶行為為了特殊目的(如建立山寨網(wǎng)站等)試圖下載整個網(wǎng)站資源,這些下載行為有時會對服務(wù)器造成巨大的壓力,致使服務(wù)器運行緩慢、甚至宕機。但這些不可靠的機器人用戶行為通常隱藏在可靠的用戶或機器人用戶行為中,不容易被識別和阻止。
用戶行為的可靠性評價首先利用軟件和硬件設(shè)備收集用戶行為數(shù)據(jù);其次,設(shè)計用戶可靠性度評價模型,將收集的用戶行為數(shù)據(jù)作為評價模型的評價對象;最后,在模型中計算用戶行為可靠度,并將可靠度作為判斷用戶行為可靠性的標(biāo)準(zhǔn),同時剔除不可靠用戶行為。
2.3 用戶行為可靠性評價定義
用戶行為可靠性評價是一個行為規(guī)律問題,通常很難憑借單次資源請求判斷用戶行為是否可靠,其通常利用整個會話(Session)信息,及該用戶或相關(guān)用戶請求/訪問資源的歷史情況進行判斷和甄別[6]。本文中用戶可靠性甄別和評價的形式化定義如下。
假定資源請求集合為R,對于每一次請求用r表示,則r∈R。一般情況下,r包括請求發(fā)起地址、被請求資源名稱和位置、響應(yīng)代碼以及用戶代理信息等。在對用戶行為可靠性進行評價時,需要通過用戶行為模式判斷該用戶行為的來源對象(人類用戶或機器人用戶)。由于機器人用戶行為具有連續(xù)性特征,因此,在對機器人用戶行為進行識別時通常采用Session方式。假定一個Session S,S R是單個用戶訪問產(chǎn)生的所有記錄sr的集合(對于所有sr,sr∈S),利用S判斷該Session是否由機器人用戶發(fā)起。如果是機器人用戶發(fā)起的,則進一步檢測該機器人用戶行為的可靠性,判斷其是否為惡意機器人用戶。對于給定記錄集合R,通常包含一系列的“S={S1, S2, … ,Sn}”,并且這些Si是互斥的,即
在對用戶行為可靠性評價調(diào)研過程中,根據(jù)已有算法或模型,將其分為基于概率統(tǒng)計的用戶行為可靠性評價模型、基于用戶意圖的用戶行為可靠性評價模型、基于用戶行為模式的用戶行為可靠性評價模型和基于數(shù)據(jù)挖掘的用戶行為可靠性評價模型,四種模型的優(yōu)勢及問題進行歸納如下。
3.1 基于概率統(tǒng)計的用戶行為可靠性評價模型
在大量網(wǎng)絡(luò)用戶的行為中,特別是包含網(wǎng)絡(luò)爬蟲等噪聲的用戶行為數(shù)據(jù)中,所產(chǎn)生事件具有一定數(shù)量規(guī)律,但在特定條件下部分事件的發(fā)生又具有一定隨機性,符合概率統(tǒng)計的特性。概率統(tǒng)計方法雖然無法得出精確結(jié)果,但可在特定概率條件下作出具體判斷,使其符合用戶行為可靠性的度量要求。
任立肖利用統(tǒng)計方法對網(wǎng)絡(luò)用戶行為進行計量分析,通過計量指標(biāo)判斷網(wǎng)絡(luò)用戶行為是否正常、可靠[7];而岑榮偉[8]和梁員寧[9]等利用大規(guī)模真實網(wǎng)絡(luò)用戶行為日志,對網(wǎng)絡(luò)用戶與搜索引擎系統(tǒng)的交互與決策過程展開研究,通過對相關(guān)信息網(wǎng)絡(luò)用戶點擊和普通點擊分布狀況進行比較,結(jié)合網(wǎng)絡(luò)用戶點擊行為的上下文背景特征進行分析,從而完成網(wǎng)絡(luò)用戶行為可靠性度量;呂艷霞等利用模糊網(wǎng)絡(luò)分析法,利用模糊性對用戶行為的可靠性進行量化,進而區(qū)分和鑒別可靠用戶行為和不可靠用戶行為[10];Stassopoulou等采用概率方法描述了一個通過訪問日志對惡意機器人用戶行為進行檢測的模型,并使用貝葉斯網(wǎng)絡(luò)區(qū)分人類用戶、機器人爬蟲與惡意機器人,通過用戶分類來鑒定用戶行為的可靠性[11]。研究者利用用戶行為的概率統(tǒng)計特性,在區(qū)分網(wǎng)絡(luò)用戶行為中爬蟲、機器人等惡意行為起到重要的抑制或消除作用,同時對構(gòu)建可靠用戶行為數(shù)據(jù)集起到良好作用。但這些模型沒有深入研究實際數(shù)據(jù)中的概率分布應(yīng)用、閾值設(shè)定等問題,也沒有考慮用戶行為主體間的相互作用和影響。
3.2 基于用戶意圖的用戶行為可靠性評價模型
用戶行為意圖包括用戶信息需求、查詢目標(biāo)、查詢動機等。用戶的可靠性度量與用戶觀念及行為意圖息息相關(guān),相同用戶行為在不同用戶觀念和意圖下可能具有不同的可靠性。研究者在識別用戶行為意圖及其可靠性方面展開大量研究工作。
羅成等首先通過采集用戶對網(wǎng)絡(luò)服務(wù)返回結(jié)果的不同點擊行為獲得與用戶行為相關(guān)聯(lián)的資源內(nèi)容,然后對采集的資源內(nèi)容進行關(guān)聯(lián)分析和層次聚類,最后根據(jù)關(guān)聯(lián)分析和層次聚類結(jié)果定位和區(qū)分用戶的行為意圖[12]。張志強等利用用戶標(biāo)注的資源標(biāo)簽,識別和描述用戶感興趣的話題[13];用戶標(biāo)注的資源標(biāo)簽是由用戶主動進行的、在一定程度上體現(xiàn)用戶當(dāng)前的行為意圖,該方法可以用于補充或加強對用戶意圖的識別。
非正常網(wǎng)絡(luò)行為不包含用戶意圖,通常是遍歷式資源請求下載或無目的惡意攻擊,因此在對網(wǎng)絡(luò)用戶行為進行分析時,需識別出可靠用戶行為,剔除不可靠用戶行為。Tan等將網(wǎng)絡(luò)用戶日志中的機器人用戶行為模型化,從而過濾掉由機器人自動化點擊造成的非正常網(wǎng)絡(luò)用戶行為[6];Craswell[14]和Guo[15]等提出瀑布模型模擬網(wǎng)絡(luò)用戶的點擊行為,并利用該模型來識別正常網(wǎng)絡(luò)用戶行為;蔡岳等提出一種基于網(wǎng)絡(luò)用戶行為聚類的方法,從網(wǎng)絡(luò)用戶行為日志中挖掘其行為意圖,并使用網(wǎng)絡(luò)用戶行為意圖提升檢索質(zhì)量和效率[16];Sadagopan等以單次用戶檢索行為為單位,通過對網(wǎng)絡(luò)用戶行為點擊流分析,并將該點擊流與預(yù)設(shè)不同檢索意圖下正常網(wǎng)絡(luò)用戶行為過程相匹配,進而鑒別該次網(wǎng)絡(luò)用戶行為是否是真實可靠[17]。
這類模型引入用戶行為意圖概念,將用戶行為納入用戶意圖框架進行可靠性度量,可有效剔除與用戶意圖不相關(guān)的非可靠用戶行為,降低不可靠用戶行為對模型結(jié)果的不利影響。但該類模型存在一定缺陷,即當(dāng)單次用戶行為具有多意圖時,用戶可靠性行為的度量效果不顯著。
3.3 基于用戶行為模式的用戶行為可靠性評價模型
人類用戶和正常機器人爬蟲的行為模式有規(guī)可循,研究者試圖利用已知用戶行為模式檢查和鑒別惡意用戶行為,并對用戶行為進行可靠性度量。
通過對土壤數(shù)據(jù)庫進行統(tǒng)計,甘肅省共有土壤亞類90個,這樣的分類體系對于空間分辨率為500 m和1 000 m的MODIS數(shù)據(jù)來說類別過于復(fù)雜,容易造成分類結(jié)果不理想,因此對各個類別的圖斑面積進行統(tǒng)計,最終舍棄了圖斑面積小于0.2 cm的35個亞類,剩余55個亞類。
用戶行為可靠性可以通過用戶行為模式建模技術(shù)進行模擬和度量。余肖生等利用網(wǎng)絡(luò)用戶行為過程模型圖,通過網(wǎng)絡(luò)負載分析發(fā)現(xiàn)真實可靠的網(wǎng)絡(luò)用戶行為[18];Baeza-Yates[19]和Kammenhuber[20]等利用馬爾可夫過程假設(shè)模擬網(wǎng)絡(luò)用戶的檢索過程,進而對網(wǎng)絡(luò)用戶行為進行解釋,以識別出真實可靠的網(wǎng)絡(luò)用戶行為;Joachims等利用用戶決策過程模型,對用戶行為的有效性進行分析,排除與決策行為無關(guān)的網(wǎng)絡(luò)用戶行為,保留真實可靠的網(wǎng)絡(luò)用戶行為,并使用可靠的網(wǎng)絡(luò)用戶行為提升檢索結(jié)果質(zhì)量[21];基于上述的研究成果, Agichtein等也提出利用群體網(wǎng)絡(luò)用戶行為解釋和分析網(wǎng)絡(luò)用戶行為的可靠性,并以此對檢索結(jié)果中排序偏置問題進行修正[22];Kwon等根據(jù)用戶交互過程中的資源請求類型,匹配與其相應(yīng)的用戶行為模式,并利用該方法將資源分類[23];本文將資源分類所得結(jié)果與資源請求同等對待的區(qū)分結(jié)果進行對比,該方法對惡意機器人用戶行為識別能力更強;Kwon等利用用戶在整個Session過程中行為模式的改變方式和速度區(qū)分人類用戶、機器人爬蟲以及惡意機器人用戶,同時將該方法應(yīng)用于所有資源的請求和訪問中[24];Hayati等提出在Web 2.0時代,惡意機器人用戶一般通過模擬人類行為模式逃避系統(tǒng)檢查,為解決這一問題,可通過給定惡意機器人用戶無法模仿的人類用戶瀏覽行為模式,并使用有監(jiān)督機器學(xué)習(xí)方法來檢測惡意機器人用戶行為,且達到96.24%的精確度[25]。
基于用戶行為模式的可靠性評價模型雖能在很大程度上識別已有惡意機器人,但該模型對未知的惡意機器人、或具有自主學(xué)習(xí)人類行為模式的惡意機器人識別能力較差,因此限制了這種用戶行為可靠性評價模型的推廣應(yīng)用。
3.4 基于數(shù)據(jù)挖掘的用戶行為可靠性評價模型
在用戶行為可靠性評價研究中,如果缺乏對用戶歷史行為的風(fēng)險分析,就不能客觀地反映用戶行為可靠性。用戶歷史行為數(shù)據(jù)真實地反映用戶行為變化。如何從龐雜的用戶歷史行為數(shù)據(jù)中發(fā)現(xiàn)用戶的不可靠、不可信問題,是研究用戶行為可靠性評價的關(guān)鍵。
武小年等提出利用數(shù)據(jù)挖掘方法對用戶行為可靠性進行研究[26],指出用戶的大部分數(shù)據(jù)是正常行為數(shù)據(jù),如果能有效地過濾正常行為數(shù)據(jù),就可大幅減少要分析的用戶歷史行為數(shù)據(jù)量,從而提高數(shù)據(jù)處理效率。邱宜輝等提出基于BP神經(jīng)網(wǎng)絡(luò)算法的用戶行為可信分析模型[27],該模型利用BP神經(jīng)網(wǎng)絡(luò)算法對用戶行為可信等級進行預(yù)測,得出用戶行為可信等級。Stevanovic等利用無監(jiān)督神經(jīng)網(wǎng)絡(luò)模型鑒別網(wǎng)站惡意用戶和非惡意用戶,同時該模型還能正確區(qū)分不同用戶類型(包括惡意機器人爬蟲用戶以及非惡意用戶等)[28]。另外, Stevanovic等還通過選用資源連續(xù)請求率、頁面訪問深度等特征,通過二次分類方法識別可靠用戶行為和不可靠用戶行為[29-30];該二次分類模型首先通過Session將用戶分為人類用戶和機器人用戶,然后通過機器人用戶的Session特性,將機器人用戶分為機器人爬蟲用戶和惡意機器人用戶。蔣澤等采用決策屬性衡量用戶行為可信度和可靠性[5],該模型能夠準(zhǔn)確評價網(wǎng)絡(luò)用戶行為的可信度和可靠性,并能反映網(wǎng)絡(luò)用戶行為的動態(tài)變化特性。
這類模型利用數(shù)據(jù)挖掘技術(shù)對用戶行為進行建模,從海量的網(wǎng)絡(luò)用戶行為數(shù)據(jù)中過濾掉非正常用戶行為數(shù)據(jù)、并識別出可靠的用戶行為數(shù)據(jù),為基于用戶行為的檢索反饋系統(tǒng)提供可信數(shù)據(jù),但該類模型沒有考慮用戶行為可靠性評價的不確定性和模糊性問題。
這四種模型在一定程度上能有效地解決不同環(huán)境下的用戶行為可靠性評價問題,對于檢測惡意機器人用戶行為、減輕網(wǎng)絡(luò)服務(wù)負擔(dān)、提高正常用戶服務(wù)的質(zhì)量起到重要作用。但仍然有兩個問題沒有得到有效解決。(1)惡意機器人常通過收集并模擬人類用戶的行為模式逃避模型檢測和系統(tǒng)檢查。即使惡意機器人模擬人類用戶行為,但人類行為具有主觀性(如在訪問時序、對資源的請求和訪問間隔頻率、對資源類型的需求等方面),機器人無法完全模擬,已有評價方法無法有效識別這些惡意的、不可靠的用戶行為。(2)在未知的、新型的惡意機器人檢測方面,由于這些惡意機器人可能綜合使用多種方式隱瞞其真實意圖,從而達到逃避檢測的目的。對于這類惡意機器人,由于用戶意圖不明確、沒有先驗知識,上述基于用戶意圖、概率統(tǒng)計以及有監(jiān)督的數(shù)據(jù)挖掘方法均對其無能為力,而無監(jiān)督的數(shù)據(jù)挖掘方法對新數(shù)據(jù)類型的分類效果也不夠理想。
通過上述分析發(fā)現(xiàn),在當(dāng)前的用戶行為可靠性評價模型中,存在無法有效識別模擬人類用戶行為的惡意機器人用戶行為、對未知新型的不可靠用戶行為識別能力不足、無法有效獲得學(xué)習(xí)訓(xùn)練數(shù)據(jù)、適應(yīng)多變復(fù)雜環(huán)境的能力較低以及無法區(qū)別用戶行為的模糊性和動態(tài)性等缺點。其中有效獲取學(xué)習(xí)訓(xùn)練數(shù)據(jù)的問題至今沒有一個很好的解決方案。因此,本文提出一個集多種評價方法的用戶行為可靠性評價綜合模型框架(見圖1)。
用戶行為可靠性評價綜合模型框架包含五個層次,分別是用戶行為數(shù)據(jù)收集層、用戶行為劃分層、用戶行為模式訓(xùn)練層、不可靠用戶行為鑒別層以及用戶行為管理與控制層。
(1)用戶行為數(shù)據(jù)收集層。該層負責(zé)用戶行為數(shù)據(jù)的收集,包括人類用戶行為數(shù)據(jù)和機器人用戶行為數(shù)據(jù)。該層主要負責(zé)收集所有用戶行為,抽取歸納用戶行為特征,將數(shù)據(jù)傳至用戶行為劃分模型,模型根據(jù)所接收的用戶行為特征對用戶行為進行劃分。
(2)用戶行為劃分層。該層利用用戶行為數(shù)據(jù)收集層的用戶行為特征數(shù)據(jù),與現(xiàn)有用戶行為模式庫進行對比分析,將用戶行為簡單地劃分為人類用戶行為和機器人用戶行為。人類用戶和機器人用戶不僅在資源導(dǎo)航與請求模式、不同資源獲取方式等方面,而且在訪問序列、訪問間隔及再訪問方式等特征上更具有明顯差異。如人類用戶的再訪問一般通過導(dǎo)航或檢索模式進行資源請求,而機器人具有記憶性,其再訪問一般為直接訪問資源。因此,在對用戶行為可靠性評價時,可以先構(gòu)建行為模式鑒別模型,區(qū)分人類用戶行為和機器人用戶行為;然后,從機器人用戶行為中識別出惡意的、不可靠的用戶行為,完成用戶行為可靠性評價。
(3)用戶行為模式訓(xùn)練層。人類用戶行為模式和機器人用戶行為模式隨時間而發(fā)生變化,為促使用戶行為模式庫中的用戶行為模式能夠與真實用戶的行為變化相匹配,在該層利用行為模式學(xué)習(xí)器,學(xué)習(xí)新的用戶行為模式并更新至用戶行為模式庫。
(4)不可靠用戶行為鑒別層。不可靠的、惡意的用戶行為絕大部分來自惡意機器人,這些由不可靠用戶行為產(chǎn)生的惡意訪問通常會對網(wǎng)絡(luò)服務(wù)器造成高負載壓力,進而影響對正常用戶的服務(wù)能力。由于用戶行為可靠性評估方法無法適應(yīng)復(fù)雜多變的環(huán)境需求,在該層,本文集成多種不同用戶行為可靠性評價模型,形成一個綜合評價模型。該模型同時利用用戶行為模式、歷史數(shù)據(jù)以及訓(xùn)練數(shù)據(jù)對用戶行為進行評估。
(5)用戶行為管理與控制層。該層通過綜合用戶行為評價模型,獲得用戶行為相關(guān)信息(包括用戶行為可靠性、用戶行為模式等)。在實際評價分析過程中,為遏制或消除惡意機器人用戶行為對網(wǎng)絡(luò)服務(wù)的影響,需對用戶行為進行預(yù)測、管理和控制,使用戶行為可靠性評價綜合模型能在實際網(wǎng)絡(luò)服務(wù)中得以應(yīng)用。
該用戶行為可靠性評價模型在綜合考慮現(xiàn)有評價模型的基礎(chǔ)上,使用集成的評價方法,對提高用戶行為可靠性評價的準(zhǔn)確度具有積極作用。與單一模型相比,可靠性評價綜合模型在收集用戶行為模式庫的基礎(chǔ)上,通過用戶行為劃分模型與行為模式學(xué)習(xí)器,實時補充和完善最新的用戶行為模式,能有效解決不能較好地識別模擬人類用戶行為的惡意機器人以及其他未知的新型惡意機器人等問題。但該模型對于獲取訓(xùn)練數(shù)據(jù)困難以及用戶可靠性中的模糊性、不確定性等問題仍有待改善。
圖1 用戶行為可靠性評價綜合模型框架
網(wǎng)絡(luò)用戶行為蘊含大量有價值的信息,可廣泛用于提升各種網(wǎng)絡(luò)服務(wù)的水平和質(zhì)量。但在開放網(wǎng)絡(luò)環(huán)境中,用戶行為存在大量惡意的非正常行為,需要對用戶行為的可靠性進行評價。目前對用戶行為可靠性評價的研究主要集中在概率統(tǒng)計、用戶行為意圖、用戶行為模式以及數(shù)據(jù)挖掘四個方面,這些評價模型對模擬人類用戶行為的惡意機器人、未知新型惡意機器人用戶行為的模糊性和動態(tài)性等方面仍有不足。已有用戶行為可靠性評價方法無法適應(yīng)不同環(huán)境下的用戶可靠性評價,本文針對該問題提出一個集成多種評價方法的用戶行為可靠性評價綜合模型框架。該模型通過五個層次將用戶行為數(shù)據(jù)收集、用戶行為劃分、用戶行為模式訓(xùn)練、不可靠用戶行為鑒別以及用戶行為管理與控制聯(lián)系起來,形成一個從數(shù)據(jù)、評價到管理控制的框架模型。
該綜合模型通過對用戶行為基礎(chǔ)分析和用戶行為模式識別,能夠有效區(qū)分機器人用戶和人類用戶;并利用用戶行為模式庫,對新的用戶行為模式進行學(xué)習(xí)訓(xùn)練,促使用戶行為模式庫中的用戶行為模式能夠與真實用戶的時間行為變化相匹配。在此基礎(chǔ)上,結(jié)合用戶行為模式和學(xué)習(xí)訓(xùn)練數(shù)據(jù),對機器人用戶行為中的惡意機器人行為進行鑒別,為最終用戶控制與管理提供數(shù)據(jù)基礎(chǔ)。
針對該綜合模型中存在的用戶行為模糊性和動態(tài)性等難題,后續(xù)研究擬引入模糊理論或粗糙集對用戶行為特征的模糊性進行表示,并將該模糊性表示納入綜合評價,對用戶行為的可靠性使用概率形式表示,以期獲得更接近實際用戶行為的評價結(jié)果。對于有效訓(xùn)練數(shù)據(jù)獲取的難題,后續(xù)研究擬考慮從數(shù)據(jù)集中抽取不同切片,嘗試從不同角度進行詮釋和歸類。
[1]LIN C,TIAN L,WANG Y.Research on user behavior trust in trustworthy network[J].Journal of Computer Research & Development,2008,45(12):2033-2043.
[2]ARASU A,CHO J,GARCIA-MOLINA H.Searching the web[J].Acm Transactions on Internet Technology,2002,1(1):42-43.
[3]DORAN D,GOKHALE S S.Web robot detection techniques: overview and limitations[J].Data Mining and Knowledge Discovery, 2011,22(1):183-210.
[4]林闖,田立勤,王元卓.可信網(wǎng)絡(luò)中用戶行為可信的研究[J].計算機研究與發(fā)展,2008,45(12):2033-2043.
[5]蔣澤,李雙慶,尹程果.基于多維決策屬性的網(wǎng)絡(luò)用戶行為可信度評估[J].計算機應(yīng)用研究,2011,28(6):2289-2293,2320.
[6]TAN P N,KUMAR V.Discovery of web robot sessions based on their navigational patterns[J].Data Mining and Knowledge Discovery,2002,6(1):9-35.
[7]任立肖.網(wǎng)絡(luò)用戶信息行為計量研究[D].蘭州:蘭州大學(xué),2006.
[8]岑榮偉,劉奕群,張敏,等.網(wǎng)絡(luò)檢索用戶行為可靠性分析[J].軟件學(xué)報,2010,21(5):1055-1066.
[9]梁員寧,陳建良,葉笠.云服務(wù)可靠性優(yōu)化方法研究[J].計算機科學(xué),2013,40(8):129-135.
[10]呂艷霞,田立勤,孫珊珊.云計算環(huán)境下基于FANP的用戶行為的可信評估與控制分析[J].計算機科學(xué),2013,40(1):132-135,138.
[11]STASSOPOULOU A,DIKAIAKOS M D.Web robot detection:a probabilistic reasoning approach[J].Computer Networks,2009,53 (3):265-278.
[12]羅成,劉奕群,張敏,等.基于用戶意圖識別的查詢推薦研究[J].中文信息學(xué)報,2014,28(1):64-72.
[13]張志強,彭晴晴,謝曉芹,等.面向查詢意圖的信息檢索技術(shù)[J].軟件學(xué)報,2013,24(3):162-177.
[14]CRASWELL N,ZOETER O,TAYLOR M,et al.An experimental comparison of click position-bias models[C]//International Conference on Web Search and Data Mining.ACM,2008:87-94.
[15]GUO F,LIU C,WANG Y M.Efficient multiple-click models in web search[C]//International Conference on Web Search and Web Data Mining,WSDM 2009.Barcelona:DBLP,2009,84(2):124-131.
[16]蔡岳,袁津生.用戶行為聚類的搜索引擎算法與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2010,19(4):94-97.
[17]SADAGOPAN N, LI J.Characterizing typical and atypical user sessions in clickstreams[C]//International Conference on World Wide Web.Beijing:DBLP,2008,31(4):885-894.
[18]余肖生,馬費成.網(wǎng)絡(luò)用戶行為模型的構(gòu)建方法研究[J].情報科學(xué), 2011(4):605-608.
[19]BAEZA-YATES R,HURTADO C,MENDOZA M,et al.Modeling user search behavior[C]//Latin American Web Congress.[S.1.]:IEEE,2005:10.
[20]KAMMENHUBER N,LUXENBURGER J,FELDMANN A,et al.Web search clickstreams[C]//ACM SIGCOMM Conference on Internet Measurement 2006.Rio:DBLP,2006:245-250.
[21]JOACHIMS T,GRANKA L,PAN B,et al.Accurately interpreting clickthrough data as implicit feedback[C]//International Acm Sigir Conference on Research & Development in Information Retrieval.[S.1.]: [s.n],2005:154-161.
[22]AGICHTEIN E,BRILL E,DUMAIS S,et al.Learning user interaction models for predicting web search result preferences[C]//International ACM SigirConference on Research and Development in Information Retrieval.[S.1.]:ACM,2006:3-10.
[23]KWON S,KIMY G,CHA S.Web robot detection based on patternmatching technique[J].Journal of Information Science,2012,38(2):118-126.
[24]KWON S,OH M,KIM D, et al.Web robot detection based on monotonous behavior[J].Proceedings of the Information Science and Industrial Applications,2012(4):43-48.
[25]HAYATI P,POTDAR V,CHAI K,et al.Web spambot detection based on web navigation behaviour[C]//Advanced Information Networking and Applications(AINA),2010 24th IEEE International Conference on.New York:IEEE,2010:797-803.
[26]武小年,周勝源.數(shù)據(jù)挖掘在用戶行為可信研究中的應(yīng)用[C]//第十一屆保密通信與信息安全現(xiàn)狀研討會論文集.四川:信息安全與通信保密雜志社,2009(4):243-245.
[27]邱宜輝,陳志德,許力.基于BP神經(jīng)網(wǎng)絡(luò)的可信網(wǎng)絡(luò)用戶行為預(yù)測模型[J].福建電腦,2009,25(1):70-71.
[28]STEVANOVIC D,VLAJIC N,AN A.Detection of malicious and non-malicious website visitors using unsupervised neural network learning[J].Applied Soft Computing,2013,13(1):698-708.
[29]STEVANOVIC D,AN A,VLAJIC N.Feature evaluation for web crawler detection with data mining techniques[J].Expert Systems with Applications,2012,39(10):8707-8717.
[30]STEVANOVIC D,AN A,VLAJIC N.Detecting web crawlers from web server access logs with data mining classi fi ers[C]//Foundations of Intelligent Systems-International Symposium.Berlin:Springer Berlin Heidelberg,2011:483-489.
Integrated Framework of Reliability Evaluation Method of User Behavior
WU QingQiang, BAO BinBin
(Software School of Xiamen University, Xiamen 361005, China)
The reliability evaluation of user behavior is playing an important role on the development of network services.The current researches about reliability evaluation of user behavior include the probability statistics, user behavior intention, user behavior model and data mining.On the basis of the reliability evaluation of network user behavior, the de fi nition of network user behavior’s trust evaluation and the summary of the existing research, the paper aims at the existing problems in the current evaluation models, and tries to propose an integrated framework of reliability evaluation method of network user behavior.There are fi ve layers in this framework, which are data collection layer, user behavior division layer, user behavior training layer, unreliability behavior identi fi cation layer and user behavior management and control layer.This framework makes a positive effect in improving the solution to the problem of bad machine behaviors in the reliability evaluation of user behavior.
User Behavior Reliability; Reliability Evaluation; Trusted User Behavior
TP393
10.3772/j.issn.1673-2286.2017.05.008
吳清強,男,1974年生,博士,副教授,研究方向:情報分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)、數(shù)字圖書館,E-mail:wuqq@xmu.edu.com。
鮑彬彬,女,1992年生,碩士研究生,研究方向:數(shù)據(jù)挖掘。
2017-04-07)
* 本研究得到國家社會科學(xué)基金項目“面向檢索的網(wǎng)絡(luò)用戶行為可靠性度量研究”(編號:13CTQ011)資助。