基于Web日志挖掘的路徑補(bǔ)充算法改進(jìn)

2015-05-30 20:37:05邵天會(huì)

中國(guó)新通信 2015年22期

邵天會(huì)

【摘要】由于進(jìn)行數(shù)據(jù)挖掘的Web日志來源不同，進(jìn)行數(shù)據(jù)預(yù)處理時(shí)比較復(fù)雜，為了提高數(shù)據(jù)處理效率，結(jié)合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)用戶訪問路徑進(jìn)行二叉樹的轉(zhuǎn)換，提出PFS（Path For Session）算法---消息路徑優(yōu)化。研究表明該算法解決了Web日志用戶訪問路徑的補(bǔ)充問題，提高了數(shù)據(jù)預(yù)處理效率。

【關(guān)鍵詞】訪問路徑 PFS 消息路徑優(yōu)化

Web日志挖掘主要是針對(duì)用戶瀏覽信息進(jìn)行分析，因此用戶會(huì)話的提取是首要任務(wù)。所謂的用戶會(huì)話就是某個(gè)用戶在某個(gè)時(shí)間段內(nèi)請(qǐng)求頁面的集合[1]。在識(shí)別用戶會(huì)話過程中存在的一個(gè)問題是確定訪問日志中是否有重要的請(qǐng)求沒有被記錄。路徑補(bǔ)充保證了用戶訪問日志的完整性，從而保證Web日子挖掘的現(xiàn)實(shí)意義。

一、路徑補(bǔ)充原理

路徑補(bǔ)充就是將由于本地或代理服務(wù)器緩存的影響而沒有產(chǎn)生日志記錄的請(qǐng)求頁增加到用戶會(huì)話中[2]。

得到用戶會(huì)話之后，要根據(jù)用戶會(huì)話得到訪問路徑。路徑補(bǔ)充涉及定義如下：

定義：用戶會(huì)話的路徑集合 PS=…> ，其中，1≦k≦n，Resident 表示用戶在該頁面的停留時(shí)間[3]。算法輸入為 RS，RS 中的記錄是按 Rid 值分組按時(shí)間順序排列的，輸出為 PS，得到路徑 PS 后，根據(jù)引用信息進(jìn)行路徑補(bǔ)充，如果一條記錄的ReferUrl 不是上一條記錄的 Url，則認(rèn)為該用戶是點(diǎn)擊“后退”按鈕訪問了緩存中的頁面，需要進(jìn)行路徑補(bǔ)充。

PS 中的記錄是按 Rid 值分組順序排列的；輸出為：PS。

二、消息路徑優(yōu)化算法

2.1 消息路徑優(yōu)化算法原理

結(jié)合本文的研究目的和Web日志數(shù)據(jù)源針對(duì)路徑補(bǔ)充的問題提出利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)從用戶訪問序列獲得用戶訪問事務(wù)數(shù)據(jù)的算法PFS（Path For Session）算法---消息路徑優(yōu)化，PFS算法是首先把網(wǎng)站的樹形拓?fù)浣Y(jié)構(gòu)轉(zhuǎn)換為二叉樹的結(jié)構(gòu)，然后在二叉樹結(jié)構(gòu)上根據(jù)用戶的會(huì)話序列得到用戶訪問事務(wù)序列，PFS算法認(rèn)為當(dāng)前用戶的訪問序列中出現(xiàn)不連續(xù)的節(jié)點(diǎn)時(shí)，則用戶可能點(diǎn)擊了瀏覽器上的Back按鈕或重復(fù)點(diǎn)擊一個(gè)鏈接，當(dāng)出現(xiàn)這種情況時(shí)，表明用戶在點(diǎn)擊Back按鈕或重復(fù)點(diǎn)擊鏈接時(shí)就結(jié)束了上次會(huì)話，重新開始了新一輪的會(huì)話。

2.2 消息路徑優(yōu)化算法的實(shí)現(xiàn)

當(dāng)前會(huì)話頁面分別為：A，C，D，I，對(duì)應(yīng)的請(qǐng)求頁面分別為F，H，C，J。

這次會(huì)話的序列是：A--F--C--H--D--C--I--J使用路徑補(bǔ)充技術(shù)：A--B--F--B--A--C--H--C--A--D--A--I--D--J再利用最大向前引用路徑算法得出用戶的訪問事務(wù)為A--B--F，A--C--H，A--D--I--J，三個(gè)事務(wù)。在此過程中，必須對(duì)用戶的訪問序列進(jìn)行補(bǔ)充得到完整的路徑后再應(yīng)用最大向前應(yīng)用路徑才能得到訪問事務(wù)。利用PFS算法轉(zhuǎn)換為二叉樹。

由此，不再需要對(duì)訪問序列補(bǔ)充路徑便可由用戶訪問序列直接獲得用戶的訪問事務(wù)A--B--F，A--C--H，A--D--I--J。

三、算法改進(jìn)對(duì)比

用戶訪問會(huì)話使用路徑補(bǔ)充和PFS算法得到用戶訪問事務(wù)的時(shí)間進(jìn)行對(duì)比，此對(duì)比是假設(shè)網(wǎng)站的結(jié)點(diǎn)鏈接已經(jīng)由圖結(jié)構(gòu)轉(zhuǎn)換為樹形結(jié)構(gòu)，且樹形結(jié)構(gòu)的擁有25個(gè)葉結(jié)點(diǎn)，樹的深度為分別為3，4，5，6時(shí)進(jìn)行的。

實(shí)驗(yàn)證明該算法在相同的路徑深度前提下，減少了Web日志數(shù)據(jù)預(yù)處理的時(shí)間，提高了效率。

四、結(jié)論

PFS算法改進(jìn)了數(shù)據(jù)預(yù)處理階段的路徑補(bǔ)充步驟，從整體上提高了數(shù)據(jù)挖掘效率，但是算法基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，隨著網(wǎng)站的頁面大量增加，網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)也隨之復(fù)雜，算法的復(fù)雜度同時(shí)增大，所以PFS算法對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)復(fù)雜的網(wǎng)站需要更多的研究，以適應(yīng)復(fù)雜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。

參考文獻(xiàn)

[1] 何坤鵬，郭海波.Web 日志挖掘技術(shù)及其應(yīng)用研究[J]，中國(guó)科技信息，2007-08-15：236-237.

[2] 劉明吉，王秀峰，黃亞樓.數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]計(jì)算機(jī)科學(xué)，2000-04-15：3-9.

[3] E.F.Codd，S.B.Codd and C.T.Salley.Providing OLAP to User-Analysts：An IT Mandate.IBM Research Lab，Techni cal Report，1993.

[4] J.Qay，S.Chaudhuri，A.Bosworth，A.Layman，D.Reichart，M.Venkatrao，E Pellow，and H.Pirahesh.Data cube：A relational aggregation operatorgeneralizing group-by，cross-tab and sub-totals.Data Mining and Knowledge Discovery，1：29-54，1997.

中國(guó)新通信2015年22期

中國(guó)新通信的其它文章: 物聯(lián)網(wǎng)技術(shù)在污水處理系統(tǒng)中的應(yīng)用研究; 淺談裝修建材企業(yè)基于O2O電子商務(wù)模式的應(yīng)用; 新形勢(shì)下網(wǎng)絡(luò)技術(shù)在電力信息通信中的應(yīng)用; 基于SDN框架的通信網(wǎng)絡(luò)的研究與應(yīng)用; 長(zhǎng)期演進(jìn)(LTE)技術(shù)在地鐵無線通信中的應(yīng)用分析; 淺談Wi Max技術(shù)在海上通信中的應(yīng)用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Web日志挖掘的路徑補(bǔ)充算法改進(jìn)