Web日志挖掘技術(shù)的應(yīng)用研究

2011-06-12 08:55:26胡宏智王華

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2011年5期

胡宏智王華

安徽工業(yè)大學(xué)計(jì)算機(jī)學(xué)院安徽 243032

0 前言

隨著Web站點(diǎn)規(guī)模的擴(kuò)大和復(fù)雜程度的提高，訪問者對Web站點(diǎn)的要求也越來越高，要求它具有個性化，智能性。因此，簡單的統(tǒng)計(jì)訪問者所在的地區(qū)，統(tǒng)計(jì)站點(diǎn)的訪問次數(shù)已經(jīng)不能滿足。Web日志挖掘是對用戶在訪問網(wǎng)站時留下的訪問記錄進(jìn)行數(shù)據(jù)挖掘，利用數(shù)據(jù)挖掘的方法可以在海量的日志數(shù)據(jù)中自動快速的發(fā)現(xiàn)用戶的訪問模式，其結(jié)果可以用于改善網(wǎng)站的拓?fù)浣Y(jié)構(gòu)，發(fā)現(xiàn)相似客戶群體，開展個性化的信息服務(wù)和有針對性的電子商務(wù)活動。

1 數(shù)據(jù)預(yù)處理

從Web服務(wù)器收集到的日志不能直接用于數(shù)據(jù)挖掘，還必須進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理一般分為數(shù)據(jù)清理、用戶識別、回話識別、路徑補(bǔ)充這幾個過程。

1.1 數(shù)據(jù)清理

數(shù)據(jù)清理的目的是清除從服務(wù)器得到的日志中的不相關(guān)的數(shù)據(jù)，縮小被挖掘的數(shù)據(jù)對象的范圍。本文使用的日志數(shù)據(jù)集與以往的日志數(shù)據(jù)集有所有不同，如圖1所示，數(shù)據(jù)集中的字段都是挖掘所需要的，但是每一個記錄都含有若干條記錄，其中是以“|||”分割的，利用SQL語句可以把這些記錄分離開，從而形成一條一條的記錄，得到的數(shù)據(jù)集就可以用于下一步的數(shù)據(jù)挖掘。如圖2所示。

圖1 日志數(shù)據(jù)集1

圖2 日志數(shù)據(jù)集2

數(shù)據(jù)清理的核心SQL語句：

select rowNum,d*,d2.* from cont c,table(str2list(c.ip,c.time,'|||')) d,table(str2list(c.page,c.lailu,'|||')) d2 where d.id = d2.id and d.str is not null

1.2 用戶識別

如果數(shù)據(jù)挖掘的目的是進(jìn)行用戶訪問模式的挖掘或?qū)τ脩暨M(jìn)行聚類分析，那么用戶識別這一步驟相當(dāng)重要。通常我們用一下的方式來識別用戶：不同的IP地址代表不同的用戶；當(dāng)IP地址相同時，默認(rèn)不同的操作系統(tǒng)或?yàn)g覽器代表不同的用戶；當(dāng)IP地址相同時，用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下，此時要根據(jù)網(wǎng)站的拓?fù)浣Y(jié)構(gòu)來識別用戶，即用戶要訪問的頁面不能從已訪問的頁面到達(dá)則為一個新用戶。

1.3 用戶會話識別

會話識別的目的就是將用戶的所有訪問序列分成多個單獨(dú)的用戶一次訪問序列。一般的方法是利用超時，如果連續(xù)兩個頁面的請求時間間隔超過給定的閾值，則認(rèn)為用戶開始了一個新的會話。根據(jù)統(tǒng)計(jì)數(shù)據(jù)，時間閾值通常取25.5分鐘。

1.4 路徑補(bǔ)充

在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要的請求沒有被記錄。這就需要路徑補(bǔ)充這一個步驟，解決的方法類似于用戶識別中的方法。如果當(dāng)前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接，那么用戶很可能使用了瀏覽器上的“后退”按鈕調(diào)用緩存在本機(jī)中的頁面。檢查引用日志確定當(dāng)前請求來自哪一頁，如果在用戶的歷史訪問記錄上有多個頁面都包含與當(dāng)前請求頁的鏈接，則將請求時間最接近當(dāng)前請求頁的頁面作為當(dāng)前請求的來源。若引用日志不完整，可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過這種方法將遺漏的頁面請求添加到用戶的會話路徑中。

2 Web日志挖掘算法研究

2.1 關(guān)聯(lián)分析

關(guān)聯(lián)分析用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則，關(guān)聯(lián)規(guī)則是形如X→Y 即滿足X中條件的數(shù)據(jù)庫元組也滿足Y條件。我們用支持度和置信度來作為關(guān)聯(lián)規(guī)則興趣度的客觀度量。關(guān)聯(lián)規(guī)則 X→Y的支持度表示滿足規(guī)則的樣本的百分比，用概率P(X∪Y)表示，其中，X∪Y表示同時包含X和Y的事務(wù)，即項(xiàng)集X和Y的并。關(guān)聯(lián)規(guī)則X→Y的置信度用條件概率P(X|Y)即包含X的事務(wù)也包含Y的概率來表示。

2.2 聚類分析

聚類分析是將物理或抽象的對象組成的集合分組成為由類似的對象組成的多個簇，使得處于相同簇中的對象具有最大的相似性，而處于不同簇的對象具有最大的差異性的方法及過程。通過聚類，能夠找出數(shù)據(jù)屬性之間潛在的相互關(guān)系。聚類分析的過程如圖3所示。

圖3 聚類分析

2.3 遺傳算法

遺傳算法是基于進(jìn)化理論，并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。生物的進(jìn)化是一個奇妙的優(yōu)化過程，它通過選擇淘汰，突然變異，基因遺傳等規(guī)律產(chǎn)生適應(yīng)環(huán)境變化的優(yōu)良物種。遺傳算法是根據(jù)生物進(jìn)化思想而啟發(fā)得出的一種全局優(yōu)化算法。

3 Web日志挖掘的應(yīng)用

Web日志挖掘的應(yīng)用主要有以下幾個方面：

（1）提供個性化服務(wù)：根據(jù)用戶訪問頁面的模式，從中提煉出用戶感興趣的頁面，針對特定的用戶組放置不同的內(nèi)容，向每位用戶提供個性化界面。

（2）改進(jìn)站點(diǎn)的拓?fù)浣Y(jié)構(gòu)：依據(jù)訪問者的頻繁訪問路徑，把訪問者頻繁訪問的頁面直接關(guān)聯(lián)起來。

（3）推薦系統(tǒng)：這對于電子商務(wù)網(wǎng)站來說非常有幫助，通過挖掘日志數(shù)據(jù)集，分析訪問者感興趣的頁面和商品，推薦相關(guān)頁面和商品。

4 結(jié)束語

Web日志挖掘的應(yīng)用越來越廣，通過研究日志數(shù)據(jù)，可以得到很多潛在的有意義的信息，不論是對網(wǎng)站的訪問者還是網(wǎng)站的經(jīng)營者都有很大的幫助。本文闡述了Web日志挖掘的相關(guān)算法，今后的工作是努力改進(jìn)算法，提高數(shù)據(jù)挖掘的效率和準(zhǔn)確性。

[1]楊怡玲,尤晉元.SWLMS:一個日志挖掘系統(tǒng).上海交通大學(xué)學(xué)報(bào).1999.

[2]呂佳.Web日志挖掘技術(shù)應(yīng)用研究.重慶師范大學(xué)學(xué)報(bào).(自然科學(xué)版).2006.

[3]陳新中,李巖,楊炳儒.Web日志挖掘技術(shù)進(jìn)展.系統(tǒng)工程與電子技術(shù).2003.

[4]韓家煒.Web數(shù)據(jù)挖掘研究.計(jì)算機(jī)研究與發(fā)展.2001.

[5]陳新中,李巖,楊炳儒.Web日志挖掘技術(shù)進(jìn)展.系統(tǒng)工程與電子技術(shù).2003.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡