張曉偉
泰山職業(yè)技術(shù)學(xué)院 山東 泰安 271000
在計算機(jī)網(wǎng)絡(luò)技術(shù)不斷更新過程中,網(wǎng)絡(luò)終端用戶在尋找所需信息時,會搜索出大量不相關(guān)的信息,準(zhǔn)確找到所需信息需要進(jìn)一步篩選和確認(rèn),這是因?yàn)槟壳案骶W(wǎng)站的結(jié)構(gòu)復(fù)雜化,網(wǎng)站中包含的內(nèi)容信息量快速增加。幫助用戶快速找到所需的信息資源,是網(wǎng)站設(shè)計時所要考慮的重要環(huán)節(jié),即在技術(shù)上實(shí)現(xiàn)搜索資源的快速定位。搜索信息涉及到網(wǎng)絡(luò)日志的數(shù)據(jù)挖掘。數(shù)據(jù)量大、不規(guī)范、不完整是網(wǎng)絡(luò)日志數(shù)據(jù)的特點(diǎn),在對網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前,要對數(shù)據(jù)進(jìn)行預(yù)處理。通過對網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理可提高網(wǎng)絡(luò)日志的規(guī)范度。
對網(wǎng)絡(luò)日志進(jìn)行預(yù)處理主要是指:網(wǎng)絡(luò)日志的數(shù)據(jù)凈化,網(wǎng)絡(luò)用戶的識別,用戶會話的識別及補(bǔ)充路徑、識別事務(wù)等。會話識別是網(wǎng)絡(luò)日志數(shù)據(jù)預(yù)處理的重要步驟之一,會話識別的準(zhǔn)確程度對后續(xù)其它數(shù)據(jù)的分析起到重要的作用。設(shè)計一種什么樣的會話識別算法,關(guān)系到會話識別的質(zhì)量。有采用將會話切分成事務(wù)最大向前引用的方法 (Park提出);有采用立方結(jié)構(gòu)模式進(jìn)行數(shù)據(jù)挖掘的方法(Srivastava提出);有采用基于時間啟發(fā)式的方法(Spiliopoulou提出);有莊力可博士等人提出的基于時間間隔的會話切分方法。其特點(diǎn)都是采用單一固定的時間閾值,而沒有考慮用戶個體之間存在的差異,可能會導(dǎo)致會話記錄不能準(zhǔn)確的劃分,影響到會話識別的總體質(zhì)量。
在網(wǎng)絡(luò)日志數(shù)據(jù)預(yù)處理中的會話識別算法中,本文提出一種新的算法。新算法中核心是依據(jù)網(wǎng)頁的內(nèi)容、網(wǎng)站點(diǎn)的結(jié)構(gòu),對頁面的鏈入和鏈出數(shù)目一并考慮,有針對性對二者進(jìn)行權(quán)重的綜合處理。在會話識別中首先獲得一個用戶頁面訪問的時間閾值,利用時間閾值進(jìn)行用戶會話的切分,在切分得到的會話集合中進(jìn)行篩選,會話中存在鏈接不感興趣的頁面進(jìn)行刪除,進(jìn)一步形成有效的頁面序列集合。
對日志數(shù)據(jù)進(jìn)行預(yù)處理是數(shù)據(jù)挖掘之前必須進(jìn)行的一個過程,網(wǎng)絡(luò)日志就是訪問服務(wù)器時存儲在其上的一組、一組的數(shù)據(jù),形成的數(shù)據(jù)不是結(jié)構(gòu)化的,而是半結(jié)構(gòu)化的數(shù)據(jù)形式,還不能對這樣的數(shù)據(jù)直接進(jìn)行挖掘,需要進(jìn)行預(yù)處理。前面提到網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理主要是指對日志數(shù)據(jù)的清理、凈化過慮、優(yōu)化組合的過程,刪除對數(shù)據(jù)挖掘過程中冗余的數(shù)據(jù)。網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理包括日志的數(shù)據(jù)凈化、網(wǎng)絡(luò)用戶的識別、用戶會話的識別、路徑的補(bǔ)充及事務(wù)識別等階段。
進(jìn)行網(wǎng)絡(luò)日志的挖掘網(wǎng)關(guān)鍵就是首先對網(wǎng)絡(luò)日志數(shù)據(jù)的進(jìn)行預(yù)處理,沒有設(shè)計一個良好的日志預(yù)處理算法,就談不上后續(xù)的數(shù)據(jù)挖掘的質(zhì)量、效率及準(zhǔn)確性,日志數(shù)據(jù)預(yù)處理的重要步驟之一就是會話識別。傳統(tǒng)會話識別算法用固定時間閾值的方式來進(jìn)行預(yù)處理,忽略了用戶多樣、個性的特點(diǎn),對大于時間閾值的同一個會話頁面將分到下一個會話中,產(chǎn)生錯分的現(xiàn)象,從而導(dǎo)致網(wǎng)絡(luò)日志預(yù)處理的效率低。
設(shè)定一個網(wǎng)絡(luò)終端用戶(User)通過瀏覽器訪問,在服務(wù)器存儲器中形成用戶會話(Session),設(shè)定用戶開始訪問網(wǎng)站記錄到離開網(wǎng)站進(jìn)行的所有活動為用戶會話,這是由用戶訪問形成的所有鏈接的集合。對這些集合數(shù)據(jù)或者說訪問日志記錄劃分為單一的會話過程就是會話識別。一次會話認(rèn)為就是用戶的一次網(wǎng)頁瀏覽過程,瀏覽過程就形成了一系列帶訪問時間次序的頁面集合。
定義US(user session)為一個用戶會話,US由用戶標(biāo)識、訪問頁面兩個元素構(gòu)成,即US<userID,RS>,其中userID為用戶標(biāo)識,RS為該時間段用戶請求訪問的Web頁面集合。RS包含所請求頁面的標(biāo)識符Pid、請求的時間Time,則用戶會話(US)可以表示為:
先通過用戶識別后,得到用戶訪問的Web頁面序列集合,再設(shè)定時間閾值,進(jìn)一步識別得到用戶會話,設(shè)定時間閾值(T)為整個用戶會話的時間,上式(1)中的會話一定滿足下列條件:
傳統(tǒng)會話識別算法步聚:
(1)設(shè)定時間上界Tvisit。用戶在兩個相鄰頁面間的請求時間與時間上界(Tvisit)相比,如果超過整個時間上界(Tvisit),開始一個新的用戶會話。設(shè)t0表示會話初始頁的時間戳,t表示用戶請求時間,如果t-t0≤Tvisit,則加入當(dāng)前會話。
緊急切斷閥應(yīng)具有自動和手動關(guān)閉功能,手動關(guān)閉功能包括控制室遙控關(guān)閉和現(xiàn)場手動關(guān)閉[9]。當(dāng)液位高高或低低報警時通過SIS完成聯(lián)鎖緊急切斷功能,及時切斷儲罐進(jìn)出口管道上的進(jìn)出口閥門,避免溢油冒罐或抽癟儲罐的情況發(fā)生;同時,在操作站設(shè)置緊急切斷閥的遠(yuǎn)程控制開關(guān),或在SIS輔操臺上設(shè)置緊急關(guān)閥按鈕,便于操作人員在發(fā)生火災(zāi)或安全聯(lián)鎖失效等突發(fā)狀況時能夠遠(yuǎn)程手動切斷閥門;另外,安裝于火災(zāi)危險區(qū)域外的現(xiàn)場操作開關(guān)可以使現(xiàn)場人員在第一時間發(fā)現(xiàn)異常后及時切斷閥門,防止事故升級。
(2)若用戶是通過歷史和參引頁上的鏈接請求進(jìn)入,應(yīng)認(rèn)為是同一會話。
(3)用戶兩個連續(xù)請求的時間間隔為△t,若△t超過在一個頁面停留時間閾值T,則認(rèn)為開始一次新會話,否則,就認(rèn)為是同一個會話,一般情況下設(shè)時間閾值為10分鐘。
(4)最大向前參引模型。最大向前參引是指用戶在瀏覽網(wǎng)頁過程中,按下返回按鈕將瀏覽前一個網(wǎng)頁,即一個會話結(jié)束,新一個會話開始。
實(shí)際登錄網(wǎng)絡(luò)過程中,由于每一個用戶的自身的各方面差異,如形成的習(xí)慣、個人的興趣度、操作的熟練程度及網(wǎng)絡(luò)速度的不同,導(dǎo)致不同用戶的會話時間不同。但是傳統(tǒng)的用戶識別算法采用預(yù)先設(shè)定方法,會話時間間隔閾值相同,沒有考慮不同用戶間差異,產(chǎn)生了超過時間閾值的會話會分到下一個會話中,降低了用戶訪問效率。
考慮到用戶訪問網(wǎng)絡(luò)時會話識別的時間與網(wǎng)頁內(nèi)容及網(wǎng)站結(jié)構(gòu)有關(guān),提出一種改進(jìn)的會話識別算法,總體思路:綜合分析網(wǎng)頁的內(nèi)容、網(wǎng)站設(shè)計結(jié)構(gòu)、網(wǎng)頁對用戶的重要程度,同時加入頁面鏈入、鏈出數(shù)因素,形成不同的用戶訪問Web頁面的不同時間閾值,根據(jù)得到的不同時間閾值進(jìn)行會話的劃分,對劃分后得到的會話集合進(jìn)行刪除候選,刪除哪些用戶對頁面內(nèi)容不感興趣的鏈接頁面,形成最終頁面序列集合,從而提高會話識別的質(zhì)量和效率。
前面提到的傳統(tǒng)會話識別算法采用時間閾值預(yù)先設(shè)定的方式,本文按照優(yōu)化的總體策略對頁面進(jìn)行重新時間閾值的設(shè)置,然后再進(jìn)行會話的識別。考慮加入頁面鏈入、鏈出數(shù)來衡量頁面重要程度的因素,設(shè)定Li為鏈入數(shù),表示鏈接到該頁面的頁面?zhèn)€數(shù);設(shè)Lo為鏈出數(shù),表示頁面所包含的鏈接頁面的個數(shù);設(shè)PS表示該頁面內(nèi)容大小,則頁面鏈入數(shù)、鏈出數(shù)與PS之比反映出時間閾值的動態(tài)變化,用Riop表示。
考慮一個頁面的鏈入和鏈出的程度一般情況下不會相同,應(yīng)加入兩者的權(quán)重系數(shù),可以認(rèn)為鏈入相對鏈出重要。鏈入權(quán)重設(shè)定在0.6~0.8之間,鏈出權(quán)重設(shè)定在0.4~0.2之間,如果采用黃金點(diǎn)分割(0.618Li,0.382Lo)更具有可操作性。
由于Riop反映了時間閾值的動態(tài)變化,利用它生成一個時間閾值因子β。
假設(shè)訪問網(wǎng)頁時的網(wǎng)頁下載時間為Td,瀏覽閱讀時間為Tr,時間閾值T為:
考慮到用戶的個體差異及終端設(shè)備等情況,對于鏈接速度較慢的終端用戶,允許用戶在沒有完全下載完成前就可以閱讀網(wǎng)頁相關(guān)信息,如果再把下載時間Td作為用戶開始閱讀的時間時,就會使會話的識別產(chǎn)生誤差,為此,加入一平滑系數(shù)α對下載時間Td進(jìn)行處理,時間閾值修訂為:
對一個頁面瀏覽時間相對其它頁面時間長,瀏覽次數(shù)多,瀏覽的瀏覽興趣度就高,瀏覽興趣度是與瀏覽時間、瀏用戶覽次數(shù)等參數(shù)有關(guān)。設(shè)P表示用戶的瀏覽興趣度,用戶從Web頁面i進(jìn)入j頁面的瀏覽時間用Timeij表示,瀏覽次數(shù)用Countij表示,用戶在頁面j上的瀏覽興趣度表示為Pj:
其中,Sbij表示從頁面i進(jìn)入到頁面j接收到的字節(jié)數(shù)。
一個用戶在某個Web頁面上瀏覽時間長,說明示用戶對該網(wǎng)頁內(nèi)容感興趣;另外,應(yīng)考慮到瀏覽時間還與不同用戶的瀏覽速度有關(guān),在網(wǎng)絡(luò)日志中,瀏覽速度用Web頁面的接收字節(jié)數(shù)來表示。上面(7)式中的Pj可以客觀反映用戶對某一頁面的關(guān)注程度,因此可以刪除不能引起用戶興趣的Web頁面。
優(yōu)化會話識別算法的步驟如下:
首先對網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行篩選。對用戶訪問網(wǎng)頁形成的網(wǎng)絡(luò)日志初始數(shù)據(jù)進(jìn)行篩選、縮減。
對數(shù)據(jù)清洗后的日志數(shù)據(jù)進(jìn)行用戶識別。
根據(jù)不同的用戶對日志中的數(shù)據(jù)進(jìn)行分析處理,確定用戶訪問網(wǎng)頁時的下載時間Td和在線閱讀時間Tr。
計算時間閾值因子β,再通過公式(6)計算每個頁面訪問時間閾值T。
依據(jù)時間閾值T進(jìn)行網(wǎng)絡(luò)日志的劃分,得到用戶上網(wǎng)的會話集合。
最后計算用戶的頁面興趣度P,對用戶興趣度不高的鏈接頁面進(jìn)行刪除。
隨著計算機(jī)網(wǎng)絡(luò)廣泛應(yīng)用的普及和網(wǎng)絡(luò)技術(shù)的更新發(fā)展,在網(wǎng)絡(luò)海量信息中快速準(zhǔn)確查詢到有用的信息需要技術(shù)的不斷更新,進(jìn)行網(wǎng)絡(luò)日志數(shù)據(jù)挖掘技術(shù)的研究旨在解決這方面的問題。本文是在傳統(tǒng)的網(wǎng)絡(luò)日志挖掘預(yù)處理基礎(chǔ)上進(jìn)行了算法的優(yōu)化,提出改進(jìn)網(wǎng)絡(luò)日志數(shù)據(jù)中會話識別的預(yù)處理算法,提高了下一步進(jìn)行數(shù)據(jù)挖掘的效率。
[1]楊富華.網(wǎng)絡(luò)日志預(yù)處理中優(yōu)化的會話識別算法[J].計算機(jī)仿真,2011,28(4):123-125.
[2]于飛,丁華福,姜倫.Web日志挖掘中數(shù)據(jù)預(yù)處理技術(shù)的研究[J.]計算機(jī)技術(shù)與發(fā)展,2010,20(5):47-50.
[3]李瑞,朱鶴祥.Web日志挖掘預(yù)處理中會話識別算法的優(yōu)化[J].電腦知識與技術(shù),2009,5(11):8616-8618.
[4]方元康,胡學(xué)剛,夏啟壽.一種改進(jìn)的Web日志會話識別方法[J].計算機(jī)技術(shù)與發(fā)展,2008,18(11):214-216.