一種動態(tài)時間閾值的會話識別算法

2012-12-07 01:10:46張曉偉

山東電力高等?？茖W(xué)校學(xué)報 2012年4期

張曉偉

泰山職業(yè)技術(shù)學(xué)院山東泰安 271000

0 引言

在計算機(jī)網(wǎng)絡(luò)技術(shù)不斷更新過程中，網(wǎng)絡(luò)終端用戶在尋找所需信息時，會搜索出大量不相關(guān)的信息，準(zhǔn)確找到所需信息需要進(jìn)一步篩選和確認(rèn)，這是因?yàn)槟壳案骶W(wǎng)站的結(jié)構(gòu)復(fù)雜化，網(wǎng)站中包含的內(nèi)容信息量快速增加。幫助用戶快速找到所需的信息資源，是網(wǎng)站設(shè)計時所要考慮的重要環(huán)節(jié)，即在技術(shù)上實(shí)現(xiàn)搜索資源的快速定位。搜索信息涉及到網(wǎng)絡(luò)日志的數(shù)據(jù)挖掘。數(shù)據(jù)量大、不規(guī)范、不完整是網(wǎng)絡(luò)日志數(shù)據(jù)的特點(diǎn)，在對網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前，要對數(shù)據(jù)進(jìn)行預(yù)處理。通過對網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理可提高網(wǎng)絡(luò)日志的規(guī)范度。

對網(wǎng)絡(luò)日志進(jìn)行預(yù)處理主要是指：網(wǎng)絡(luò)日志的數(shù)據(jù)凈化，網(wǎng)絡(luò)用戶的識別，用戶會話的識別及補(bǔ)充路徑、識別事務(wù)等。會話識別是網(wǎng)絡(luò)日志數(shù)據(jù)預(yù)處理的重要步驟之一，會話識別的準(zhǔn)確程度對后續(xù)其它數(shù)據(jù)的分析起到重要的作用。設(shè)計一種什么樣的會話識別算法，關(guān)系到會話識別的質(zhì)量。有采用將會話切分成事務(wù)最大向前引用的方法（Park提出）；有采用立方結(jié)構(gòu)模式進(jìn)行數(shù)據(jù)挖掘的方法（Srivastava提出）；有采用基于時間啟發(fā)式的方法（Spiliopoulou提出）；有莊力可博士等人提出的基于時間間隔的會話切分方法。其特點(diǎn)都是采用單一固定的時間閾值，而沒有考慮用戶個體之間存在的差異，可能會導(dǎo)致會話記錄不能準(zhǔn)確的劃分，影響到會話識別的總體質(zhì)量。

在網(wǎng)絡(luò)日志數(shù)據(jù)預(yù)處理中的會話識別算法中，本文提出一種新的算法。新算法中核心是依據(jù)網(wǎng)頁的內(nèi)容、網(wǎng)站點(diǎn)的結(jié)構(gòu)，對頁面的鏈入和鏈出數(shù)目一并考慮，有針對性對二者進(jìn)行權(quán)重的綜合處理。在會話識別中首先獲得一個用戶頁面訪問的時間閾值，利用時間閾值進(jìn)行用戶會話的切分，在切分得到的會話集合中進(jìn)行篩選，會話中存在鏈接不感興趣的頁面進(jìn)行刪除，進(jìn)一步形成有效的頁面序列集合。

1 網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理

對日志數(shù)據(jù)進(jìn)行預(yù)處理是數(shù)據(jù)挖掘之前必須進(jìn)行的一個過程，網(wǎng)絡(luò)日志就是訪問服務(wù)器時存儲在其上的一組、一組的數(shù)據(jù)，形成的數(shù)據(jù)不是結(jié)構(gòu)化的，而是半結(jié)構(gòu)化的數(shù)據(jù)形式，還不能對這樣的數(shù)據(jù)直接進(jìn)行挖掘，需要進(jìn)行預(yù)處理。前面提到網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理主要是指對日志數(shù)據(jù)的清理、凈化過慮、優(yōu)化組合的過程，刪除對數(shù)據(jù)挖掘過程中冗余的數(shù)據(jù)。網(wǎng)絡(luò)日志數(shù)據(jù)的預(yù)處理包括日志的數(shù)據(jù)凈化、網(wǎng)絡(luò)用戶的識別、用戶會話的識別、路徑的補(bǔ)充及事務(wù)識別等階段。

進(jìn)行網(wǎng)絡(luò)日志的挖掘網(wǎng)關(guān)鍵就是首先對網(wǎng)絡(luò)日志數(shù)據(jù)的進(jìn)行預(yù)處理，沒有設(shè)計一個良好的日志預(yù)處理算法，就談不上后續(xù)的數(shù)據(jù)挖掘的質(zhì)量、效率及準(zhǔn)確性，日志數(shù)據(jù)預(yù)處理的重要步驟之一就是會話識別。傳統(tǒng)會話識別算法用固定時間閾值的方式來進(jìn)行預(yù)處理，忽略了用戶多樣、個性的特點(diǎn)，對大于時間閾值的同一個會話頁面將分到下一個會話中，產(chǎn)生錯分的現(xiàn)象，從而導(dǎo)致網(wǎng)絡(luò)日志預(yù)處理的效率低。

2 傳統(tǒng)會話識別算法

設(shè)定一個網(wǎng)絡(luò)終端用戶（User）通過瀏覽器訪問，在服務(wù)器存儲器中形成用戶會話（Session），設(shè)定用戶開始訪問網(wǎng)站記錄到離開網(wǎng)站進(jìn)行的所有活動為用戶會話，這是由用戶訪問形成的所有鏈接的集合。對這些集合數(shù)據(jù)或者說訪問日志記錄劃分為單一的會話過程就是會話識別。一次會話認(rèn)為就是用戶的一次網(wǎng)頁瀏覽過程，瀏覽過程就形成了一系列帶訪問時間次序的頁面集合。

定義US（user session）為一個用戶會話，US由用戶標(biāo)識、訪問頁面兩個元素構(gòu)成，即US＜userID，RS＞，其中userID為用戶標(biāo)識，RS為該時間段用戶請求訪問的Web頁面集合。RS包含所請求頁面的標(biāo)識符Pid、請求的時間Time，則用戶會話（US）可以表示為：

先通過用戶識別后，得到用戶訪問的Web頁面序列集合，再設(shè)定時間閾值，進(jìn)一步識別得到用戶會話，設(shè)定時間閾值（T）為整個用戶會話的時間，上式（1）中的會話一定滿足下列條件：

傳統(tǒng)會話識別算法步聚：

（1）設(shè)定時間上界Tvisit。用戶在兩個相鄰頁面間的請求時間與時間上界（Tvisit）相比，如果超過整個時間上界（Tvisit），開始一個新的用戶會話。設(shè)t0表示會話初始頁的時間戳，t表示用戶請求時間，如果t-t0≤Tvisit，則加入當(dāng)前會話。

緊急切斷閥應(yīng)具有自動和手動關(guān)閉功能，手動關(guān)閉功能包括控制室遙控關(guān)閉和現(xiàn)場手動關(guān)閉[9]。當(dāng)液位高高或低低報警時通過SIS完成聯(lián)鎖緊急切斷功能，及時切斷儲罐進(jìn)出口管道上的進(jìn)出口閥門，避免溢油冒罐或抽癟儲罐的情況發(fā)生；同時，在操作站設(shè)置緊急切斷閥的遠(yuǎn)程控制開關(guān)，或在SIS輔操臺上設(shè)置緊急關(guān)閥按鈕，便于操作人員在發(fā)生火災(zāi)或安全聯(lián)鎖失效等突發(fā)狀況時能夠遠(yuǎn)程手動切斷閥門；另外，安裝于火災(zāi)危險區(qū)域外的現(xiàn)場操作開關(guān)可以使現(xiàn)場人員在第一時間發(fā)現(xiàn)異常后及時切斷閥門，防止事故升級。

（2）若用戶是通過歷史和參引頁上的鏈接請求進(jìn)入，應(yīng)認(rèn)為是同一會話。

（3）用戶兩個連續(xù)請求的時間間隔為△t，若△t超過在一個頁面停留時間閾值T，則認(rèn)為開始一次新會話，否則，就認(rèn)為是同一個會話，一般情況下設(shè)時間閾值為10分鐘。

（4）最大向前參引模型。最大向前參引是指用戶在瀏覽網(wǎng)頁過程中，按下返回按鈕將瀏覽前一個網(wǎng)頁，即一個會話結(jié)束，新一個會話開始。

實(shí)際登錄網(wǎng)絡(luò)過程中，由于每一個用戶的自身的各方面差異，如形成的習(xí)慣、個人的興趣度、操作的熟練程度及網(wǎng)絡(luò)速度的不同，導(dǎo)致不同用戶的會話時間不同。但是傳統(tǒng)的用戶識別算法采用預(yù)先設(shè)定方法，會話時間間隔閾值相同，沒有考慮不同用戶間差異，產(chǎn)生了超過時間閾值的會話會分到下一個會話中，降低了用戶訪問效率。

3 優(yōu)化用戶會話識別算法

3.1 優(yōu)化總體設(shè)計思路

考慮到用戶訪問網(wǎng)絡(luò)時會話識別的時間與網(wǎng)頁內(nèi)容及網(wǎng)站結(jié)構(gòu)有關(guān)，提出一種改進(jìn)的會話識別算法，總體思路：綜合分析網(wǎng)頁的內(nèi)容、網(wǎng)站設(shè)計結(jié)構(gòu)、網(wǎng)頁對用戶的重要程度，同時加入頁面鏈入、鏈出數(shù)因素，形成不同的用戶訪問Web頁面的不同時間閾值，根據(jù)得到的不同時間閾值進(jìn)行會話的劃分，對劃分后得到的會話集合進(jìn)行刪除候選，刪除哪些用戶對頁面內(nèi)容不感興趣的鏈接頁面，形成最終頁面序列集合，從而提高會話識別的質(zhì)量和效率。

3.2 會話時間閾值的改進(jìn)

前面提到的傳統(tǒng)會話識別算法采用時間閾值預(yù)先設(shè)定的方式，本文按照優(yōu)化的總體策略對頁面進(jìn)行重新時間閾值的設(shè)置，然后再進(jìn)行會話的識別。考慮加入頁面鏈入、鏈出數(shù)來衡量頁面重要程度的因素，設(shè)定Li為鏈入數(shù)，表示鏈接到該頁面的頁面?zhèn)€數(shù)；設(shè)Lo為鏈出數(shù)，表示頁面所包含的鏈接頁面的個數(shù)；設(shè)PS表示該頁面內(nèi)容大小，則頁面鏈入數(shù)、鏈出數(shù)與PS之比反映出時間閾值的動態(tài)變化，用Riop表示。

考慮一個頁面的鏈入和鏈出的程度一般情況下不會相同，應(yīng)加入兩者的權(quán)重系數(shù)，可以認(rèn)為鏈入相對鏈出重要。鏈入權(quán)重設(shè)定在0.6~0.8之間，鏈出權(quán)重設(shè)定在0.4~0.2之間，如果采用黃金點(diǎn)分割（0.618Li，0.382Lo）更具有可操作性。

由于Riop反映了時間閾值的動態(tài)變化，利用它生成一個時間閾值因子β。

假設(shè)訪問網(wǎng)頁時的網(wǎng)頁下載時間為Td，瀏覽閱讀時間為Tr，時間閾值T為：

考慮到用戶的個體差異及終端設(shè)備等情況，對于鏈接速度較慢的終端用戶，允許用戶在沒有完全下載完成前就可以閱讀網(wǎng)頁相關(guān)信息，如果再把下載時間Td作為用戶開始閱讀的時間時，就會使會話的識別產(chǎn)生誤差，為此，加入一平滑系數(shù)α對下載時間Td進(jìn)行處理，時間閾值修訂為：

3.3 刪除興趣度低的Web頁面

對一個頁面瀏覽時間相對其它頁面時間長，瀏覽次數(shù)多，瀏覽的瀏覽興趣度就高，瀏覽興趣度是與瀏覽時間、瀏用戶覽次數(shù)等參數(shù)有關(guān)。設(shè)P表示用戶的瀏覽興趣度，用戶從Web頁面i進(jìn)入j頁面的瀏覽時間用Timeij表示，瀏覽次數(shù)用Countij表示，用戶在頁面j上的瀏覽興趣度表示為Pj：

其中，Sbij表示從頁面i進(jìn)入到頁面j接收到的字節(jié)數(shù)。

一個用戶在某個Web頁面上瀏覽時間長，說明示用戶對該網(wǎng)頁內(nèi)容感興趣；另外，應(yīng)考慮到瀏覽時間還與不同用戶的瀏覽速度有關(guān)，在網(wǎng)絡(luò)日志中，瀏覽速度用Web頁面的接收字節(jié)數(shù)來表示。上面（7）式中的Pj可以客觀反映用戶對某一頁面的關(guān)注程度，因此可以刪除不能引起用戶興趣的Web頁面。

3.4 優(yōu)化會話識別算法的步驟

優(yōu)化會話識別算法的步驟如下：

首先對網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行篩選。對用戶訪問網(wǎng)頁形成的網(wǎng)絡(luò)日志初始數(shù)據(jù)進(jìn)行篩選、縮減。

對數(shù)據(jù)清洗后的日志數(shù)據(jù)進(jìn)行用戶識別。

根據(jù)不同的用戶對日志中的數(shù)據(jù)進(jìn)行分析處理，確定用戶訪問網(wǎng)頁時的下載時間Td和在線閱讀時間Tr。

計算時間閾值因子β，再通過公式（6）計算每個頁面訪問時間閾值T。

依據(jù)時間閾值T進(jìn)行網(wǎng)絡(luò)日志的劃分，得到用戶上網(wǎng)的會話集合。

最后計算用戶的頁面興趣度P，對用戶興趣度不高的鏈接頁面進(jìn)行刪除。

4 結(jié)束語

隨著計算機(jī)網(wǎng)絡(luò)廣泛應(yīng)用的普及和網(wǎng)絡(luò)技術(shù)的更新發(fā)展，在網(wǎng)絡(luò)海量信息中快速準(zhǔn)確查詢到有用的信息需要技術(shù)的不斷更新，進(jìn)行網(wǎng)絡(luò)日志數(shù)據(jù)挖掘技術(shù)的研究旨在解決這方面的問題。本文是在傳統(tǒng)的網(wǎng)絡(luò)日志挖掘預(yù)處理基礎(chǔ)上進(jìn)行了算法的優(yōu)化，提出改進(jìn)網(wǎng)絡(luò)日志數(shù)據(jù)中會話識別的預(yù)處理算法，提高了下一步進(jìn)行數(shù)據(jù)挖掘的效率。

［1］楊富華.網(wǎng)絡(luò)日志預(yù)處理中優(yōu)化的會話識別算法［J］.計算機(jī)仿真，2011，28（4）：123-125.

［2］于飛，丁華福，姜倫.Web日志挖掘中數(shù)據(jù)預(yù)處理技術(shù)的研究［J.］計算機(jī)技術(shù)與發(fā)展，2010，20（5）：47-50.

［3］李瑞，朱鶴祥.Web日志挖掘預(yù)處理中會話識別算法的優(yōu)化［J］.電腦知識與技術(shù)，2009，5（11）：8616-8618.

［4］方元康，胡學(xué)剛，夏啟壽.一種改進(jìn)的Web日志會話識別方法［J］.計算機(jī)技術(shù)與發(fā)展，2008，18（11）：214-216.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡