基于用戶訪問序列挖掘的站點路徑優(yōu)化分析

2009-04-27 10:03楊思

圖書館界 2009年1期

楊　思

[摘要]由于網(wǎng)站的結(jié)構(gòu)設(shè)計，對特定用戶而言信息獲取的代價與所經(jīng)過的瀏覽路徑長度成正比，這些位于路徑中間的不必要的文檔就無疑增加了用戶獲取信息的代價。本文利用Web挖掘的方法和技術(shù)對用戶所訪問的頁面序列進行挖掘，構(gòu)建路徑優(yōu)化的模型，實現(xiàn)對當(dāng)前站點排序方式的優(yōu)化，從而最大限度地優(yōu)化用戶訪問體驗，提高當(dāng)前站點信息獲取的整體效率。

[關(guān)鍵詞]站點路徑優(yōu)化；Web挖掘；訪問序列

[中圖分類號]G250.76[文獻(xiàn)標(biāo)志碼]A[文章編號]1005-6041(2009)-01-0064-04

傳統(tǒng)的Web網(wǎng)站以系統(tǒng)自身為中心，為了容納大量的信息，以圖結(jié)構(gòu)組織網(wǎng)站，頁面之間存在著比較復(fù)雜的層次關(guān)系。這些預(yù)先設(shè)計好的瀏覽路徑(網(wǎng)站的結(jié)構(gòu))嚴(yán)格按照設(shè)計者編輯好的層次返回頁面，因此，為了獲取特定的信息，從同一頁面出發(fā)的所有用戶都不得不重復(fù)地經(jīng)過很多與自己毫無關(guān)系的、不希望看到的中間鏈接頁面，使得用戶為了獲取少量的信息付出較大的代價^[1]。如果在確保網(wǎng)頁內(nèi)容的前提下，實現(xiàn)網(wǎng)站物理結(jié)構(gòu)的調(diào)整和再組織，就可以避免混亂。站點路徑優(yōu)化實際上就是站點管理者優(yōu)化其站點結(jié)構(gòu)，它的出現(xiàn)就是為了提高用戶的訪問效率以及用戶對站點的忠誠度。

1 站點個性化與路徑優(yōu)化

Web站點結(jié)構(gòu)設(shè)計好壞的衡量標(biāo)準(zhǔn)之一是用戶為獲取所需信息所付出的平均代價，而這種代價則可以理解為所經(jīng)過的超鏈數(shù)目和選擇這些超鏈的困難程度的函數(shù)。用戶的瀏覽路徑優(yōu)化就是在盡量不破壞Web系統(tǒng)原有結(jié)構(gòu)，即不刪除系統(tǒng)原有文檔和超鏈的前提下，通過增加新的超鏈或文檔來減少用戶獲取信息所需付出的平均代價^[2]。

所謂站點個性化實質(zhì)上就是為站點用戶提供個性化的站點訪問體驗。對于一般站點而言，站點管理者進行路徑優(yōu)化的直接目的就是提高用戶點擊行為的效用度，最終目的是提高用戶滿意度與忠誠度。站點路徑的優(yōu)化實際上就是優(yōu)化站點結(jié)構(gòu)，消除站點實際安排與用戶期望之間差異的過程，它為站點個性化提供了一種思路，即用戶一系列的瀏覽行為所遍及的頁面序列就是用戶針對目標(biāo)頁面的尋找過程，此時站點設(shè)計可以考慮調(diào)整網(wǎng)站的結(jié)構(gòu)、在頻繁訪問路徑處添加指向目標(biāo)頁面的鏈接，或者是將常見瀏覽路徑加入緩存，如圖1所示。

圖1 網(wǎng)狀結(jié)構(gòu)中的路徑優(yōu)化

網(wǎng)站的頻繁瀏覽路徑體現(xiàn)了特定的用戶在特定時期內(nèi)的活動規(guī)律，是站點路徑優(yōu)化的依據(jù)。它包括兩個方面的內(nèi)容：首先是個體用戶在其瀏覽歷史區(qū)域中多次重復(fù)出現(xiàn)的瀏覽路徑，另一方面即用戶群體在一定時期中瀏覽歷史區(qū)域內(nèi)出現(xiàn)的瀏覽重復(fù)行為，即瀏覽模式。

個體用戶的一條瀏覽路徑對應(yīng)于用戶的一段信息探求過程。根據(jù)個體用戶的重復(fù)瀏覽路徑，就可以形成用戶興趣視圖，并依據(jù)用戶興趣視圖完成個性化推薦，為用戶提供定制的訪問體驗。而用戶群體在較長時期內(nèi)穩(wěn)定的行為模式則為網(wǎng)站結(jié)構(gòu)的改進和路徑的優(yōu)化提供了參考依據(jù)。如果在一定時期內(nèi)大多數(shù)用戶都表現(xiàn)出訪問路徑的相似性，此時Web站點就要做相應(yīng)的訪問路徑優(yōu)化。

前者可以為用戶提供“一對一”的具備自適應(yīng)性的在線動態(tài)智能個性化服務(wù)，這種智能個性化服務(wù)可大大縮短用戶在網(wǎng)絡(luò)上的訪問延遲，使得提供給用戶的網(wǎng)絡(luò)信息服務(wù)質(zhì)量得到最大限度的提高。后者則通過離線修改實施改進，用以優(yōu)化用戶瀏覽體驗，提高當(dāng)前站點信息獲取的整體效率，同時提高用戶滿意度和忠誠度。2 基于Web挖掘的路徑優(yōu)化模型

Web挖掘從數(shù)據(jù)挖掘發(fā)展而來，但Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨特之處。首先，Web挖掘的對象是大量、不同和分散型的Web文件；其次，Web文件本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的，因此Web挖掘所得到的模式可能是關(guān)于內(nèi)容的，也可能是關(guān)于結(jié)構(gòu)的；最后，有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘，即使可以用也需要建立在對Web文件進行預(yù)先處理的基礎(chǔ)之上^[3]。

2.1 訪問序列挖掘?qū)崿F(xiàn)過程的理論分析

為了跟蹤用戶以往瀏覽的網(wǎng)頁，對網(wǎng)頁訪問數(shù)據(jù)進行挖掘，Web挖掘技術(shù)以Web日志為數(shù)據(jù)源。因為每當(dāng)用戶在點擊鏈接向站點發(fā)出頁面瀏覽請求時，該用戶的IP地址、瀏覽日期和時間、瀏覽頁面URL及引用頁面等信息會被記錄在Web日志中，用戶瀏覽點擊頁面就按照時間順序以頁面URL序列的形式隱藏在Web日志中^[4]。用戶訪問序列挖掘即通過對Web日志進行系統(tǒng)的分析和預(yù)處理，將用戶以往的瀏覽序列從日志中提取及表示出來，并采用各種Web挖掘方法和算法從不同的角度獲得各類用戶可能的網(wǎng)頁瀏覽順序，探索總結(jié)出用戶瀏覽網(wǎng)頁的規(guī)則和模式。在獲得用戶瀏覽規(guī)律之后，通過模式分析識別用戶需求的鏈接，確定用戶瀏覽行為的目標(biāo)就可以提高用戶瀏覽的總體性能，幫助改進網(wǎng)頁的設(shè)計和網(wǎng)站的鏈接結(jié)構(gòu)，同時確定可以用于緩存的瀏覽網(wǎng)頁信息^[5]。

從服務(wù)器的角度分析，挖掘發(fā)現(xiàn)的是提供服務(wù)的網(wǎng)站的信息，挖掘結(jié)果可以幫助改善網(wǎng)站的設(shè)計。從用戶的點擊序列分析，可以發(fā)現(xiàn)一個(或者一組)用戶的信息，可幫助實現(xiàn)網(wǎng)頁的預(yù)存取和緩存^[6]。

2.2 站點路徑優(yōu)化的模型構(gòu)建

以Web日志為數(shù)據(jù)源進行的站點路徑優(yōu)化的挖掘模型，采用了數(shù)據(jù)挖掘及Web日志挖掘的相關(guān)技術(shù)和算法獲取用戶瀏覽規(guī)則與模式，為網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、站點重構(gòu)提供參考及個性化服務(wù)推薦設(shè)計提供了依據(jù)。據(jù)此站點路徑優(yōu)化的模型可分為數(shù)據(jù)預(yù)處理和站點路徑優(yōu)化實現(xiàn)兩個部分，站點路徑優(yōu)化部分可從兩個方面來考慮^[7]：一是通過對Web日志的挖掘，發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問頻率高于實際位置的訪問頻率，可考慮在期望位置和實際位置之間建立導(dǎo)航鏈接，從而實現(xiàn)對Web站點的優(yōu)化。二是通過對Web日志的挖掘，發(fā)現(xiàn)用戶訪問頁面的相關(guān)性，從而對密切聯(lián)系的頁面之間增加鏈接，方便用戶使用。如圖2所示。

圖2 利用Web挖掘技術(shù)的路徑優(yōu)化模型

3 站點路徑優(yōu)化的實現(xiàn)

3.1 Web日志數(shù)據(jù)收集

Web服務(wù)系統(tǒng)是一個多層次的邏輯結(jié)構(gòu)，包括客戶端、代理服務(wù)器端、Web服務(wù)器端。本文挖掘的是本站點用戶的頻繁訪問路徑、用戶聚類等，因此適合采用Web服務(wù)器端的用戶訪問模式挖掘^[8]。Web服務(wù)器日志由三部分組成：訪問日志、引用日志和代理日志，包括用戶訪問Web站點時，所訪問的頁面、時間、用戶ID等信息。

3.2 站點數(shù)據(jù)預(yù)處理

Web站點及訪問數(shù)據(jù)預(yù)處理部分主要包括站點結(jié)構(gòu)數(shù)據(jù)預(yù)處理、內(nèi)容數(shù)據(jù)預(yù)處理和Web日志數(shù)據(jù)預(yù)處理。其中，結(jié)構(gòu)數(shù)據(jù)預(yù)處理的任務(wù)是描述站點的拓?fù)浣Y(jié)構(gòu)圖、站點頁面文件鏈接有向圖，并明確站點各個頁面文件鏈接的請求(Request)方法，如GET、POST、HEAD等。站點內(nèi)容數(shù)據(jù)預(yù)處理包括將文本、圖片、腳本和其他多媒體文件轉(zhuǎn)變?yōu)橛脩魧φ军c瀏覽模式記錄信息的開發(fā)與利用有用的格式^[9]。

用戶訪問序列挖掘的Web日志數(shù)據(jù)源預(yù)處理包括數(shù)據(jù)過濾、格式轉(zhuǎn)換、用戶識別、會話識別、路徑補全和事務(wù)識別，預(yù)處理過程是保證后繼挖掘質(zhì)量的關(guān)鍵。

3.3 基于Web日志挖掘的路徑優(yōu)化實現(xiàn)

在數(shù)據(jù)預(yù)處理之后，對所形成的用戶會話文件，利用數(shù)據(jù)挖掘的一些有效算法(如關(guān)聯(lián)規(guī)則、聚類、分類、序列模式等)來發(fā)現(xiàn)隱藏的模式規(guī)則。由于傳統(tǒng)的手工決策規(guī)則系統(tǒng)方法、基于內(nèi)容的過濾代理系統(tǒng)方法、協(xié)作過濾系統(tǒng)方法的種種不足，并且就分析和建立模型的技術(shù)而言站點路徑挖掘和傳統(tǒng)的數(shù)據(jù)挖掘差別并不是特別大，所以路徑優(yōu)化模式除了可以運用Web數(shù)據(jù)挖掘的很多方法和算法思想，也可以采用一般的統(tǒng)計方法和在線分析處理方法，如聚類分析方法、關(guān)聯(lián)規(guī)則分析方法和序列模式分析方法等^[10]。

站點路徑優(yōu)化可以分為兩類：用戶群訪問模式挖掘的路徑優(yōu)化和個性化挖掘的路徑優(yōu)化。一般訪問模式挖掘的路徑優(yōu)化通過分析在特定時間點的特定用戶群的訪問記錄來了解用戶的瀏覽模式和傾向，以改進站點的組織結(jié)構(gòu)；而個性化挖掘的路徑優(yōu)化則傾向于分析個別用戶的偏好，其目的是根據(jù)用戶的訪問模式，為其提供定制服務(wù)。

3.3.1個性化的瀏覽路徑優(yōu)化。Web站點的鏈接結(jié)構(gòu)是Web設(shè)計者根據(jù)一定的策略建立起來的，可能與用戶期望的鏈接結(jié)構(gòu)之間存在一定的差距。如圖3.1所示，目標(biāo)頁面X放在頁面B₁下，但是用戶瀏覽路徑是F→A₂→B₂，因此用戶期望頁面X的位置在A₂或B₂下。如果事先能了解用戶的期望位置，從而在A₂(或B₂)和頁面X之間建立導(dǎo)航鏈接，自然就方便了用戶，提高了網(wǎng)站的訪問效率^[1]。

(1)發(fā)現(xiàn)用戶期望位置。

設(shè){P₁，P₂，...，P_n}為用戶訪問過的頁面，P_n是一個目標(biāo)頁面，B=Ф；∥B為回溯點的集合；

圖3 用戶訪問站點路徑

For(i=2；i<=n-2；i++)

{if(P_i-1=Pⁱ⁺¹) or (no link from P_i to P_i+1) add P_i to B} ∥Pi是一個回溯點；

If (B not empty) add n

圖書館界2009年1期

圖書館界的其它文章: 論馮道對圖書文化事業(yè)的歷史貢獻(xiàn); 澹生堂藏書考; 論古羅馬的私人圖書館; 淺析傳統(tǒng)偽書與現(xiàn)代偽書的異同; 梁啟超與李小緣的公共圖書館觀念比較; 略論葉德輝對目錄學(xué)的貢獻(xiàn)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于用戶訪問序列挖掘的站點路徑優(yōu)化分析