鄧 悅 趙井文
[摘要]隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)和人們日常的生活、工作、學習等各方面的結合越來越緊密,Web用戶行為模式挖掘能更好的使互聯(lián)網(wǎng)服務于用戶(通過Web個性化服務等方式)。目前,Web用戶行為模式挖掘仍然是一個新興的研究領域,從模式挖掘結構體系、模式挖掘過程,模式挖掘應用等方面對Web用戶行為模式挖掘中關鍵問題的研究進行探討。
[關鍵詞]數(shù)據(jù)挖掘 Web挖掘 Web用戶行為模式挖掘
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0520034-01
一、引言
隨著Internet的飛速發(fā)展,網(wǎng)絡上的數(shù)據(jù)資源越來越豐富,其中蘊涵著巨大潛在價值的信息。如何從浩瀚如煙的網(wǎng)絡信息中快速準確地發(fā)現(xiàn)知識,如何高效利用網(wǎng)絡資源服務于用戶,是互聯(lián)網(wǎng)用戶迫切需要解決的一個重要課題。將傳統(tǒng)的數(shù)據(jù)挖掘技術與Web技術相結合,進行Web挖掘。根據(jù)用戶在瀏覽站點時的行為,掌握用戶使用互聯(lián)網(wǎng)的規(guī)律性特點,將挖掘出的用戶訪問模式應用于網(wǎng)站上,可以提高站點的服務質量,方便用戶的使用。
二、Web數(shù)據(jù)挖掘
Web挖掘是數(shù)據(jù)挖掘在Web上的應用,指從大量非結構化、異構的Web信息資源中發(fā)現(xiàn)有效的、新穎的、潛在可用的及最終可理解的知識(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)的過程,涉及Web技術、數(shù)據(jù)挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。
根據(jù)關注對象的不同,Web 挖掘一般可分為Web內容挖掘、Web結構挖掘和Web訪問模式挖掘。Web訪問模式挖掘是通過處理Web使用數(shù)據(jù),以發(fā)現(xiàn)用戶的訪問模式,理解用戶的行為。用戶訪問模式的挖掘過程就是通過數(shù)據(jù)挖掘技術從Web使用數(shù)據(jù)中自動抽取訪問模式的過程。
三、Web用戶行為模式挖掘結構
目前的Web用戶行為模式挖掘系統(tǒng)結構差別較大,但基本的Web用戶行為模式挖掘結構由數(shù)據(jù)源、數(shù)據(jù)預處理、模式挖掘、模式分析和模式應用幾部分構成。
Web用戶行為模式挖掘基本體系結構中所涉及原始文件主要包括 Web服務器日志等;所進行的數(shù)據(jù)預處理過程一般包括數(shù)據(jù)清理、用戶識別、會話識別、路徑補充、事務識別等;對數(shù)據(jù)預處理的結果(事務文件等)進行模式挖掘可采用的技術包括統(tǒng)計分析、關聯(lián)規(guī)則、序列模式、聚類/分類、依賴性建模等;對模式挖掘得出的結果即規(guī)則/模式可進行olap等查詢和分析評估;對于有效的、用戶感興趣的模式可用于具體的應用比如個性化服務等。
四、Web用戶行為模式挖掘過程
(一)數(shù)據(jù)預處理
在Web挖掘中,主要分析的數(shù)據(jù)源是服務器日志,但是由于服務器日志記錄的數(shù)據(jù)并不完整,直接在其上進行挖掘非常困難。進行預處理的結果直接影響到挖掘算法產(chǎn)生的規(guī)則與模式。主要包括以下步驟:(1)數(shù)據(jù)轉換:將原始日志文件導入數(shù)據(jù)庫。(2)數(shù)據(jù)清理:刪除與分析目的無關的記錄。(3)用戶識別:將用戶和請示的頁面相關聯(lián)。(4)會話識別:將用戶在一段時間內的請示頁面分解成能反映實際瀏覽習慣的用戶會話。(5)路徑補充:將本地或者代理服務器中緩存而沒有被日志記錄的請求頁面增加到會話中。
(二)模式挖掘
1.通過路徑分析技術分析訪問者的訪問路徑。路徑分析技術利用鏈接日志文件項中訪問者的訪問路徑,并將路徑按時間排序??梢缘玫骄W(wǎng)站、特定頻道的頁面閱覽數(shù)、用戶會話數(shù)、頁面瀏覽時間、最常訪問頁面等基本數(shù)據(jù)。其統(tǒng)計分析結果是理解、應用后續(xù)挖掘出的模式的一個基礎。
2.通過關聯(lián)規(guī)則分析挖掘出頻繁頁面集。挖掘關聯(lián)規(guī)則的大多數(shù)算法是基于Apriori算法的。其主要思路是找出事務中頻繁(滿足規(guī)定的最小支持度的對象可以認為是頻繁的)同時出現(xiàn)的頁面對象,在算法中稱為頻繁集,之后在頻繁集中找出滿足置信度要求的規(guī)則,這些規(guī)則就是挖掘出的關聯(lián)規(guī)則。
3.通過聚類分析挖掘出具有相似特征的客戶或者頁面。聚類分析主要作用于具有類似特征或行為的對象。其中的頁面聚類則多應用在搜索引擎方面。對于具有相似喜好的客戶,企業(yè)可以為其動態(tài)的提供個性化服務。常用的算法主要有劃分方法、基于密度的方法等。
4.通過分類和預測。按照用戶的特征數(shù)據(jù)或者行為數(shù)據(jù)將用戶劃分到特定的類別中,這對于為用戶提供個性化服務是一個極好的選擇。然后依賴關系建模建立能夠描述Web領域中變量之間的依賴關系模型,比如建立一個描述用戶在電子商務網(wǎng)站中消費的模型 這有助于將潛在用戶轉化為真正的消費用戶。
(三)模式應用
1.網(wǎng)站設計的優(yōu)化。根據(jù)Web用戶行為模式挖掘結果,網(wǎng)站所有者可據(jù)實際瀏覽情況調整網(wǎng)站的網(wǎng)頁鏈接結構、內容和建立自適應網(wǎng)站,對網(wǎng)站進行優(yōu)化,從而更好地為用戶服務。
2.Web個性化。基于Web用戶行為模式挖掘的個性化推薦服務中采用關聯(lián)規(guī)則技術的較多,但是所帶來的問題也較多,比較典型的就是遺失重要模式、使用者對挖掘出的模式不感興趣等問題而帶來的推薦效果差問題;序列模式應用于個性化推薦系統(tǒng)中準確度比較高,但覆蓋率較低;聚類技術應用于個性化推薦服務中則在一定程度上改善覆蓋率問題。因此目前出現(xiàn)一種將不同方法綜合應用的思路。
3.電子商務方面的應用。結合Web用戶行為模式挖掘,可以為商家更有效的確認目標市場,對客戶進行分類分析,向客戶提供更有針對性的服務,找到未來的潛在客戶,最后保留客戶的駐留時間,從而確定用于特定消費群體或個體進行定向營銷的決策。
4.系統(tǒng)優(yōu)化。用戶使用互聯(lián)網(wǎng)的滿意度,除了受到內容的影響外,很大程度上受訪問速度等性能的影響。目前,Web用戶行為模式挖掘的這類應用主要應用于代理服務器提高性能(比如進行頁面預取等)。
五、結束語
在互聯(lián)網(wǎng)域名數(shù)量、網(wǎng)站數(shù)量、網(wǎng)頁數(shù)量飛速增加的今天,如何使得用戶更好地使用互聯(lián)網(wǎng)是互聯(lián)網(wǎng)從業(yè)者必須要面對的問題,Web用戶行為模式挖掘可以在一定程度上為此問題的解決提供基礎。Web數(shù)據(jù)挖掘應該著重在Web挖掘的內在機制的研究及其實現(xiàn);Web挖掘算法在海量數(shù)據(jù)挖掘時的適應性和時效性;關聯(lián)規(guī)則和序列模式在構造自組織站點的研究等方面。
參考文獻:
[1]曼麗春、朱宏、楊全勝,Web數(shù)據(jù)挖掘研究與探討[J].現(xiàn)代電子技術,2005(8):3-6.
[2]夏火松,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術[M].利學出版社,2004:207-227.
[3]Brian Pinkerton,Web Craw ler Finding Whate people want Ph.d Thesis[M].Universitv of Washington,2000.
[4]Chakrabarti S,Dom B E,Kumar S R,et al.Mining the Web's LinkStructure,Computer,1999.32(8):60-67.
作者簡介:
鄧悅(1971-),女,河北遵化人,遼工大職業(yè)技術學院,講師。