于琦
摘 要:本文首先在“信息爆炸”的時代背景下提出數(shù)據(jù)挖掘和Web數(shù)據(jù)挖掘的重要性,然后針對Web日志挖掘詳細討論了其數(shù)據(jù)預處理的主要步驟及其過程方法,最后闡述了Web日志挖掘在網(wǎng)站建設上的應用,為后繼研究提供了參考。
關鍵詞:數(shù)據(jù)挖掘;Web日志挖掘;數(shù)據(jù)預處理
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1003-5168(2018)19-0018-03
Research of Data Preprocessing Method for Web Log Mining
YU Qi
(Library, Henan University of Economics and Law,Zhengzhou Henan 450046)
Abstract: In this paper, the importance of data mining and Web data mining was proposed in the background of "information explosion", and then the main steps and process methods of Web log mining were discussed in detail. Finally, the application of Web log mining in website construction was expounded, which provided a reference for future research.
Keywords: data mining ; Web log mining; data preprocessing
1 研究背景
在過去的十年左右,人們利用信息技術生產(chǎn)和收集數(shù)據(jù)的能力大大提高。許多數(shù)據(jù)庫已被用于商業(yè)管理、科學研究和工程開發(fā)等領域,這一勢頭將繼續(xù)增長。但同時,過量的信息也成了每個人都需要面對的問題,如何從繁雜的信息中及時發(fā)現(xiàn)有用信息并提高信息的利用率成為基亟待解決的主要問題。因此,面對這種情況,數(shù)據(jù)挖掘(Data Mining)技術應運而生,且迅猛發(fā)展,呈現(xiàn)出越來越強勁的生命力。數(shù)據(jù)挖掘[1]是從大量的、不完整的、嘈雜的、模糊的和隨機的實際應用數(shù)據(jù)中提取隱含的、但潛在有用的信息和知識。
Web挖掘[2]是一種數(shù)據(jù)挖掘,指的是使用數(shù)據(jù)挖掘技術來發(fā)現(xiàn)WWW數(shù)據(jù)中潛在的、有用的模式或信息。Web挖掘研究涵蓋了許多研究領域,包括數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、機器學習和人工智能中的神經(jīng)網(wǎng)絡。Web挖掘可以分為三類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘[3]。Web使用模式挖掘是指Web使用挖掘,主要是挖掘網(wǎng)站訪問日志和用戶訪問模式[4]。其可以提取設計者的領域知識、用戶的興趣水平和用戶的訪問習慣等,并獲得個性化服務、用戶訪問控制等對網(wǎng)站設計者和運營商有用的決定性信息。本文主要討論Web日志挖掘預處理的主要步驟及其處理方法,希望能為相關人員提供一些參考。
2 Web日志挖掘預處理的主要步驟
Web日志挖掘主要分為3個步驟[5]。
2.1 數(shù)據(jù)預處理
數(shù)據(jù)預處理主要包括數(shù)據(jù)清洗和事務識別。其中,數(shù)據(jù)清洗包括無關記錄的剔除、判斷 是否有重要的記錄未被記錄、用戶識別等。事務識別是指將頁面訪問序列劃分為表示W(wǎng)eb事務或用戶會話的邏輯單元。數(shù)據(jù)預處理階段根據(jù)挖掘的目的,對原始Web日志文件中的數(shù)據(jù)進行提取、分解和合并,最后轉(zhuǎn)換成適合數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存在關系數(shù)據(jù)庫表或數(shù)據(jù)倉庫中,等待進一步處理。
2.2 模式識別
運用各種算法對處理后的數(shù)據(jù)進行挖掘,生成模式。
2.3 模式分析
分析用戶訪問模式以提取有價值模式的過程。數(shù)據(jù)預處理是整個過程的基礎,也是實施有效挖掘算法的前提,其在Web日志挖掘中扮演著非常重要的角色。原始日志文件是一個簡單的平面文本文件,包括了一些需要處理的不完整的、冗余的和錯誤的數(shù)據(jù),若不對其進行處理,將直接影響挖掘效果。另外,還需要實施一些OLAP分析和挖掘算法,同時依靠規(guī)范化的數(shù)據(jù)源,因此還需要調(diào)整數(shù)據(jù)存儲格式以適應所使用的挖掘方法。
3 Web日志挖掘的預處理過程及方法
目前,市場上流行的Web服務器(如IIS、Apache等)通常為每次訪問網(wǎng)頁時保存了日志條目,其忠實地記錄訪問Web服務器的數(shù)據(jù)流信息[6]。日志文件可以根據(jù)客戶的不同需求調(diào)整記錄哪些信息。數(shù)據(jù)預處理是非常關鍵的一步,根據(jù)不同的情況和業(yè)務,所需要的數(shù)據(jù)是從海量原始數(shù)據(jù)中提取的,同時處理一些不完整的數(shù)據(jù)。Web日志挖掘的數(shù)據(jù)預處理包括依賴于域的數(shù)據(jù)清理、用戶識別、會話識別、路徑補充和事務處理識別[6]。預處理日志的結(jié)果直接影響挖掘算法生成的規(guī)則和模式。因此,預處理過程是保證Web使用挖掘質(zhì)量的關鍵。
數(shù)據(jù)預處理是將日志文件轉(zhuǎn)換為數(shù)據(jù)庫文件的工作。其目的是將網(wǎng)絡日志數(shù)據(jù)轉(zhuǎn)換為適合數(shù)據(jù)挖掘的精確數(shù)據(jù)。結(jié)合數(shù)據(jù)挖掘中遇到的問題,可以將預處理過程分為以下步驟[7](如圖1所示)。
分析用戶訪問網(wǎng)站的方式對為網(wǎng)站安排邏輯結(jié)構(gòu)和制定有效的營銷策略具有重要的意義。由于WWW網(wǎng)絡的結(jié)構(gòu)特點,每個網(wǎng)站的物理拓撲結(jié)構(gòu)和用戶的訪問方法都不相同,且很難確定Web日志中的用戶、會話或事務。因此,為了確保挖掘算法的有效性,Web日志需要進行預處理。日志預處理步驟如下。
3.1 數(shù)據(jù)清理
數(shù)據(jù)清理是指根據(jù)需求處理日志文件,包括刪除不相關的數(shù)據(jù),合并某些記錄以及在用戶請求頁面時正確處理錯誤。
數(shù)據(jù)預處理的主要任務是數(shù)據(jù)清理。在分析任何形式的網(wǎng)絡日志過程中,清除服務器日志中的無關數(shù)據(jù)非常關鍵。只有當服務器日志中表示的數(shù)據(jù)能準確反映用戶對Web站點的訪問時,通過挖掘獲得的關聯(lián)規(guī)則才真正有用。工作人員可以定義默認規(guī)則庫來幫助刪除記錄,并且可以根據(jù)所分析網(wǎng)站的類型修改此規(guī)則庫。網(wǎng)站可以分為普通網(wǎng)站、圖片網(wǎng)站和視頻網(wǎng)站等,相應的規(guī)則庫可以單獨建立。在清理過程中,應確定要分析的網(wǎng)站類型,并根據(jù)這些網(wǎng)站的規(guī)則庫進行數(shù)據(jù)清理。當然,也可以根據(jù)需要修改規(guī)則庫。
3.2 用戶識別
由于本地緩存、代理服務器和防火墻的存在,有效識別用戶的任務變得非常復雜:不同的用戶通過簡單的代理同時訪問Web服務器;同一個用戶可以在別的機器上訪問Web服務器;用戶可以使用不同的瀏覽器訪問同一臺計算機上的Web服務器。當不同用戶使用同一臺機器瀏覽網(wǎng)站時會造成混亂。為此,筆者提出以下啟發(fā)式規(guī)則來識別用戶[8]。①不同的IP地址代表不同的用戶。②當IP地址相同時,默認不同的操作系統(tǒng)或瀏覽器代表不同的用戶。③在IP地址相同,用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,則判斷每一個請求訪問的頁面與訪問過的頁面之間是否有鏈接。如果一個請求訪問的頁面與上一個已經(jīng)訪問過的頁面之間并沒有直接鏈接,則假設在訪問Web站點的機器上同時存在多個用戶。
一般采用的方法是基于日志站點的方法,還可以使用一些啟發(fā)性規(guī)則,但使用這些規(guī)則難以保證準確識別用戶,因此用戶識別是個難題。
3.3 會話標識
用戶會話是指用戶對服務器的有效訪問,通過其不斷請求的頁面,用戶可以獲得在網(wǎng)站上的訪問行為和瀏覽興趣。在跨越相對較大的時區(qū)的Web服務器日志中,用戶可能會多次訪問該站點。會話ID的目的是將用戶的訪問日志分成單個會話[9]。最簡單的方法是運用超時技術,如果兩頁之間的時間差超過某個閾值,則假定用戶開始新的會話。
3.4 路徑補充
識別用戶會話過程中的另一個問題是確定訪問日志中的重要請求是否存在未被記錄的情況。這需要路徑補充來完成這些記錄。路徑補充的目的是完成未記錄在訪問日志中的用戶記錄并獲取用戶的完整訪問路徑,以便更準確地發(fā)現(xiàn)用戶的訪問模式。檢查參考信息以確定當前請求來自哪個頁面。如果用戶的歷史訪問記錄中有多個頁面包含指向當前請求頁面的鏈接,則將請求時間最接近當前請求頁的頁面作為當前請求的來源。如果參考信息不完整,則可以使用站點拓撲[10]。
3.5 事務的識別
在Web日志挖掘領域,用戶會話是唯一具備自然事務特征的對象,但其需要特定的算法將用戶會話分割為更小的事務。劃分事務的主要方法是引用時長和最大前向引用。
3.5.1 引用時長。網(wǎng)頁可以簡單地分為2類:內(nèi)容頁面和導航頁面[11]。當頁面中超鏈接的數(shù)量達到一定數(shù)量時,可以將其視為導航頁面,這是一種靜態(tài)分割方法。內(nèi)容頁面通常是用戶關心的信息,瀏覽時間長。導航頁面是用戶設置的快速查找所需信息的坐標,瀏覽時間短。通過估計整個日志中輔助頁面的比例,可以使用最大似然估計算法來劃分輔助頁面和內(nèi)容頁面的劃分時間。通過比較來劃分時間,頁面可以分成內(nèi)容頁面或?qū)Ш巾撁?,這些頁面被劃分成不同的事物。
3.5.2 最大前向引用。有時,一些頁面會包含更多的超鏈接,這些是用戶關心的信息。但是,其被用作內(nèi)容頁面。在這種情況下,事務可以由Chen[12]等人提出的最大前向參考路徑(簡稱MFP)來定義。對于每個用戶會話,從起始頁面開始,每個最大的前向參考路徑是一個事務。當出現(xiàn)前向指引時,開始新的事務。
3.6 內(nèi)容和結(jié)構(gòu)數(shù)據(jù)的預處理
內(nèi)容和結(jié)構(gòu)數(shù)據(jù)的預處理基于特定的應用程序,將Web頁面中文本、圖像、腳本和超鏈接轉(zhuǎn)換為Web使用挖掘的格式。例如,根據(jù)網(wǎng)頁的文本內(nèi)容,描述與頁面相關的概念主題,用于網(wǎng)頁的聚類[13],根據(jù)網(wǎng)頁間的超鏈接信息構(gòu)造網(wǎng)站的拓撲結(jié)構(gòu)圖,用于識別用戶。
4 結(jié)語
本文主要討論Web日志挖掘中數(shù)據(jù)預處理的主要步驟及其方法和技術,這在挖掘過程中起著重要的作用,數(shù)據(jù)預處理的質(zhì)量將直接影響最終的挖掘效率和結(jié)果。由于網(wǎng)站的復雜性和用戶訪問模式的諸多不確定性,數(shù)據(jù)預處理技術仍不完善,有待改進。例如,數(shù)據(jù)采集機制和開發(fā)技術變得更加可行,用戶識別和會話識別的準確性進一步提高,算法的時間復雜度和空間復雜度需要進一步降低。這些問題的解決將為后續(xù)的模式發(fā)現(xiàn)和模式分析提供真實和完整的數(shù)據(jù)。
參考文獻:
[1]李雄飛,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2003.
[2]劉立軍,周軍,梅紅巖.Web使用挖掘的數(shù)據(jù)預處理[J].計算機科學,2007(5):200-201.
[3]劉斌,陳樺.向量空間模型信息檢索技術討論[J].情報雜志,2006(7):92-93.
[4]Jetal S. Web Usage Mining: Discovery and Application of Usage Patterns from Web Data[J].SIGKDD Explorations,2000(2):12-20.
[5]童恒慶,梅清.Web日志挖掘數(shù)據(jù)預處理研究[J].現(xiàn)代計算機,2004(3):6-9.
[6]劉立軍,周軍,梅紅巖.Web使用挖掘的數(shù)據(jù)預處理[J].計算機科學,2007(5):200-201.
[7]李烈彪,張海鵬,周亞峰.Web日志挖掘中數(shù)據(jù)預處理方法的研究[J].計算機技術與發(fā)展,2007(7):45-48.
[8]張健沛,劉建東,楊靜.基于Web的日志挖掘數(shù)據(jù)預處理方法的研究[J].計算機工程與應用,2003(10):191-193.
[9]何黎明.Web日志的預處理技術[J].長江大學學報(自科版),2007(2):310-311.
[10] Cooley R,Mobasher B,Srivastava J. Data Preparation for Min-ing World Wide Web Browsing Patterns[J]. Journal of Knowl-edge and Information Systems,1999(1):5-32.
[10] Chen MS, Park J S, Yu PS.Data Mining for Path Traversal Pat-terns[A]//In: Proc.of the 16th Intl Confon Distributed Compu-ting System[C].Hong Kong,1996.
[12]Perkowitz M,Etzioni O. Towards Adaptive Web sites: Conceptual Framework and Case Study[J]. Computer Networks,1999(11–16):1245-1258.
[13]Perkowitz M. Adaptive Web Sites : Automatically Synthesizing Web Pages[C]// Proc. National Conference on Artificial Intelligence, Madison. 1998:727-732.