李培培 曹 芳(北京吉利大學(xué)信息學(xué)院 中國(guó) 北京 102202)
隨著Internet/Intranet技術(shù)的發(fā)展,尤其是Web的全球普及使得Web上信息量無(wú)比豐富,Web已經(jīng)成為人們獲取信息的重要途徑,但最先進(jìn)的搜索引擎也只能找到Web網(wǎng)頁(yè)上面很少的網(wǎng)頁(yè),而且無(wú)論怎么選擇關(guān)鍵詞都會(huì)返回大量并不需要的結(jié)果。如何從非格式化數(shù)據(jù)信息中有效地挖掘出有用的信息是對(duì)數(shù)據(jù)挖掘領(lǐng)域的一個(gè)新挑戰(zhàn)。
Web上的數(shù)據(jù)信息不同于數(shù)據(jù)庫(kù)。它主要是些大量的、異質(zhì)的Web信息資源,文檔結(jié)構(gòu)性差,其數(shù)據(jù)多為半結(jié)構(gòu)化或非結(jié)構(gòu)化,信息不能清楚地用數(shù)據(jù)模型來(lái)表示。因此在Web的數(shù)據(jù)挖掘需要用到很多不同于單個(gè)數(shù)據(jù)倉(cāng)庫(kù)挖掘的技術(shù)。
Web數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù),是利用數(shù)據(jù)挖掘技術(shù)從WWW數(shù)據(jù)資源中抽取信息的過(guò)程,結(jié)合了數(shù)據(jù)挖掘、信息處理、可視化、數(shù)理統(tǒng)計(jì)等領(lǐng)域的成熟技術(shù),是對(duì)Web數(shù)據(jù)資源中蘊(yùn)含的未知的有潛在應(yīng)用價(jià)值的模式的提取。
通常Web挖掘過(guò)程可以分為以下幾個(gè)處理階段:資源發(fā)現(xiàn)、數(shù)據(jù)抽取及數(shù)據(jù)預(yù)處理、數(shù)據(jù)匯總及模式識(shí)別、分折驗(yàn)證。目標(biāo)數(shù)據(jù)集根據(jù)用戶(hù)需求,從Web數(shù)據(jù)源中提取的相關(guān)數(shù)據(jù),Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進(jìn)行數(shù)據(jù)提??;預(yù)處理過(guò)程從數(shù)據(jù)中去除明顯錯(cuò)誤或冗余的數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)換成為有效和易于理解的形式;模式分析對(duì)發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)估;最后將發(fā)現(xiàn)的知識(shí)以用戶(hù)能理解的方式提供給用戶(hù)。
根據(jù)挖掘?qū)ο蟮牟煌琖eb挖掘可以分為三類(lèi),Web內(nèi)容挖掘 (WCM)、Web結(jié)構(gòu)挖掘 (WSM) 和 Web使用挖掘(WUM)。
1.3.1 Web內(nèi)容挖掘
Web內(nèi)容挖掘?qū)嶋H上是從Web文檔及描述中獲取知識(shí),具體來(lái)說(shuō)就是對(duì)Web上大量的文檔集合的內(nèi)容進(jìn)行摘要、分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析、以及利用Web文檔進(jìn)行趨勢(shì)預(yù)測(cè)等。Web內(nèi)容挖掘的對(duì)象包括文本、圖像、音頻、視頻、多媒體等各種類(lèi)型的數(shù)據(jù)。其中聚類(lèi)是事先沒(méi)有確定類(lèi)別,但要求把相似度高的文檔歸于相同的類(lèi)。
1.3.2 Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)的過(guò)程。主要是通過(guò)對(duì)Web站點(diǎn)的結(jié)構(gòu)進(jìn)行歸納、分析和變形,將Web頁(yè)面進(jìn)行分類(lèi),以利于信息搜索。HTML頁(yè)面所包含的知識(shí)不僅存在于各個(gè)頁(yè)面的內(nèi)容中,也存在于這些頁(yè)面之間的相互鏈接中。利用這方面的知識(shí)可以對(duì)頁(yè)面進(jìn)行排序以發(fā)現(xiàn)重要的頁(yè)面。
1.3.3 Web使用挖掘
Web使用挖掘就是對(duì)用戶(hù)訪(fǎng)問(wèn)Web時(shí)在服務(wù)器留下的訪(fǎng)問(wèn)記錄進(jìn)行挖掘,也叫網(wǎng)絡(luò)使用挖掘。挖掘?qū)ο笫窃诜?wù)器上的日志信息,也稱(chēng)Web日志挖掘。它通過(guò)分析日志記錄中的規(guī)律,可以識(shí)別用戶(hù)的忠實(shí)度、喜好、滿(mǎn)意度,發(fā)現(xiàn)潛在用戶(hù),增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶(hù)會(huì)話(huà)信息、交易信息、Cookie中的信息、用戶(hù)查詢(xún)、鼠標(biāo)點(diǎn)擊流等一切用戶(hù)與站點(diǎn)之間可能的交互記錄。
Web數(shù)據(jù)挖掘中常用的技術(shù)有Web使用的特有路徑分析技術(shù)和數(shù)據(jù)挖掘領(lǐng)域常用的關(guān)聯(lián)規(guī)則、序列模式、分類(lèi)聚類(lèi)技術(shù)以及中文分詞處理和詞頻統(tǒng)計(jì)技術(shù)等。
使用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí),最常用的是圖。圖最直接的來(lái)源是網(wǎng)站結(jié)構(gòu)圖,網(wǎng)站上的頁(yè)面定義為節(jié)點(diǎn),頁(yè)面之間的超鏈接定義為圖中的邊?;赪eb的數(shù)據(jù)挖掘,就是從圖中確定最頻繁的路徑訪(fǎng)問(wèn)模式。
關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶(hù)訪(fǎng)問(wèn)序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則。在Web數(shù)據(jù)挖掘中,它負(fù)責(zé)挖掘出用戶(hù)在一個(gè)訪(fǎng)問(wèn)期間從服務(wù)器上訪(fǎng)問(wèn)的頁(yè)面/文件之間的聯(lián)系,這些頁(yè)面之間可能并不存在直接的參引關(guān)系。
序列模式數(shù)據(jù)挖掘負(fù)責(zé)挖掘交易集之間的有時(shí)間序列的模式。例如,最出名的尿布與啤酒,這種信息對(duì)于電子商務(wù)網(wǎng)站非常有用。
分類(lèi)規(guī)則可以挖掘某些共同的特性。這個(gè)特性可用來(lái)對(duì)新添到數(shù)據(jù)庫(kù)里的數(shù)據(jù)項(xiàng)進(jìn)行分類(lèi)。
中文信息處理的一大障礙是詞與詞之間沒(méi)有物理的分隔符。因此在進(jìn)行詞頻統(tǒng)計(jì)等處理前先要進(jìn)行詞條切分處理。中文文本的分詞方法有很多種,一般采用較為簡(jiǎn)單的基于詞典的正向匹配遍歷分詞方法。詞典的選取通常根據(jù)挖掘目標(biāo)建立專(zhuān)業(yè)的分詞詞典,以提高系統(tǒng)的運(yùn)行效率。
3.1.1 異構(gòu)數(shù)據(jù)庫(kù)環(huán)境
從數(shù)據(jù)庫(kù)研究的角度出發(fā),Web網(wǎng)站上的信息也可以看作一個(gè)更大、更復(fù)雜的數(shù)據(jù)庫(kù),每個(gè)站點(diǎn)之間的信息和組織都不一樣。如果想要利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,首先必須要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問(wèn)題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來(lái),提供給用戶(hù)一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取信息。其次還要解決Web上的數(shù)據(jù)查詢(xún)問(wèn)題,因?yàn)槿绻荒苡行У氐玫剿璧男畔?,則對(duì)這些數(shù)據(jù)進(jìn)行分析、集成、處理就無(wú)從談起。
3.1.2 半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)
Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同,Web上的每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),數(shù)據(jù)沒(méi)有特定的模型描述,并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性。因而,Web上的數(shù)據(jù)這也被稱(chēng)之為半結(jié)構(gòu)化數(shù)據(jù)。
針對(duì)Web上的數(shù)據(jù)半結(jié)構(gòu)化的特點(diǎn),XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng)起來(lái),實(shí)施精確的查詢(xún)與模型抽取。
XML是一種中介標(biāo)示語(yǔ)言,可提供描述結(jié)構(gòu)化資料的格式。XML解決了兩個(gè)Web問(wèn)題,即Internet發(fā)展速度快而接入速度慢的問(wèn)題,以及可利用的信息多,但難以找到自己需要的信息的問(wèn)題。運(yùn)用XML的擴(kuò)展功能不僅能從Web服務(wù)器下載大量的信息,還能大大減少網(wǎng)絡(luò)業(yè)務(wù)量。
其實(shí)現(xiàn)過(guò)程可以由以下四個(gè)步驟來(lái)實(shí)現(xiàn):第一步得到XHTML格式的源信息,即確定了信息源,將數(shù)據(jù)從HTML轉(zhuǎn)換成XML,目前在高級(jí)語(yǔ)言中例如JAVA、VC等都有專(zhuān)門(mén)的函數(shù)或類(lèi)來(lái)實(shí)現(xiàn);第二步查找數(shù)據(jù)的引用點(diǎn),完成這一任務(wù)的最簡(jiǎn)單的辦法通常是,檢查Web頁(yè)面,然后使用XML。只需要看一下頁(yè)面,記下觀察到的內(nèi)容,考慮頁(yè)面所生成的XHTML,并將把記錄的信息作為引用點(diǎn);第三步將數(shù)據(jù)映射成XML,找到了這個(gè)引用點(diǎn),就可以創(chuàng)建實(shí)際抽取數(shù)據(jù)的代碼;第四步合并與處理結(jié)果,需要反復(fù)執(zhí)行抽取過(guò)程,把結(jié)果合并到單個(gè)XML數(shù)據(jù)文件中。可以再次使用XSL執(zhí)行,也可以創(chuàng)建類(lèi)的方法把在當(dāng)前抽取中獲得的數(shù)據(jù)合并到包含以前抽取數(shù)據(jù)的文檔中。
基于WWW技術(shù)的應(yīng)用正以驚人的速度向社會(huì)生活的方方面面滲透,人類(lèi)交互信息不可避免地電子化和海量化,從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的重要的知識(shí)是數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的是一個(gè)重要研究和應(yīng)用領(lǐng)域。本文討論了Web數(shù)據(jù)挖掘的一些基本知識(shí)、方法、技術(shù)。Web挖掘是一項(xiàng)綜合技術(shù)涉及多個(gè)領(lǐng)域,目前隨著XML技術(shù)的成熟,研究利用XML技術(shù)進(jìn)行Web的數(shù)據(jù)挖掘必將越來(lái)越深入。
[1]王志明,沙莎.Web 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.軟件導(dǎo)刊,2006,10.
[2]李健.Web 的數(shù)據(jù)挖掘.電腦知識(shí)與技術(shù),2006.
[3]原嬌杰,趙杰文.基于 Web 的數(shù)據(jù)挖掘.軟件導(dǎo)刊,2006,10.
[4]于升峰.Web 使用挖掘的模式發(fā)現(xiàn).情報(bào)學(xué)報(bào),2006-10-25.
[5]崔建群,何炎祥.基于XML的Web數(shù)據(jù)挖掘關(guān)鍵技術(shù)的研究.計(jì)算機(jī)工程,2006-10-32.