孫興富
摘要:隨著Internet的發(fā)展,必然要求對(duì)Web信息進(jìn)行深層次的分析。而有效運(yùn)用Web數(shù)據(jù)挖掘技術(shù)可以從海量數(shù)據(jù)中快速、準(zhǔn)確地獲得有價(jià)值的網(wǎng)絡(luò)信息,并提供個(gè)性化的服務(wù)。因此,本文通過(guò)分析Web數(shù)據(jù)挖掘的特點(diǎn)及分類,針對(duì)常用技術(shù)和主要應(yīng)用方向進(jìn)行探討,以其充分發(fā)揮web數(shù)據(jù)挖掘的作用,服務(wù)信息化社會(huì)。
關(guān)鍵詞:web;數(shù)據(jù)挖掘;信息服務(wù);常用技術(shù)
1 Web數(shù)據(jù)挖掘的特點(diǎn)
萬(wàn)維網(wǎng)目前是一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其他信息服務(wù)。Web還包含了豐富和動(dòng)態(tài)的超鏈接信息,以及Web頁(yè)面的訪問(wèn)和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源。然而,Web挖掘不僅僅是數(shù)據(jù)挖掘算法在Web數(shù)據(jù)上的應(yīng)用,同傳統(tǒng)的數(shù)據(jù)庫(kù)數(shù)據(jù)相比,Web數(shù)據(jù)具有其特殊性,其特點(diǎn)就是數(shù)據(jù)沒(méi)有嚴(yán)格的結(jié)構(gòu)模式,含有不同格式的數(shù)據(jù)(文本、聲音、圖像等),面向顯示的Html文本無(wú)法區(qū)分?jǐn)?shù)據(jù)類型,并且存在大量的冗余和噪聲,同時(shí)Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源,所以面向Web的數(shù)據(jù)挖掘研究極具挑戰(zhàn)性。
2 Web數(shù)據(jù)挖掘的分類
2.1 web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)包括不同網(wǎng)頁(yè)之間的超鏈接結(jié)構(gòu)和一個(gè)頁(yè)面內(nèi)部的樹(shù)形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web結(jié)構(gòu)可以用有向圖表示,頁(yè)面對(duì)應(yīng)圖中的點(diǎn),超級(jí)鏈接對(duì)應(yīng)圖中的邊。通過(guò)把Web表示成有向圖,可以得到從一個(gè)站點(diǎn)的主頁(yè)到它任意一個(gè)定點(diǎn)的最短路徑,Robot沿最短路徑瀏覽Web站點(diǎn),就可以以較小的代價(jià)發(fā)現(xiàn)較多的文檔。HITS、PageRank,以及在鏈接結(jié)構(gòu)中增加了Web內(nèi)容信息的HITS改進(jìn)算法等,主要用于模擬Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu),計(jì)算Web頁(yè)面的等級(jí)和Web頁(yè)面之間的關(guān)聯(lián)度,典型的例子是CleverSystem和Google等。
2.2 Web內(nèi)容挖掘
Web內(nèi)容挖掘是指從Web上的文件內(nèi)容及其描述信息中獲取潛在的、有價(jià)值的知識(shí)或模式的過(guò)程,它分為Web文本挖掘和Web多媒體挖掘。Web文本挖掘可以對(duì)Web上大量的文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進(jìn)行趨勢(shì)分析等。Web多媒體挖掘主要是指通過(guò)對(duì)Web上的音頻、視頻數(shù)據(jù)和圖像進(jìn)行預(yù)處理,應(yīng)用挖掘技術(shù)對(duì)其中潛在的、有意義的信息和模式進(jìn)行挖掘的過(guò)程。
2.3 Web訪問(wèn)挖掘
對(duì)于一個(gè)網(wǎng)站而言,網(wǎng)頁(yè)瀏覽量、點(diǎn)擊數(shù)、獨(dú)立IP訪問(wèn)數(shù)等參數(shù)是反映這個(gè)網(wǎng)站用戶訪問(wèn)情況的重要指標(biāo),通過(guò)對(duì)網(wǎng)站LOG文件的分析,可以獲得網(wǎng)站訪問(wèn)情況的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)。針對(duì)這些統(tǒng)計(jì)數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘,屬于靜態(tài)的Web訪問(wèn)記錄的數(shù)據(jù)挖掘,可以有效地提高網(wǎng)站的服務(wù)。例如:通過(guò)分析訪問(wèn)者的來(lái)源,可以使一個(gè)網(wǎng)站有針對(duì)性地提供內(nèi)容;通過(guò)分析每天各個(gè)時(shí)段訪問(wèn)者人數(shù)的變化,網(wǎng)站可以調(diào)整每天內(nèi)容更新的時(shí)間。
3 Web數(shù)據(jù)挖掘的常用技術(shù)
Web數(shù)據(jù)挖掘中常用的技術(shù)有數(shù)據(jù)挖掘領(lǐng)域常用的分類聚類技術(shù)、關(guān)聯(lián)規(guī)則技術(shù) 序列模式技術(shù)和Web特有的路徑分析技術(shù)等。
3.1分類聚類技術(shù)
數(shù)據(jù)分類技術(shù)可以通過(guò)挖掘數(shù)據(jù)中的某些共同特性從而對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分類。在Web數(shù)據(jù)挖掘中,分類技術(shù)可以根據(jù)捕獲的Web訪問(wèn)用戶的個(gè)人信息或共同的訪問(wèn)模式得出訪問(wèn)某一服務(wù)器文件的用戶特征。常用的數(shù)據(jù)分類技術(shù)有:判定樹(shù)歸納、貝葉斯分類和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、基于案例的推理、遺傳算法、粗糙集方法和模糊集方法。
聚類是一個(gè)將物理或者抽象對(duì)象的集合分組成由類似的對(duì)象組成的多個(gè)類或簇的過(guò)程。聚類分析技術(shù)能用于對(duì)Web上的文檔進(jìn)行分類,已發(fā)現(xiàn)信息。聚類分析能作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布的情況,觀察每個(gè)簇的特點(diǎn),集中對(duì)某些簇做進(jìn)一步的分析。常用的聚類算法大體上可以劃分為幾類:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。
3.2 關(guān)聯(lián)規(guī)則挖掘技術(shù)
關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問(wèn)序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則。在Web挖掘中,關(guān)聯(lián)規(guī)則挖掘就是要挖掘出用戶在一個(gè)訪問(wèn)會(huì)話期間從服務(wù)器上訪問(wèn)的頁(yè)面或文件之間的聯(lián)系,這些頁(yè)面之間可能并不存在直接的引用關(guān)系。最常用的算法是Aprior算法,它從事務(wù)數(shù)據(jù)庫(kù)中挖掘出最大頻繁訪問(wèn)項(xiàng)集,這個(gè)項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來(lái)的用戶訪問(wèn)模式。
3.3 時(shí)間序列模式挖掘技術(shù)
時(shí)間序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時(shí)間序列的模式。在網(wǎng)站服務(wù)器日志里,用戶的訪問(wèn)是以一段時(shí)間為單位記載的。經(jīng)過(guò)數(shù)據(jù)凈化和事件交易確認(rèn)得到一個(gè)間斷的時(shí)間序列,這些序列所反映的用戶行為有助于幫助商家印證其產(chǎn)品所處的生命周期階段。
3.4 路徑分析技術(shù)
用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí),最常用的是圖。因?yàn)閃eb可以用一個(gè)有向圖來(lái)表示,G=(V,E),V是頁(yè)面的集合,E是頁(yè)面之間的超鏈接集合。頁(yè)面抽象為圖中的頂點(diǎn),而頁(yè)面之間的超鏈接抽象為圖中的有向邊。頂點(diǎn)V的入邊表示對(duì)V的引用,出邊表示V引用了其它的頁(yè)面。
4 Web數(shù)據(jù)挖掘的主要應(yīng)用
4.1 Web數(shù)據(jù)挖掘在電子商務(wù)方面的應(yīng)用
Web挖掘這方面的應(yīng)用可以為企業(yè)更有效的確認(rèn)目標(biāo)市場(chǎng)、改進(jìn)決策獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助,從中可得到商家用于特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷的決策信息。電子商務(wù)方面的Web挖掘功能主要是如下幾個(gè)方面:首先,客戶分類和客戶聚類。對(duì)Web的客戶訪問(wèn)信息進(jìn)行挖掘。對(duì)客戶進(jìn)行分類分析。應(yīng)用聚類分析對(duì)客戶進(jìn)行分組,并且分析組中客戶的共同特征,這樣就可以讓商家更好了解自己的客戶,向客戶提供更有針對(duì)性的服務(wù)。其次是找到潛在的客戶。在對(duì)Web的客戶訪問(wèn)信息的挖掘中,利用分類技術(shù)可在因特網(wǎng)上找到未來(lái)的潛在客戶。最后保留客戶的駐留時(shí)間。對(duì)于客戶而言,在網(wǎng)上每個(gè)銷售商對(duì)于客戶來(lái)說(shuō)都是樣的,如何盡量使客戶在自己的網(wǎng)上駐留更長(zhǎng)的時(shí)間,這樣對(duì)于商家才能有更多客戶和更大的利潤(rùn)空間。
4.2 Web數(shù)據(jù)挖掘在網(wǎng)絡(luò)教育中的應(yīng)用
教育網(wǎng)絡(luò)化的趨勢(shì)不僅為學(xué)生提供了便利的學(xué)習(xí)方式和廣泛的選擇,也為學(xué)校提供了更加深入了解學(xué)生需求信息和學(xué)生行為特征的可能性。由于受教育對(duì)象個(gè)體之間存在著極大的差異性,網(wǎng)絡(luò)教學(xué)也必須是一種適應(yīng)個(gè)別化學(xué)習(xí)需求的個(gè)性化教學(xué)。這種個(gè)性化教學(xué)的提供。是通過(guò)將傳統(tǒng)的數(shù)據(jù)挖掘M Web結(jié)合起來(lái)。進(jìn)行Web數(shù)據(jù)挖掘,即從Web文檔和Web活動(dòng)中抽取學(xué)生感興趣的潛在的有用模式和隱藏的信息,作為對(duì)學(xué)生提供個(gè)性化教學(xué)服務(wù)的依據(jù),協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu)。提高站點(diǎn)效率,更好地為網(wǎng)絡(luò)教育服務(wù)。
4.3 在網(wǎng)站設(shè)計(jì)中的應(yīng)用
在網(wǎng)站設(shè)計(jì)方面中的應(yīng)用,主要是通過(guò)對(duì)網(wǎng)站內(nèi)容的挖掘。特別是對(duì)文本內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息。如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;通過(guò)對(duì)用戶訪問(wèn)日志記錄信息的挖掘,把握用戶感興趣的信息。從而有助于開(kāi)展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù),吸引更多的用戶。
結(jié)束語(yǔ)
社會(huì)的發(fā)展離不開(kāi)信息的傳播與使用,在數(shù)據(jù)急劇增長(zhǎng)的情況下,如何高效的檢索到用戶需要的信息顯得更加重要。Internet作為世界上最大的信息庫(kù),分布于世界各地?cái)?shù)以億計(jì)的網(wǎng)頁(yè)以及站點(diǎn),為Web挖掘大發(fā)展提供了前提條件。 隨著Internet的進(jìn)一步發(fā)展,Web挖掘在信息的準(zhǔn)確檢索、個(gè)性化的信息服務(wù)、開(kāi)展有針對(duì)性的電子商務(wù)、構(gòu)建智能化的web站點(diǎn)起到重要作用,Web挖掘技術(shù)在實(shí)際生活中也會(huì)越來(lái)越重要。
參考文獻(xiàn)
[1]毛國(guó)君等著.?dāng)?shù)據(jù)挖掘原理與算法,2005,7
[2]范明等譯.?dāng)?shù)據(jù)挖掘--概念與技術(shù)[M].機(jī)械工業(yè)出版社.2004
[3]李琳等.基于web的數(shù)據(jù)挖掘技術(shù).自動(dòng)化與儀表.2007,2