數(shù)據(jù)挖掘技術(shù)在Ｗｅｂ中的應(yīng)用問題探討

2009-08-04 09:21李仕楊

中國新技術(shù)新產(chǎn)品 2009年8期

李仕楊

摘要：隨著數(shù)據(jù)庫技術(shù)及萬維網(wǎng)(WWW)技術(shù)的迅速發(fā)展，大量形式各異的復(fù)雜類型數(shù)據(jù)不斷涌現(xiàn)。因此數(shù)據(jù)挖掘面臨重要課題是針對(duì)復(fù)雜類型數(shù)據(jù)的挖掘，其中Web數(shù)據(jù)尤為重要。本文通過分析Web數(shù)據(jù)挖掘的特點(diǎn)及分類，針對(duì)常用技術(shù)和主要應(yīng)用方向進(jìn)行探討，以其充分發(fā)揮web數(shù)據(jù)挖掘的作用，服務(wù)信息化社會(huì)。

關(guān)鍵詞：web；數(shù)據(jù)挖掘；信息服務(wù)；常用技術(shù)

1 Web數(shù)據(jù)挖掘的特點(diǎn)

萬維網(wǎng)目前是一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心，它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其他信息服務(wù)。Web還包含了豐富和動(dòng)態(tài)的超鏈接信息，以及Web頁面的訪問和使用信息，這為數(shù)據(jù)挖掘提供了豐富的資源。然而，Web挖掘不僅僅是數(shù)據(jù)挖掘算法在Web數(shù)據(jù)上的應(yīng)用，同傳統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)相比，Web數(shù)據(jù)具有其特殊性，其特點(diǎn)就是數(shù)據(jù)沒有嚴(yán)格的結(jié)構(gòu)模式，含有不同格式的數(shù)據(jù)(文本、聲音、圖像等)，面向顯示的Html文本無法區(qū)分?jǐn)?shù)據(jù)類型，并且存在大量的冗余和噪聲，同時(shí)Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源，所以面向Web的數(shù)據(jù)挖掘研究極具挑戰(zhàn)性。

2 Web數(shù)據(jù)挖掘的分類

2.1 web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)包括不同網(wǎng)頁之間的超鏈接結(jié)構(gòu)和一個(gè)頁面內(nèi)部的樹形結(jié)構(gòu)，以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web結(jié)構(gòu)可以用有向圖表示，頁面對(duì)應(yīng)圖中的點(diǎn)，超級(jí)鏈接對(duì)應(yīng)圖中的邊。通過把Web表示成有向圖，可以得到從一個(gè)站點(diǎn)的主頁到它任意一個(gè)定點(diǎn)的最短路徑，Robot沿最短路徑瀏覽Web站點(diǎn)，就可以以較小的代價(jià)發(fā)現(xiàn)較多的文檔。HITS、PageRank，以及在鏈接結(jié)構(gòu)中增加了Web內(nèi)容信息的HITS改進(jìn)算法等，主要用于模擬Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)，計(jì)算Web頁面的等級(jí)和Web頁面之間的關(guān)聯(lián)度，典型的例子是CleverSystem和Google等。

2.2 Web內(nèi)容挖掘

Web內(nèi)容挖掘是指從Web上的文件內(nèi)容及其描述信息中獲取潛在的、有價(jià)值的知識(shí)或模式的過程，它分為Web文本挖掘和Web多媒體挖掘。Web文本挖掘可以對(duì)Web上大量的文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進(jìn)行趨勢(shì)分析等。Web多媒體挖掘主要是指通過對(duì)Web上的音頻、視頻數(shù)據(jù)和圖像進(jìn)行預(yù)處理，應(yīng)用挖掘技術(shù)對(duì)其中潛在的、有意義的信息和模式進(jìn)行挖掘的過程。

2.3 Web訪問挖掘

對(duì)于一個(gè)網(wǎng)站而言，網(wǎng)頁瀏覽量、點(diǎn)擊數(shù)、獨(dú)立IP訪問數(shù)等參數(shù)是反映這個(gè)網(wǎng)站用戶訪問情況的重要指標(biāo)，通過對(duì)網(wǎng)站LOG文件的分析，可以獲得網(wǎng)站訪問情況的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)。針對(duì)這些統(tǒng)計(jì)數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘，屬于靜態(tài)的Web訪問記錄的數(shù)據(jù)挖掘，可以有效地提高網(wǎng)站的服務(wù)。例如：通過分析訪問者的來源，可以使一個(gè)網(wǎng)站有針對(duì)性地提供內(nèi)容；通過分析每天各個(gè)時(shí)段訪問者人數(shù)的變化，網(wǎng)站可以調(diào)整每天內(nèi)容更新的時(shí)間。

3 Web數(shù)據(jù)挖掘的常用技術(shù)

Web數(shù)據(jù)挖掘中常用的技術(shù)有數(shù)據(jù)挖掘領(lǐng)域常用的分類聚類技術(shù)、關(guān)聯(lián)規(guī)則技術(shù) 序列模式技術(shù)和Web特有的路徑分析技術(shù)等。

3.1 分類聚類技術(shù)

數(shù)據(jù)分類技術(shù)可以通過挖掘數(shù)據(jù)中的某些共同特性從而對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分類。在Web數(shù)據(jù)挖掘中，分類技術(shù)可以根據(jù)捕獲的Web訪問用戶的個(gè)人信息或共同的訪問模式得出訪問某一服務(wù)器文件的用戶特征。常用的數(shù)據(jù)分類技術(shù)有：判定樹歸納、貝葉斯分類和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、基于案例的推理、遺傳算法、粗糙集方法和模糊集方法。

聚類是一個(gè)將物理或者抽象對(duì)象的集合分組成由類似的對(duì)象組成的多個(gè)類或簇的過程。聚類分析技術(shù)能用于對(duì)Web上的文檔進(jìn)行分類，已發(fā)現(xiàn)信息。聚類分析能作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)分布的情況，觀察每個(gè)簇的特點(diǎn)，集中對(duì)某些簇做進(jìn)一步的分析。常用的聚類算法大體上可以劃分為幾類：劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。

3.2 關(guān)聯(lián)規(guī)則挖掘技術(shù)

關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項(xiàng)中挖掘出相關(guān)的規(guī)則。在Web挖掘中，關(guān)聯(lián)規(guī)則挖掘就是要挖掘出用戶在一個(gè)訪問會(huì)話期間從服務(wù)器上訪問的頁面或文件之間的聯(lián)系，這些頁面之間可能并不存在直接的引用關(guān)系。最常用的算法是Aprior算法，它從事務(wù)數(shù)據(jù)庫中挖掘出最大頻繁訪問項(xiàng)集，這個(gè)項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來的用戶訪問模式。

3.3 時(shí)間序列模式挖掘技術(shù)

時(shí)間序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時(shí)間序列的模式。在網(wǎng)站服務(wù)器日志里，用戶的訪問是以一段時(shí)間為單位記載的。經(jīng)過數(shù)據(jù)凈化和事件交易確認(rèn)得到一個(gè)間斷的時(shí)間序列，這些序列所反映的用戶行為有助于幫助商家印證其產(chǎn)品所處的生命周期階段。

3.4 路徑分析技術(shù)

用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí)，最常用的是圖。因?yàn)閃eb可以用一個(gè)有向圖來表示，G=(V，Ｅ)，Ｖ是頁面的集合，E是頁面之間的超鏈接集合。頁面抽象為圖中的頂點(diǎn)，而頁面之間的超鏈接抽象為圖中的有向邊。頂點(diǎn)V的入邊表示對(duì)V的引用，出邊表示V引用了其它的頁面。

4 Web數(shù)據(jù)挖掘的主要應(yīng)用

4.1 Web數(shù)據(jù)挖掘在電子商務(wù)方面的應(yīng)用

Web挖掘這方面的應(yīng)用可以為企業(yè)更有效的確認(rèn)目標(biāo)市場(chǎng)、改進(jìn)決策獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助，從中可得到商家用于特定消費(fèi)群體或個(gè)體進(jìn)行定向營銷的決策信息。電子商務(wù)方面的Web挖掘功能主要是如下幾個(gè)方面：首先，客戶分類和客戶聚類。對(duì)Web的客戶訪問信息進(jìn)行挖掘。對(duì)客戶進(jìn)行分類分析。應(yīng)用聚類分析對(duì)客戶進(jìn)行分組，并且分析組中客戶的共同特征，這樣就可以讓商家更好了解自己的客戶，向客戶提供更有針對(duì)性的服務(wù)。其次是找到潛在的客戶。在對(duì)Web的客戶訪問信息的挖掘中，利用分類技術(shù)可在因特網(wǎng)上找到未來的潛在客戶。最后保留客戶的駐留時(shí)間。對(duì)于客戶而言，在網(wǎng)上每個(gè)銷售商對(duì)于客戶來說都是樣的，如何盡量使客戶在自己的網(wǎng)上駐留更長的時(shí)間，這樣對(duì)于商家才能有更多客戶和更大的利潤空間。

4.2 Web數(shù)據(jù)挖掘在網(wǎng)絡(luò)教育中的應(yīng)用

教育網(wǎng)絡(luò)化的趨勢(shì)不僅為學(xué)生提供了便利的學(xué)習(xí)方式和廣泛的選擇，也為學(xué)校提供了更加深入了解學(xué)生需求信息和學(xué)生行為特征的可能性。由于受教育對(duì)象個(gè)體之間存在著極大的差異性，網(wǎng)絡(luò)教學(xué)也必須是一種適應(yīng)個(gè)別化學(xué)習(xí)需求的個(gè)性化教學(xué)。這種個(gè)性化教學(xué)的提供。是通過將傳統(tǒng)的數(shù)據(jù)挖掘M Web結(jié)合起來。進(jìn)行Web數(shù)據(jù)挖掘，即從Web文檔和Web活動(dòng)中抽取學(xué)生感興趣的潛在的有用模式和隱藏的信息，作為對(duì)學(xué)生提供個(gè)性化教學(xué)服務(wù)的依據(jù)，協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu)。提高站點(diǎn)效率，更好地為網(wǎng)絡(luò)教育服務(wù)。

4.3 在網(wǎng)站設(shè)計(jì)中的應(yīng)用

在網(wǎng)站設(shè)計(jì)方面中的應(yīng)用，主要是通過對(duì)網(wǎng)站內(nèi)容的挖掘。特別是對(duì)文本內(nèi)容的挖掘，可以有效地組織網(wǎng)站信息。如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織；通過對(duì)用戶訪問日志記錄信息的挖掘，把握用戶感興趣的信息。從而有助于開展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù)，吸引更多的用戶。

結(jié)束語。社會(huì)的發(fā)展離不開信息的傳播與使用，在數(shù)據(jù)急劇增長的情況下，如何高效的檢索到用戶需要的信息顯得更加重要。Internet作為世界上最大的信息庫，分布于世界各地?cái)?shù)以億計(jì)的網(wǎng)頁以及站點(diǎn)，為Web挖掘大發(fā)展提供了前提條件。隨著Internet的進(jìn)一步發(fā)展，Web挖掘在信息的準(zhǔn)確檢索、個(gè)性化的信息服務(wù)、開展有針對(duì)性的電子商務(wù)、構(gòu)建智能化的web站點(diǎn)起到重要作用，Web挖掘技術(shù)在實(shí)際生活中也會(huì)越來越重要。

參考文獻(xiàn)

［1］毛國君等著．?dāng)?shù)據(jù)挖掘原理與算法，2005，7.

［2］范明等譯．?dāng)?shù)據(jù)挖掘--概念與技術(shù)［M］．機(jī)械工業(yè)出版社．2004.

［3］李琳等．基于web的數(shù)據(jù)挖掘技術(shù)．自動(dòng)化與儀表．2007，2.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)據(jù)挖掘技術(shù)在Ｗｅｂ中的應(yīng)用問題探討