国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在Web中的應(yīng)用問題探討

2009-08-04 09:21李仕楊
中國新技術(shù)新產(chǎn)品 2009年8期
關(guān)鍵詞:信息服務(wù)數(shù)據(jù)挖掘

李仕楊

摘要:隨著數(shù)據(jù)庫技術(shù)及萬維網(wǎng)(WWW)技術(shù)的迅速發(fā)展,大量形式各異的復(fù)雜類型數(shù)據(jù)不斷涌現(xiàn)。因此數(shù)據(jù)挖掘面臨重要課題是針對(duì)復(fù)雜類型數(shù)據(jù)的挖掘,其中Web數(shù)據(jù)尤為重要。本文通過分析Web數(shù)據(jù)挖掘的特點(diǎn)及分類,針對(duì)常用技術(shù)和主要應(yīng)用方向進(jìn)行探討,以其充分發(fā)揮web數(shù)據(jù)挖掘的作用,服務(wù)信息化社會(huì)。

關(guān)鍵詞:web;數(shù)據(jù)挖掘;信息服務(wù);常用技術(shù)

1 Web數(shù)據(jù)挖掘的特點(diǎn)

萬維網(wǎng)目前是一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其他信息服務(wù)。Web還包含了豐富和動(dòng)態(tài)的超鏈接信息,以及Web頁面的訪問和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源。然而,Web挖掘不僅僅是數(shù)據(jù)挖掘算法在Web數(shù)據(jù)上的應(yīng)用,同傳統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)相比,Web數(shù)據(jù)具有其特殊性,其特點(diǎn)就是數(shù)據(jù)沒有嚴(yán)格的結(jié)構(gòu)模式,含有不同格式的數(shù)據(jù)(文本、聲音、圖像等),面向顯示的Html文本無法區(qū)分?jǐn)?shù)據(jù)類型,并且存在大量的冗余和噪聲,同時(shí)Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源,所以面向Web的數(shù)據(jù)挖掘研究極具挑戰(zhàn)性。

2 Web數(shù)據(jù)挖掘的分類

2.1 web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)包括不同網(wǎng)頁之間的超鏈接結(jié)構(gòu)和一個(gè)頁面內(nèi)部的樹形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web結(jié)構(gòu)可以用有向圖表示,頁面對(duì)應(yīng)圖中的點(diǎn),超級(jí)鏈接對(duì)應(yīng)圖中的邊。通過把Web表示成有向圖,可以得到從一個(gè)站點(diǎn)的主頁到它任意一個(gè)定點(diǎn)的最短路徑,Robot沿最短路徑瀏覽Web站點(diǎn),就可以以較小的代價(jià)發(fā)現(xiàn)較多的文檔。HITS、PageRank,以及在鏈接結(jié)構(gòu)中增加了Web內(nèi)容信息的HITS改進(jìn)算法等,主要用于模擬Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu),計(jì)算Web頁面的等級(jí)和Web頁面之間的關(guān)聯(lián)度,典型的例子是CleverSystem和Google等。

2.2 Web內(nèi)容挖掘

Web內(nèi)容挖掘是指從Web上的文件內(nèi)容及其描述信息中獲取潛在的、有價(jià)值的知識(shí)或模式的過程,它分為Web文本挖掘和Web多媒體挖掘。Web文本挖掘可以對(duì)Web上大量的文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進(jìn)行趨勢(shì)分析等。Web多媒體挖掘主要是指通過對(duì)Web上的音頻、視頻數(shù)據(jù)和圖像進(jìn)行預(yù)處理,應(yīng)用挖掘技術(shù)對(duì)其中潛在的、有意義的信息和模式進(jìn)行挖掘的過程。

2.3 Web訪問挖掘

對(duì)于一個(gè)網(wǎng)站而言,網(wǎng)頁瀏覽量、點(diǎn)擊數(shù)、獨(dú)立IP訪問數(shù)等參數(shù)是反映這個(gè)網(wǎng)站用戶訪問情況的重要指標(biāo),通過對(duì)網(wǎng)站LOG文件的分析,可以獲得網(wǎng)站訪問情況的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)。針對(duì)這些統(tǒng)計(jì)數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘,屬于靜態(tài)的Web訪問記錄的數(shù)據(jù)挖掘,可以有效地提高網(wǎng)站的服務(wù)。例如:通過分析訪問者的來源,可以使一個(gè)網(wǎng)站有針對(duì)性地提供內(nèi)容;通過分析每天各個(gè)時(shí)段訪問者人數(shù)的變化,網(wǎng)站可以調(diào)整每天內(nèi)容更新的時(shí)間。

3 Web數(shù)據(jù)挖掘的常用技術(shù)

Web數(shù)據(jù)挖掘中常用的技術(shù)有數(shù)據(jù)挖掘領(lǐng)域常用的分類聚類技術(shù)、關(guān)聯(lián)規(guī)則技術(shù) 序列模式技術(shù)和Web特有的路徑分析技術(shù)等。

3.1 分類聚類技術(shù)

數(shù)據(jù)分類技術(shù)可以通過挖掘數(shù)據(jù)中的某些共同特性從而對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分類。在Web數(shù)據(jù)挖掘中,分類技術(shù)可以根據(jù)捕獲的Web訪問用戶的個(gè)人信息或共同的訪問模式得出訪問某一服務(wù)器文件的用戶特征。常用的數(shù)據(jù)分類技術(shù)有:判定樹歸納、貝葉斯分類和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、基于案例的推理、遺傳算法、粗糙集方法和模糊集方法。

聚類是一個(gè)將物理或者抽象對(duì)象的集合分組成由類似的對(duì)象組成的多個(gè)類或簇的過程。聚類分析技術(shù)能用于對(duì)Web上的文檔進(jìn)行分類,已發(fā)現(xiàn)信息。聚類分析能作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)分布的情況,觀察每個(gè)簇的特點(diǎn),集中對(duì)某些簇做進(jìn)一步的分析。常用的聚類算法大體上可以劃分為幾類:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。

3.2 關(guān)聯(lián)規(guī)則挖掘技術(shù)

關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項(xiàng)中挖掘出相關(guān)的規(guī)則。在Web挖掘中,關(guān)聯(lián)規(guī)則挖掘就是要挖掘出用戶在一個(gè)訪問會(huì)話期間從服務(wù)器上訪問的頁面或文件之間的聯(lián)系,這些頁面之間可能并不存在直接的引用關(guān)系。最常用的算法是Aprior算法,它從事務(wù)數(shù)據(jù)庫中挖掘出最大頻繁訪問項(xiàng)集,這個(gè)項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來的用戶訪問模式。

3.3 時(shí)間序列模式挖掘技術(shù)

時(shí)間序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時(shí)間序列的模式。在網(wǎng)站服務(wù)器日志里,用戶的訪問是以一段時(shí)間為單位記載的。經(jīng)過數(shù)據(jù)凈化和事件交易確認(rèn)得到一個(gè)間斷的時(shí)間序列,這些序列所反映的用戶行為有助于幫助商家印證其產(chǎn)品所處的生命周期階段。

3.4 路徑分析技術(shù)

用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí),最常用的是圖。因?yàn)閃eb可以用一個(gè)有向圖來表示,G=(V,E),V是頁面的集合,E是頁面之間的超鏈接集合。頁面抽象為圖中的頂點(diǎn),而頁面之間的超鏈接抽象為圖中的有向邊。頂點(diǎn)V的入邊表示對(duì)V的引用,出邊表示V引用了其它的頁面。

4 Web數(shù)據(jù)挖掘的主要應(yīng)用

4.1 Web數(shù)據(jù)挖掘在電子商務(wù)方面的應(yīng)用

Web挖掘這方面的應(yīng)用可以為企業(yè)更有效的確認(rèn)目標(biāo)市場(chǎng)、改進(jìn)決策獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助,從中可得到商家用于特定消費(fèi)群體或個(gè)體進(jìn)行定向營銷的決策信息。電子商務(wù)方面的Web挖掘功能主要是如下幾個(gè)方面:首先,客戶分類和客戶聚類。對(duì)Web的客戶訪問信息進(jìn)行挖掘。對(duì)客戶進(jìn)行分類分析。應(yīng)用聚類分析對(duì)客戶進(jìn)行分組,并且分析組中客戶的共同特征,這樣就可以讓商家更好了解自己的客戶,向客戶提供更有針對(duì)性的服務(wù)。其次是找到潛在的客戶。在對(duì)Web的客戶訪問信息的挖掘中,利用分類技術(shù)可在因特網(wǎng)上找到未來的潛在客戶。最后保留客戶的駐留時(shí)間。對(duì)于客戶而言,在網(wǎng)上每個(gè)銷售商對(duì)于客戶來說都是樣的,如何盡量使客戶在自己的網(wǎng)上駐留更長的時(shí)間,這樣對(duì)于商家才能有更多客戶和更大的利潤空間。

4.2 Web數(shù)據(jù)挖掘在網(wǎng)絡(luò)教育中的應(yīng)用

教育網(wǎng)絡(luò)化的趨勢(shì)不僅為學(xué)生提供了便利的學(xué)習(xí)方式和廣泛的選擇,也為學(xué)校提供了更加深入了解學(xué)生需求信息和學(xué)生行為特征的可能性。由于受教育對(duì)象個(gè)體之間存在著極大的差異性,網(wǎng)絡(luò)教學(xué)也必須是一種適應(yīng)個(gè)別化學(xué)習(xí)需求的個(gè)性化教學(xué)。這種個(gè)性化教學(xué)的提供。是通過將傳統(tǒng)的數(shù)據(jù)挖掘M Web結(jié)合起來。進(jìn)行Web數(shù)據(jù)挖掘,即從Web文檔和Web活動(dòng)中抽取學(xué)生感興趣的潛在的有用模式和隱藏的信息,作為對(duì)學(xué)生提供個(gè)性化教學(xué)服務(wù)的依據(jù),協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu)。提高站點(diǎn)效率,更好地為網(wǎng)絡(luò)教育服務(wù)。

4.3 在網(wǎng)站設(shè)計(jì)中的應(yīng)用

在網(wǎng)站設(shè)計(jì)方面中的應(yīng)用,主要是通過對(duì)網(wǎng)站內(nèi)容的挖掘。特別是對(duì)文本內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息。如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;通過對(duì)用戶訪問日志記錄信息的挖掘,把握用戶感興趣的信息。從而有助于開展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù),吸引更多的用戶。

結(jié)束語。社會(huì)的發(fā)展離不開信息的傳播與使用,在數(shù)據(jù)急劇增長的情況下,如何高效的檢索到用戶需要的信息顯得更加重要。Internet作為世界上最大的信息庫,分布于世界各地?cái)?shù)以億計(jì)的網(wǎng)頁以及站點(diǎn),為Web挖掘大發(fā)展提供了前提條件。 隨著Internet的進(jìn)一步發(fā)展,Web挖掘在信息的準(zhǔn)確檢索、個(gè)性化的信息服務(wù)、開展有針對(duì)性的電子商務(wù)、構(gòu)建智能化的web站點(diǎn)起到重要作用,Web挖掘技術(shù)在實(shí)際生活中也會(huì)越來越重要。

參考文獻(xiàn)

[1]毛國君等著.?dāng)?shù)據(jù)挖掘原理與算法,2005,7.

[2]范明等譯.?dāng)?shù)據(jù)挖掘--概念與技術(shù)[M].機(jī)械工業(yè)出版社.2004.

[3]李琳等.基于web的數(shù)據(jù)挖掘技術(shù).自動(dòng)化與儀表.2007,2.

猜你喜歡
信息服務(wù)數(shù)據(jù)挖掘
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
公共圖書館科技創(chuàng)新服務(wù)探析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究
沾化县| 布尔津县| 丁青县| 河北省| 西贡区| 陇川县| 泗阳县| 定结县| 洪洞县| 汤原县| 老河口市| SHOW| 宁国市| 枣庄市| 万宁市| 财经| 西贡区| 曲水县| 深圳市| 永嘉县| 吉木萨尔县| 普陀区| 页游| 新龙县| 永康市| 正镶白旗| 宜川县| 凭祥市| 伊金霍洛旗| 贡嘎县| 邹城市| 阿拉尔市| 虎林市| 永寿县| 望都县| 醴陵市| 扎赉特旗| 克什克腾旗| 海门市| 满城县| 江安县|