Web數(shù)據(jù)挖掘技術(shù)

2011-08-15 00:54李培培北京吉利大學(xué)信息學(xué)院中國(guó)北京102202

科技視界 2011年23期

李培培曹芳（北京吉利大學(xué)信息學(xué)院中國(guó) 北京 102202）

0 引言

隨著Internet/Intranet技術(shù)的發(fā)展，尤其是Web的全球普及使得Web上信息量無(wú)比豐富，Web已經(jīng)成為人們獲取信息的重要途徑，但最先進(jìn)的搜索引擎也只能找到Web網(wǎng)頁(yè)上面很少的網(wǎng)頁(yè)，而且無(wú)論怎么選擇關(guān)鍵詞都會(huì)返回大量并不需要的結(jié)果。如何從非格式化數(shù)據(jù)信息中有效地挖掘出有用的信息是對(duì)數(shù)據(jù)挖掘領(lǐng)域的一個(gè)新挑戰(zhàn)。

Web上的數(shù)據(jù)信息不同于數(shù)據(jù)庫(kù)。它主要是些大量的、異質(zhì)的Web信息資源，文檔結(jié)構(gòu)性差，其數(shù)據(jù)多為半結(jié)構(gòu)化或非結(jié)構(gòu)化，信息不能清楚地用數(shù)據(jù)模型來(lái)表示。因此在Web的數(shù)據(jù)挖掘需要用到很多不同于單個(gè)數(shù)據(jù)倉(cāng)庫(kù)挖掘的技術(shù)。

1 Web數(shù)據(jù)挖掘概述

1.1 Web數(shù)據(jù)挖掘概念

Web數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù)，是利用數(shù)據(jù)挖掘技術(shù)從WWW數(shù)據(jù)資源中抽取信息的過(guò)程，結(jié)合了數(shù)據(jù)挖掘、信息處理、可視化、數(shù)理統(tǒng)計(jì)等領(lǐng)域的成熟技術(shù)，是對(duì)Web數(shù)據(jù)資源中蘊(yùn)含的未知的有潛在應(yīng)用價(jià)值的模式的提取。

1.2 Web數(shù)據(jù)挖掘原理

通常Web挖掘過(guò)程可以分為以下幾個(gè)處理階段：資源發(fā)現(xiàn)、數(shù)據(jù)抽取及數(shù)據(jù)預(yù)處理、數(shù)據(jù)匯總及模式識(shí)別、分折驗(yàn)證。目標(biāo)數(shù)據(jù)集根據(jù)用戶(hù)需求，從Web數(shù)據(jù)源中提取的相關(guān)數(shù)據(jù)，Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進(jìn)行數(shù)據(jù)提??；預(yù)處理過(guò)程從數(shù)據(jù)中去除明顯錯(cuò)誤或冗余的數(shù)據(jù)，并將數(shù)據(jù)轉(zhuǎn)換成為有效和易于理解的形式；模式分析對(duì)發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)估；最后將發(fā)現(xiàn)的知識(shí)以用戶(hù)能理解的方式提供給用戶(hù)。

1.3 Web數(shù)據(jù)挖掘分類(lèi)

根據(jù)挖掘?qū)ο蟮牟煌琖eb挖掘可以分為三類(lèi)，Web內(nèi)容挖掘（WCM)、Web結(jié)構(gòu)挖掘（WSM）和 Web使用挖掘（WUM）。

1.3.1 Web內(nèi)容挖掘

Web內(nèi)容挖掘?qū)嶋H上是從Web文檔及描述中獲取知識(shí)，具體來(lái)說(shuō)就是對(duì)Web上大量的文檔集合的內(nèi)容進(jìn)行摘要、分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析、以及利用Web文檔進(jìn)行趨勢(shì)預(yù)測(cè)等。Web內(nèi)容挖掘的對(duì)象包括文本、圖像、音頻、視頻、多媒體等各種類(lèi)型的數(shù)據(jù)。其中聚類(lèi)是事先沒(méi)有確定類(lèi)別，但要求把相似度高的文檔歸于相同的類(lèi)。

1.3.2 Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)的過(guò)程。主要是通過(guò)對(duì)Web站點(diǎn)的結(jié)構(gòu)進(jìn)行歸納、分析和變形，將Web頁(yè)面進(jìn)行分類(lèi)，以利于信息搜索。HTML頁(yè)面所包含的知識(shí)不僅存在于各個(gè)頁(yè)面的內(nèi)容中，也存在于這些頁(yè)面之間的相互鏈接中。利用這方面的知識(shí)可以對(duì)頁(yè)面進(jìn)行排序以發(fā)現(xiàn)重要的頁(yè)面。

1.3.3 Web使用挖掘

Web使用挖掘就是對(duì)用戶(hù)訪(fǎng)問(wèn)Web時(shí)在服務(wù)器留下的訪(fǎng)問(wèn)記錄進(jìn)行挖掘，也叫網(wǎng)絡(luò)使用挖掘。挖掘?qū)ο笫窃诜?wù)器上的日志信息，也稱(chēng)Web日志挖掘。它通過(guò)分析日志記錄中的規(guī)律，可以識(shí)別用戶(hù)的忠實(shí)度、喜好、滿(mǎn)意度，發(fā)現(xiàn)潛在用戶(hù)，增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶(hù)會(huì)話(huà)信息、交易信息、Cookie中的信息、用戶(hù)查詢(xún)、鼠標(biāo)點(diǎn)擊流等一切用戶(hù)與站點(diǎn)之間可能的交互記錄。

2 Web數(shù)據(jù)挖掘的關(guān)鍵技術(shù)

Web數(shù)據(jù)挖掘中常用的技術(shù)有Web使用的特有路徑分析技術(shù)和數(shù)據(jù)挖掘領(lǐng)域常用的關(guān)聯(lián)規(guī)則、序列模式、分類(lèi)聚類(lèi)技術(shù)以及中文分詞處理和詞頻統(tǒng)計(jì)技術(shù)等。

2.1 路徑分析技術(shù)

使用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí)，最常用的是圖。圖最直接的來(lái)源是網(wǎng)站結(jié)構(gòu)圖，網(wǎng)站上的頁(yè)面定義為節(jié)點(diǎn)，頁(yè)面之間的超鏈接定義為圖中的邊?；赪eb的數(shù)據(jù)挖掘，就是從圖中確定最頻繁的路徑訪(fǎng)問(wèn)模式。

2.2 關(guān)聯(lián)規(guī)則挖掘技術(shù)

關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶(hù)訪(fǎng)問(wèn)序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則。在Web數(shù)據(jù)挖掘中，它負(fù)責(zé)挖掘出用戶(hù)在一個(gè)訪(fǎng)問(wèn)期間從服務(wù)器上訪(fǎng)問(wèn)的頁(yè)面/文件之間的聯(lián)系，這些頁(yè)面之間可能并不存在直接的參引關(guān)系。

2.3 序列模式挖掘技術(shù)

序列模式數(shù)據(jù)挖掘負(fù)責(zé)挖掘交易集之間的有時(shí)間序列的模式。例如，最出名的尿布與啤酒，這種信息對(duì)于電子商務(wù)網(wǎng)站非常有用。

2.4 聚類(lèi)分類(lèi)技術(shù)

分類(lèi)規(guī)則可以挖掘某些共同的特性。這個(gè)特性可用來(lái)對(duì)新添到數(shù)據(jù)庫(kù)里的數(shù)據(jù)項(xiàng)進(jìn)行分類(lèi)。

2.5 中文分詞處理技術(shù)

中文信息處理的一大障礙是詞與詞之間沒(méi)有物理的分隔符。因此在進(jìn)行詞頻統(tǒng)計(jì)等處理前先要進(jìn)行詞條切分處理。中文文本的分詞方法有很多種，一般采用較為簡(jiǎn)單的基于詞典的正向匹配遍歷分詞方法。詞典的選取通常根據(jù)挖掘目標(biāo)建立專(zhuān)業(yè)的分詞詞典，以提高系統(tǒng)的運(yùn)行效率。

3 Web數(shù)據(jù)挖掘的方法

3.1 Web數(shù)據(jù)的半結(jié)構(gòu)化

3.1.1 異構(gòu)數(shù)據(jù)庫(kù)環(huán)境

從數(shù)據(jù)庫(kù)研究的角度出發(fā)，Web網(wǎng)站上的信息也可以看作一個(gè)更大、更復(fù)雜的數(shù)據(jù)庫(kù)，每個(gè)站點(diǎn)之間的信息和組織都不一樣。如果想要利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，首先必須要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問(wèn)題，只有將這些站點(diǎn)的數(shù)據(jù)都集成起來(lái)，提供給用戶(hù)一個(gè)統(tǒng)一的視圖，才有可能從巨大的數(shù)據(jù)資源中獲取信息。其次還要解決Web上的數(shù)據(jù)查詢(xún)問(wèn)題，因?yàn)槿绻荒苡行У氐玫剿璧男畔?，則對(duì)這些數(shù)據(jù)進(jìn)行分析、集成、處理就無(wú)從談起。

3.1.2 半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)

Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同，Web上的每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì)，數(shù)據(jù)沒(méi)有特定的模型描述，并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性。因而，Web上的數(shù)據(jù)這也被稱(chēng)之為半結(jié)構(gòu)化數(shù)據(jù)。

3.2 用XML技術(shù)進(jìn)行Web數(shù)據(jù)挖掘

針對(duì)Web上的數(shù)據(jù)半結(jié)構(gòu)化的特點(diǎn)，XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型，可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng)起來(lái)，實(shí)施精確的查詢(xún)與模型抽取。

XML是一種中介標(biāo)示語(yǔ)言，可提供描述結(jié)構(gòu)化資料的格式。XML解決了兩個(gè)Web問(wèn)題，即Internet發(fā)展速度快而接入速度慢的問(wèn)題，以及可利用的信息多，但難以找到自己需要的信息的問(wèn)題。運(yùn)用XML的擴(kuò)展功能不僅能從Web服務(wù)器下載大量的信息，還能大大減少網(wǎng)絡(luò)業(yè)務(wù)量。

3.3 具體實(shí)現(xiàn)

其實(shí)現(xiàn)過(guò)程可以由以下四個(gè)步驟來(lái)實(shí)現(xiàn)：第一步得到XHTML格式的源信息，即確定了信息源，將數(shù)據(jù)從HTML轉(zhuǎn)換成XML，目前在高級(jí)語(yǔ)言中例如JAVA、VC等都有專(zhuān)門(mén)的函數(shù)或類(lèi)來(lái)實(shí)現(xiàn)；第二步查找數(shù)據(jù)的引用點(diǎn)，完成這一任務(wù)的最簡(jiǎn)單的辦法通常是，檢查Web頁(yè)面，然后使用XML。只需要看一下頁(yè)面，記下觀察到的內(nèi)容，考慮頁(yè)面所生成的XHTML，并將把記錄的信息作為引用點(diǎn)；第三步將數(shù)據(jù)映射成XML，找到了這個(gè)引用點(diǎn)，就可以創(chuàng)建實(shí)際抽取數(shù)據(jù)的代碼；第四步合并與處理結(jié)果，需要反復(fù)執(zhí)行抽取過(guò)程，把結(jié)果合并到單個(gè)XML數(shù)據(jù)文件中。可以再次使用XSL執(zhí)行，也可以創(chuàng)建類(lèi)的方法把在當(dāng)前抽取中獲得的數(shù)據(jù)合并到包含以前抽取數(shù)據(jù)的文檔中。

4 總結(jié)

基于WWW技術(shù)的應(yīng)用正以驚人的速度向社會(huì)生活的方方面面滲透，人類(lèi)交互信息不可避免地電子化和海量化，從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的重要的知識(shí)是數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的是一個(gè)重要研究和應(yīng)用領(lǐng)域。本文討論了Web數(shù)據(jù)挖掘的一些基本知識(shí)、方法、技術(shù)。Web挖掘是一項(xiàng)綜合技術(shù)涉及多個(gè)領(lǐng)域，目前隨著XML技術(shù)的成熟，研究利用XML技術(shù)進(jìn)行Web的數(shù)據(jù)挖掘必將越來(lái)越深入。

［1］王志明，沙莎.Web 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.軟件導(dǎo)刊，2006，10.

［2］李健.Web 的數(shù)據(jù)挖掘.電腦知識(shí)與技術(shù)，2006.

［3］原嬌杰，趙杰文.基于 Web 的數(shù)據(jù)挖掘.軟件導(dǎo)刊，2006，10.

［4］于升峰.Web 使用挖掘的模式發(fā)現(xiàn).情報(bào)學(xué)報(bào)，2006－10－25.

［5］崔建群，何炎祥.基于XML的Web數(shù)據(jù)挖掘關(guān)鍵技術(shù)的研究.計(jì)算機(jī)工程，2006－10－32.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡