Ｗｅｂ挖掘研究

2009-10-26 09:34謝海艇

電腦知識與技術 2009年22期

摘要:隨著網絡的飛速發(fā)展,Web挖掘技術已成為一個研究熱點。本文就Web挖掘與相關研究進行了對比,介紹了Web挖掘的概念、分類及步驟,最后給出了Web挖掘的研究方向。

關鍵詞:Web挖掘;數(shù)據挖掘;信息檢索

隨著數(shù)字化信息時代的到來,網絡日漸成為人們獲得信息的重要途徑。然而網絡中信息量巨大且分散無序,Web用戶經常發(fā)現(xiàn)難以找到其所需的信息,造成“信息過載,知識匱乏”[1]的現(xiàn)狀。通用搜索引擎給人們提供了進行信息檢索的方法,但也存在查準率不高、查全率不能保證等問題。Web挖掘技術正是應這一需求而出現(xiàn)的一項新技術。人們運用Web挖掘技術,尋找網絡中有趣的、潛在的、有用的模式或隱藏的信息,并利用這些信息加快用戶檢索的效率,從而使網絡資源更好的為人們服務。

1 Web挖掘定義與相關研究

1.1 Web挖掘的定義

Web挖掘[2]就是從Web頁面和Web用戶訪問活動中發(fā)現(xiàn)、抽取有用模式和隱藏的信息。它是以從Web上挖掘有用知識為目標,以數(shù)據挖掘、文本挖掘、多媒體挖掘為基礎,并綜合運用計算機網絡、數(shù)據庫與數(shù)據倉儲、人工智能、信息檢索等技術,將傳統(tǒng)的數(shù)據挖掘技術與Web結合起來的一門新興學科。

1.2 Web挖掘與數(shù)據挖掘

數(shù)據挖掘[3]是從數(shù)據庫的大量數(shù)據中揭示出隱含的、潛在有用信息的頻繁過程。從廣義觀點來說,數(shù)據挖掘就是從存放在數(shù)據庫、數(shù)據倉庫或其它信息庫中的大量數(shù)據中挖掘有趣知識的過程。

Web 挖掘從數(shù)據挖掘發(fā)展而來,在研究方法上有很多相似之處。但是,Web 挖掘與數(shù)據挖掘相比有許多獨特之處。首先,Web 挖掘的對象是大量、異質、分布的 Web 文檔。其次,Web 在邏輯上是一個由文檔節(jié)點和超鏈接構成的圖,因此 Web 挖掘所得到的模式可能是關于 Web 內容的,也可能是關于Web 結構的。

1.3 Web挖掘與信息檢索

信息檢索[4]是自動獲取相關文檔的同時盡可能少的獲取不相關文檔,其主要的目標是索引文本,尋找有用的文檔。

Web挖掘與信息檢索在一些方面有所不同。首先,信息檢索是目標驅動的,用戶需要明確提出查詢要求,其目的在于幫助用戶發(fā)現(xiàn)資源;Web 挖掘是機會主義的,其結果獨立于用戶的信息需求,揭示文檔中隱含的知識是它的目標;第二,信息檢索使用精度和查全率來評價其性能;而 Web挖掘采用受益度、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。

2 Web挖掘的分類

Web挖掘大致分為三類:Web內容挖掘(Web content mining)、Web結構挖掘(Web structure mining)、Web使用記錄挖掘(Web usage mining).下圖為Web挖掘的分類圖:

xieht01.tif

2.1 Web內容挖掘

Web內容挖掘是指從 Web上的網頁內容及其描述信息中獲取潛在的、有價值的知識模式,以實現(xiàn)Web資源的自動檢索,提高Web數(shù)據利用率的過程。Web內容挖掘根據不同的標準,有多種不同的分類方法。按挖掘對象來劃分包括對文本文檔的挖掘和多媒體文檔的挖掘 ;按方法來劃分有信息查詢觀點的挖掘和數(shù)據庫觀點的挖掘;按內容又可分為對Web 文檔的挖掘和對搜索結果的挖掘。

2.2 Web結構挖掘

Web結構挖掘的基本思想是將Web看作一個有向圖,它的頂點是Web頁面,頁面間的超鏈接就是有向圖的邊。然后利用圖論對 Web的拓撲結構進行分析。這種思想源于引文分析,即通過分析一個網頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結構模式。在Web結構挖掘領域最著名的兩個算法是:PageRank算法和HITS算法。它們的共同點是使用一定方法計算Web頁面之間的超鏈接質量,從而得到頁面的權重。

2.3 Web使用記錄挖掘

Web使用記錄挖掘又稱為Web日志挖掘,主要目標是從Web的訪問記錄中發(fā)現(xiàn)感興趣的模式;分析不同Web站點的訪問日志可以幫助人們理解用戶的行為和Web結構,從而改進站點的結構,或為用戶提供個性化的服務。Web使用挖掘的基本流程包括四個階段:數(shù)據預處理、挖掘算法實施、模式分析、可視化。

3 Web挖掘的過程

Web挖掘的處理流程[5]包括如下四個步驟:資源發(fā)現(xiàn)、信息選擇和預處理、模式發(fā)現(xiàn)、模式分析。

1)資源發(fā)現(xiàn)

網絡爬蟲在線收集Web文檔、網站的日志等數(shù)據,并從中得到有用的數(shù)據。

2)信息選擇和預處理

剔除Web資源中無用信息并將信息進行必要的整理,如Web文檔中自動去除廣告連接、去除多余格式標記、英文單詞的詞干提取、高額低頻詞的過濾、漢語詞的切分等。

3)模式發(fā)現(xiàn)

自動進行模式發(fā)現(xiàn)?？梢栽谕粋€站點內部或多個站點之間進行,以自動發(fā)現(xiàn)Web站點的共有模式。

4)模式分析

驗證、解釋上一步驟產生的模式,并進行可視化。

4 Web挖掘研究方向

Web挖掘的應用非常廣闊,不但涉及頁面信息的提取、站點的分析和設計,而且在基于Internet 的電子商務方面也有很好的應用前景。

今后幾年Web挖掘研究的主要方向有:(1)Web知識庫的動態(tài)維護、更新,各種知識和模式的融合、提升,以及知識的評價綜合方法;(2)基于Web挖掘和信息檢索的、高效的、具有自動導航功能的智能搜索引擎相關技術的研究;(3)研究和開發(fā)基于Web的多層數(shù)據體系結構和智能集成系統(tǒng),提供相應的查詢語言,優(yōu)化和維護機制;(4)現(xiàn)有的數(shù)據挖掘方法與技術的改進及其向Web數(shù)據的擴展,挖掘算法的適應性和時效性的研究;(5)Web挖掘的相關技術在電子商務領域的應用研究等。

5 總結

隨著網絡的飛速發(fā)展,Web挖掘技術已成為一個研究熱點。本文就Web挖掘與相關研究進行了對比,介紹了Web挖掘的概念、分類及步驟,最后給出了Web挖掘的研究方向。

參考文獻:

[1]Raymond Kosala,and Hendrik Blockeel.Web Mining Research: A Survey[J]. SKGKDD Explorations,July 2000.

[2] 韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計算機研究與發(fā)展,2001,38(4):405-410.

[3] Jiawei Han,Micheline Kamber 。范明譯。數(shù)據挖掘概念與技術[M]。北京,機械工業(yè)出版社,2000.

[4] 王繼成,蕭嶸,孫正興,等.Web信息檢索研究進展[J].計算機研究與發(fā)展,2001(2).

[5]Yuefeng Lia,Ning Zhong.Web mining mobel and its applications for information gathering[J].Knowledge-Based Systems,2004(17):207-217.

收稿日期:2009-04-28

作者簡介: 謝海艇(1982-),男,山東淄博人。研究方向:信息檢索、數(shù)據挖掘等。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Ｗｅｂ挖掘研究