国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web數(shù)據(jù)挖掘研究初探

2012-04-29 00:44:03倪靜
電腦知識與技術(shù) 2012年32期
關(guān)鍵詞:數(shù)據(jù)挖掘

倪靜

摘要:隨著大型數(shù)據(jù)庫的不斷涌現(xiàn),不缺數(shù)據(jù)缺知識的矛盾日益突出。大量web信息中獲取有用的信息是web數(shù)據(jù)挖掘的關(guān)鍵問題。該文重點探討了Web挖掘的基本原理和關(guān)鍵技術(shù),針對Web挖掘的分類進行了描述,論述了Web挖掘的挖掘流程、應(yīng)用領(lǐng)域及研究發(fā)展方向。

關(guān)鍵詞:數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;Web內(nèi)容挖掘;Web使用挖掘;Web結(jié)構(gòu)挖掘

中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2012)32-7636-03

基于Internet的服務(wù)也飛速產(chǎn)生并發(fā)展起來,企業(yè)急需從Internet這個巨大的信息源中分析客戶行為,尋找商機。就是從這樣的商業(yè)角度考慮,在20世紀(jì)80年代末的時候數(shù)據(jù)挖掘(DataMining)技術(shù)被開發(fā)出來。Web數(shù)據(jù)挖掘就是在Web網(wǎng)絡(luò)基礎(chǔ)上引入數(shù)據(jù)挖掘的思想和方法。通過這一方法解決在Web網(wǎng)絡(luò)中遇到的一些問題,從而形成了Web數(shù)據(jù)挖掘?;赪eb網(wǎng)絡(luò)的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個新的重要研究方向,它可以滿足電子商務(wù)未來發(fā)展趨勢的需要。

1Web數(shù)據(jù)挖掘的研究背景和國內(nèi)外現(xiàn)狀

有統(tǒng)計指出,我國境內(nèi)的Web站點已將近有200萬個,全國現(xiàn)有網(wǎng)民3億7千萬人。網(wǎng)上的信息量已經(jīng)遠遠超過人們的處理能力。Web站點每天都在發(fā)生著不斷的變化,網(wǎng)上的內(nèi)容在不斷的擴大和更新。龐大的快速增長的數(shù)據(jù)中一定有許多有價值的信息,如何發(fā)現(xiàn)并利用這些信息變成了擺在我們面前的一道難題。現(xiàn)在利用數(shù)據(jù)挖掘技術(shù)與Web技術(shù)相結(jié)合形成Web挖掘,就是用來解決這個難題的有效方法。

2Web數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式。數(shù)據(jù)挖掘是一種綜合了數(shù)據(jù)庫、人工智能以及統(tǒng)計學(xué)等多個學(xué)科技術(shù)的信息處理方法。通過對歷史積累的大量數(shù)據(jù)的有效挖掘,試圖從這些數(shù)據(jù)中提取出先前未知但有效和有用的知識[1-2]。

web挖掘是Web數(shù)據(jù)挖掘(WebDataMining)的簡稱,也可以被稱為Web知識發(fā)現(xiàn)(WebKnowledgeDiscovery),他是在數(shù)據(jù)挖掘的基礎(chǔ)上研究發(fā)展而來的,是數(shù)據(jù)挖掘技術(shù)在Web技術(shù)中應(yīng)用的體現(xiàn)。Web挖掘技術(shù)涉及眾多學(xué)科的知識,如數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)、統(tǒng)計數(shù)學(xué)、人工智能等,是一個交叉性的研究領(lǐng)域。[7]

數(shù)據(jù)挖掘所需要的豐富的信息資源其實就蘊藏在Web中。Web中蘊藏了許多豐富和動態(tài)的超鏈接信息以及Web頁面的訪問和使用信息。而Web挖掘的主要工作就是從Web文檔和Web活動中發(fā)現(xiàn)并取得感興趣的潛在的有用模式和隱藏信息。

3Web數(shù)據(jù)挖掘的分類

Web數(shù)據(jù)挖掘可以被分為Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘(WebStructureMining)、Web使用記錄挖掘(WebUsageMining),這三大類。這三大類在實際使用過程中并不是獨立使用的,而是相互聯(lián)系、相互交叉和相互滲透的。關(guān)系如圖1所示。

(1)Web內(nèi)容挖掘

從Web頁面文檔內(nèi)容及后臺交易數(shù)據(jù)庫中發(fā)現(xiàn)有價值信息的過程稱為Web內(nèi)容挖掘。其實Web內(nèi)容挖掘我們可以理解為是從浩瀚無際的Web資源中發(fā)現(xiàn)信息、取得信息或資源的過程。Web內(nèi)容挖掘發(fā)現(xiàn)Web資源中的有效數(shù)據(jù)的方法是先對Web網(wǎng)頁上的內(nèi)容做資料挖掘,然后對Web的資源實行自動檢索。Web資源的形式是豐富多樣的,Web上的資源內(nèi)容主要包括網(wǎng)絡(luò)頁面上的內(nèi)容信息和頁面后臺在數(shù)據(jù)庫中發(fā)生的交易記錄等。頁面上的信息是非常豐富的,它包括文本、動畫、超鏈接、圖片、音頻/視頻之類的多媒體數(shù)據(jù)。Web內(nèi)容挖掘主要使用兩種方法:Web頁面內(nèi)容信息挖掘和搜索結(jié)果再次挖掘(即對初步搜索或挖掘的結(jié)果作進一步的改進挖掘處理)。

(2)Web結(jié)構(gòu)挖掘

WSM(WebStructureMining)是Web挖掘中的一個重要分類方向,它的主要工作方法是通過研究和分析各個網(wǎng)絡(luò)頁面之間的結(jié)構(gòu)信息,從而找到隱藏在頁面內(nèi)容之外有價值的信息的過程。

網(wǎng)頁正文,網(wǎng)頁所含的超文本標(biāo)記以及網(wǎng)頁間的超鏈接,這三個部分組成了Web頁面中的有效信息。其實實際上,僅僅網(wǎng)頁之間的超鏈接,并不能代表Web的結(jié)構(gòu):

從廣義上講,Web的結(jié)構(gòu)包含有:

①URL字符串中的目錄路徑結(jié)構(gòu)信息;

②網(wǎng)頁內(nèi)部內(nèi)容的可以用HTML、XML表示成的樹形結(jié)構(gòu);

③網(wǎng)頁之間的超鏈接結(jié)構(gòu)。

Web結(jié)構(gòu)挖掘涉及到海量的計算信息數(shù)據(jù),怎樣解決大量信息數(shù)據(jù)和有限的計算存儲空間之間的矛盾,怎樣提升數(shù)據(jù)挖掘算法的效率和實時性將是一個有待大家繼續(xù)深入探討研究的問題。

(3)Web使用記錄的挖掘[3]

網(wǎng)絡(luò)上的原始數(shù)據(jù)是Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘的對象。但是Web使用記錄的挖掘則卻和前兩者并不相同,它是對web上第二類數(shù)據(jù)即Web日志數(shù)據(jù)及相關(guān)數(shù)據(jù)的挖掘。Web使用記錄是通過挖掘Web訪問記錄發(fā)現(xiàn)有價值的數(shù)據(jù),提取感興趣,有價值的模式。

通過分析這些信息數(shù)據(jù),我們可以理解并且分析用戶的行為,從而發(fā)現(xiàn)電子商務(wù)的潛在客戶,幫助我們不斷地改善Web站點的結(jié)構(gòu)或為用戶提供個性化的服務(wù),并且對Web服務(wù)器系統(tǒng)的性能進行改進。

Web使用記錄挖掘應(yīng)用的技術(shù)主要有路徑分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、聚類分析、統(tǒng)計分析等。Web使用記錄挖掘可以發(fā)現(xiàn)潛在的用戶、改進電子商務(wù)網(wǎng)站的建設(shè),增加個性化服務(wù)等。

這方面的研究主要有兩個方向:一般訪問模式挖掘和個性化的使用記錄挖掘。

4數(shù)據(jù)挖掘的主要技術(shù)

數(shù)據(jù)挖掘技術(shù)是多個不同學(xué)科領(lǐng)域的技術(shù)與成果結(jié)合的成果,現(xiàn)今的數(shù)據(jù)挖掘技術(shù)主要有人工智能、數(shù)據(jù)庫技術(shù)、概率與數(shù)理統(tǒng)計三個主要方面。以下是幾種比較常用的技術(shù):

(1)關(guān)聯(lián)分析

關(guān)聯(lián)分析是指如果兩個或多個事物之間存在一定的關(guān)聯(lián),那么其中一個事物就能通過其他事物進行預(yù)測[7]。它的目的是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系。從大量的數(shù)據(jù)中發(fā)現(xiàn)其關(guān)聯(lián)知識在市場定位、決策分析和商業(yè)管理等領(lǐng)域是極為有用的。例如,網(wǎng)絡(luò)中的電子商店收集存儲了大量的客戶銷售數(shù)據(jù),這些數(shù)據(jù)清晰地記錄了每個客戶的購買事務(wù);比如交易的受理時間、顧客選擇購買的物品、物品的數(shù)量及金額等。商家可以通過利用這些數(shù)據(jù)使用關(guān)聯(lián)分析知道每個顧客進入電子商場購物時,商家想知道的是顧客會購買哪些商品?除了這個商品以外還會買什么,它們之間的聯(lián)系時什么?購買這些商品的顧客有什么共同的特點?通過得到的這些信息可以很好的幫助店家,制訂出針對商品和顧客管理的一系列商業(yè)決策,從而提高銷售額。

(2)聚類分析

數(shù)據(jù)庫中的數(shù)據(jù)可以規(guī)則分為一系列有意義的子集,稱為聚類。將由聚類所生成的一組數(shù)據(jù)對象的集合,他們之間的相似度比較高,每一個個體之間的;離得較近;不同組中的對象差異較大,個體之間距離則較遠。在實際情況的使用中,可以根據(jù)已有顧客的數(shù)據(jù),可以利用聚類分析將掌握的客戶數(shù)據(jù)根據(jù)客戶之間的共同特點來細分的市場,比如追求相似利益的人群、具有相同愛好的人群、相同年齡層次的人群、相同收入水平的人群、相同職業(yè)特征的人群等等,制定正確的市場策略,使企業(yè)在如此激烈的競爭環(huán)境中取得有利位置。

(3)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)的工作原理是對人類大腦思維系統(tǒng)的一個簡單的結(jié)構(gòu)模擬。人腦神經(jīng)元的基本功能是多個神經(jīng)元連接而成的多層網(wǎng)絡(luò)模仿而成。神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建立的非線性預(yù)測模型,通過學(xué)習(xí)進行模式識別。正是它的出現(xiàn)為許多傳統(tǒng)信息難以解決的問題提供了一種較為簡單有效的方法,所以近年來人工神經(jīng)網(wǎng)絡(luò)技術(shù)得到不斷成熟和發(fā)展。

(4)分類分析

數(shù)據(jù)挖掘中應(yīng)用比較頻繁的方法就是分類。分類是找出一組類別,能夠描述數(shù)據(jù)集合典型特征的模型,它具有此類數(shù)據(jù)的共同特點,可以用它來分類識別未知數(shù)據(jù)的歸屬或類別。

分類一般用于預(yù)測有限離散值。但某些情況下,需要預(yù)測某數(shù)值屬性的值(連續(xù)數(shù)值),在這種情況下分類就稱為預(yù)測。

(5)決策樹

決策樹從它的名字就不難發(fā)現(xiàn)它的結(jié)構(gòu)就像一棵樹。它利用樹的結(jié)構(gòu)將數(shù)據(jù)記錄進行分類,是一種預(yù)測模型。決策樹分類方法是一種通過構(gòu)造決策樹來發(fā)現(xiàn)訓(xùn)練集中分類知識的數(shù)據(jù)挖掘方法,其關(guān)鍵是能夠構(gòu)造出規(guī)模小、精度高的決策樹。例如,我們要分析一個公司的客戶接受某項新產(chǎn)品的情況,我們可以從中選取50個客戶,其中25個愿意接受并購買這個新產(chǎn)品的,25個不愿意接受并購買這個新產(chǎn)品的。我們通過建立決策樹的方法來來分析客戶的情況,并從中分析和尋找到一些潛藏的規(guī)則信息,然后幫助企業(yè)銷售。

5結(jié)束語

該文討論了Web數(shù)據(jù)挖掘的基本概念、基礎(chǔ)工作原理和所使用的關(guān)鍵技術(shù)。在未來隨著電子商務(wù)的迅速發(fā)展,Web數(shù)據(jù)挖掘有了更廣闊的舞臺。Web挖掘技術(shù)能夠幫助我們發(fā)現(xiàn)一些與用戶檢索的關(guān)鍵詞密切相關(guān)的有價值網(wǎng)頁,從而實現(xiàn)個性化檢索。它可以幫助商家發(fā)現(xiàn)和獲取客戶,對商家的市場策略進行調(diào)整和改進,并對其進行正確的決策指導(dǎo),促進電子商務(wù)的發(fā)展。

參考文獻:

[1]LWu,P.S.Yu,A.Baliman.SpeedTracer:AWebusageminingandanalysist001.IBMSystemsJournal,37(1):89-105,1998.

[2]N.Good,B.Schafer,J.Konstan,A.Borchers,B.Sarwar,J.Herlocker,andJ.Riedl,(1999).CombiningCollaborativeFilteringWithPersonalAgentsforBetterRecommendations.InProceedingsoftheconference,439-446.

[3]韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計算機研究與發(fā)展,2001,38(4):405-414.

[4]JiaweiHanandMichelineKamber.DataMining:TechniqueandConcepts,MorganKaufmannPublishers,2001.

[5]李鳳慧.面向電子商務(wù)的web數(shù)據(jù)挖掘的研究[D].山東:山東科技大學(xué),2004,6.

[6]JiaweiHan,MichelineKamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,等,譯.北京:機械工業(yè)出版社,2001.

[7]Http://blog.csdn.net/zhanghefu/archive/2007/03/25/1540495.aspx.

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
河南科技(2014年19期)2014-02-27 14:15:26
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
象山县| 顺义区| 炉霍县| 介休市| 基隆市| 凤庆县| 海丰县| 大安市| 林周县| 黑河市| 永宁县| 响水县| 内江市| 大同县| 龙南县| 万宁市| 普陀区| 夏津县| 合山市| 琼结县| 湄潭县| 广南县| 绿春县| 梓潼县| 三亚市| 宁波市| 房山区| 华亭县| 大邑县| 原阳县| 迁西县| 陆川县| 罗山县| 吉木萨尔县| 鸡泽县| 巢湖市| 万源市| 迁安市| 家居| 山东| 藁城市|