趙芳
摘 要:由于計算機的迅速發(fā)展,基于云計算的數(shù)據(jù)挖掘技術(shù)已經(jīng)是一種十分高效可信的技術(shù),它可以解決傳統(tǒng)數(shù)據(jù)挖掘方式不適合海量數(shù)據(jù)的問題。本文介紹了數(shù)據(jù)挖掘、云計算的相關概念,分析了基于云計算的數(shù)據(jù)挖掘技術(shù)及其優(yōu)點、問題。
關鍵詞:數(shù)據(jù)挖掘;云計算
1 概述
隨著物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)呈指數(shù)形式增加,當今時代已處于信息數(shù)據(jù)過載的海量數(shù)據(jù)時代,這對數(shù)據(jù)挖掘系統(tǒng)帶來了難題。而云計算可以使分布在大量不同計算機的數(shù)據(jù)集中在統(tǒng)一的云端,便于各種應用系統(tǒng)的數(shù)據(jù)獲取。云計算因為具有可彈性變化的計算能力和海量的存儲能力成為解決海量數(shù)據(jù)挖掘的有效方式。
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘也稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)過程,是指在大量不完全的、隨機的、模糊的、有噪聲的數(shù)據(jù)中發(fā)現(xiàn)具有潛在實用價值或者新穎、有效的信息表示為模式、概念、規(guī)律、規(guī)則等形式的過程。數(shù)據(jù)挖掘的目標是找出事先不知道的數(shù)據(jù)關系,尤其是來源于不同數(shù)據(jù)庫的數(shù)據(jù)之間的關系。
1.2 云計算
狹義上講,云計算指的是通過網(wǎng)絡以便于擴展、按照需求的方式獲得資源(硬件、軟件、平臺),是一種IT基礎設施的交付和使用模式,云就是網(wǎng)絡中的軟、硬件資源。廣義上講,云計算是指服務提供者根據(jù)用戶需求、以便于擴展的方式提供服務,用戶按需獲取服務,是一種服務的提供和使用模式,而服務既可以是關于IT的,也可以是其他領域的。
云計算的特點:(一)資源虛擬化。云計算對用戶的地理位置、接入時間方式、使用終端都沒有嚴格要求,“云”中的資源是無形的、動態(tài)的,實際用戶不會關心應用運行的具體位置。(二)價格便宜,速度快?!霸啤钡臉?gòu)成節(jié)點極其廉價,所以降低了數(shù)據(jù)中心管理需要的成本消耗?!霸啤辈粌H成本低廉,資源利用率也大幅提升了,運行速度會更快。(三)服務器規(guī)模很大?!霸啤钡囊?guī)模巨大,而且能夠提供強大的計算能力,Google云計算擁有的服務器已達到上百萬臺。(四)通用性較高。一個“云”可以支撐不同的、千變?nèi)f化的應用,“云”可以根據(jù)自身資源形成多種應用,而且可以同時運行。(五)按需服務。“云”是個資源倉庫,提供的服務很多,“云”可以像水電這樣的基礎設施計費,所以用戶可以按需購買,按量計費。(六)較高的可靠性?!霸啤敝胁扇×藬?shù)據(jù)多副本容錯、計算節(jié)點同構(gòu)可互換等措施,使得云計算的服務更可靠,甚至高于本地計算機。(七)可以擴展?!霸啤钡囊?guī)??梢詣討B(tài)伸展來滿足用戶和應用數(shù)量的增長引發(fā)的需求。
2 基于云計算的數(shù)據(jù)挖掘技術(shù)
基于云計算的數(shù)據(jù)挖掘要進行數(shù)據(jù)預處理、數(shù)據(jù)挖掘、結(jié)果模式評價,這與傳統(tǒng)數(shù)據(jù)挖掘過程一樣。但是在數(shù)據(jù)的處理和存儲方式上會不同,這是因為云計算中的數(shù)據(jù)格式與傳統(tǒng)的不一致,它們大多來自于點擊流。
2.1 數(shù)據(jù)收集處理
在進行數(shù)據(jù)收集和處理時,第一步要應用決策樹判別出是Web機器人訪問數(shù)據(jù)還是用戶訪問數(shù)據(jù),第二步要把海量數(shù)據(jù)過濾、轉(zhuǎn)換、清洗、整合,變成半結(jié)構(gòu)化的XML文件保存。現(xiàn)在流行的是用Map-Reduce模式收集數(shù)據(jù),但不足的是開發(fā)工具還不完善。今后結(jié)合分形維數(shù)和其他技術(shù)的方法是新的發(fā)展方向。例如:結(jié)合網(wǎng)絡聚類和分形維數(shù)的思想產(chǎn)生的基于網(wǎng)絡和分形維數(shù)的聚類方法(GFDC),是運用合計數(shù)法進行分形維數(shù),可以改進為運用關聯(lián)維數(shù)法進行。
2.2 數(shù)據(jù)存儲
云計算系統(tǒng)運用最廣泛的數(shù)據(jù)存儲方式是分布式存儲策略,同一個數(shù)據(jù)存儲為多個副本,這保證了數(shù)據(jù)的可靠性。這不是冗余復制。 同時系統(tǒng)還要有錯誤隔離、心跳檢測等措施。
3 基于云計算的數(shù)據(jù)挖掘技術(shù)優(yōu)勢
運用云計算進行數(shù)據(jù)挖掘的優(yōu)點有:(一)因為要從海量的數(shù)據(jù)中挖掘出信息需要大規(guī)模的數(shù)據(jù)挖掘,而且挖掘的任務比搜索的任務更加復雜,更需要良好的應用環(huán)境和開發(fā)環(huán)境??紤]到這些因素,基于云計算的方法更合適。(二)基于云計算的數(shù)據(jù)挖掘隱蔽了底層,開發(fā)更方便,用戶不用考慮數(shù)據(jù)劃分、計算調(diào)度任務和計算分配等問題。(三)云計算提高了大規(guī)模數(shù)據(jù)處理速度和能力。(四)數(shù)據(jù)處理成本降低了,也不再需要高性能機器。
4 基于云計算數(shù)據(jù)挖掘面臨的問題和挑戰(zhàn)
云計算還處于初級階段,發(fā)展還不成熟,還存在一些問題和挑戰(zhàn)。主要包括以下幾個方面:(一)算法選擇問題。關鍵問題就是要選擇合適的算法和并行策略來進行數(shù)據(jù)處理。(二)軟件及服務的可信度。云環(huán)境下要突出考慮的就是隱私安全問題。(三)有太多不確定性。不確定的方面有:數(shù)據(jù)挖掘任務的描述、數(shù)據(jù)挖掘的方法和結(jié)果、挖掘結(jié)果的評價等。
[參考文獻]
[1]Jiawie Han,Micheline Kambe,Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機械工業(yè)出版社,2012.
[2]紀俊.一種基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設計與實現(xiàn)[D].青島:青島大學,2009.
[3]余永紅,向曉軍,高陽,等.面向服務的云數(shù)據(jù)挖掘引擎的研究[J].計算機科學與探索,2012(1): 46-57.
[4]周晏,桑書娟.淺談基于云計算的數(shù)據(jù)挖掘技術(shù)[J].電腦知識與技術(shù),2010,6(34):9682- 9683.