饒正嬋 蒲天銀
摘要 在大數(shù)據(jù)時代,一方面依托大數(shù)據(jù)豐富的資源儲備和強大的計算機技術(shù)優(yōu)勢促進產(chǎn)業(yè)的升級和崛起,但是大數(shù)據(jù)的復(fù)雜性使得對于有價值信息的挖掘變得困難,尤其是當(dāng)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)無法滿足用戶需求時,就需要開發(fā)一種新的大數(shù)據(jù)挖掘技術(shù)來解決當(dāng)前數(shù)據(jù)挖掘上的困難。本文將對傳統(tǒng)數(shù)據(jù)挖掘技術(shù)和云計算條件下的大數(shù)據(jù)挖掘技術(shù)進行對比,然后進一步探討大數(shù)據(jù)挖掘的內(nèi)涵,提出了基于云計算的大數(shù)據(jù)挖掘體系架構(gòu),最后以Hadoop大數(shù)據(jù)挖掘平臺為例,分析大數(shù)據(jù)挖掘內(nèi)部工作的流程,并分析大數(shù)據(jù)挖掘技術(shù)的優(yōu)勢和所面臨的挑戰(zhàn)。
【關(guān)鍵詞】云計算 大數(shù)據(jù)挖掘 內(nèi)涵 解決方案
1 大數(shù)據(jù)挖掘技術(shù)和傳統(tǒng)數(shù)據(jù)挖掘技術(shù)
大數(shù)據(jù)挖掘技術(shù)指的是從體量龐大的數(shù)據(jù)堆中將有價值的信息或者知識提取出來,然后通過服務(wù)的形式提供給用戶。和傳統(tǒng)數(shù)據(jù)挖掘技術(shù)相比,兩者的目的一樣,都是為了獲取有價值的信息,但是兩者的技術(shù)發(fā)展背景、處理對象以及挖掘的深度和廣度有所差異。
1.1 技術(shù)發(fā)展背景
隨著科學(xué)技術(shù)的發(fā)展以及對于有價值信息需求的提升,傳統(tǒng)數(shù)據(jù)挖掘和大數(shù)據(jù)挖掘都獲得了一定的發(fā)展。但是傳統(tǒng)數(shù)據(jù)挖掘產(chǎn)生和發(fā)展的背景是互聯(lián)網(wǎng)時代和數(shù)據(jù)庫時代,其所需要處理的數(shù)據(jù)體量沒有大數(shù)據(jù)挖掘技術(shù)時代的數(shù)據(jù)體量龐大,數(shù)據(jù)信息的復(fù)雜程度也沒有大數(shù)據(jù)挖掘時代的數(shù)據(jù)復(fù)雜。而大數(shù)據(jù)挖掘技術(shù)產(chǎn)生和發(fā)展的背景是云計算、物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng),該技術(shù)是基于大數(shù)據(jù)特征和為了解決當(dāng)前系統(tǒng)所面臨的問題而誕生的,是基于云計算進行相關(guān)技術(shù)的集成來實現(xiàn)數(shù)據(jù)挖掘的,在開發(fā)和應(yīng)用上還處于不斷探索與發(fā)展階段。
1.2 處理對象
大數(shù)據(jù)挖掘技術(shù)和傳統(tǒng)挖掘技術(shù)在處理對象上也有所不同,這主要是和兩者技術(shù)產(chǎn)生的背景有關(guān)?;诨ヂ?lián)網(wǎng)發(fā)展而誕生的傳統(tǒng)數(shù)據(jù)處理,只是對某個范圍內(nèi)信息管理系統(tǒng)所產(chǎn)生的數(shù)據(jù)進行處理,雖然也包含用戶產(chǎn)生的主動數(shù)據(jù),但依舊是以被動產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)為主要處理對象。而大數(shù)據(jù)挖掘技術(shù)是在云計算、物聯(lián)網(wǎng)以及移動互聯(lián)網(wǎng)的背景下誕生的,所以其處理對象中的數(shù)據(jù)除了信息管理系統(tǒng)中的數(shù)據(jù)、Web系統(tǒng)用戶產(chǎn)生的數(shù)據(jù)外,也包括感知信息系統(tǒng)自動生成的仿真數(shù)據(jù)。也就是說大數(shù)據(jù)挖掘技術(shù)所需要處理的對象體量龐大、數(shù)據(jù)類型復(fù)雜,采集范圍更加廣泛而全面,數(shù)據(jù)處理起來也比較及時快速。但是大數(shù)據(jù)挖掘技術(shù)在進行數(shù)據(jù)挖掘處理時對精確度要求并不高,所以會出現(xiàn)數(shù)據(jù)冗余度和不確定性提高的問題。
1.3 挖掘的程度
傳統(tǒng)數(shù)據(jù)挖掘和大數(shù)據(jù)挖掘技術(shù)在對數(shù)據(jù)進行分析處理時的廣度和深度也不一樣。隨著數(shù)據(jù)體量增大、數(shù)據(jù)類型復(fù)雜性增加,再加上不同結(jié)構(gòu)和模式數(shù)據(jù)的發(fā)展,只有通過大數(shù)據(jù)挖掘技術(shù),基于云計算進行相關(guān)技術(shù)的集成,才能對這些復(fù)雜的數(shù)據(jù)進行分析處理,其數(shù)據(jù)處理的范圍更廣,在數(shù)據(jù)挖掘分析上也更加深入。而傳統(tǒng)數(shù)據(jù)挖掘只能針對小范圍內(nèi)的數(shù)據(jù)信息進行處理,處理的范圍受到限制而且分析數(shù)據(jù)的類型比較單一。此外,傳統(tǒng)數(shù)據(jù)挖掘受到自身平臺體系的限制,其計算和挖掘算法的擴展性不強,所以在對多源異構(gòu)信息進行處理上比較困難,且及時性不夠。
2 基于云計算的大數(shù)據(jù)挖掘體系架構(gòu)
2.1 云計算
云計算是一種基于網(wǎng)絡(luò)的超級計算模式。主要是通過非本地的或者遠程的分布式計算機為互聯(lián)網(wǎng)用戶提供計算或者存儲等服務(wù)。在這種計算模式中,用戶可以通過不同的應(yīng)用平臺進入到數(shù)據(jù)中心,然后利用中心里的數(shù)據(jù),而且云計算的能力十分強。這樣不但為每位互聯(lián)網(wǎng)用戶帶去更為簡便的信息處理方式,而且還能節(jié)約資源,提高資源的整體利用率。目前云計算已經(jīng)成為新時代炙手可熱的名詞,也是諸多學(xué)者和網(wǎng)絡(luò)公司研究的重點。和傳統(tǒng)數(shù)據(jù)挖掘相比,云計算計算模式具有彈性高、可擴展性強以及虛擬化的特點,也就是說在大數(shù)據(jù)環(huán)境中,云計算可以為數(shù)據(jù)分析處理和數(shù)據(jù)存儲提供支撐,提高數(shù)據(jù)分析處理和存儲的能力。分布式存儲和分布式并行計算是云計算的核心技術(shù),其中分布式存儲又包括分布式文件存儲和分布式數(shù)據(jù)庫存儲,這種分布式存儲解決了傳統(tǒng)數(shù)據(jù)挖掘所面臨的存儲問題,而分布式并行計算由于其易用性和極高的擴展性,所以可應(yīng)用于對海量數(shù)據(jù)的批量處理,從而可降低運算復(fù)雜程度,提高計算效率。目前很多企業(yè)基于云計算推出了相應(yīng)的大數(shù)據(jù)挖掘解決方案,比如IBM基于Hadoop、流計算以及智能分析實現(xiàn)對數(shù)據(jù)的實時整合管理和智能分析。不同的公司會根據(jù)自己的業(yè)務(wù)范圍制定不同的大數(shù)據(jù)挖掘解決方案,但是基本上都是基于云計算和數(shù)據(jù)挖掘功能的融合來構(gòu)建策略。
2.2 大數(shù)據(jù)挖掘體系架構(gòu)
根據(jù)上文大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘的對比分析,在大數(shù)據(jù)環(huán)境下可以構(gòu)建一種融合多種計算模式和存儲模式的大數(shù)據(jù)挖掘體系架構(gòu)。在該架構(gòu)中根據(jù)功能可以分成支撐平臺層、功能層和服務(wù)層。首先支撐平臺層是為大數(shù)據(jù)挖掘技術(shù)分析處理數(shù)據(jù)和存儲數(shù)據(jù)提供豐富資源和動力支持的,也就是以該平臺為支撐,利用基于云計算的相關(guān)技術(shù)和處理工具對復(fù)雜龐大的數(shù)據(jù)進行分析處理,從而構(gòu)建資源豐富的云環(huán)境。在云環(huán)境下除了向外界提供數(shù)據(jù)、硬件和軟件等資源,另外還能大數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和挖掘提供動力支撐。功能層是指從用戶特點和實際需求出發(fā),利用數(shù)據(jù)挖掘和分析工具,在云平臺上對數(shù)據(jù)進行智能化的分析,具有較高的存儲和分析能力。服務(wù)層指的是在云平臺上利用大數(shù)據(jù)挖掘技術(shù)進行分析處理后將數(shù)據(jù)處理的結(jié)果,借助可視化技術(shù)等技術(shù)服務(wù)形式提供給用戶。
3 基于Hadoop的大數(shù)據(jù)挖掘平臺
基于Hadoop平臺融合多功能的大數(shù)據(jù)挖掘,具有高可靠性、高擴展性和高效性的特點,計算模式以批處理和流處理為主,在結(jié)構(gòu)上可分成數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺和用戶層三層。在構(gòu)建該系統(tǒng)時,傳統(tǒng)的數(shù)據(jù)庫和處理工具、圖并行計算以及內(nèi)存計算等也被融入到該平臺上,功能豐富多樣,依托支撐技術(shù)實現(xiàn)對復(fù)雜數(shù)據(jù)快速實時的處理。下文將從數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)計算與分析以及數(shù)據(jù)展示來介紹其內(nèi)部工作流程,從而分析大數(shù)據(jù)挖掘中的數(shù)據(jù)處理方法和特征。
3.1 數(shù)據(jù)預(yù)處理
傳統(tǒng)數(shù)據(jù)挖掘在數(shù)據(jù)預(yù)處理上,采取的是先有模式后有數(shù)據(jù)的方式,也就是在既定的模式下使用處理工具進行查詢和更新等操作,然后對靜態(tài)數(shù)據(jù)進行預(yù)處理,具有保護數(shù)據(jù)完整性、準(zhǔn)確性,保證數(shù)據(jù)高精確度的特點;大數(shù)據(jù)挖掘技術(shù)則采取先有數(shù)據(jù)后有模式的預(yù)處理方式,在沒有特定模式的情況下隨著數(shù)據(jù)的變化而調(diào)整模式。大數(shù)據(jù)挖掘技術(shù)在進行數(shù)據(jù)預(yù)處理時,是借助傳統(tǒng)預(yù)處理技術(shù),流處理技術(shù)和多模態(tài)實體識別以及遠程自動采集融合等技術(shù),從而提高預(yù)處理中并行計算、迭代計算和數(shù)據(jù)合并以及共享等能力。不過大數(shù)據(jù)預(yù)處理關(guān)注的是數(shù)據(jù)之間的關(guān)聯(lián)性而不關(guān)注數(shù)據(jù)之間的因果關(guān)系,而且在處理數(shù)據(jù)時注重實時性不注重完整性和準(zhǔn)確性,所以數(shù)據(jù)預(yù)處理的結(jié)果質(zhì)量不高。
3.2 數(shù)據(jù)存儲
傳統(tǒng)數(shù)據(jù)挖掘在進行數(shù)據(jù)存儲時采用的是行存儲的方式將一些靜態(tài)的且確定的結(jié)構(gòu)化數(shù)據(jù)以多維數(shù)據(jù)模型或者實體和聯(lián)系的方式存儲,存儲的方式被動且隨機,其靈活性和擴展性差;大數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)存儲時一方面除了數(shù)據(jù)庫存儲外還包含分布式存儲方式,另一方面能存儲的數(shù)據(jù)類型繁多,有結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),存儲的方式主要是列存儲和行列混合存儲。存儲模式靈活簡單,且具有高擴展性。
3.3 數(shù)據(jù)計算與分析
傳統(tǒng)數(shù)據(jù)挖掘在進行數(shù)據(jù)計算和分析時主要是集中批處理,但是大數(shù)據(jù)挖掘技術(shù)則是將多種計算模式和數(shù)據(jù)處理工具融合到一起,對大數(shù)據(jù)開展分布式并行處理。對于復(fù)雜的、類型繁多的、體量龐大的數(shù)據(jù)進行處理時,傳統(tǒng)數(shù)據(jù)挖掘無法自動深入地分析,也難以表達復(fù)雜的分析模型,而大數(shù)據(jù)挖掘可解決傳統(tǒng)數(shù)據(jù)挖掘中分析工具擴展性差以及云平臺分析功能弱的問題,提高數(shù)據(jù)并行計算能力和分析能力。
3.4 數(shù)據(jù)展示
傳統(tǒng)數(shù)據(jù)挖掘在進行數(shù)據(jù)展示時主要是以文本、報表以及少數(shù)可視化的圖形來反映模型效果、性能和挖掘的信息,但是只適合于數(shù)據(jù)小且關(guān)系簡單的數(shù)據(jù),對于多維的、海量的和動態(tài)的數(shù)據(jù)只能通過大數(shù)據(jù)挖掘來進行展示。大數(shù)據(jù)挖掘通過人機交互的可視化方式將海量復(fù)雜的大數(shù)據(jù)通過圖像和動畫的形式直觀地展示,然后借助自動分析工具進行分析挖掘,幫助用戶進一步理解數(shù)據(jù)。目前代表性的可視化技術(shù)有宇宙星球圖、標(biāo)簽云等,不過為了實現(xiàn)更加高效的可視化分析,對可視化技術(shù)的時效性以及負載均衡和節(jié)點通信等還需要進一步研究。
4 結(jié)語
綜上,在大數(shù)據(jù)時代,面對海量、復(fù)雜、不確定的動態(tài)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)挖掘方式在計算分析能力和存儲能力上都遇到了問題,而且其靈活性和擴展性也不符合大數(shù)據(jù)實時處理要求。而基于云計算的大數(shù)據(jù)挖掘技術(shù)一方面有強大的計算和存儲能力,另一方面還能使大數(shù)據(jù)和云計算得以深度融合。不過,大數(shù)據(jù)挖掘也存在數(shù)據(jù)精確度不高、數(shù)據(jù)處理質(zhì)量較差、隱私安全以及共享等問題,所以未來還需要對這些問題進一步研究和深入.從而滿足用戶對于大數(shù)據(jù)挖掘可靠、高效和高質(zhì)量的需求。
參考文獻
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑[J].計算機研究與發(fā)展,2013 (01):146-169.
[2]趙又霖,鄧仲華,陸穎雋等,數(shù)據(jù)挖掘云服務(wù)分析研究[J].情報理論與實踐,2012 (09):33-36,44.
[3]李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機研究與發(fā)展,2013(06):1147-1162.