楊靜++許峰
摘要: 大數(shù)據(jù)應(yīng)用研究已成為學(xué)術(shù)界熱點(diǎn)。為更好地收集與存儲大數(shù)據(jù),變革對數(shù)據(jù)的管理以使其在大數(shù)據(jù)時代更好地服務(wù)于企業(yè)、社會與科學(xué)研究,探討了目前大數(shù)據(jù)收集與存儲方式的優(yōu)缺點(diǎn),提出了大數(shù)據(jù)挖掘與分析面臨的問題,為下一步研究大數(shù)據(jù)生物存儲方法奠定基礎(chǔ)。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)收集;數(shù)據(jù)存儲;數(shù)據(jù)挖掘;云計(jì)算
DOIDOI:10.11907/rjdk.171755
中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A文章編號:16727800(2017)010000103
英文標(biāo)題The Analysis and Research of Data Mining Based on the Big Data Collection and the Storage
——副標(biāo)題
0引言
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、三網(wǎng)融合等IT與通信技術(shù)迅猛發(fā)展,數(shù)據(jù)的快速增長給許多行業(yè)帶來了嚴(yán)峻挑戰(zhàn)與寶貴機(jī)遇,信息社會進(jìn)入了大數(shù)據(jù)時代[1]。2011年5月,在“云計(jì)算相遇大數(shù)據(jù)”為主題的“EMC World 2011”會議中,EMC拋出了Big Data概念?!都~約時報(bào)》2012年2月一篇專欄稱“大數(shù)據(jù)”時代已經(jīng)降臨許多現(xiàn)實(shí)世界的領(lǐng)域。哈佛大學(xué)社會學(xué)教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程?!贝髷?shù)據(jù)的涌現(xiàn)不僅改變著人們的生活、工作方式與企業(yè)運(yùn)作模式,甚至還會引起科學(xué)研究模式的根本性改變。
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)機(jī)器與軟硬件工具對其進(jìn)行感知、獲取、管理、處理、服務(wù)的數(shù)據(jù)集合[2]。IBM將大數(shù)據(jù)的特點(diǎn)總結(jié)為4個V,即大量化(Volume)、多樣化(Variety)、快速化(Velo- city)與價值密度低(Value)。首先,網(wǎng)絡(luò)空間中數(shù)據(jù)的規(guī)模不斷擴(kuò)大,已經(jīng)從GB、TB到PB,有的甚至以EB或ZB等單位來計(jì)數(shù),IDC研究報(bào)告稱,未來10年全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉庫的服務(wù)器數(shù)量將增加l0倍以迎合50倍的大數(shù)據(jù)增長。有專家研究認(rèn)為,從人類文明誕生到2003年所產(chǎn)生的數(shù)據(jù)大約為5EB,而2003-2012年產(chǎn)生的數(shù)據(jù)是2003年以前的500倍之多,達(dá)到2.7ZB,2012-2015年所產(chǎn)生的數(shù)據(jù)又翻了3倍。大數(shù)據(jù)數(shù)據(jù)集在以難以想象的速度增長,大數(shù)據(jù)收集、存儲及挖掘給數(shù)據(jù)的處理帶來了極大挑戰(zhàn)。
1數(shù)據(jù)收集
大數(shù)據(jù)的特點(diǎn)除了數(shù)量多以外,還有種類雜、來源廣等,這導(dǎo)致處理數(shù)據(jù)前的存儲問題變得比以往更為復(fù)雜[38]。存儲數(shù)據(jù)本身不是一項(xiàng)新技術(shù),但舊時存儲技術(shù)已無法完全勝任大數(shù)據(jù)下的要求,因?yàn)樵诤A繑?shù)據(jù)面前,存儲數(shù)據(jù)已不再是單純的存儲行為,在存儲這些數(shù)據(jù)前,首先要面對如何提取或收集有用數(shù)據(jù)。
隨著手機(jī)、平板電腦、智能家電、VR等硬件與搭載其上的社交軟件、數(shù)據(jù)處理工具、編輯器等軟件普及,每天或者說每秒都會產(chǎn)生難以估量的數(shù)據(jù)。這些數(shù)據(jù)必須收集起來加以分析,才能使其價值體現(xiàn)出來,而數(shù)據(jù)收集難點(diǎn)主要有以下幾個方面:
(1) 求真。信息增多,同時也意味著錯誤或虛假情報(bào)增多,錯誤的信息不僅增加了工作量,還影響了數(shù)據(jù)分析的價值。因此,在獲取信息時對信息可信度進(jìn)行評估是非常重要且必要的。
(2) 及時。大數(shù)據(jù)下并不一定總需要保障數(shù)據(jù)的及時性,但也有相當(dāng)多情況需要保障及時性,如交通出行數(shù)據(jù)或突發(fā)事件處理等,因此需要兼顧及時性問題。
收集數(shù)據(jù)在大數(shù)據(jù)時代下已不再是被動與單一地收集特定數(shù)據(jù),而是主動收集需要的數(shù)據(jù),隨時隨地進(jìn)行收集。作為實(shí)現(xiàn)數(shù)據(jù)有效價值的第一步,還有很長一段路要走,這是有意義的一條道路,將會對大數(shù)據(jù)發(fā)展起到非常重要的作用。
2數(shù)據(jù)存儲
提取出有用數(shù)據(jù)后,就應(yīng)該選擇合適數(shù)據(jù)庫或其它方式進(jìn)行存儲,以方便以后的數(shù)據(jù)分析?;趥鹘y(tǒng)關(guān)系型數(shù)據(jù)庫的存儲特點(diǎn),由于大數(shù)據(jù)結(jié)構(gòu)復(fù)雜,且無法在獲取數(shù)據(jù)前很好地預(yù)測大數(shù)據(jù)結(jié)構(gòu),目前數(shù)據(jù)庫還未能滿足大數(shù)據(jù)時代的數(shù)據(jù)存儲需求。
大數(shù)據(jù)中有大量冗余,消除冗余是降低開銷的重要途徑。大數(shù)據(jù)當(dāng)前的存儲方式不僅影響效率也影響成本,需要研究高效率低成本數(shù)據(jù)存儲方式、多源多模態(tài)數(shù)據(jù)高質(zhì)量獲取與整合理論技術(shù)、錯誤自動檢測與修復(fù)理論技術(shù)以及低質(zhì)量數(shù)據(jù)上的近似計(jì)算理論與算法。這些問題對當(dāng)今數(shù)據(jù)處理技術(shù)提出了巨大挑戰(zhàn)。
目前一些大公司(如Google、Facebook、Microsoft、IBM與Oracle等)都設(shè)計(jì)了許多專門應(yīng)對大數(shù)據(jù)時代的存儲技術(shù),尤其是Google在這一方面取得了非常大的成就。
2013年,Goldman 與Ewan Birney[9]在實(shí)驗(yàn)室實(shí)現(xiàn)了DNA存儲技術(shù),成功使用DNA編碼存儲了5個文件。在此之前,哈佛大學(xué)生物學(xué)家George Church等[10]將一本約有5.34萬個單詞的書籍進(jìn)行DNA編碼存儲,用了不到1g的DNA微芯片,并實(shí)現(xiàn)了利用DNA測序來閱讀。如果信息存儲密度可以像大腸桿菌的基因一樣密集,那么全世界數(shù)據(jù)只需要1kg的DNA。瑞士Robert Grass等[11]將DNA保存在二氧化硅球體里,模擬在10℃下保存2 000年,數(shù)據(jù)依然完好無損,這預(yù)示著利用DNA存儲數(shù)據(jù)可以更長久保存數(shù)據(jù)的完整性。DNA計(jì)算機(jī)具有4個方面突出優(yōu)點(diǎn):①高度并行性,整體運(yùn)算速度快;②海量存儲能力;③能耗低;④資源豐富。其計(jì)算原理是利用DNA分子具有的海量存儲能力及生化反應(yīng)的巨大并行性等特點(diǎn)進(jìn)行計(jì)算,這也正是電子計(jì)算機(jī)所不具備的。
3數(shù)據(jù)挖掘與分析
大數(shù)據(jù)的價值是毫無疑問的,然而與普通數(shù)據(jù)不同,普通數(shù)據(jù)的價值在大多數(shù)情況下直接體現(xiàn)在數(shù)據(jù)上,數(shù)據(jù)價值與數(shù)據(jù)量基本上成正比,但大數(shù)據(jù)卻不一定,數(shù)據(jù)越多并不一定代表價值越大,相反,在有些時候,數(shù)據(jù)越多對于存儲與分析數(shù)據(jù)的能力要求會越高,且無法提前確定數(shù)據(jù)價值。正因?yàn)檫@樣,大數(shù)據(jù)下分析與挖掘數(shù)據(jù)價值是一件非常有挑戰(zhàn)性的工作,主要會遇到以下問題[12]:endprint
(1)分析目標(biāo)對分析方法的影響。大數(shù)據(jù)下,因?yàn)閺牟煌瑐?cè)面分析同一份數(shù)據(jù)會得到不同的結(jié)果,因此需要在確定目標(biāo)的前提下去分析數(shù)據(jù)。某些情況下會存在對同一個問題多次分析,因?yàn)樵诜治鲆恍┐髥栴}時可能已經(jīng)分析過其中的小問題,或者說對被分析問題的徹底理解需要借助更多關(guān)系,這勢必提高問題難度,因?yàn)闊o法預(yù)料到各方面的權(quán)重是否合理。
(2)數(shù)據(jù)量對分析速度的影響。數(shù)據(jù)量對分析速度的影響除了表現(xiàn)在運(yùn)算上,還有一個分析系統(tǒng)可承載數(shù)據(jù)量的問題。因?yàn)槿魏我粋€系統(tǒng)可以同時運(yùn)算的數(shù)據(jù)量都不會無限大,系統(tǒng)存在一個負(fù)載問題,大數(shù)據(jù)下數(shù)據(jù)量的急劇增加導(dǎo)致了許多問題,很多運(yùn)算系統(tǒng)必須改進(jìn)。另一個問題是數(shù)據(jù)太多,運(yùn)算時數(shù)據(jù)傳輸會影響數(shù)據(jù)運(yùn)算速度,也許可以考慮改變運(yùn)算方式,不是把數(shù)據(jù)輸入到CPU去分析,而是讓CPU去分析數(shù)據(jù),但又會出現(xiàn)一些新的問題,需要研究一些新的技術(shù)與算法。
(3)隱私權(quán)是數(shù)據(jù)分析必須思考的問題。大數(shù)據(jù)隱藏著許多信息,簡單幾個數(shù)據(jù)不會輕易體現(xiàn)一個人的行蹤,但當(dāng)許多數(shù)據(jù)集中在一起時,結(jié)果可能就不一樣了。因此還必須考慮隱私問題,這同樣提高了數(shù)據(jù)分析的難度。
Google等一些科技公司為了應(yīng)對大數(shù)據(jù)時代的機(jī)遇與挑戰(zhàn),研發(fā)了專門的數(shù)據(jù)庫軟件與新技術(shù),比如Google在2004年提出了Map Reduce,完整流程如圖1所示。
這是一個具有代表意義的批處理模式,從圖1可見,將問題分而治之的思路,好處是顯而易見的,復(fù)雜問題變得不那么復(fù)雜,且改變了數(shù)據(jù)與計(jì)算的關(guān)系。回想計(jì)算機(jī)發(fā)展史,從最初以運(yùn)算器為中心的馮·洛依曼機(jī)到現(xiàn)在以存儲器為中心的計(jì)算機(jī)結(jié)構(gòu),Map Reduce改變了數(shù)據(jù)必須送到計(jì)算中處理的方式,讓計(jì)算“跑”到數(shù)據(jù)中處理數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫在很長一段時間內(nèi)都是處理數(shù)據(jù)的最佳選擇,然而隨著大數(shù)據(jù)時代對數(shù)據(jù)處理需求的改變,出現(xiàn)了許多特別應(yīng)對大數(shù)據(jù)分析的工具,Hadoop是目前比較流行的平臺,當(dāng)然也有在Hadoop基礎(chǔ)上改進(jìn)或完全獨(dú)立開發(fā)的工具。
4數(shù)據(jù)分析結(jié)果顯示
為什么數(shù)據(jù)分析結(jié)果不可以使用傳統(tǒng)的方式展示,而要特地設(shè)計(jì)?先來看一組數(shù)據(jù),如圖2所示。
從圖2可以看出原始數(shù)據(jù)的復(fù)雜性,分析結(jié)果也是多維度的,無法也不需要列出全部分析結(jié)果,這就需要尋求新的方式去展示數(shù)據(jù)分析結(jié)果。分析結(jié)果可能牽扯到個人隱私,這也是需要面對的問題。比如在Google里搜索關(guān)鍵字,會在無意識情況下將一個人的私人偏好或目前面臨的問題暴露出來(比如Google后臺被入侵或Google出售自己的數(shù)據(jù),雖然這二者可能性都很低)。數(shù)據(jù)分析結(jié)果并不簡單,需要兼顧非常多的技術(shù)問題與非技術(shù)問題。
5結(jié)語
如今,數(shù)據(jù)越來越多,但它本身只是璞玉,需經(jīng)過精雕細(xì)琢才能實(shí)現(xiàn)真正的價值??偟膩碚f,大數(shù)據(jù)研究才剛剛起步,還有許多基礎(chǔ)問題需要解決;大數(shù)據(jù)與其它計(jì)算機(jī)技術(shù)有什么不同、是否會在根本上導(dǎo)致新的計(jì)算機(jī)革命,還需要較長時間來驗(yàn)證。不過,在某種意義上,大數(shù)據(jù)的魅力正是其未來的無限可能,因?yàn)槲磥頍o法預(yù)測,才令人充滿好奇,停不下探索的腳步。
參考文獻(xiàn)參考文獻(xiàn):
[1]方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報(bào):自然科學(xué)版,2014(5):405419.
[2]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國防科技,2013,34(2):1017.
[3]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,45(1):144.
[4]嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(4):168172.
[5]WU X,ZHU X,WU G Q, et al. Data mining with big data[J]. IEEE Transactions on Knowledge & Data Engineering,2014,26(1):97107.
[6]BENSRHIR A. Big data for geopolitical analysis: application on barack obama's remarks and speeches[C]. ACS International Conference on Computer Systems and Applications IEEE Computer Society,2013:14.
[7]ZHENG Z, ZHU J, LYU M R. Servicegenerated big data and big dataasaservice: an overview[C]. IEEE International Congress on Big Data,2013:403410.
[8]ZIN T T, TIN P, TORIU T,et al. A big data application framework for consumer behavior analysis[C]. Consumer Electronics IEEE,2013:245246.
[9]GOLDMAN N, BERTONE P, CHEN S,et al. Toward practical highcapacity lowmaintenance storage of digital information in synthesised DNA[J]. Nature,2013:494.
[10]CHURCH G M,GAO Y,KOSURI S. Supplementary materials for nextgeneration nextgeneration digital information storage in DNA[J]. Science, 2012,337:16281643.
[11]GRASS R N, HECKEL R, PUDDU M,et al. Robust chemical preservation of digital information on DNA in silica with errorcorrecting codes[J]. Angewandte Chemie International Edition,2015,54(8):25522555.
[12]陳鵬.面向大數(shù)據(jù)應(yīng)用的異構(gòu)可重構(gòu)平臺關(guān)鍵技術(shù)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2015.
責(zé)任編輯(責(zé)任編輯:何麗)endprint