劉暢
摘? 要:隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)產(chǎn)生途徑越來越廣泛,數(shù)據(jù)量日益增加,人們對(duì)于“大數(shù)據(jù)”的研究越來越深入,但數(shù)據(jù)的有效性、安全性和可信性方面的保證技術(shù)卻不是特別完善。本文闡述了“大數(shù)據(jù)”的相關(guān)概念、特征和數(shù)據(jù)產(chǎn)生的渠道,詳細(xì)介紹了“大數(shù)據(jù)”的處理技術(shù)以及數(shù)據(jù)的可信技術(shù)。
關(guān)鍵詞:大數(shù)據(jù);可信技術(shù);分布式;云計(jì)算
中圖分類號(hào):TP391;TP311?????????? 文獻(xiàn)標(biāo)識(shí)碼:A
1?? 引言(Introduction)
從2010年開始,信息領(lǐng)域的詞匯越來越豐富,“物聯(lián)網(wǎng)”“云計(jì)算”等被人們所熟知,隨著這些技術(shù)的不斷深入“數(shù)據(jù)”也被“大數(shù)據(jù)”一詞取而代之?!按髷?shù)據(jù)”(Big Data)也有人稱其為“海量數(shù)據(jù)”,它是一種數(shù)據(jù)巨大的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。首先,在數(shù)量上對(duì)于當(dāng)前的數(shù)據(jù)庫(kù)系統(tǒng)處理能力來說,是無法在合理的時(shí)間內(nèi)對(duì)此類數(shù)據(jù)進(jìn)行擷取、管理和處理的;其次,由于“大數(shù)據(jù)”不再是結(jié)構(gòu)化數(shù)據(jù),所以對(duì)于數(shù)據(jù)分析工作來說花費(fèi)的時(shí)間會(huì)更加無法想象。
2 “大數(shù)據(jù)”是信息時(shí)代的必然產(chǎn)物("Big Data"is
the inevitable product of the information age)
隨著物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的推進(jìn)與發(fā)展,數(shù)據(jù)的產(chǎn)生途徑越來越多樣化,數(shù)量也在以人們無法想象的速度不斷增長(zhǎng)和堆積。當(dāng)數(shù)據(jù)級(jí)從TB躍升至PB時(shí),說明大數(shù)據(jù)時(shí)代已經(jīng)來臨。在咨詢公司麥肯錫的報(bào)告《大數(shù)據(jù)時(shí)代到來》中首次提出了“大數(shù)據(jù)”的到來,報(bào)告中稱“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來[1]?!?/p>
如此龐大與繁雜的數(shù)據(jù)究竟來自于哪里?可以說,從人類進(jìn)入文明社會(huì)起沒有任何一個(gè)時(shí)期能夠像今天這樣,每天都會(huì)產(chǎn)生無法計(jì)數(shù)的數(shù)據(jù),這些數(shù)據(jù)不分形式,無所不在,無時(shí)不在!目前為止,數(shù)據(jù)庫(kù)是數(shù)據(jù)管理的最為有效的方式,在這種方式下,數(shù)據(jù)的產(chǎn)生經(jīng)歷了以下幾種模式:
(1)被動(dòng)模式
這種模式下數(shù)據(jù)的產(chǎn)生都是被迫的,一般都是伴隨著運(yùn)營(yíng)系統(tǒng)的運(yùn)營(yíng)而產(chǎn)生的,數(shù)據(jù)記錄保存于運(yùn)營(yíng)數(shù)據(jù)庫(kù)系統(tǒng)中。數(shù)據(jù)以文本為主,屬于結(jié)構(gòu)化數(shù)據(jù)。比如產(chǎn)品的銷售記錄、航空公司數(shù)據(jù)記錄等。
(2)主動(dòng)模式
這種模式下的數(shù)據(jù)大多都是用戶自發(fā)的,是由在用戶的意愿下主動(dòng)產(chǎn)生的,像生活中比較流行的博客、微博、微信等,此類數(shù)據(jù)已不再是單純的文字,更多的包含了圖片、視頻、音頻等,數(shù)據(jù)類型多樣化。
(3)自動(dòng)模式
這種模式下產(chǎn)生的數(shù)據(jù)不再受人為因素影響,數(shù)據(jù)會(huì)通過感知式系統(tǒng)自動(dòng)產(chǎn)生。隨著物聯(lián)網(wǎng)和云計(jì)算技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)節(jié)點(diǎn)不再是單純的計(jì)算機(jī),傳感器和智能終端的出現(xiàn)使得數(shù)據(jù)無時(shí)無刻不在產(chǎn)生,此時(shí)的數(shù)據(jù)就不再是簡(jiǎn)單的某一種類型或結(jié)構(gòu)了,更多的是混合而復(fù)雜的,并且產(chǎn)生數(shù)據(jù)的速度也讓我們無法想象的。至此真正的“大數(shù)據(jù)”產(chǎn)生了。
3 “大數(shù)據(jù)”的四V特征(Four V characteristics of
the "Big Data")
所謂的四V特征,是“大數(shù)據(jù)”與傳統(tǒng)數(shù)據(jù)相比較體現(xiàn)出的四個(gè)特點(diǎn),即:Volume—數(shù)量多、Velocity—速度快、Variety—類型雜、Value—價(jià)值大。
第一,數(shù)據(jù)量究竟達(dá)到什么樣的程度才可以稱其為“大”?網(wǎng)上公布的一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)足以說明這個(gè)問題。互聯(lián)網(wǎng)上24小時(shí)內(nèi)產(chǎn)生數(shù)據(jù)需要1.68億張DVD來保存;互聯(lián)網(wǎng)上論壇中一天的發(fā)帖量可以達(dá)到200萬條,相當(dāng)于《時(shí)代》雜志770年的文字總和。據(jù)國(guó)際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2009年全球產(chǎn)生的數(shù)據(jù)量為0.8ZB,2010年增長(zhǎng)為1.2ZB,2011年達(dá)到1.82ZB,預(yù)計(jì)2020年,全球數(shù)據(jù)使用量將是現(xiàn)在的44倍,達(dá)到35.2ZB[2]。大數(shù)據(jù)的起始計(jì)數(shù)量被定級(jí)為PB。
第二,相對(duì)于傳統(tǒng)的數(shù)據(jù)挖掘來說,當(dāng)今的數(shù)據(jù)存在的最明顯的特征就是數(shù)據(jù)處理速度快。在信息世界中,第一時(shí)間能夠分析出數(shù)據(jù)的有效性,從而得到正確的處理結(jié)果,給社會(huì)和企業(yè)帶來的利益是不可估量的;相反如能沒能及時(shí)獲取最新的數(shù)據(jù),或?qū)?shù)據(jù)分析不準(zhǔn)確,導(dǎo)致決策上的失敗也是十分可怕的。
第三,正如此前所述,當(dāng)今網(wǎng)絡(luò)中節(jié)點(diǎn)類型的不斷豐富,導(dǎo)致了數(shù)據(jù)類型的多種多樣,再用結(jié)構(gòu)化思想去定義當(dāng)今的數(shù)據(jù)明顯已經(jīng)不適合了。
第四,一切事物的發(fā)展都是有規(guī)律可循的,我們可以從其發(fā)展的過程中得到相關(guān)數(shù)據(jù),將這些數(shù)據(jù)收集在一起便可以繪制其發(fā)展軌跡、預(yù)計(jì)其發(fā)展趨勢(shì)、總結(jié)其發(fā)展規(guī)律,幫助我們做出正確的決策,優(yōu)化運(yùn)作流程。但是,如何在海量的大數(shù)據(jù)中提取有用的數(shù)據(jù),并對(duì)其加以利用是我們今后的努力方向。
4 “大數(shù)據(jù)”的關(guān)鍵技術(shù)(The technology of the
"Big Data")
對(duì)于“大數(shù)據(jù)”面言,它的處理流程和傳統(tǒng)數(shù)據(jù)類似,主要包括采集、導(dǎo)入與預(yù)處理、統(tǒng)計(jì)與分析、數(shù)據(jù)挖掘等四個(gè)方面,其中以第三部分統(tǒng)計(jì)與分析最為重要。但由于“大數(shù)據(jù)”的特點(diǎn)決定其處理技術(shù)與傳統(tǒng)的數(shù)據(jù)處理技術(shù)存在著很大的差異。
(1)分布式文件系統(tǒng)
談到數(shù)據(jù),首先要考慮的問題就是數(shù)據(jù)的存儲(chǔ),分布式文件系統(tǒng)為大數(shù)據(jù)的處理提供了最底層的支撐。Google公司最先研發(fā)了一種分布式文件系統(tǒng)GFS(Google File System),是一種基于分布式集群的大型分布式處理系統(tǒng),它處理的文件大小一般都在100MB以上。但隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)類型的增多,加上海量“小數(shù)據(jù)”也存在其中,GFS已無法滿足需求,繼GFS之后產(chǎn)生了Colosuss、HDFS、Cloudstoret、Facebook研發(fā)的Haystack等分布式文件系統(tǒng)。endprint
(2)分布式數(shù)據(jù)庫(kù)
隨著數(shù)據(jù)種類越來越繁雜、數(shù)據(jù)數(shù)量越來越大,人們對(duì)數(shù)據(jù)庫(kù)的設(shè)計(jì)理念也越來越符合實(shí)際,傳統(tǒng)的數(shù)據(jù)庫(kù)要求越簡(jiǎn)單越好,講求的是“ONE SIZE FOR ALL”,而面對(duì)海量的非結(jié)構(gòu)化數(shù)據(jù),以Google為首的很多公司相繼按照“ONE SIZE FOR ONE”的設(shè)計(jì)理念,研發(fā)出了自己的分布式數(shù)據(jù)庫(kù)系統(tǒng)。這類數(shù)據(jù)庫(kù)模式比較自由,支持簡(jiǎn)單的備份,擁有簡(jiǎn)單的應(yīng)用程序接口,能夠處理海量的數(shù)據(jù)。
(3)批處理技術(shù)
2004年Google公司提出了MapReduce批處理技術(shù)。這種批處理技術(shù)將數(shù)據(jù)源分成多個(gè)部分,每個(gè)部分都對(duì)應(yīng)著一個(gè)初始值,按該值分配給不同的服務(wù)器進(jìn)行計(jì)算,得到的結(jié)果再通過中間流程統(tǒng)一進(jìn)行處理后傳遞給用戶。這種批處理系統(tǒng)簡(jiǎn)化了數(shù)據(jù)處理流程,被廣泛應(yīng)用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等方面。
(4)云計(jì)算平臺(tái)
云計(jì)算是大數(shù)據(jù)應(yīng)用的最基礎(chǔ)、最主要的平臺(tái),也是大數(shù)據(jù)分析和處理技術(shù)的核心部分。2006年Google公司最先提出了“云計(jì)算”的概念,但對(duì)于“云計(jì)算”的定義卻一直沒有定論?;\統(tǒng)地說“云計(jì)算”是一種大規(guī)模的分布式模型,通過網(wǎng)絡(luò)將抽象的、可伸縮的、便于管理的數(shù)據(jù)能源、服務(wù)、存儲(chǔ)方式等傳遞給終端用戶[3]。
(5)開源計(jì)算平臺(tái)
面對(duì)復(fù)雜的數(shù)據(jù)類型,不是所有的用戶在開發(fā)程序之前都必須了解分布式系統(tǒng)究竟如何對(duì)數(shù)據(jù)進(jìn)行擷取、存儲(chǔ)和處理。Apache基金會(huì)為用戶提供了一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)Hadoop。它是一個(gè)集分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)以及批處理系統(tǒng)等模塊于一身的高性能、可擴(kuò)展、成本低的開源平臺(tái)。其中HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),MapReduce則為海量的數(shù)據(jù)提供了計(jì)算。
5 “大數(shù)據(jù)”的可信技術(shù)(Trusted technology for
large data)
隨著數(shù)據(jù)產(chǎn)生的非主動(dòng)因素越來越強(qiáng),數(shù)據(jù)的來源渠道越來越多樣,給用戶帶來便利的同時(shí),也帶來了許多困擾。隨著技術(shù)的發(fā)展,安全的問題和可信的問題,是和重大系統(tǒng)應(yīng)用是相伴而生的,但是它確實(shí)是一個(gè)重要的問題。不僅是大量“雜質(zhì)”數(shù)據(jù)出現(xiàn),而且隱私數(shù)據(jù)的問題也非常重要。因此,在大數(shù)據(jù)時(shí)代當(dāng)中,隨著數(shù)據(jù)的分布性,異構(gòu)性和動(dòng)態(tài)快速變化性,加上個(gè)人擁有的質(zhì)性,可計(jì)算的問題,可管理的問題,可信任的問題,共同組成了在大數(shù)據(jù)時(shí)代的新的三類問題。
首先要搭建一個(gè)可信的計(jì)算平臺(tái),解決云端的一體化的安全監(jiān)控,系統(tǒng)的恢復(fù),以及今后發(fā)展的高可靠性的能力??尚庞?jì)算平臺(tái)以可信平臺(tái)模塊TPM為核心。TPM是一個(gè)具有密碼保護(hù)功能的芯片,由中央處理器、存儲(chǔ)器、密碼運(yùn)算處理器、隨機(jī)數(shù)產(chǎn)生器和I/O等部件組成。主要用于完成可信度量的存儲(chǔ)及報(bào)告、產(chǎn)生密鑰、簽名加密、數(shù)據(jù)安全存儲(chǔ)等一系列安全信任工作。這部分是由物理設(shè)備實(shí)現(xiàn)的可信技術(shù)[4]。
可信平臺(tái)中還包括可信存儲(chǔ)和可信網(wǎng)絡(luò)。可信計(jì)算工作組在可信存儲(chǔ)規(guī)范中提供了可靠的實(shí)現(xiàn)全磁盤加密的方法,采用自加密驅(qū)動(dòng)器來簡(jiǎn)化數(shù)據(jù)的加密過程,通過自加密驅(qū)動(dòng)實(shí)現(xiàn)加密和認(rèn)證功能[5];可信網(wǎng)絡(luò)連接TNC主要提供網(wǎng)絡(luò)安全和網(wǎng)絡(luò)安全訪問,網(wǎng)絡(luò)管理員能夠根據(jù)用戶級(jí)別和當(dāng)前設(shè)備進(jìn)行狀況控制網(wǎng)絡(luò)訪問,監(jiān)視網(wǎng)絡(luò)運(yùn)行狀況,一旦出現(xiàn)異常情況可以馬上做出反應(yīng)。
當(dāng)然,在這樣一種可信平臺(tái)的基礎(chǔ)之上還有需要有其他的可信技術(shù)來解決大數(shù)據(jù)的安全問題。
(1)用戶的身份認(rèn)證
網(wǎng)絡(luò)中的用戶要在得到身份認(rèn)證和訪問允許的條件下才可以對(duì)數(shù)據(jù)進(jìn)行訪問。TNC可以實(shí)現(xiàn)這方面的功能,它可以利用存儲(chǔ)在TPM中的硬件證書來保護(hù)系統(tǒng)中的信息。
(2)限制訪問權(quán)限
按照用戶訪問系統(tǒng)中的數(shù)據(jù)及服務(wù),將用戶分為不同的類別,對(duì)不同類別的用戶分配不同的訪問權(quán)限,這樣用戶即可以訪問資源又不會(huì)對(duì)其他數(shù)據(jù)進(jìn)行干擾,從而降低了訪問模型的復(fù)雜性。
(3)追蹤用戶行為
可信計(jì)算系統(tǒng)中的所有用戶都有其獨(dú)特而詳細(xì)的個(gè)人信息,用戶只有通過TPM的密鑰驗(yàn)證后才可以對(duì)系統(tǒng)進(jìn)行訪問和操作,與此同時(shí)可信計(jì)算系統(tǒng)會(huì)對(duì)用戶的訪問和操作進(jìn)行追蹤和記錄,確保資源的安全環(huán)境。
(4)系統(tǒng)的合規(guī)性保證
對(duì)于用戶來說網(wǎng)絡(luò)中的資源并不是完全透明的,用戶會(huì)非常擔(dān)心自己上傳到網(wǎng)絡(luò)中的數(shù)據(jù)是否安全??尚庞?jì)算系統(tǒng)在服務(wù)端安裝了監(jiān)控裝置,監(jiān)控裝置在對(duì)數(shù)據(jù)訪問用戶的身份、訪問和操作進(jìn)行合規(guī)性審計(jì),然后向數(shù)據(jù)屬主提供相關(guān)證明,數(shù)據(jù)屬主也可以收到監(jiān)控裝置提供的數(shù)據(jù)使用合規(guī)性描述。
6?? 結(jié)論(Conclusion)
目前對(duì)于大數(shù)據(jù)的研究還處于初步階段,有一些技術(shù)還不是特別成熟,有許多問題有待我們?nèi)ソ鉀Q,但無論怎么樣,大數(shù)據(jù)時(shí)代已經(jīng)來臨,如何利用好大數(shù)據(jù),如何保證數(shù)據(jù)的安全可靠,如何從數(shù)據(jù)中獲取我們所需要的信息,從而揭示事物的發(fā)展規(guī)律,都需要我們更加深入的研究。
參考文獻(xiàn)(References)
[1] ARMBRUSH Michael,ARMANDO Fox.Above the clouds:a
Berkley view of cloud computing[R].eecs Department University
of California Berkeley Tech Rep UCBEECS200928,2009:25.
[2] MELL Peter,GRANCE Timothy.NIST special publication
800-145,the NIST definition of cloud computing[S].
Gaithersburg,MD:NIST,2011.2012-12-12http://tech.xinmin.
cn/2012/12/24/17789537.html.
[3] SINGH Amardeep,VERMA Monika.Attacks and security in
cloud computing[J].Internetional Journal of Advanced
Engineering &Application,2011(1):300-302.
[4] 大數(shù)據(jù)技術(shù)大會(huì).http://special.csdn.net/bdc2011/index.html.
[5] 嚴(yán)霄風(fēng),張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,
23(4):168-172.
作者簡(jiǎn)介:
劉? 暢(1978-),女,本科,副教授.研究領(lǐng)域:程序設(shè)計(jì)教
學(xué),物聯(lián)網(wǎng)技術(shù)應(yīng)用.endprint