林漢城
(閩南理工學(xué)院,福建 石獅 362700)
根據(jù)國際數(shù)據(jù)公司對(duì)數(shù)據(jù)監(jiān)測情況來看,預(yù)計(jì)2020年,全球的數(shù)據(jù)量將會(huì)達(dá)到35萬億GB的數(shù)據(jù)量,其增長速度同比增長了近20倍。因?yàn)閿?shù)據(jù)量的急據(jù)增長,沖擊著互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)變得越來越龐大,數(shù)據(jù)類型也變得越來越復(fù)雜,已經(jīng)超出了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)的處理能力,導(dǎo)致數(shù)據(jù)管理進(jìn)入瓶頸。大數(shù)據(jù)概念也因此應(yīng)運(yùn)而生。其數(shù)據(jù)類型也分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三大類。此外,數(shù)據(jù)的更新速度較快,實(shí)時(shí)動(dòng)態(tài)處理要求高。為了達(dá)到這一目的,人們不得不使用云計(jì)算技術(shù)對(duì)其優(yōu)化。本文著重探討云計(jì)算與大數(shù)據(jù)的基本理論,分析云技術(shù)對(duì)數(shù)據(jù)管理的作用。
1.1 云計(jì)算對(duì)于云計(jì)算而言,其起源主要是量子物理中的 “電子云”。根據(jù)量子物理中的電子云實(shí)質(zhì),不難得到云計(jì)算的存在意義,它主要是強(qiáng)調(diào)了以下三個(gè)性質(zhì),即為彌漫性、分布性與社會(huì)性。云技術(shù)的發(fā)展主要經(jīng)歷了四個(gè)過程,第一、網(wǎng)格計(jì)算過程;第二、共用計(jì)算過程;第三、軟件服務(wù)過程;第四、云計(jì)算過程。其基本類型又可以分為三類,即為基礎(chǔ)設(shè)施服務(wù)類型、平臺(tái)服務(wù)類型、軟件服務(wù)類型。由此可見,云計(jì)算的提出是計(jì)算機(jī)科學(xué)發(fā)展與進(jìn)步的里程碑。
1.2 大數(shù)據(jù)大數(shù)據(jù)定義還沒有統(tǒng)一的規(guī)范,一般說法是:第一, 大數(shù)據(jù)的數(shù)據(jù)量大、其結(jié)構(gòu)十分復(fù)雜。 第二,大數(shù)據(jù)是具有種類多、流量大、容量大、價(jià)值高、社會(huì)特征豐富的數(shù)據(jù)。 第三,大數(shù)據(jù)是具有內(nèi)容大、分析大、帶寬高的海量數(shù)據(jù)。
1.3 大數(shù)據(jù)與云計(jì)算的關(guān)系所謂大數(shù)據(jù)就是海量數(shù)據(jù),以所獲得的數(shù)據(jù)為分析依據(jù),進(jìn)行剖析,從而得到認(rèn)識(shí)的完整性。云計(jì)算的實(shí)質(zhì)就是計(jì)算,它測重點(diǎn)是重視IT的解決方案,構(gòu)造IT的基礎(chǔ)框架,該過程主要是計(jì)算能力,常用于數(shù)據(jù)的處理與優(yōu)化。 海量數(shù)據(jù)是實(shí)現(xiàn)云計(jì)算的基石,充分利用云計(jì)算的強(qiáng)大分析能力與數(shù)據(jù)處理能力,能夠提高大數(shù)據(jù)時(shí)代下的數(shù)據(jù)管理特性,從中獲取到數(shù)據(jù)所攜帶的社會(huì)特征。兩者之間共同促進(jìn),相輔相成。其主要區(qū)別見表1。
表1 大數(shù)據(jù)與云計(jì)算的關(guān)系表
眾所周知,傳統(tǒng)的數(shù)據(jù)管理模式,它主要有兩種形式,第一是收集數(shù)據(jù),第二是存儲(chǔ)數(shù)據(jù)。我們以大數(shù)據(jù)背景為主,在云環(huán)境下建立數(shù)據(jù)管理模式,其管理模式結(jié)構(gòu)如圖 1所示。
圖1 基于云計(jì)算的大數(shù)據(jù)管理模式
對(duì)大數(shù)據(jù)采集主要有以下兩種方式:其一為集中式采集;其二則為分布式采集。這二種采集數(shù)據(jù)的方法各有優(yōu)缺點(diǎn)。相對(duì)于分布式采集,集中式采集有著容易控制全局?jǐn)?shù)據(jù)的優(yōu)點(diǎn)。相對(duì)于集中式采集,分布式采集又有著善于處理變化數(shù)據(jù)的優(yōu)點(diǎn)。兩者優(yōu)缺點(diǎn)如表2所示。
表 2 兩種數(shù)據(jù)采集方法優(yōu)缺點(diǎn)對(duì)照表
從上表中,我們可以看出,大數(shù)據(jù)時(shí)代下的數(shù)據(jù)采集方法各有優(yōu)點(diǎn),選擇什么方法,需要結(jié)合實(shí)際情況,這樣才能充分利用云技術(shù)來管理數(shù)據(jù)。
圖2 基于云計(jì)算大數(shù)據(jù)分布式采集模式
對(duì)于大數(shù)據(jù)背景的數(shù)據(jù)來說,其數(shù)據(jù)結(jié)構(gòu)十分復(fù)雜,在對(duì)數(shù)據(jù)進(jìn)行采集時(shí),針對(duì)不同的數(shù)據(jù)類型,我們應(yīng)該采用不同的數(shù)據(jù)存儲(chǔ),換句話說,數(shù)據(jù)要分類存儲(chǔ),這樣才利于對(duì)數(shù)據(jù)的后期管理。
在云計(jì)算中,我們需要一定的數(shù)據(jù)倉庫作為計(jì)算中轉(zhuǎn)站,這也使得如何存儲(chǔ)數(shù)據(jù)成為人們關(guān)注的焦點(diǎn)。根據(jù)研究得知,數(shù)據(jù)庫是一個(gè)具有倉儲(chǔ)、集成性、相對(duì)穩(wěn)定性的數(shù)據(jù)組合。通過對(duì)新型數(shù)據(jù)存儲(chǔ)與傳統(tǒng)數(shù)據(jù)存儲(chǔ)的比較,我們不難發(fā)現(xiàn)這樣一個(gè)問題,就新型的數(shù)據(jù)存儲(chǔ)來說,其存儲(chǔ)實(shí)質(zhì)偏向數(shù)據(jù)分析與數(shù)據(jù)決策。 傳統(tǒng)數(shù)據(jù)庫存儲(chǔ)的實(shí)質(zhì)與新型的數(shù)據(jù)存儲(chǔ)有所不同,它主要是利用運(yùn)營型系統(tǒng)來對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。綜上所述,大數(shù)據(jù)背景下的數(shù)據(jù)存儲(chǔ)用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式已無法滿足。
隨著數(shù)據(jù)量的增長,數(shù)據(jù)結(jié)構(gòu)變的十分復(fù)雜。單結(jié)點(diǎn)的數(shù)據(jù)庫在存儲(chǔ)數(shù)據(jù)與分析海量數(shù)據(jù)中顯得力不從心。傳統(tǒng)的數(shù)據(jù)庫主要是根據(jù)元組按行的方式存儲(chǔ)數(shù)據(jù),這種存儲(chǔ)方式不利于后期維護(hù)數(shù)據(jù)。大數(shù)據(jù)采用列式存儲(chǔ)數(shù)據(jù)庫能夠輕松地解決這一問題。列式數(shù)據(jù)庫存儲(chǔ)實(shí)質(zhì)主要是基于屬性列存儲(chǔ),也就是說,在存儲(chǔ)中,每一屬性列都單獨(dú)存放,這就降低了數(shù)據(jù)的維護(hù)成本。尤其在云環(huán)境下,利用云技術(shù)存儲(chǔ)數(shù)據(jù)無疑增加了數(shù)據(jù)庫的管理能力。
在數(shù)據(jù)存儲(chǔ)中,聯(lián)機(jī)分析并處理海量數(shù)據(jù),是云計(jì)算的應(yīng)用特點(diǎn)。聯(lián)機(jī)分析數(shù)據(jù)庫能支持十分復(fù)雜的數(shù)據(jù)分析操作,側(cè)重決策支持。在此過程中,聯(lián)機(jī)分析數(shù)據(jù)也能夠得到我們需要的信息。對(duì)于聯(lián)機(jī)分析而言,其實(shí)質(zhì)主要是以數(shù)據(jù)庫中的海量數(shù)據(jù)為切入點(diǎn),通過計(jì)算并構(gòu)建出相關(guān)的數(shù)據(jù)分析多維模型,并使用多維分析數(shù)據(jù)的方法,從多個(gè)角度、多個(gè)層次入手,其分析結(jié)構(gòu)如圖3所示。聯(lián)機(jī)分析處理的一大特點(diǎn)就是對(duì)數(shù)據(jù)多維分析,極大地加強(qiáng)了對(duì)數(shù)據(jù)庫多維數(shù)據(jù)的信息采集效率。
圖3 數(shù)據(jù)聯(lián)機(jī)分析
利用聯(lián)機(jī)分析處理技術(shù)可以簡化大數(shù)據(jù)背景下的數(shù)據(jù)管理模式,使數(shù)據(jù)維護(hù)效率得到顯著提高。
為促進(jìn)云技術(shù)背景下的數(shù)據(jù)管理,解決大數(shù)據(jù)所帶來的諸多問題。不少商家開始尋求數(shù)據(jù)管理所帶來的機(jī)遇,許多國家逐步涉獵其中,試圖挖掘大數(shù)據(jù)所帶來的商業(yè)潛力。美國為了迎合大數(shù)據(jù)背景下的商業(yè)價(jià)值,推出了大數(shù)據(jù)研究與開發(fā)計(jì)劃。中國在關(guān)注云技術(shù)與大數(shù)據(jù)進(jìn)步的同時(shí),合理規(guī)劃大數(shù)據(jù)管理計(jì)劃,還在積極地開展并推動(dòng)大數(shù)據(jù)背景下的數(shù)據(jù)管理,努力提升海量數(shù)據(jù)的管理與應(yīng)用能力。
基于大數(shù)據(jù)時(shí)代背景,一般的數(shù)據(jù)存儲(chǔ)都借助于非關(guān)系型數(shù)據(jù)庫,而許多非關(guān)系型數(shù)據(jù)庫在安全性上并沒有嚴(yán)格控制。同時(shí)又因?yàn)閿?shù)據(jù)來源十分廣泛,這無形中就增加了監(jiān)管部門對(duì)數(shù)據(jù)安全的監(jiān)管難度。又因?yàn)樵趯?shí)際過程中,數(shù)據(jù)的儲(chǔ)存都不太分散,這樣一來,數(shù)據(jù)保護(hù)雖然得到了便利。但是數(shù)據(jù)的安全卻得不到保障,所以就需要人們重視數(shù)據(jù)安全,建立保護(hù)數(shù)據(jù)的法律法規(guī)。除此之外,基于技術(shù)進(jìn)步以及數(shù)據(jù)信息的指數(shù)級(jí)增長方式,相關(guān)部門應(yīng)該在數(shù)據(jù)量增加的同時(shí)細(xì)化相關(guān)法律,使其落實(shí)到實(shí)處。當(dāng)然也需要借鑒其他地方的管理經(jīng)驗(yàn),共同保護(hù)云環(huán)境下的大數(shù)據(jù)安全,對(duì)數(shù)據(jù)管理具有重要意義。
云技術(shù)下大數(shù)據(jù)的管理技術(shù)標(biāo)準(zhǔn),比如云的相關(guān)特性和接口的優(yōu)化,在操作云時(shí)的業(yè)務(wù)遷移與相關(guān)安全性問題都需要解決。在解決過程中又需要結(jié)合大數(shù)據(jù)背景下的技術(shù)標(biāo)準(zhǔn),包括采集、質(zhì)量、生命周期等,對(duì)大數(shù)據(jù)背景下的數(shù)據(jù)管理是極為有益。目前,世界領(lǐng)域中的云計(jì)算標(biāo)準(zhǔn)化工作已啟動(dòng)了,針對(duì)于大數(shù)據(jù)所帶來的機(jī)遇和挑戰(zhàn),為了更好地應(yīng)對(duì)。我們也應(yīng)該積極參與其中,合理制定大數(shù)據(jù)與云計(jì)算標(biāo)準(zhǔn),繼而優(yōu)化數(shù)據(jù)管理。
科技發(fā)展加快了數(shù)據(jù)更新速度,數(shù)據(jù)處理已需要以毫秒作為度量單位,應(yīng)該充分利用云計(jì)算技術(shù)對(duì)其優(yōu)化。數(shù)據(jù)管理的實(shí)質(zhì)就是對(duì)數(shù)據(jù)的分析與處理。在今后的學(xué)習(xí)或研究過程中,我們應(yīng)該加強(qiáng)對(duì)云技術(shù)的應(yīng)用,將其與大數(shù)據(jù)時(shí)代下的數(shù)據(jù)管理結(jié)合,共同發(fā)展,相互促進(jìn),為今后網(wǎng)絡(luò)互連、信息互通、數(shù)據(jù)共享保駕護(hù)航。
〔1〕陸麗婷.大數(shù)據(jù)環(huán)境下的平臺(tái)架構(gòu)技術(shù)研究〔J〕.計(jì)算機(jī)代,2014(10):22-23.
〔2〕孫久朋.大數(shù)據(jù)時(shí)代下煤炭企業(yè)精益管理分析探討〔J〕.經(jīng)濟(jì)視野,2016 (12):64-65.
〔3〕張莉.云環(huán)境下的大數(shù)據(jù)處理技術(shù)研究〔J〕.科技展望2017,27(15):1-3.
〔4〕王曉萍.大數(shù)據(jù)時(shí)代云計(jì)算在新媒體平臺(tái)的應(yīng)用研究〔J〕.電子制作,2015(10).158