鄭士芹
(北京信息職業(yè)技術(shù)學(xué)院,北京,100081)
大數(shù)據(jù)作為人們普遍認(rèn)知的概念,帶給整個(gè)社會(huì)發(fā)展一種前所未有的便利。當(dāng)前大數(shù)據(jù)的發(fā)展速度取決于人類對(duì)于數(shù)據(jù)需求的一種反應(yīng),人類需求量越大,對(duì)數(shù)據(jù)處理速度的要求也越高,隨著信息技術(shù)的高速發(fā)展,人類通過(guò)不斷的探索,對(duì)數(shù)據(jù)的收集和處理有了前所未有的進(jìn)步,也研究出了多種高效的方式來(lái)存儲(chǔ)和讀取數(shù)據(jù),來(lái)更好地滿足人們和社會(huì)的需要。一般來(lái)說(shuō),其常用的方式如下:一是表緩沖,將大數(shù)據(jù)中記錄數(shù)據(jù)進(jìn)行集中讀取,存儲(chǔ)至內(nèi)存后再對(duì)數(shù)據(jù)進(jìn)行集中處理;二是行緩沖,將大數(shù)據(jù)中所需要的數(shù)據(jù)進(jìn)行逐一讀取并立即處理,再存儲(chǔ)至內(nèi)存中。但通過(guò)現(xiàn)有研究發(fā)現(xiàn)上述方法存在一定不足,因此本文針對(duì)大數(shù)據(jù)的特點(diǎn)和一種文件緩沖方式的數(shù)據(jù)處理方式進(jìn)行闡述。
當(dāng)前,大數(shù)據(jù)技術(shù)正在引導(dǎo)著這個(gè)社會(huì)的發(fā)展,從大數(shù)據(jù)的發(fā)展情況來(lái)講,可從數(shù)據(jù)本身和數(shù)據(jù)處理兩個(gè)方面來(lái)進(jìn)行理解,將大數(shù)據(jù)分為狹義和廣義之分,狹義的大數(shù)據(jù)僅僅從字面理解,表征為數(shù)據(jù)的規(guī)模和形式,表征計(jì)量至少為PB、EB和ZB的數(shù)據(jù)規(guī)模,包括結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),對(duì)于大數(shù)據(jù)量數(shù)據(jù)我們通過(guò)兩個(gè)方面進(jìn)行理解,在橫向方面表征為數(shù)據(jù)量的大小,在這一角度來(lái)說(shuō),大數(shù)據(jù)是表示廣泛的數(shù)據(jù)量,表征為數(shù)據(jù)過(guò)多,規(guī)模巨大。在縱向方面進(jìn)行理解表征為結(jié)構(gòu)化數(shù)據(jù),可分為結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),表示為數(shù)據(jù)的多樣性和不確定性。而廣義的大數(shù)據(jù)不但包含數(shù)據(jù)的規(guī)模和形式,還要將數(shù)據(jù)的處理方式納入其中。
根據(jù)在前文中對(duì)于大數(shù)據(jù)的歷史發(fā)展和大數(shù)據(jù)時(shí)代背景所述,對(duì)于大數(shù)據(jù)的實(shí)質(zhì)涵義我們有了更深的理解。因此,對(duì)數(shù)據(jù)進(jìn)行合理的分類顯得尤為重要,將有價(jià)值的數(shù)據(jù)資源進(jìn)行累計(jì),而將不重要的數(shù)據(jù)進(jìn)行驅(qū)替,可大大減少數(shù)據(jù)庫(kù)服務(wù)所帶來(lái)的高額成本,避免出現(xiàn)由于不必要的資源占用有限的數(shù)據(jù)庫(kù)空間,造成資源的浪費(fèi),導(dǎo)致系統(tǒng)出現(xiàn)緩慢的情況。不論從哪種角度出發(fā),大數(shù)據(jù)的核心研究是數(shù)據(jù)的積累和處理,基于此項(xiàng)目的,高效的處理方式的研究將成為行業(yè)發(fā)展的關(guān)鍵。
隨著信息化建設(shè)的不斷發(fā)展,大型關(guān)系數(shù)據(jù)庫(kù)在各行各業(yè)中得到深度的推廣和應(yīng)用,定制功能和專項(xiàng)服務(wù)使得這一技術(shù)更好的在各個(gè)領(lǐng)域中發(fā)揮著不可或缺的力量,進(jìn)而使得用戶數(shù)量和業(yè)務(wù)不斷提升,導(dǎo)致人們對(duì)數(shù)字信息化服務(wù)需求不斷上升,大數(shù)據(jù)量數(shù)據(jù)也不斷上升。進(jìn)而引發(fā)的結(jié)果導(dǎo)致在數(shù)據(jù)的采集、響應(yīng)的速度、計(jì)算的速度和存儲(chǔ)能力方面出現(xiàn)了一定的壓力。在以上所述的方面中,數(shù)據(jù)模塊的研發(fā)者通常對(duì)數(shù)據(jù)模型關(guān)系、數(shù)據(jù)的表現(xiàn)方式、數(shù)據(jù)的管理、編寫的方法、數(shù)據(jù)的存儲(chǔ)位置以及數(shù)據(jù)的存儲(chǔ)大小采用文件緩沖方式進(jìn)行結(jié)構(gòu)設(shè)計(jì)。2001年,高德納咨詢公司將大數(shù)據(jù)進(jìn)行歸納總結(jié)為巨量、速度和多樣性,由此可以看出,早在大數(shù)據(jù)發(fā)展之初,人們?cè)缫岩庾R(shí)到數(shù)據(jù)的數(shù)量之大。
在大數(shù)據(jù)提供了豐富數(shù)據(jù)的同時(shí),人們對(duì)于數(shù)據(jù)響應(yīng)的要求也越來(lái)越高,這也為數(shù)據(jù)存儲(chǔ)方式提出了更為苛刻的要求,不再僅僅滿足存儲(chǔ)數(shù)量的同時(shí),還對(duì)反應(yīng)速度有了一定的要求。這也就要求國(guó)內(nèi)外學(xué)者在對(duì)大數(shù)據(jù)量數(shù)據(jù)處理方式的研究上提出了更高的挑戰(zhàn),以滿足人們對(duì)于數(shù)據(jù)反應(yīng)時(shí)間控制在可接受的范圍之內(nèi),通過(guò)對(duì)大數(shù)據(jù)量數(shù)據(jù)的處理方式和存儲(chǔ)方式進(jìn)行同時(shí)擴(kuò)展,達(dá)到在高速增長(zhǎng)的數(shù)據(jù)量的同時(shí)保證響應(yīng)的目的。另外,大數(shù)據(jù)可應(yīng)用于不同的服務(wù)對(duì)象,來(lái)自設(shè)備的大量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析成為重要的需要,不同的用戶在數(shù)據(jù)倉(cāng)庫(kù)方面存在多維分析處理的問(wèn)題。
大數(shù)據(jù)管理架構(gòu)如圖1所示,通過(guò)對(duì)大數(shù)據(jù)管理架構(gòu)分析來(lái)可進(jìn)一步了解大數(shù)據(jù)存儲(chǔ)的方式和處理技術(shù)。在圖1左側(cè)可以看到,原始數(shù)據(jù)通過(guò)數(shù)據(jù)抽取和預(yù)處理,將用戶需要數(shù)據(jù)進(jìn)行必要的分析處理后的數(shù)據(jù)從原始文件中進(jìn)行抽取提供給用戶,對(duì)于大數(shù)據(jù)中頻繁使用的數(shù)據(jù)進(jìn)行分析處理,將這些必要的數(shù)據(jù)抽取至上一層數(shù)據(jù)庫(kù)中以便更快的分析和供用戶使用,達(dá)到提高效率的目的。圖1右側(cè)則表示為由上向下的存儲(chǔ)方式,在響應(yīng)各行各業(yè)大數(shù)據(jù)的應(yīng)用中,需提供大量的數(shù)據(jù)支持,進(jìn)行存儲(chǔ)和處理,在自上而下的過(guò)程中內(nèi)存數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行抽取并分析處理,然后將超過(guò)分析時(shí)間的數(shù)據(jù)下移至磁盤存儲(chǔ)引擎以便更好地對(duì)歷史數(shù)據(jù)進(jìn)行訪問(wèn)和分析,當(dāng)數(shù)據(jù)量超過(guò)存儲(chǔ)量時(shí),將多余的數(shù)據(jù)量轉(zhuǎn)存至底層存儲(chǔ)系統(tǒng)中。在當(dāng)前這種存儲(chǔ)結(jié)構(gòu)下,分析數(shù)據(jù)所采用的是順序訪問(wèn)的分析方法,內(nèi)存數(shù)據(jù)庫(kù)成為高性能存儲(chǔ)和處理引擎從而保證將導(dǎo)入的數(shù)據(jù)進(jìn)行快速的分析和處理,以滿足所需。
圖1 大數(shù)據(jù)管理架構(gòu)
如圖2所示,表現(xiàn)出數(shù)據(jù)庫(kù)是一個(gè)數(shù)據(jù)共享訪問(wèn)平臺(tái),包含完整的用戶信息管理、用戶訪問(wèn)權(quán)限、數(shù)據(jù)管理等,為結(jié)構(gòu)化數(shù)據(jù)的處理提供了良好的基礎(chǔ),但缺乏對(duì)非結(jié)構(gòu)化數(shù)據(jù)的管理和處理能力,數(shù)據(jù)存儲(chǔ)沒(méi)有進(jìn)行有效的分類,因此針對(duì)數(shù)據(jù)庫(kù)的自身特點(diǎn),分析數(shù)據(jù)量的大小、訪問(wèn)的頻率、數(shù)據(jù)增長(zhǎng)的速度、數(shù)據(jù)的流向等特點(diǎn),對(duì)數(shù)據(jù)進(jìn)行及時(shí)有效的分類,進(jìn)而根據(jù)數(shù)據(jù)的不同設(shè)計(jì)所對(duì)應(yīng)的存儲(chǔ)方式和處理方式,可更快地提高訪問(wèn)效率。
圖2 數(shù)據(jù)共享訪問(wèn)順序圖
大數(shù)據(jù)的有效應(yīng)用暴露出了對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)分析和管理方式在某些領(lǐng)域存在的種種問(wèn)題,如缺少針對(duì)行業(yè)所存在問(wèn)題所提出的針對(duì)性的數(shù)據(jù)處理方式,缺少對(duì)大規(guī)模數(shù)據(jù)量的計(jì)算保障,缺少對(duì)于用戶需求的靈活選取等問(wèn)題。針對(duì)在數(shù)據(jù)處理方面出現(xiàn)的問(wèn)題,在對(duì)所獲取的數(shù)據(jù)進(jìn)行挖掘和關(guān)聯(lián)分析的時(shí)候采用文件緩沖的方式進(jìn)行數(shù)據(jù)量的數(shù)據(jù)研究,其基本操作過(guò)程是,先將所需要處理的數(shù)據(jù)庫(kù)中的記錄進(jìn)行讀取存儲(chǔ)在臨時(shí)文件中,通過(guò)將所存儲(chǔ)的數(shù)據(jù)庫(kù)在臨時(shí)文件中進(jìn)行合理的處理,處理結(jié)束后將臨時(shí)文件進(jìn)行刪除,將有效的數(shù)據(jù)進(jìn)行逐一記錄至內(nèi)存中。通過(guò)采用計(jì)算機(jī)對(duì)文件緩沖方式進(jìn)行數(shù)據(jù)處理,其部分程序如下:
通過(guò)此方法,在數(shù)據(jù)挖掘和處理上取得了良好的效果,主要是由于在整個(gè)數(shù)據(jù)處理過(guò)程中,需要多次進(jìn)行計(jì)算,僅僅只要讀取數(shù)據(jù)而不會(huì)對(duì)數(shù)據(jù)進(jìn)行更改、刪除和插入等操作。
大數(shù)據(jù)作為當(dāng)前時(shí)代發(fā)展的重要趨勢(shì)之一,對(duì)于數(shù)據(jù)庫(kù)的管理以及大數(shù)據(jù)量數(shù)據(jù)的處理方式的研究尤為重要。針對(duì)當(dāng)前大數(shù)據(jù)的發(fā)展中所提出的問(wèn)題,本文所采用的處理方法也達(dá)到了一定的優(yōu)化效果,希望為后期大數(shù)據(jù)量數(shù)據(jù)處理研究方面提供一定的經(jīng)驗(yàn)參考。