曹海平
(湖北國土資源職業(yè)學院,湖北 武漢 430090)
云計算實際上是一個大規(guī)模的分布式計算平臺,一方面能夠在單個計算機環(huán)境下運行,另一方面也可以依托于互聯(lián)網(wǎng)和許多計算機連接到一起,利用每個電腦的計算能力完成海量數(shù)據(jù)計算任務。在利用云計算進行海量數(shù)據(jù)信息處理時,其最大的問題點在于如何妥善安置大規(guī)模數(shù)據(jù)的存儲問題[1]。這是由于在進行海量數(shù)據(jù)計算的過程中,不同數(shù)據(jù)信息需要存儲到不同的硬件資源上,而當下已有的硬件資源難以達到海量數(shù)據(jù)的存儲要求,使得計算機需要反復進行尋址,浪費大量時間,不利于提高云計算效率與效果[2]。所以,設計一個可以滿足需求的大數(shù)據(jù)存儲系統(tǒng),對進一步提高云計算應用效果有著非常大的幫助。本文提出了一種非結構化大數(shù)據(jù)存儲系統(tǒng),從多個通道入手,完成基于云計算背景的非結構化大數(shù)據(jù)硬件與邏輯設計,有效解決了云計算環(huán)境下海量數(shù)據(jù)存儲問題,提高了云計算效率。
非結構化大數(shù)據(jù)擁有存儲形式多種多樣、數(shù)據(jù)格式繁多、業(yè)務流程多樣、數(shù)據(jù)標準化程度低以及信息數(shù)據(jù)量龐大等特征[3]。為了更好地實現(xiàn)對海量非結構化數(shù)據(jù)資源的存儲,依托于分層網(wǎng)絡結構,將云計算環(huán)境下非結構化大數(shù)據(jù)劃分為多個功能層,涵蓋有應用層、會話層、數(shù)據(jù)層、路由層和物理層。每個層有著各自具體的功能,應用層主要是為依托于云計算的非結構化大數(shù)據(jù)應用提供相應的接口;會話層在行使權限上表現(xiàn)更高的能力,擁有系統(tǒng)安全管控能力;數(shù)據(jù)層的主要功能是對依托于云計算的非結構化數(shù)據(jù)與元數(shù)據(jù)進行有效掌控;路由層的具體功能是確保相連設備交互穩(wěn)定,同時實現(xiàn)路徑計算[4-6]。
云計算屬于分布式計算范疇,依托于將互聯(lián)網(wǎng)中的不同計算節(jié)點視為資源地,實現(xiàn)對互聯(lián)網(wǎng)資源的分析與整合,同時基于相應的專業(yè)軟件完成對資源的管理。Hadoop是完成云計算必不可少的一部分,而在Hadoop中HBase又是極其關鍵的內(nèi)容。
HBase屬于一種分布式、面向列的數(shù)據(jù)儲存系統(tǒng),能夠?qū)崿F(xiàn)對海量數(shù)據(jù)的隨時讀取與訪問[7]。HBase具備將表劃分為多個區(qū)域的功能,各個區(qū)域都涵蓋了表中所有行的一個子集,另外包含了一個主節(jié)點。以此節(jié)點為基礎,對初始安裝、給定服務區(qū)等相應區(qū)域進行引導,同時當區(qū)域服務產(chǎn)生問題時,能夠幫助其解決問題點,總的來說,主節(jié)點負載不重[8,9]。
依托于HBase的非結構化大數(shù)據(jù)存儲系統(tǒng)框架開發(fā)過程中,選擇分布式架構中包含的主從方式,一方面提高了數(shù)據(jù)庫的擴展能力,使得數(shù)據(jù)庫的應用范圍更加廣泛,另一方面也確保了數(shù)據(jù)的一致性,為提高數(shù)據(jù)應用質(zhì)量奠定基礎。依托于HBase的基于云計算環(huán)境非結構化大數(shù)據(jù)儲存體系框架如圖1所示。
圖1 依托于HBase的云計算環(huán)境非結構化大數(shù)據(jù)存儲系統(tǒng)
基于云計算背景的非結構化大數(shù)據(jù)存儲系統(tǒng)依托于網(wǎng)絡收集與整合云計算環(huán)境下的大規(guī)模數(shù)據(jù),然后利用后臺系統(tǒng)對非結構化大數(shù)據(jù)進行有效存儲。非結構化大數(shù)據(jù)儲存平臺如圖2所示。
圖2 非結構化大數(shù)據(jù)儲存平臺
在實際進行云計算網(wǎng)絡環(huán)境中非結構化數(shù)據(jù)儲存架構探究過程中,按照依托于云計算的非結構化大數(shù)據(jù)調(diào)度模型以及存儲方式相似性較高的屬性,能夠獲取依托于云計算背景下的非結構化大數(shù)據(jù)儲存方式的二元域分布標準。假使利用k代表非結構化中眾多數(shù)據(jù)中大數(shù)據(jù)源的具體個數(shù),有k+ε個節(jié)點,以此為載體獲得k+ε個非結構化大數(shù)據(jù)存儲個體,要求ε是一個大于零的常數(shù)[10-12]。為了簡化計算煩瑣度,便于觀察與核實,使用Yi代替k+ε個非結構化大數(shù)據(jù)存儲個體,其中i表示為1,2,3,…,k+ε,從而可以得到Yi的表達公式為:
式中,X1,X2,…,Xk是k個不同非結構化大數(shù)據(jù)源資源包,gi是一個行向量,該向量是獨立的,同時取值范圍處于二元域F2={0,1}之間。
依托于矩陣,k+ε個非結構化大數(shù)據(jù)存儲資源包可以表示為:
利用上面的計算方法,能夠?qū)崿F(xiàn)對非結構化大數(shù)據(jù)存儲算法的開發(fā),進而得到非結構化大數(shù)據(jù)存儲系統(tǒng)。
為了更好地論證筆者開發(fā)的非結構化大數(shù)據(jù)存儲系統(tǒng)的可行性,針對該系統(tǒng)開展模擬實驗,以MATLAB R2018b為模擬平臺,使用Inter P4 2GB處理器作為實驗硬件,模擬非結構化大數(shù)據(jù)存儲情況。將本文開發(fā)的存儲方法與分布式云計算環(huán)境下的非結構化大數(shù)據(jù)存儲方法進行對比,得到各自的存儲性能,進而完成對比實驗。
兩種方法針對不同規(guī)模非結構化大數(shù)據(jù)開展存儲工作,得到對應的存儲時間,如表1所示。
表1 兩種方法下同等非結構化大數(shù)據(jù)存儲時間對比
從表1中可以看出,不論非結構化大數(shù)據(jù)數(shù)據(jù)庫規(guī)模如何變化,使用本文開發(fā)的方法存儲時間均要低于分布式云計算環(huán)境下的非結構化大數(shù)據(jù)存儲方法,證明本文開發(fā)的非結構化大數(shù)據(jù)存儲系統(tǒng)切實可行。
在現(xiàn)代云計算應用越來越廣泛的背景下,云計算數(shù)據(jù)規(guī)模也逐步增大,人們逐漸意識到加強非結構化數(shù)據(jù)存儲的必要性,相比較于傳統(tǒng)非結構化數(shù)據(jù)存儲中系統(tǒng)煩瑣、應用成本高的問題,本文開發(fā)的存儲方法在保證數(shù)據(jù)完整性的基礎上還擁有較高的存儲速度,表現(xiàn)出良好的應用前景。