岳陽 徐昆 康利剛
摘要:針對大數(shù)據(jù)高并發(fā)應(yīng)用的特點,設(shè)計了基于云技術(shù)的分布式大數(shù)據(jù)存儲系統(tǒng)結(jié)構(gòu)。該存儲系統(tǒng)結(jié)構(gòu)采用帶外模式的大規(guī)模開放集群存儲架構(gòu),通過高速網(wǎng)絡(luò)將通用存儲服務(wù)器中的CPU、內(nèi)存、網(wǎng)絡(luò)帶寬、磁盤轉(zhuǎn)速、總線性能進(jìn)行整合,形成統(tǒng)一的存儲系統(tǒng),使得存儲總體性能高于計算處理能力與網(wǎng)絡(luò)帶寬的傳輸速度,以此來屏蔽由于磁盤和總線性能提升緩慢造成的存儲性能瓶頸。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)管理;數(shù)據(jù)存儲;云技術(shù)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2020)09-0115-03
0 引言
大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合[1]。大數(shù)據(jù)提出者維克托指出,大數(shù)據(jù)是指[2]不用隨機分析法(抽樣調(diào)查)捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
大數(shù)據(jù)存儲是將這些數(shù)據(jù)集存儲在計算機中。大數(shù)據(jù)平臺系統(tǒng)主要為了支撐大數(shù)據(jù)存儲、分析、實時處理等使用場景,整體采用分布式系統(tǒng)的架構(gòu),該存儲架構(gòu)通過云平臺、虛擬化、負(fù)載均衡等技術(shù),將網(wǎng)絡(luò)上不同終端站點的數(shù)據(jù)資源形成邏輯上的共享資源,能夠根據(jù)用戶需求提供相應(yīng)的存儲數(shù)據(jù)。
大數(shù)據(jù)存儲系統(tǒng)作為數(shù)據(jù)統(tǒng)一處理和服務(wù)的平臺,是位于各業(yè)務(wù)信息系統(tǒng)之下的一種支撐性數(shù)據(jù)訪問平臺。其定位是為大數(shù)據(jù)的采集、整合、存儲、查詢、分析構(gòu)建統(tǒng)一的數(shù)據(jù)管理與服務(wù),為上層應(yīng)用提供數(shù)據(jù)運算、數(shù)據(jù)服務(wù)以及數(shù)據(jù)管理的能力。大數(shù)據(jù)存儲系統(tǒng)的核心意義[3]在于使數(shù)據(jù)存儲管理更為集中化,透明化,最終實現(xiàn)數(shù)據(jù)存儲服務(wù)平臺化,并且可以讓數(shù)據(jù)以資源和服務(wù)的方式對外提供。
1 大數(shù)據(jù)存儲系統(tǒng)功能需求
大數(shù)據(jù)存儲系統(tǒng)功能需求[4]如下:
(1)海量異構(gòu)數(shù)據(jù)存儲。大數(shù)據(jù)存儲系統(tǒng)應(yīng)具有通用化、平臺化、服務(wù)化的特點,能夠提供足夠的存儲空間和可靠的數(shù)據(jù)存儲能力,確保任何情況下數(shù)據(jù)可按需存取。存儲系統(tǒng)能夠?qū)⑺蟹?wù)器的處理器資源進(jìn)行整合,進(jìn)行并發(fā)數(shù)據(jù)處理,以提升存儲系統(tǒng)效率,提升存儲系統(tǒng)整體的處理能力。
(2)高性能存儲。存儲系統(tǒng)應(yīng)具有大容量、易擴展和快速高效的特點,以適應(yīng)數(shù)據(jù)快速膨脹、變化的特點,滿足應(yīng)用程序?qū)Υ鎯π阅茉鲩L的要求。
大數(shù)據(jù)存儲系統(tǒng)設(shè)計目標(biāo):面向海量多源異構(gòu)數(shù)據(jù)存儲管理需求,提供安全強化的異構(gòu)對象存儲管理能力,能夠為多態(tài)對象數(shù)據(jù)提供統(tǒng)一的存儲管理,并提供高安全保障能力,為各類應(yīng)用的狀態(tài)數(shù)據(jù)存儲、歷史數(shù)據(jù)管理提供支撐,具有非結(jié)構(gòu)化文本數(shù)據(jù)的高效內(nèi)容檢索能力,能夠為各類應(yīng)用文檔數(shù)據(jù)提供精準(zhǔn)的內(nèi)容檢索。
2 大數(shù)據(jù)存儲系統(tǒng)功能設(shè)計
面向大數(shù)據(jù)的存儲系統(tǒng)功能主要從存儲可靠性、存儲維護(hù)性和存儲擴展性三方面加強設(shè)計[5]。
(1)存儲可靠性設(shè)計。大數(shù)據(jù)平臺存儲的數(shù)據(jù)集中、數(shù)據(jù)量大、數(shù)據(jù)價值高,因此大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全顯得尤為重要,存儲系統(tǒng)可靠性是系統(tǒng)整體可靠性的關(guān)鍵,設(shè)計的重點在于存儲功能的劃分及系統(tǒng)自動備份恢復(fù)、故障檢測判斷等。設(shè)計目標(biāo)為不論系統(tǒng)發(fā)生任何故障,保證系統(tǒng)數(shù)據(jù)不丟失,同時保證數(shù)據(jù)使用的連續(xù)性和不間斷性,對上層應(yīng)用不造成影響。
(2)存儲維護(hù)性設(shè)計。存儲系統(tǒng)內(nèi)的服務(wù)器、硬盤等硬件設(shè)施采用通用化設(shè)計,便于用戶維護(hù)使用。系統(tǒng)平時自動監(jiān)測各設(shè)備及硬件的運行情況,出現(xiàn)故障時能夠自動探測定位,并按照負(fù)載均衡策略自動進(jìn)行數(shù)據(jù)備份或遷移操作,將出現(xiàn)故障的設(shè)備進(jìn)行數(shù)據(jù)存儲隔離。
(3)存儲擴展性設(shè)計。新一代業(yè)務(wù)應(yīng)用需要存儲系統(tǒng)能夠根據(jù)增加的數(shù)據(jù)量實時按需擴容,系統(tǒng)內(nèi)的服務(wù)器及硬盤數(shù)量等存儲硬件無上限要求。此外,存儲系統(tǒng)需要具有分級存儲功能,可以設(shè)置數(shù)據(jù)存儲所使用的硬件設(shè)備,經(jīng)常被訪問的數(shù)據(jù)放置在性能高的存儲硬件介質(zhì)中,以此提升存儲系統(tǒng)整體性能,同時實現(xiàn)硬件設(shè)備按需分享。對硬件設(shè)備進(jìn)行更新?lián)Q代時,可在系統(tǒng)中按需添加最新的存儲硬件以滿足應(yīng)用需求,提升存儲系統(tǒng)整體的靈活性。
3 大數(shù)據(jù)存儲系統(tǒng)結(jié)構(gòu)設(shè)計
大數(shù)據(jù)主要有三種存儲架構(gòu)[6],分別是基于嵌入式的存儲架構(gòu)、基于X86的存儲架構(gòu)以及基于云技術(shù)的存儲架構(gòu)。基于云技術(shù)的存儲架構(gòu)是目前使用比較廣泛的數(shù)據(jù)存儲結(jié)構(gòu),該結(jié)構(gòu)在大數(shù)據(jù)的存儲可靠性、存儲擴展性、存儲維護(hù)性等方面有許多技術(shù)優(yōu)勢。
基于云技術(shù)設(shè)計的分布式大數(shù)據(jù)存儲系統(tǒng)結(jié)構(gòu)主要由五部分組成,分別是:硬件層、存儲層、管理層、協(xié)議層、接口層,系統(tǒng)結(jié)構(gòu)如圖1所示。
硬件層:主要由存儲硬件及網(wǎng)絡(luò)設(shè)備組成,存儲節(jié)點采用標(biāo)準(zhǔn)X86架構(gòu)平臺,通過軟件可將異構(gòu)存儲設(shè)備、Flash存儲、存儲盤陣、分布式存儲和磁帶庫統(tǒng)一管理,不同的存儲設(shè)備池化管理。
存儲層:存儲管理層采用分布式文件系統(tǒng),分別部署在集群存儲的各個節(jié)點上,各節(jié)點上的軟件相互通信并協(xié)同工作,將集群中全部存儲節(jié)點的硬盤空間通過存儲池虛擬化技術(shù)融合成統(tǒng)一命名空間。利用數(shù)據(jù)生命周期管理技術(shù),根據(jù)文件元數(shù)據(jù)屬性(名稱、創(chuàng)建時間、修改時間、大小、路徑等)的不同,將文件的數(shù)據(jù)放置在統(tǒng)一存儲空間的不同的存儲池中,從而映射到不同的存儲硬件設(shè)備上。利用Flash設(shè)備進(jìn)行存儲加速,可將對IO敏感的應(yīng)用部署在Flash存儲設(shè)備上,根據(jù)Flash存儲池的空間使用情況自動遷移至普通磁盤或帶庫。
管理層:系統(tǒng)管理層實現(xiàn)集群管理功能和企業(yè)高級功能。實現(xiàn)集群化安裝部署和在線升級。同時具有集群網(wǎng)絡(luò)附屬存儲(Network Attached Storage,NAS)功能,可定義集群中的部分節(jié)點作為NAS網(wǎng)關(guān)節(jié)點,節(jié)點故障后,NAS服務(wù)IP會自動漂移至其它節(jié)點。同時具有企業(yè)級應(yīng)用場景中需要的數(shù)據(jù)壓縮、權(quán)限、配額、災(zāi)備站點數(shù)據(jù)同步等功能。
協(xié)議層:協(xié)議層是指與前端應(yīng)用軟件之間進(jìn)行數(shù)據(jù)通信的規(guī)程,可支持多種數(shù)據(jù)傳輸協(xié)議,以滿足用戶不同應(yīng)用場景的需求。如可以通過POSIX、CIFS、NFS、FTP、HTTP等傳輸協(xié)議支持文件數(shù)據(jù)傳輸。
接口層:接口層是可提供的對外接口,管理員可對整個存儲系統(tǒng)進(jìn)行監(jiān)控和管理。
該存儲系統(tǒng)結(jié)構(gòu)采用了云技術(shù)的特點和優(yōu)勢,在系統(tǒng)的體系架構(gòu)、數(shù)據(jù)的存儲結(jié)構(gòu)、數(shù)據(jù)的備份與恢復(fù)、數(shù)據(jù)的獲取與使用、負(fù)載勻衡等方面進(jìn)行了更合理及更方便用戶使用的優(yōu)化設(shè)計,底層數(shù)據(jù)傳輸采用流媒體結(jié)構(gòu),能夠大幅提高數(shù)據(jù)的存儲性能。
組網(wǎng)架構(gòu)采用存儲節(jié)點進(jìn)行組網(wǎng),這種組網(wǎng)方式為對稱式組網(wǎng)架構(gòu),統(tǒng)一存儲節(jié)點部署NCSFS元數(shù)據(jù)管理服務(wù)、集群監(jiān)控服務(wù)、數(shù)據(jù)存儲服務(wù)等功能模塊,存儲節(jié)點部署集群監(jiān)控服務(wù)及數(shù)據(jù)存儲服務(wù)等功能模塊,實際組網(wǎng)時,支持采用部分統(tǒng)一存儲節(jié)點+存儲節(jié)點的組網(wǎng)方式,也可以全部采用統(tǒng)一存儲節(jié)點進(jìn)行組網(wǎng)。采用這種對稱式組網(wǎng)架構(gòu)可以滿足大部分用戶業(yè)務(wù)需求,是目前主要應(yīng)用的組網(wǎng)架構(gòu)。
4 結(jié)語
針對大數(shù)據(jù)高并發(fā)應(yīng)用的特點,設(shè)計了基于云技術(shù)的分布式大數(shù)據(jù)存儲系統(tǒng)結(jié)構(gòu)。該存儲系統(tǒng)結(jié)構(gòu)采用帶外模式的大規(guī)模開放集群存儲架構(gòu),通過高速網(wǎng)絡(luò)將通用存儲服務(wù)器中的CPU、內(nèi)存、網(wǎng)絡(luò)帶寬、磁盤轉(zhuǎn)速、總線性能進(jìn)行整合,形成統(tǒng)一的存儲系統(tǒng),使得存儲總體性能高于計算處理能力與網(wǎng)絡(luò)帶寬的傳輸速度,以此來屏蔽由于磁盤和總線性能提升緩慢造成的存儲性能瓶頸。
前端的應(yīng)用服務(wù)器和后端的存儲節(jié)點及元數(shù)據(jù)節(jié)點通過千兆或萬兆以太網(wǎng)絡(luò)互連,可以保證存儲設(shè)備的性能輸出達(dá)到最大化。帶外模式可以很好的消除元數(shù)據(jù)通路與數(shù)據(jù)通路的相互干擾。元數(shù)據(jù)服務(wù)器的集群化和存儲服務(wù)器的集群化,使得整個系統(tǒng)中不存在像NAS系統(tǒng)那樣的性能瓶頸點,因此能夠完全滿足高并發(fā)應(yīng)用的需求。
參考文獻(xiàn)
[1] 孫莉娜.基于云計算的大數(shù)據(jù)存儲安全探討[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2018(2):77-78.
[2] 維克托.邁爾-舍恩伯格,肯尼斯.庫克耶.大數(shù)據(jù)時代[M].浙江人民出版社,2013:158-189.
[3] 王瑞通,李煒春.大數(shù)據(jù)基礎(chǔ)存儲系統(tǒng)技術(shù)研究[J].計算機技術(shù)與發(fā)展,2017,27(8):66-72.
[4] 陸云帆,諸振家.數(shù)據(jù)庫大數(shù)據(jù)量存儲結(jié)構(gòu)的研究分析[J].電子技術(shù)與軟件工程,2014(11):200.
[5] 劉圓,王峰,楊明川.面向大數(shù)據(jù)的分布式存儲技術(shù)研究[J].電信技術(shù),2015(6):35-38.
[6] 劉亮.基于虛擬化與分布式技術(shù)的云存儲研究[J].電腦知識與技術(shù),2012(11):211-212.