賀建英
電子政務(wù)平臺(tái)下HDFS中高效存儲(chǔ)上傳文件的方法
賀建英
在Hadoop的電子政務(wù)平臺(tái)中針對(duì)存儲(chǔ)成千上萬(wàn)的用戶上傳文件,利用HDFS提高文件的存儲(chǔ)效率。設(shè)計(jì)了一個(gè)在云存儲(chǔ)過(guò)程中小文件上傳存儲(chǔ)的處理方案。設(shè)定臨時(shí)容器來(lái)暫存上傳的小文件,使用定時(shí)器或臨時(shí)容器滿為臨界條件進(jìn)行文件的合并組合。通過(guò)增加NFS服務(wù)器和分離NameNode節(jié)點(diǎn)的職責(zé),建立相關(guān)子類來(lái)存儲(chǔ)和云同步服務(wù)信息,降低客戶端訪問(wèn)數(shù)據(jù)的壓力。設(shè)計(jì)一個(gè)簡(jiǎn)單的預(yù)測(cè)系統(tǒng)負(fù)荷的算法,使文件的合并組合在系統(tǒng)負(fù)荷較小時(shí)進(jìn)行,減少等待時(shí)間,提高效率。通過(guò)實(shí)驗(yàn)表明合理的設(shè)置臨時(shí)容器的大小和增加NFS服務(wù)器,在系統(tǒng)負(fù)荷低時(shí)能有效地提高HDFS存儲(chǔ)小文件的效率。
臨時(shí)容器;NFS;系統(tǒng)負(fù)荷;HDFS;存儲(chǔ)效率;云存儲(chǔ);
由于國(guó)家對(duì)電子政務(wù)建設(shè)的大力支持和投資,電子政務(wù)平臺(tái)的規(guī)化也逐漸趨于成熟。電子政務(wù)平臺(tái)中的數(shù)據(jù)也日趨龐大,除了需要存儲(chǔ)基本的數(shù)據(jù)外,為讓政務(wù)公開化、透明化、無(wú)紙化,系統(tǒng)還提供了電子辦公和在線交流等業(yè)務(wù),這些都是電子數(shù)據(jù),必須存儲(chǔ)在電子政務(wù)平臺(tái)中。但還有一些很重要的數(shù)據(jù)也必須要存儲(chǔ)在該平臺(tái)中,如需要通過(guò)掃描或者以附件上傳的文檔,這些文檔事先以紙質(zhì)或者電子的形式進(jìn)行傳遞,但最終還是會(huì)以電子數(shù)據(jù)的形式存儲(chǔ)到電子政務(wù)平臺(tái)中,方便存檔和后期的訪問(wèn)。在目前的設(shè)計(jì)中對(duì)這類數(shù)據(jù)的存儲(chǔ)較慢,有一定的瓶頸,將直接影響到整個(gè)電子政務(wù)平臺(tái)的存儲(chǔ)效率。在 Hadoop云平臺(tái)的電子政務(wù)系統(tǒng)中可以分布式處理這些數(shù)據(jù),提高數(shù)據(jù)的存儲(chǔ)和訪問(wèn)能力。
在大數(shù)據(jù)環(huán)境下Hadoop中的分布式文件系統(tǒng)HDFS已經(jīng)得到了廣泛的應(yīng)用,大大地提高了數(shù)據(jù)訪問(wèn)的吞吐量,但HDFS本身適合GB級(jí)甚至TB級(jí)的文件系統(tǒng),適用于處理大文件。在HDFS中處理大文件時(shí)會(huì)以64MB為單位進(jìn)行劃分,每64MB為一個(gè)分塊(block),并且這些文件是按
對(duì)Hadoop的HDFS存儲(chǔ)小文件效率低下的問(wèn)題,目前還沒(méi)有一個(gè)通用的解決方案。當(dāng)前主要是從兩個(gè)方面來(lái)考慮:一方面是利用 HDFS本身提供了四種解決方案[1]:Hadoop Archive、 Sequence File、 CombineFileInputFormat和TextInputFormat。 其 中 CombineFileInputFormat 和TextInputFormat是一種以類封裝的方式進(jìn)行存儲(chǔ),需要考慮數(shù)據(jù)具體的存儲(chǔ)位置,且會(huì)造成空間上的浪費(fèi)。另一方面是根據(jù)具體的應(yīng)用而對(duì)存儲(chǔ)模塊進(jìn)行處理組合的方式。
1.1 Hadoop Archive
Hadoop Archive[2]的思想是將小文件放在一個(gè)文件存儲(chǔ)容器中,將多個(gè)小文件打包成一個(gè)HAR文件,這樣多個(gè)小文件的block就減少成一個(gè)block,同時(shí)也減少了NameNode在內(nèi)存中的使用,但它仍然可以向客戶端提供對(duì)文件的透明訪問(wèn)。其缺點(diǎn)在于:一是HAR文件一旦創(chuàng)建,便不能再對(duì)打包的文件進(jìn)行更改。二是在創(chuàng)建Archive是會(huì)創(chuàng)建對(duì)應(yīng)的副本,會(huì)浪費(fèi)同樣多的存儲(chǔ)空間,造成存儲(chǔ)空間的浪費(fèi)等。
1.2 Sequence File
Sequence File[3]的思想是以
1.3 相關(guān)應(yīng)用的組合方式
WebGIS(地理信息系統(tǒng))是利用HAR技術(shù)結(jié)合系統(tǒng)數(shù)據(jù)的相關(guān)特性,將小文件合并成 64MB的大文件,并建立索引[4]的方式。在 BlueSky(中國(guó)電子教學(xué)共享系統(tǒng))中把同屬于一個(gè)分類的 PPT課件打包合并存儲(chǔ)在一個(gè)大文件中,提供解決存儲(chǔ)和讀取小文件效率的方法[5]。
以上的研究都是基于 HDFS提供的原理——文件的合并或者組合來(lái)解決小文件存儲(chǔ)效率的問(wèn)題。然而還存在如下的問(wèn)題:(1)在存儲(chǔ)時(shí)小文件的元數(shù)據(jù)信息以名字節(jié)點(diǎn)存儲(chǔ)時(shí)對(duì)內(nèi)存的壓力問(wèn)題。(2)在組合或合并文件時(shí)的界限值如何界定,能使效率達(dá)到最優(yōu)。(3)在系統(tǒng)運(yùn)行時(shí)其負(fù)載能否承受文件的合并組合并存儲(chǔ)。文獻(xiàn)[6][7]中分別提到在 HDFS中對(duì)小文件的存儲(chǔ)效率的方法,本文結(jié)合電子政務(wù)的實(shí)際情況,利用文獻(xiàn)[6][7]的思想,進(jìn)一步改進(jìn)HDFS中高效存儲(chǔ)文件的方法來(lái)提高文件存儲(chǔ)的效率。
在電子政務(wù)平臺(tái)中,文件是由不同的用戶上傳到云平臺(tái)中。在HDFS中是以NameNode來(lái)作為系統(tǒng)中唯一的管理者。文件在上傳合并時(shí)將會(huì)考慮到文件的實(shí)際大小、文件是否允許合并、文件合并時(shí)是以什么為界定條件等?;谶@些因素的考慮,提出系統(tǒng)架構(gòu)如圖1所示:
圖1 系統(tǒng)架構(gòu)圖
在本系統(tǒng)架構(gòu)中,當(dāng)用戶上傳文件到云存儲(chǔ)器時(shí)(過(guò)程1),在云存儲(chǔ)服務(wù)器內(nèi)部為了不使 HDFS中唯一的管理者NameNode節(jié)點(diǎn)負(fù)荷過(guò)重,造成效率低下,在文件和目錄的處理時(shí)將兩種事務(wù)分開,分別進(jìn)行處理。故增加 Access NameNode節(jié)點(diǎn)和Master NameNode節(jié)點(diǎn),增加NFS服務(wù)器。服務(wù)器在對(duì)用戶上傳的文件進(jìn)行處理時(shí)會(huì)借助于 NFS服務(wù)器(過(guò)程2),通過(guò)Access NameNode節(jié)點(diǎn)判斷用戶上傳的文件是否為小文件(過(guò)程 3),則將該小文件的索引號(hào)按先到先入的順序放入設(shè)定的容器中(過(guò)程 4)。當(dāng)容器被裝滿時(shí),則發(fā)送容器已滿的信號(hào)到控制中心(過(guò)程 5),另外設(shè)定定時(shí)器,當(dāng)達(dá)到指定的時(shí)間,不管容器中的小文件個(gè)數(shù)如何,則發(fā)送時(shí)間已到的信號(hào)到控制中心(過(guò)程5’)。此后控制中心將讀取容器內(nèi)的文件及相關(guān)信息,并對(duì)系統(tǒng)當(dāng)前的負(fù)荷進(jìn)行相關(guān)計(jì)算(過(guò)程 6),其算法將在后面介紹。通過(guò)對(duì)應(yīng)的算法對(duì)系統(tǒng)負(fù)荷的計(jì)算判斷是否進(jìn)行小文件的合并組合操作(過(guò)程 7)。當(dāng)小文件根據(jù)需要合并組合后將完成所上傳的文件和已合并的大文件之間的映射(過(guò)程 8),此映射將放在Access NameNode中。在系統(tǒng)中設(shè)計(jì)的Access NameNode節(jié)點(diǎn)和 Master NameNode節(jié)點(diǎn)都是繼承于NameNode節(jié)點(diǎn),都是文件系統(tǒng)的管理者,其目的是為了分擔(dān)由單一的NameNode節(jié)點(diǎn)管理整個(gè)系統(tǒng)的壓力。這兩個(gè)節(jié)點(diǎn)之間的元數(shù)據(jù)和相關(guān)信息都必須保持同步,同步分兩部分:一部分是數(shù)據(jù)塊的同步,是通過(guò)同時(shí)向兩個(gè)NameNode中匯報(bào)元數(shù)據(jù)來(lái)保持一致;二部分是目錄的同步,只要是依靠新增加的NFS服務(wù)器,通過(guò)Master NameNode將日志同步到NFS服務(wù)器上,而Access NameNode節(jié)點(diǎn)則實(shí)時(shí)讀取NFS服務(wù)器的日志來(lái)保持目錄樹信息的一致。本系統(tǒng)架構(gòu)的執(zhí)行邏輯如圖2所示:
圖2 執(zhí)行邏輯圖
通過(guò)邏輯結(jié)構(gòu)圖可以看出,對(duì)系統(tǒng)中用戶上傳的文件,在系統(tǒng)負(fù)荷不大,且容器裝滿或者已經(jīng)達(dá)到規(guī)定的時(shí)間,均可以把小文件合并成大文件,放在NFS服務(wù)器中。
系統(tǒng)的負(fù)荷預(yù)測(cè)主要是通過(guò)對(duì)已有的CPU的利用率和實(shí)時(shí)CPU的利用率的計(jì)算,推導(dǎo)出下一時(shí)刻系統(tǒng)CPU的利用率的方法。Analytic Hierarchy Process(層次分析法)[8]的思想就是把與決策有關(guān)的信息分解成目標(biāo)、方案和準(zhǔn)則的方法,并以此為基礎(chǔ)進(jìn)行分析,得到?jīng)Q策方法的一種有效方法。本系統(tǒng)在設(shè)計(jì)時(shí)借助于AHP的思想,把每一時(shí)刻的系統(tǒng)負(fù)荷屬性值分解成單一的屬性值,并以單一的屬性值建立對(duì)應(yīng)的矩陣,通過(guò)矩陣的相關(guān)變換,推導(dǎo)出用于計(jì)算的比較矩陣,通過(guò)原矩陣和變換矩陣的比較操作,計(jì)算出相對(duì)的最優(yōu)矩陣,進(jìn)而計(jì)算出決策屬性值,通過(guò)決策屬性值預(yù)測(cè)出下一時(shí)刻可能的系統(tǒng)負(fù)荷,其具體過(guò)程如下所示:
1)創(chuàng)建矩陣X,X中有元素bi(i=1,2,3…,n),是由從系統(tǒng)中提取的系統(tǒng)屬性的值構(gòu)成,則矩陣 X中的元素定義如公式(1):
2)設(shè)X矩陣中每行的和為sj,那么sj的值如公式(2):
設(shè)和的最大值為smax,最小值為smin, 則smax=max(sj),smin=min(sj)。設(shè)最大值和最小值相比較的結(jié)果為rb=smax/smin,把矩陣X進(jìn)行變換,得到對(duì)應(yīng)的矩陣X*,此時(shí)把X* 稱為判斷矩陣,當(dāng)xi>=sj時(shí),判斷矩陣的值如公式(3):
其中m,n是常量,在計(jì)算時(shí)為了計(jì)算的方便可以設(shè)定m=1,n=1。m表示一個(gè)小于rb的常量,而n則表示偏移量。偏移量是上兩次系統(tǒng)負(fù)荷預(yù)測(cè)值的比值。
當(dāng)xi 特殊情況下,當(dāng)smax=smin時(shí),xij*=1。 3)由X矩陣和X*進(jìn)行比較得到最優(yōu)矩陣Y,矩陣Y中的值如公式(5): 其中i,j,k∈(1,2,3……k)。從而得到系統(tǒng)負(fù)荷的權(quán)值tj,如公式(6): 4)通過(guò)矩陣X和系統(tǒng)負(fù)荷權(quán)值得到系統(tǒng)決策屬性值pi,如公式(7): 5)要得到系統(tǒng)在下一刻的負(fù)荷值,只需要根據(jù)時(shí)間順序來(lái)構(gòu)建矩陣 X,并分別根據(jù)公式(1)到公式(7),設(shè)在不同的時(shí)刻 time1,time2,time3…timem 所對(duì)應(yīng)的決策屬性值p1,p2,p3…pm所對(duì)應(yīng)的權(quán)重值分別為t1,t2,t3…tm,則可以推導(dǎo)出在timem+1時(shí)刻的系統(tǒng)負(fù)荷為pm+1,如公式(8): 通過(guò)算法可以順利的預(yù)測(cè)到系統(tǒng)下一時(shí)刻的負(fù)荷情況,方便地使小文件的合并組合在系統(tǒng)均衡的時(shí)刻進(jìn)行操作,從而避免了在系統(tǒng)負(fù)荷過(guò)大時(shí)等待文件的合并造成時(shí)間上的浪費(fèi),使得操作的效率低下。 為提高電子政務(wù)平臺(tái)中對(duì)用戶上傳的小文件的存儲(chǔ)效率,依據(jù)本文設(shè)計(jì)的系統(tǒng)架構(gòu),為每一上傳文件的用戶建立對(duì)應(yīng)的操作小文件的臨時(shí)容器。通過(guò)對(duì)用戶上傳文件的時(shí)間的測(cè)試(與網(wǎng)絡(luò)性能有關(guān))、合并組合文件的時(shí)間和上傳文件到 NFS服務(wù)器的時(shí)間等進(jìn)行分析。因讀取文件、合并文件及上傳文件都和存儲(chǔ)的NFS服務(wù)器有關(guān),只要提高了文件合并組合和存儲(chǔ)的效率,那么整個(gè)系統(tǒng)的效率也隨之提高。故在實(shí)驗(yàn)中分別測(cè)試為:(1)各個(gè)小文件讀取存放在容器中的時(shí)間。(2)小文件合并組合的時(shí)間;(3)合并組合后的文件上傳到云服務(wù)器的時(shí)間。 本文通過(guò)在IBM的服務(wù)器(Intel Xeon Processor E5405 2.0GHZ 12MB L2 1333MHZ 80W),操作系統(tǒng)為Ubuntu14.04,Hadoop版本為0.23.1。在服務(wù)器上使用Vmrare安裝好一臺(tái)虛擬機(jī)后再克隆出其余的4臺(tái)虛擬機(jī)建立一個(gè)集群,在每個(gè)虛擬機(jī)上分別安裝JDK1.8,Hadoop和ssh到集群中的主從節(jié)點(diǎn),設(shè)置一個(gè)主節(jié)點(diǎn),其余的為從節(jié)點(diǎn),設(shè)置對(duì)應(yīng)的網(wǎng)絡(luò)配置,保證各虛擬機(jī)之間能正常通信。 實(shí)驗(yàn)1中分別設(shè)置不同的容器大小,分別能存儲(chǔ)100,300,500,700,900,1100,1300,1500各文件,并測(cè)試在不同的容器中采用先進(jìn)先入得方式進(jìn)行操作,并按文件的大小升序排列。實(shí)驗(yàn)中文件的上傳跟網(wǎng)絡(luò)的性能有很大的關(guān)系,這里將忽略掉網(wǎng)絡(luò)對(duì)系統(tǒng)的影響,測(cè)試得到的平均時(shí)間如圖3所示: 圖3 平均耗時(shí)圖 從圖3可知,容器長(zhǎng)度越長(zhǎng),其相對(duì)耗時(shí)反而減少 ,故臨時(shí)存儲(chǔ)文件可以減少每次上傳的耗時(shí)。 實(shí)驗(yàn)2主要是針不同容器長(zhǎng)度,分別對(duì)里面存放的文件進(jìn)行20次合并組合,在4臺(tái)虛擬機(jī)器上得到平均耗時(shí)的實(shí)驗(yàn)數(shù)據(jù)如圖4所示: 圖4 組合平均耗時(shí)圖 在20次的組合中,容器的大小并沒(méi)有讓合并組合的耗時(shí)成比例的增加,從結(jié)果來(lái)看,容器的大小越大,其相對(duì)耗時(shí)反而減少。實(shí)驗(yàn)3中,當(dāng)文件被合并組合,將上傳到服務(wù)器中,根據(jù)系統(tǒng)架構(gòu),將先啟動(dòng)Master NameNode節(jié)點(diǎn),創(chuàng)建對(duì)應(yīng)的Access NameNode節(jié)點(diǎn),啟動(dòng)網(wǎng)絡(luò)服務(wù)器,同時(shí)啟動(dòng)創(chuàng)建的Access NameNode節(jié)點(diǎn)。再使Master NameNode和Access NameNode節(jié)點(diǎn)接收來(lái)自Client的上傳請(qǐng)求。根據(jù)容器的大小,設(shè)置合并組合后的文件大小分別為 40MB,130MB,200MB,280MB,360MB,440MB,520MB,600MB。不同合并組合的文件上傳操作耗時(shí)與最原始的 HDFS比較的結(jié)果如圖5所示: 通過(guò)實(shí)驗(yàn)可見(jiàn),在合并文件時(shí),容器的長(zhǎng)度在有效范圍內(nèi),如果容器長(zhǎng)度越長(zhǎng),上傳文件所需的時(shí)間相對(duì)越短,并且合并文件耗時(shí)相對(duì)也越少。借助于 NFS服務(wù)器,增加Master NameNode和Access NameNode節(jié)點(diǎn),把合并組合后的文件上傳到云服務(wù)器的耗時(shí)比傳統(tǒng)的 HDFS方式耗時(shí)更少。實(shí)驗(yàn)證明,根據(jù)電子政務(wù)平臺(tái)設(shè)計(jì)的解決云存儲(chǔ)用戶上傳的小文件的存儲(chǔ)效率的系統(tǒng)架構(gòu)的設(shè)計(jì)有一定的合理性。 本文根據(jù)電子政務(wù)平臺(tái)中需要接收成千上萬(wàn)用戶上傳的小文件的實(shí)際情況出發(fā),設(shè)計(jì)了一套解決小文件在云存儲(chǔ)中提高效率的解決方案。該方案在HDFS合并文件的基礎(chǔ)上進(jìn)一步改進(jìn),一方面利用容器存儲(chǔ)足夠的文件進(jìn)行合并;另一方面在云存儲(chǔ)中新增加 NFS服務(wù)器,并把請(qǐng)求從NameNode中分離出來(lái),利用Master NameNode和Access NameNode節(jié)點(diǎn)與NFS服務(wù)器同步存儲(chǔ)合并組合的文件。通過(guò)實(shí)驗(yàn)表明,該方法有一定的實(shí)用性。但本系統(tǒng)架構(gòu)也有需要改進(jìn)的地方。如存儲(chǔ)的臨時(shí)容器的最優(yōu)大小是多少?文件合并成大文件時(shí)的最優(yōu)值是多少?在容器內(nèi)部采用什么樣的算法才能最優(yōu)的為文件的合并服務(wù)?這些問(wèn)題還需進(jìn)一步研究。 [1] 李三淼, 李龍澍.Hadoop 中處理小文件的四種方法的性能分析[J].計(jì)算機(jī)工程與應(yīng)用.2014.12.30http://www. cnki.net/kcms/detail/11.2127.TP.20141230.1656.014.html [2] Rajeev Gupta, Himanshu Gupta, Ullas Nambiar, etal. Efficiently querying archived data using Hadoop[C].// 19th ACM conference on Information and Knowledge Management.2010:1301-1304. [3] Zhao Xiaoyong.Yang Yang,Sun Lili.et al.Metadata-aware small files storage architecture on Hadoop[C] .//Web Information Systems and Mining.2012:136-143. [4] Liu Xuhui.Han Jizhong.Zhong Yunqin.et al.Implementing WebGIS on Hadoop:A case study of imporving small file I/O performance on HDFS[C].//IEEE International Conference on Cluster Computing and Wordshops .2009:429-436. [5] Bluesky’s integraed LiDAR imaging system[J].Highwags. 2012.81(7):76. [6] 尹穎.林慶.林涵陽(yáng).HDFS中高效存儲(chǔ)小文件的方法[J].計(jì)算機(jī)工程與設(shè)計(jì).2015(2):406-409. [7] 余思.桂小林.黃汝維.莊威.一種提高云存儲(chǔ)中小文件存儲(chǔ)效率的方案[J].西安交通大學(xué)學(xué)報(bào).2011(6):59-63. [8] SATTY T L.Axiomatic foundation o f the analytic hierarchy process [J] .Management Scie nce, 1986 , 32(7):841-855. TP311 文獻(xiàn)標(biāo)志碼:A 2015.04.16) 1007-757X(2015)08-0076-04 四川省教育廳項(xiàng)目(15ZB0324) 賀建英(1979-),女,四川簡(jiǎn)陽(yáng)人,四川文理學(xué)院,計(jì)算機(jī)學(xué)院,碩士,講師,研究方向:軟件技術(shù),數(shù)據(jù)挖掘,物聯(lián)網(wǎng),成都,6350004 實(shí)驗(yàn)
5 總結(jié)