崔力升
(信陽(yáng)職業(yè)技術(shù)學(xué)院,河南 信陽(yáng)464200)
Google文件系統(tǒng)(Google File System,GFS),它能運(yùn)行在不可靠硬件設(shè)備上,對(duì)PB級(jí)別海量的數(shù)據(jù)進(jìn)行處理,并且能同時(shí)多個(gè)用戶(hù)并發(fā)訪(fǎng)問(wèn)服務(wù)器集群。文件系統(tǒng)中存放的數(shù)據(jù)絕大部分采用追加新數(shù)據(jù)而非覆蓋現(xiàn)有數(shù)據(jù)的方式進(jìn)行寫(xiě)操作。除了考慮到這些需要和技術(shù)特點(diǎn)后,GFS也考慮了分布式文件系統(tǒng)的共性設(shè)計(jì)目標(biāo):高可用性,大容量數(shù)據(jù)存儲(chǔ)和調(diào)度,簡(jiǎn)單的負(fù)載均衡和冗余。
圖1是Google文件系統(tǒng)的文件架構(gòu)圖。
圖1 GFS架構(gòu)
Hadoop分布式文件系統(tǒng) (Hadoop Distributed File System,HDFS)是一個(gè)設(shè)計(jì)為用在普通硬件設(shè)備上的分布式文件系統(tǒng)。將其運(yùn)行于計(jì)算機(jī)集群上,完成海量數(shù)據(jù)的計(jì)算,還包含了一個(gè)分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)。
Hadoop具有如下優(yōu)勢(shì):
1)具有更高的可用性,可以容忍多個(gè)節(jié)點(diǎn)同時(shí)失效
2)具有更好的可擴(kuò)展性,而且能夠?qū)崿F(xiàn)在線(xiàn)的動(dòng)態(tài)擴(kuò)展
3)分布式的元數(shù)據(jù)管理,消除集中管理的瓶頸
4)采用類(lèi)似于內(nèi)存數(shù)據(jù)庫(kù)的方式存儲(chǔ)元數(shù)據(jù),提供了元數(shù)據(jù)的訪(fǎng)問(wèn)速度
5)配置簡(jiǎn)單,方便管理,具有很好的實(shí)用性
圖2HDFS架構(gòu)
HDFS是主/從結(jié)構(gòu)的。一個(gè)集群有一個(gè)名字結(jié)點(diǎn),也就是主控制服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間并協(xié)調(diào)客戶(hù)對(duì)文件的訪(fǎng)問(wèn)。還有很多數(shù)據(jù)結(jié)點(diǎn),一般一個(gè)物理結(jié)點(diǎn)上部署一個(gè),負(fù)責(zé)它們所在的物理結(jié)點(diǎn)上的存儲(chǔ)管理。HDFS開(kāi)放文件系統(tǒng)的命名空間,用戶(hù)能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。在HDFS中,也是以塊的形式儲(chǔ)數(shù)據(jù)(同GFS一樣,文件被分成塊來(lái)存儲(chǔ)),這些數(shù)據(jù)塊存儲(chǔ)在一組數(shù)據(jù)結(jié)點(diǎn)中。名字結(jié)點(diǎn)執(zhí)行文件系統(tǒng)的名字空間操作(比如打開(kāi)、關(guān)閉、重命名文件或目錄,還決定數(shù)據(jù)塊到數(shù)據(jù)結(jié)點(diǎn)的映射)。數(shù)據(jù)結(jié)點(diǎn)負(fù)責(zé)提供客戶(hù)的讀寫(xiě)請(qǐng)求。名字結(jié)點(diǎn)對(duì)數(shù)據(jù)結(jié)點(diǎn)的數(shù)據(jù)塊進(jìn)行統(tǒng)一調(diào)度。
Hadoop分布式文件系統(tǒng)中的MapReduce是核心計(jì)算模型,它有一個(gè)基本要求:待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集,而且每一個(gè)小數(shù)據(jù)集都可以完全并行地進(jìn)行處理。
圖3
圖3中說(shuō)明了用MapReduce處理海量數(shù)據(jù)的流程,將大數(shù)據(jù)分解為成百上千的小數(shù)據(jù),各個(gè)數(shù)據(jù)分別由集群中的某一個(gè)結(jié)點(diǎn)生成中間結(jié)果,又有大量的結(jié)點(diǎn)對(duì)中間結(jié)果進(jìn)行計(jì)算處理,形成最終結(jié)果。
表1
盡管Google分布式文件系統(tǒng)和Hadoop分布式文件系統(tǒng)在自己的優(yōu)勢(shì)上各具特色,所以對(duì)Google分布式文件系統(tǒng)和Hadoop分布式文件系統(tǒng)在實(shí)際應(yīng)用中的各種性能上進(jìn)行對(duì)比。
[1]苗放,葉成名,劉瑞,孔祥生.新一代數(shù)字地球平臺(tái)與“數(shù)字中國(guó)”技術(shù)體系架構(gòu)探討[J].2007,6.
[2]郭曦榕,苗放,王華軍,劉瑞,等.基于G/S模式架構(gòu)的數(shù)字旅游服務(wù)平臺(tái)研究[J].遙感技術(shù)與應(yīng)用,2009.
[3]郭曦榕,苗放,王華軍,許義興,等.空間信息G/S網(wǎng)絡(luò)訪(fǎng)問(wèn)模式體系架構(gòu)初探[J].計(jì)算機(jī)應(yīng)用與軟件,2009.