呂 雪 鋒,程 承 旗,席 福 彪
(1.民政部國家減災(zāi)中心,北京100124;2.民政部災(zāi)害評估與風(fēng)險防范重點(diǎn)實驗室,北京 100124;3.北京大學(xué)工學(xué)院,北京 100871;4.北京大學(xué)遙感與地理信息系統(tǒng)研究所,北京 100871)
?
地理空間大數(shù)據(jù)存儲管理的地理網(wǎng)絡(luò)地址研究
呂 雪 鋒1,2,程 承 旗3,席 福 彪4
(1.民政部國家減災(zāi)中心,北京100124;2.民政部災(zāi)害評估與風(fēng)險防范重點(diǎn)實驗室,北京 100124;3.北京大學(xué)工學(xué)院,北京 100871;4.北京大學(xué)遙感與地理信息系統(tǒng)研究所,北京 100871)
針對地理空間數(shù)據(jù)大數(shù)據(jù)分布式網(wǎng)絡(luò)存儲管理的地理網(wǎng)絡(luò)位置搜索問題,從地理網(wǎng)絡(luò)地址的域名角度,基于2n一維整型數(shù)組的全球經(jīng)緯度剖分格網(wǎng)(GeoSOT)框架提出一種具有地理涵義的空間信息存儲網(wǎng)絡(luò)空間域名地址,即Geonet域名,以統(tǒng)一標(biāo)識地理空間數(shù)據(jù)的空間區(qū)域位置與計算機(jī)存儲網(wǎng)絡(luò)的電子方位,實現(xiàn)用戶訪問的區(qū)域范圍、地理空間數(shù)據(jù)所屬地域范圍與空間信息存儲主機(jī)之間的一致性空間關(guān)聯(lián)。
地理空間大數(shù)據(jù);地理網(wǎng)絡(luò)地址;地理域名;分布式網(wǎng)絡(luò)存儲
隨著對地觀測系統(tǒng)、移動互聯(lián)網(wǎng)、云計算及基于位置的服務(wù)的快速發(fā)展,如何依托現(xiàn)代網(wǎng)絡(luò)更好地組織和管理大數(shù)據(jù)已經(jīng)成為普遍關(guān)注的話題[1-4]。其中,對于地理空間大數(shù)據(jù)的網(wǎng)絡(luò)存儲組織與管理,一個邏輯上全球覆蓋、物理上分散存儲、信息高效共享的分布式組織體系是必然的發(fā)展趨勢,而如何將地理空間大數(shù)據(jù)的空間特性和用戶訪問的區(qū)域性特征與現(xiàn)代網(wǎng)絡(luò)信息技術(shù)相結(jié)合,以提供地理空間數(shù)據(jù)的網(wǎng)絡(luò)位置發(fā)現(xiàn)與尋址框架,解決全局或全球地理網(wǎng)絡(luò)中各種地理空間數(shù)據(jù)的空間位置與地理網(wǎng)絡(luò)位置搜索的一致性問題,實現(xiàn)更高效的資源共享服務(wù)與調(diào)度,是全球地理空間大數(shù)據(jù)網(wǎng)絡(luò)化組織與管理所需解決的重要問題之一。
本文從地理網(wǎng)絡(luò)地址的域名角度,在基于2n一維整型數(shù)組的全球經(jīng)緯度剖分格網(wǎng)(Geographic Coordinate Subdivision Grid with One Dimension-Integral Coding on 2n-Tree,GeoSOT)框架下[5],通過全球固定劃分的格網(wǎng)單元(剖分面片)的地址編碼與現(xiàn)有互聯(lián)網(wǎng)絡(luò)域名編碼的結(jié)合,提出一種具有地理涵義的空間信息存儲網(wǎng)絡(luò)空間地址,即Geonet域名,以統(tǒng)一標(biāo)識地理空間數(shù)據(jù)的空間區(qū)域位置與計算機(jī)存儲網(wǎng)絡(luò)的電子方位。在這種基于地球剖分格網(wǎng)編碼的地理網(wǎng)絡(luò)地址架構(gòu)下,一方面從計算機(jī)網(wǎng)絡(luò)語義角度建立了地理空間數(shù)據(jù)存儲資源地址與剖分格網(wǎng)之間的映射關(guān)系,有利于根據(jù)用戶訪問的空間區(qū)域位置直接尋址定位到相應(yīng)的物理存儲資源,滿足應(yīng)急響應(yīng)需求下熱點(diǎn)區(qū)域空間數(shù)據(jù)的快速訪問;另一方面從地理空間數(shù)據(jù)的空時存儲角度建立了地理空間數(shù)據(jù)的空間區(qū)域位置與存儲資源之間的關(guān)聯(lián)關(guān)系,有利于同一地理空間區(qū)域的空間數(shù)據(jù)和存儲資源的管理,滿足不同區(qū)域范圍內(nèi)空間數(shù)據(jù)的差異化增長。
1.1 Geonet域名結(jié)構(gòu)定義
在GeoSOT地球剖分格網(wǎng)框架下,每個剖分格網(wǎng)單元的地址編碼采用度、分、秒及秒以下格網(wǎng)進(jìn)行分段編碼,編碼長度最長為64 bits,其四進(jìn)制1維編碼形式為“Gddddddddd-mmmmmm-ssssss.uuuuuuuuuuu”;其中,d、m、s、u分別表示度級、分級、秒級及秒以下編碼位,其分別取值為0、1、2、3的四進(jìn)制數(shù)[5]。那么,在GeoSOT剖分格網(wǎng)編碼下,地理網(wǎng)絡(luò)地址的域名可通過一個頂級域名“.geonet”,按照全球經(jīng)緯度格網(wǎng)的“度、分、秒”的剖分層級建立一個層次性的地理域名,每個域名對應(yīng)一個剖分格網(wǎng),其域名結(jié)構(gòu)由剖分格網(wǎng)編碼的秒級、分級、度級編碼和域名后綴構(gòu)成,即“ssssss.mmmmmm.ddddddddd.geonet”,如圖1所示。其中,由于GeoSOT剖分格網(wǎng)框架的第21層剖分格網(wǎng)的空間范圍為1″×1″,其對應(yīng)赤道附近邊長大約為32 m的區(qū)域范圍,可以滿足實際應(yīng)用中地理空間數(shù)據(jù)存儲組織的最小尺度需求,因此,基于GeoSOT剖分格網(wǎng)編碼的地理網(wǎng)絡(luò)域名結(jié)構(gòu)設(shè)計到第21級的秒級編碼即可。
圖1 基于GeoSOT剖分格網(wǎng)編碼的Geonet域名結(jié)構(gòu)定義
Fig.1 The domain name structure of the Geonet based on the GeoSOT subdivision grid coding
1.2 Geonet域名映射方法
根據(jù)上述Geonet域名結(jié)構(gòu)定義,Geonet域名尋址映射可分解用戶訪問的空間位置(經(jīng)緯度坐標(biāo))與Geonet域名之間的映射、Geonet域名與地理空間數(shù)據(jù)存儲主機(jī)IP地址之間的映射,即包括Geonet域名輸入的用戶層、解析層和IP映射層,如圖2所示。
圖2 Geonet域名映射方法
Fig.2 The domain name mapping method of Geonet
(1)用戶訪問的空間位置與Geonet域名之間的映射:在Geonet域名輸入的用戶層定義經(jīng)緯度坐標(biāo)輸入格式,將用戶訪問輸入的經(jīng)緯度坐標(biāo)(λ,φ)按照經(jīng)緯度“整秒、整分、整度”格式輸入,即“λsecondeφsecondn.λminuteeφminuten.λdegreeeφdegreen.geonet”(其中e、n分別標(biāo)識東經(jīng)、北緯);然后將經(jīng)緯度坐標(biāo)的十進(jìn)制經(jīng)度值和緯度值分別轉(zhuǎn)化為二進(jìn)制值,再將經(jīng)度值和緯度值的二進(jìn)制1維編碼按照緯向、經(jīng)向順序合成為四進(jìn)制1維編碼即得它所對應(yīng)的Geonet域名地址。例如,北京市世紀(jì)壇中心點(diǎn)經(jīng)緯度坐標(biāo)為(39°54′37.01″N,116°18′54.82″E),Geonet域名輸入的經(jīng)緯度格式為http://54e37n.18e54n.116e39n.geonet,其二進(jìn)制值為110110e100101n.010010e110110n.001110100e000100111n.geonet,對應(yīng)的二進(jìn)制1維編碼為110100110110.101100101100.000001110100111010.geonet,對應(yīng)的域名解析地址為310312.230230.001310322.geonet。
(2)Geonet域名與地理空間數(shù)據(jù)存儲主機(jī)IP地址之間的映射:在Geonet域名的IP映射層定義Geonet域名地址與主機(jī)IP地址之間一對一或一對多的映射關(guān)系,一種方法是通過現(xiàn)有的域名地址與IP地址映射的關(guān)系表來實現(xiàn),另一種方法是在現(xiàn)有計算機(jī)網(wǎng)絡(luò)IP地址協(xié)議基礎(chǔ)上嵌入GeoSOT剖分格網(wǎng)編碼,構(gòu)建GeoIP地址[6,7],直接形成Geonet域名與GeoIP地址之間的映射。例如,對于上文中的Geonet域名地址“310312.230230.001310322.geonet”,在IPv6網(wǎng)絡(luò)環(huán)境中,其映射的64位十六進(jìn)制GeoIP地址可為fec0:034d:acb0:1d3a:7952:1e08:cf83:1ae8(本地站點(diǎn)地址)。其中,fec0為IPv6本地站點(diǎn)的網(wǎng)絡(luò)前綴,034d:acb0:1d3a為在IPv6本地站點(diǎn)的子網(wǎng)ID編碼中嵌入的GeoSOT剖分格網(wǎng)編碼,7952:1e08:cf83:1ae8為主機(jī)的MAC編碼。
1.3 Geonet域名的特性分析
在基于GeoSOT地球剖分格網(wǎng)框架的Geonet域名地址定義下,Geonet域名地址的特性主要體現(xiàn)在以下方面:
(1)在域名地址編碼上,每個Geonet域名地址編碼對應(yīng)一個全球唯一的GeoSOT剖分面片編碼,它與計算機(jī)處理模式及經(jīng)緯度語義形成一致,能夠在四進(jìn)制1維、二進(jìn)制1維、十進(jìn)制2維和二進(jìn)制2維4種編碼之間快速轉(zhuǎn)換。
(2)在域名體系框架上,與美國斯坦福研究所SRI在數(shù)字地球概念的歷史背景下設(shè)計提出的GeoWeb體系相比[8,9],Geonet域名地址采用整性經(jīng)緯度四叉樹剖分,具有多尺度遞歸性,在體系框架上可以代替它。例如,在圖3中,GeoWeb域名“11e21n.3e7n.30e10n.geo”(其格式為minutes.degrees.tendegrees.geo)表示西南角為(17°21′N,33°11′E)的一個1′×1′格網(wǎng),在GeoSOT格網(wǎng)中,經(jīng)緯度(17°21′N,33°11′E)對應(yīng)的二進(jìn)制編碼形式為(000010001°010101′,000100001°001011′),其所對應(yīng)1′×1′格網(wǎng)的Geonet域名地址為021213.000120003.geonet,兩者具有一致性;再者,例如代表整個中國、印度和
圖3 Geonet域名與GeoWeb域名對比示意
Fig.3 Comparison between Geonet and GeoWeb
東南亞區(qū)域的Geonet域名地址可為“001.geonet”,其對應(yīng)GeoSOT剖分格網(wǎng)框架中第3級64°×64°面片,代表其中南部海域的Geonet域名地址為“0011.geo”,對應(yīng)第4級32°×32°面片,通過域名地址編碼的多尺度遞歸性可直接判斷其地域范圍之間的歸屬關(guān)系。
(3)在數(shù)據(jù)存儲調(diào)度上,每個Geonet域名地址對應(yīng)一個全球唯一的GeoSOT剖分面片,它具有以區(qū)域數(shù)據(jù)量變化為依據(jù)的面片動態(tài)擴(kuò)展性和以區(qū)域數(shù)據(jù)關(guān)注度為依據(jù)的面片動態(tài)調(diào)度性;并且由于GeoSOT剖分格網(wǎng)能夠一致性聚合測繪、氣象、海洋及世界各國主要的規(guī)格地理格網(wǎng)產(chǎn)品,所以其可管理屬于該剖分面片內(nèi)的各種地理空間數(shù)據(jù)。如圖4所示,在Geonet域名地址定義下,可根據(jù)屬于不同面片區(qū)域的數(shù)據(jù)存儲增長和關(guān)注度,按照GeoSOT剖分面片的四叉分裂方式和域名地址與計算服務(wù)器IP一對多的映射方式進(jìn)行地理空間數(shù)據(jù)及存儲主機(jī)的區(qū)域化監(jiān)測與動態(tài)擴(kuò)展,有利于超大規(guī)模存儲系統(tǒng)的區(qū)域性訪問檢索和系統(tǒng)維護(hù)。
圖4 基于Geonet域名地址的區(qū)域化管理特性示意
Fig.4 The regional management based on Geonet
2.1 地理空間大數(shù)據(jù)的Geonet域名組織架構(gòu)
在GeoSOT地球剖分框架及Geonet域名地址定義下,地理空間大數(shù)據(jù)的存儲管理可以通過建立用戶業(yè)務(wù)區(qū)劃范圍、地理空間數(shù)據(jù)所覆蓋或所屬的空間區(qū)域位置、地理空間數(shù)據(jù)存儲主機(jī)域名地址之間的一致性地理編碼關(guān)聯(lián)關(guān)系,將地理空間數(shù)據(jù)的元數(shù)據(jù)按照地理空間數(shù)據(jù)所屬的Geonet域名地址進(jìn)行區(qū)域化存儲管理,用戶可以按照各自業(yè)務(wù)區(qū)劃范圍直接進(jìn)行地理域名解析定位到相應(yīng)的數(shù)據(jù)存儲主機(jī),以形成面向地理空間大數(shù)據(jù)分布式網(wǎng)絡(luò)存儲管理的網(wǎng)絡(luò)位置發(fā)現(xiàn)與尋址框架。如圖5所示,地理空間大數(shù)據(jù)存儲管理的Geonet域名組織架構(gòu)可劃分為用戶視圖層、域名映射層和數(shù)據(jù)存儲層3個層次。
圖5 地理空間大數(shù)據(jù)存儲管理的Geonet域名組織架構(gòu)
Fig.5 The organization architecture of geospatial big data storage management based on Geonet
(1)在用戶視圖層,先根據(jù)各用戶業(yè)務(wù)區(qū)劃范圍或所管理的地理空間數(shù)據(jù)所屬地域范圍的尺度大小和位置判定其落在哪個或哪幾個GeoSOT剖分面片內(nèi)(這些剖分面片被稱為Geonet域名定位面片),然后利用它們所在Geonet域名定位面片的地址編碼統(tǒng)一標(biāo)識其空間尺度、位置和范圍信息,以形成各用戶訪問的區(qū)域范圍和所管理的地理空間數(shù)據(jù)與Geonet域名地址間的一致性空間區(qū)位關(guān)聯(lián)關(guān)系。
(2)在域名映射層,先將用戶訪問的區(qū)域范圍或地理空間數(shù)據(jù)所占據(jù)的Geonet域名定位面片的地址編碼按照1.2節(jié)中的Geonet域名映射方法轉(zhuǎn)換為對應(yīng)的Geonet域名地址編碼,然后利用Geonet域名地址編碼的空間包含或被包含關(guān)系定位到對應(yīng)的物理存儲主機(jī),以形成用戶訪問的區(qū)域范圍或地理空間數(shù)據(jù)所屬的區(qū)域范圍與物理存儲資源之間的Geonet域名地址映射。
(3)在數(shù)據(jù)存儲層,可在現(xiàn)有地理空間數(shù)據(jù)存儲系統(tǒng)保持不變的情況,在地理空間數(shù)據(jù)的元數(shù)據(jù)管理系統(tǒng)中增加一層具有Geonet域名地址的元數(shù)據(jù)服務(wù)器層,通過元數(shù)據(jù)關(guān)聯(lián)表方式記錄同一Geonet域名地址下的多源空間數(shù)據(jù)文件信息,以形成以Geonet域名地址為檢索鍵的面片空間化管理。
2.2 地理空間大數(shù)據(jù)的Geonet域名存儲規(guī)則
在上述地理空間大數(shù)據(jù)存儲管理的Geonet域名組織架構(gòu)下,地理空間數(shù)據(jù)的元數(shù)據(jù)被放置在哪個或哪幾個Geonet域名地址下的元數(shù)據(jù)服務(wù)器中,其存儲規(guī)則是根據(jù)地理空間數(shù)據(jù)所覆蓋或所屬地域范圍的最小外包矩形所對應(yīng)的Geonet域名定位面片及其個數(shù)來確定。如圖6所示,具體方法是:以經(jīng)緯度弧度為單位,依據(jù)地理空間數(shù)據(jù)的最小外包矩形的范圍大小選擇一個空間尺度相近的GeoSOT剖分層級Lk(k∈[0,21]),然后根據(jù)數(shù)據(jù)最小外包矩形的4個角點(diǎn)坐標(biāo)計算該地理空間數(shù)據(jù)在剖分層級Lk中所占據(jù)的剖分面片。
圖6 地理空間數(shù)據(jù)的Geonet域名存儲規(guī)則示意
Fig.6 The storage rule of geospatial data based on Geonet
(1)如圖6a所示,若設(shè)數(shù)據(jù)最小外包矩形的長度為DL,寬度為DW,GeoSOT剖分格網(wǎng)的邊長為Dk,當(dāng)DL≥DW且Dk+1≤DL (2)在確定用戶業(yè)務(wù)區(qū)劃范圍或所管理地理空間數(shù)據(jù)地域范圍的Geonet域名定位面片及其個數(shù)后,可結(jié)合數(shù)據(jù)管理部門用戶的存儲需求,按照Geonet域名地址與元數(shù)據(jù)服務(wù)器主機(jī)或虛擬機(jī)IP地址之間的一對一或一對多的映射關(guān)系來規(guī)劃部署元數(shù)據(jù)服務(wù)器的Geonet域名地址。例如圖6b所示,整個四川省的行政區(qū)劃范圍對應(yīng)的Geonet域名定位面片大小為8°×8°,其面片編碼分別為001122、001123、001300、001301,即部署在元數(shù)據(jù)服務(wù)器或虛擬機(jī)上Geonet域名地址分別為001122.geonet、001123.geonet、001300.geonet、001301.geonet,那么歸屬于四川省行政區(qū)劃范圍內(nèi)的各種地理空間數(shù)據(jù)都可依據(jù)其Geonet定位面片編碼存儲到對應(yīng)的Geonet域名地址下;若要存儲的地理空間數(shù)據(jù)所覆蓋的地域范圍也恰好占據(jù)這4個Geonet域名定位面片,那么就將該地理空間數(shù)據(jù)的元數(shù)據(jù)分別在這4個Geonet域名地址下各存儲一份。這種部署方式將同一地理數(shù)據(jù)文件信息復(fù)制備份到其它元數(shù)據(jù)服務(wù)器中,從而將用戶區(qū)域訪問的負(fù)載分?jǐn)偟蕉鄠€地理服務(wù)器上,提高了區(qū)域訪問與檢索效率。 2.3 地理空間大數(shù)據(jù)的Geonet域名尋址算法 在上述地理空間大數(shù)據(jù)的Geonet域名存儲規(guī)則下,面向用戶訪問區(qū)域范圍或地理空間數(shù)據(jù)存儲操作的Geonet域名尋址算法流程如圖7所示。 步驟1 先根據(jù)用戶訪問區(qū)域范圍或地理空間數(shù)據(jù)的經(jīng)緯度坐標(biāo)(λi,φi)(i=1,2,…,n)計算獲得它的最小外包矩形,然后按照2.2節(jié)中獲得Geonet域名定位面片的方法,計算得到其對應(yīng)的Geonet域名定位面片編碼{Cj}(j=1,2,3,4)。 步驟2 將獲得的面向用戶訪問區(qū)域范圍或地理空間數(shù)據(jù)存儲的Geonet域名定位面片編碼{Cj}按照1.2節(jié)中Geonet域名映射方法計算轉(zhuǎn)換為對應(yīng)的Geonet域名地址編碼{Dj}。 圖7 地理空間數(shù)據(jù)的Geonet域名尋址算法流程 Fig.7 The domain name addressing algorithm of Geonet 本文從全球地理空間的固定格網(wǎng)定位角度,在GeoSOT地理剖分格網(wǎng)框架下建立了一種面向地理空間大數(shù)據(jù)區(qū)域化存儲管理的地理網(wǎng)絡(luò)域名組織架構(gòu),為解決全局或全球多元地理空間數(shù)據(jù)的地理網(wǎng)絡(luò)位置發(fā)現(xiàn)與尋址提供了一種解決思路。在這種Geonet域名地址編碼下,可將各用戶業(yè)務(wù)區(qū)劃范圍、地理空間數(shù)據(jù)所屬的空間區(qū)域位置、地理空間數(shù)據(jù)存儲主機(jī)域名地址之間形成一致性地理編碼關(guān)聯(lián)關(guān)系,實現(xiàn)以球面剖分面片為基礎(chǔ)空間單元的地理網(wǎng)絡(luò)地址組織管理模式,從而有利于提高地理空間大數(shù)據(jù)的區(qū)域訪問與檢索效率。 [1] 劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版),2014,48(1):1-16. [2] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013,50(1):146-169. [3] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機(jī)學(xué)報,2013,36(6):1125-1137. [4] 劉經(jīng)南,方媛,郭遲,等.位置大數(shù)據(jù)的分析處理研究進(jìn)展[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2014,39(4):379-385. [5] 程承旗,任伏虎,濮國梁,等.空間信息剖分組織導(dǎo)論[M].北京:科學(xué)出版社,2012.51-54. [6] 關(guān)麗,呂雪鋒.多級地理空間網(wǎng)格框架及其關(guān)鍵技術(shù)初探[J].地理與地理信息科學(xué),2011,27(3):1-6. [7] 呂雪鋒,程承旗.基于地球剖分的空間信息區(qū)位標(biāo)識[J].高技術(shù)通訊,2014,24(4):333-346. [8] LECLERC Y,REDDY M,IVERSON L,et al.The GeoWeb——A New Paradigm for Finding Data on the Web[C].Proceedings of the International Cartographic Conference(ICC2001),Beijing,2001. [9] LECLERC Y,REDDY M,ERIKSEN M,et al.SRI′s Digital Earth Project[R].Technical Report No.560,Artificial Intelligence Center,SRI International,Menlo Park,CA.1,2002. Study on Geographic Network Address of Geospatial Big Data Storage Management LV Xue-feng1,2,CHENG Cheng-qi3,XI Fu-biao4 (1.NationalDisasterReductionCenterofChina,Beijing100124;2.KeyLaboratoryofIntegratedDisasterAssessmentandRiskGovernanceoftheMinistryofCivilAffairs,Beijing100124;3.CollegeofEngineering,PekingUniversity,Beijing100871;4.InstituteofRemoteSensingandGeographicalInformationSystem,PekingUniversity,Beijing100871,China) Aiming at the geographic network location search problem of the distributed network storage and management of geospatial big data,a kind of geographic domain name of spatial information storage network,namely Geonet domain name,is put forward based on the geographic coordinate subdivision grid with one dimension-integral coding on 2n-tree(GeoSOT).By means of the Geonet domain name to identify the regional location that geospatial data belong to and the electronic direction of computer storage network in a globally unified way,it can achieve the consistent spatial association among the area coverage of the user access,the geographic range of spatial data,and the storage host of spatial information. geospatial big data;geographic network address;geographic domain name;distributed network storage 2014-05-17; 2014-06-20 國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃(973計劃)項目(61399);國家863項目(2013AA3033) 呂雪鋒(1979-),男,博士,主要從事地理空間信息組織管理與災(zāi)害風(fēng)險評估研究。E-mail:lxfndrcc@163.com 10.3969/j.issn.1672-0504.2015.01.001 P208 A 1672-0504(2015)01-0001-053 結(jié)論