姚曉闖
1. 中國科學(xué)院遙感與數(shù)字地球所,北京 100094; 2. 中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源的重要組成部分。隨著空間信息技術(shù)的飛速發(fā)展,空間數(shù)據(jù)的采集手段日趨多元化,地理信息技術(shù)在各行各業(yè)當(dāng)中的應(yīng)用也更加廣泛和深入,由此也促使GIS大數(shù)據(jù)時(shí)代的到來。大數(shù)據(jù)是一把“雙刃劍”,高精度、廣覆蓋的矢量數(shù)據(jù)爆炸式地增長,在提升國家級(jí)宏觀科學(xué)決策、社會(huì)監(jiān)管、公共服務(wù)以及應(yīng)急決策管理能力等方面提供了良好的契機(jī);但同時(shí)如何有效地進(jìn)行組織與管理大規(guī)模的矢量數(shù)據(jù),使其發(fā)揮最大的效益,成為了目前實(shí)際應(yīng)用當(dāng)中迫切需要解決的難題。近些年來,云計(jì)算平臺(tái)Hadoop的異軍突起,基于分布式存儲(chǔ)和并行計(jì)算系統(tǒng)在大數(shù)據(jù)處理方面獲得了良好的性能,成為大數(shù)據(jù)分析的主流技術(shù)之一。本文在大數(shù)據(jù)時(shí)代的背景下,借助云計(jì)算平臺(tái)Hadoop的優(yōu)勢,結(jié)合我國土地行業(yè)信息管理系統(tǒng)的實(shí)際應(yīng)用需求,針對(duì)矢量大數(shù)據(jù)管理關(guān)鍵技術(shù)及其應(yīng)用模式,特別針對(duì)矢量大數(shù)據(jù)管理中的數(shù)據(jù)存儲(chǔ)模型、空間索引、數(shù)據(jù)轉(zhuǎn)換、空間查詢、數(shù)據(jù)可視化以及耕地質(zhì)量數(shù)據(jù)管理應(yīng)用等方面開展了探討和研究,提出了一套面向大規(guī)模矢量數(shù)據(jù)組織與管理的方法體系和關(guān)鍵技術(shù),并通過試驗(yàn)驗(yàn)證了本文研究內(nèi)容的可行性;同時(shí)設(shè)計(jì)與實(shí)現(xiàn)了云環(huán)境下全國耕地質(zhì)量等別數(shù)據(jù)庫管理原型系統(tǒng)。論文的研究內(nèi)容包括以下4個(gè)方面:
(1) 矢量大數(shù)據(jù)云存儲(chǔ)模型。為滿足云環(huán)境下矢量數(shù)據(jù)的處理和分析需求,本文結(jié)合矢量數(shù)據(jù)的特征以及Hadoop云平臺(tái)的優(yōu)勢,提出了矢量大數(shù)據(jù)云存儲(chǔ)模型——GeoCSV。首先,討論了現(xiàn)有矢量數(shù)據(jù)存儲(chǔ)模型的數(shù)據(jù)組織方式;其次,針對(duì)Hadoop分布式存儲(chǔ)和并行計(jì)算模型的數(shù)據(jù)特征進(jìn)行了研究,并在分析面向?qū)ο蟮目臻g幾何要素模型的基礎(chǔ)上,設(shè)計(jì)和實(shí)現(xiàn)了矢量數(shù)據(jù)云存儲(chǔ)模型GeoCSV。
(2) 矢量大數(shù)據(jù)分布式R樹索引方法。為提高大規(guī)模矢量數(shù)據(jù)的檢索效率,本文設(shè)計(jì)并實(shí)現(xiàn)了基于HDFS分布式存儲(chǔ)系統(tǒng)的矢量大數(shù)據(jù)分布式R樹空間索引。首先,在闡述空間索引原理的基礎(chǔ)上,結(jié)合分布式存儲(chǔ)的優(yōu)勢,討論了云環(huán)境下空間數(shù)據(jù)分布式索引機(jī)制。其次,針對(duì)矢量數(shù)據(jù)的分布不均和數(shù)據(jù)量大小不一的特征,提出了基于空間編碼的矢量數(shù)據(jù)劃分策略,并基于此實(shí)現(xiàn)了分布式R樹索引的并行構(gòu)建。最后,通過試驗(yàn)從索引質(zhì)量、負(fù)載均衡兩個(gè)方面驗(yàn)證了不同分布式空間索引算法的效率。
(3) 矢量大數(shù)據(jù)并行處理方法?;谝陨涎芯績?nèi)容,本文開展了矢量大數(shù)據(jù)并行處理方法的相關(guān)研究,主要包括3個(gè)方面:一是基于MapReduce編程模型實(shí)現(xiàn)了矢量數(shù)據(jù)的并行轉(zhuǎn)換算法;二是針對(duì)面向大規(guī)模的空間查詢需求,設(shè)計(jì)并實(shí)現(xiàn)了矢量數(shù)據(jù)并行查詢算法;三是針對(duì)大規(guī)模矢量數(shù)據(jù)的快速可視化的應(yīng)用需求,設(shè)計(jì)并實(shí)現(xiàn)了矢量數(shù)據(jù)瓦片金字塔模型的并行化快速構(gòu)建算法;同時(shí),結(jié)合實(shí)測數(shù)據(jù)對(duì)以上三部分處理算法進(jìn)行了試驗(yàn),驗(yàn)證了本文矢量數(shù)據(jù)并行處理算法的效率和可行性。
(4) 云環(huán)境下全國耕地質(zhì)量等別數(shù)據(jù)管理應(yīng)用?;谝陨祥_展的矢量大數(shù)據(jù)關(guān)鍵技術(shù)研究成果,本文結(jié)合土地信息系統(tǒng)行業(yè)實(shí)際應(yīng)用需求,設(shè)計(jì)了云環(huán)境下全國耕地質(zhì)量等別數(shù)據(jù)管理原型系統(tǒng)框架,并進(jìn)行了實(shí)際軟硬件環(huán)境的部署,對(duì)關(guān)鍵技術(shù)內(nèi)容進(jìn)行了測試和分析。通過該部分內(nèi)容,驗(yàn)證了本文研究內(nèi)容的可行性。