楊 柳 田生偉
(新疆大學軟件學院 新疆 烏魯木齊 830046)
?
基于分布式計算的遙感圖像水體識別研究
楊柳田生偉
(新疆大學軟件學院新疆 烏魯木齊 830046)
摘要為了提高遙感數據的處理速度,解決遙感信息提取中的數據密集與計算密集問題,將并行計算的思想引入到遙感圖像的處理與信息提取中,構建基于Landsat ETM +影像的分布式遙感圖像水體提取模型。以渭干河流域為研究區(qū),利用單波段閾值法、多波段譜間關系法、水體指數法等方法進行水體信息自動提取的實驗。實驗結果表明,該模型具有較高的識別精度,能夠快速識別水體,并具有穩(wěn)定的可擴展性和伸縮性。
關鍵詞大數據遙感水體識別并行計算
0引言
遙感信息提取的主要對象是陸地表層系統(tǒng)中各類自然和人文要素,水體是其中主要的自然要素之一,具體表現為湖泊、河流、濕地等形態(tài)[1]??焖?、準確地從衛(wèi)星遙感影像上獲取水體信息,已成為水資源調查及監(jiān)測濕地保護、洪水災害評估等領域的重要技術手段[2]。隨著遙感技術的不斷發(fā)展,水體大數據呈幾何級數倍增,而傳統(tǒng)的遙感圖像處理軟件數據處理能力有限,使得遙感圖像的處理速度成為遙感技術在不同領域應用和發(fā)展的瓶頸。
為了解決信息提取中的數據密集與計算密集問題,滿足對實時性要求較高的應用對速率的要求,并行計算受到國內外學者的普遍關注[3-5]。2004年,Google提出MapReduce[7,8]分布式計算模型。MapReduce模型隱藏了并行計算、數據分配、任務調度及負載均衡等復雜細節(jié),可以實現自動伸縮的大規(guī)模并行計算。由于MapReduce編程模式簡單,具有高性能和高容錯而得到廣泛的應用。
本文探討將分布式并行計算思想應用于遙感圖像的水體信息提取中,構建基于MapReduce的遙感圖像水體識別模型。選取渭干河-庫車河三角洲區(qū)域Landsat8影像,利用水體指數模型、單波段閾值法、波譜間關系模型等進行水體信息自動提取的實驗,水體識別效率得到了一定的提高。
1MapReduce
1.1MapReduce編程模型
MapReduce是一個處理超大數據集的分布式并行編程模型,它把整個任務拆分成多個子任務,并將這些任務分發(fā)給一個主節(jié)點(NameNode)。主節(jié)點將子任務進行分組并分發(fā)給自己管理的各個從節(jié)點(DataNode)共同完成。然后,通過整合各個節(jié)點的中間結果而得到最終結果。
在分布式計算中,MapReduce框架負責處理并行編程中分布式存儲、工作調度以及網絡通信等復雜問題,它把處理過程高度抽象為兩個函數:Map和Reduce。Map負責把任務分解成多個子任務,Reduce負責把多個子任務處理的結果匯總起來。
1.2MapReduce處理過程
MapReduce處理數據分為兩個階段:Map階段和Reduce階段。Map階段開始前,要對輸入數據進行“分片”(即將超大輸入數據劃分成大小相等的“數據塊”)。每個Map任務接收一個數據“分片”,然后產生一個
圖1 MapReduce模型執(zhí)行流程
2基于分布式計算的水體識別
2.1數據劃分及組織形式
在海量遙感數據并行計算中,數據塊的劃分方式和數據分塊的大小直接影響著并行計算的效率[9]。本研究采用矩形塊方式切分每幅影像,以默認數據分塊大小(64MB)為單位,對研究區(qū)影像進行切分。選取開源的Hadoop為實驗平臺,基于HDFS(HadoopDistributedFileSystem)和HBase(HadoopDatabase)的特點,將遙感影像文件存放到HDFS中。而其他元數據信息存入HBase中,并采取為同一數據塊建立多個副本以提高數據塊的可靠性與可用性(如圖2所示為B0、B1等數據塊存儲在HDFS中的示例)。
圖2 HDFS下遙感數據塊讀取流程
2.2基于MapReduce模型的的水體識別
常用的遙感影像水體信息提取方法主要是依據水體和其他地物在各個波段上光譜特征的差異(如圖3所示)。利用單個波段或多個波段構造一定的水體提取模型,將水體和其他地物區(qū)分開來。本文主要選取單波段閾值法、譜間關系法和水體指數法對水體信息進行提取。
圖3 典型地類波譜特征曲線
(1) 單波段閾值法
利用某種地物與背景地物在某一波段上的反射率(或像元灰度值)的差異,確定某一數值為區(qū)分該地物和背景地物的方法,稱為單波段閾值法[10]。本文選取TM5短波紅外波段數據,通過選擇一定的閾值T,小于該閾值的為水體,水體提取模型如下所示:
TM5 (1) (2) 譜間關系法 譜間關系法是多波段方法的一種,通過分析地物與水體的光譜特征屬性,在LandsatTM影像上,水體對不同波長的光譜反射率隨著波長的增加而減小,同時光譜反射率變化范圍有限。早期研究表明,通過比較TM2與TM3的光譜值和以及TM4與TM5的光譜值和,可以有效增加水體與地物的光譜差異。而這一譜間關系特點是水體特有的,可以有效的區(qū)分水體信息[11]。 (3) 水體指數法 水體指數法是水體識別應用最廣泛的方法,它通過選取與水體提取緊密相關的多個波段,構建水體指數數學模型,增強水體與背景地物之間的反差,實現水體信息的提取。本研究選取較為經典的歸一化植被指數(NDVI)、歸一化差分水體指數(NDWI)[12]和改進歸一化差異水體指數(MNDWI)[13]進行水體信息提取,其公式分別為: (2) (3) (4) 其中,NIR代表近紅外波段,即b4波段;Red代表紅光波段,即b3波段;Green代表綠光波段,即b2波段;MIR代表短波紅外波段,即b5或b7波段。 針對LandsatETM+遙感數據,利用上述方法對研究區(qū)水體進行識別。Map函數處理劃分后的遙感數據塊并對水體信息進行提取,輸出<影像名,地址>鍵值對。Reduce函數把所有key值(影像名)相同的鍵值對的value(影像地址)相加,輸出<影像名,影像水體識別結果地址>鍵值對。 3實驗結果與分析 3.1研究區(qū)及數據源 渭干河流域位于新疆阿克蘇以東225公里的沙雅縣境內,經緯度40°55′~41°20′N,82°30′~83°30′E。渭干河是塔里木河的支流之一,發(fā)源于天山北坡,由木扎爾特河、克孜爾河等六條支流匯合而成。研究選取2013年6月的渭干河Landsat8衛(wèi)星遙感影像作為實驗數據,并對影像進行包括輻射定標以及大氣校正的預處理。 3.2實驗環(huán)境 實驗采用Hadoop的完全分布式模式進行,集群包括4臺主機,其中1臺作為主節(jié)點(NameNode),其余3臺作為數據節(jié)點(DataNode)。在每臺主機上安裝LinuxUbuntu12.04、Java環(huán)境、JDK1.6和Hadoop0.20,搭建基于Hadoop的并行水體識別集群系統(tǒng)。計算機的硬件配置詳細信息如表1所示。 表1 計算節(jié)點配置信息 3.3實驗結果與分析 3.3.1實驗一正確性測試與分析 使用基于MapReduce的水體識別模型對渭干河-庫車河三角洲地區(qū)進行水體信息提取,部分水體提取結果如圖4所示。實驗的驗證樣本為試驗區(qū)域的高分辨率遙感影像,利用ENVI5.1軟件對其進行監(jiān)督分類得到真實參考源。 圖4 水體提取結果 為了確定水體信息提取的精度和可靠性,使用錯提率、kappa系數和總體精度等評價指標對5種分類結果進行評價(如表2所示)。 表2 不同水體提取方法精度比較 表2中,不同水體提取方法的精度由大到小順序依次為:MNDWI>NDWI>NDVI>譜間關系法>單波段閾值法。歸一化差異水體指數(MNDWI)能消除地形差異的影響,增強水體與建筑物的反差,因此識別率最高。而單波段閾值法只利用了水體在某一個波段上的特征,而忽略了水體在其他波段上的特征。此外,利用單波段閾值法不能很好地區(qū)分山區(qū)陰影與水體,影響了整體的識別精度。基于MapReduce的水體識別模型,5種水體指數提取精度都在90%以上,這表明了本文提出的模型具有較高的識別精度。 3.3.2實驗二可擴展性和伸縮性測試與分析 為了驗證模型的可擴展性和伸縮性,通過控制計算節(jié)點個數和數據量進行以下實驗。選取渭干河流域2013年的6幅Landsat8影像,分別選取1幅、2幅、4幅、6幅影像進行水體提取實驗。實驗數據集D1={1,2,4,6} (單位: 幅),影像詳細信息如表3所示。 表3 實驗數據詳細信息 由實驗一可知,使用歸一化差異水體指數(MNDWI)對遙感圖像進行水體提取的精度最高。因此,選用歸一化水體指數進行水體識別并對比識別耗費時間。圖5為計算節(jié)點不同的情況下,分別對1幅、2幅、3幅、4幅遙感圖像進行水體識別所耗費的時間。 圖5 不同數據量下水體識別耗費時間對比 此處引入加速比作為一個評價指標。加速比是同一個任務在單節(jié)點上運行時間與在多個相同節(jié)點構成的并行系統(tǒng)上運行時間的比率,用來衡量并行系統(tǒng)或程序并行化的性能和效果。加速比的計算公式如下: (5) 式中,Sp是加速比,T1是單節(jié)點下的運行時間,Tp是在有p個節(jié)點構成的并行系統(tǒng)中下運行時間。圖6為不同數據量下并行加速比與計算節(jié)點的關系。 圖6 計算節(jié)點數與加速比對應關系 從圖5、圖6我們可以看出:(1) 當數據量一定時,隨著計算節(jié)點的線性增加,水體識別的時間線性降低。隨著計算節(jié)點的增加,水體提取的加速比呈一定比例增加。當計算節(jié)點個數為2時,平均加速比為1.918;計算節(jié)點個數為3時,平均加速比為2.654;計算節(jié)點個數為4時,平均加速比為3.936。由此驗證了基于分布式計算的水體識別模型具有穩(wěn)定的可擴展性,可以滿足不同規(guī)模的大型計算問題。(2) 隨著數據量的線性增長,水體識別時間基本呈線性增長。這就驗證了提出模型的可伸縮性,可以適應大規(guī)模數據量的遙感影像水體識別。 4結語 通過引入分布式并行計算的思想,結合水體識別理論與技術方法,提出基于分布式計算的水體識別模型,以渭干河-庫車河三角洲地區(qū)為例進行實驗分析。實驗結果表明,基于分布式計算的水體識別模型具有較高的識別精度,能夠快速識別水體信息,并具有穩(wěn)定的可擴展性和伸縮性。下一步的研究工作主要是進一步完善基于分布式計算的水體識別模型,考慮水利設施(包括大壩、水庫、水電站)等信息的提取策略。 參考文獻 [1]LuoJC,ShengYW,ShenZF,etal.Waterinformationautomaticextractionbasedonmulti-resolutionremotesensingimageusingstepiterativemethod[J].JournalofRemoteSensing,2010,41(6):144-151. [2]DingF.Studyoninformationextractionofwaterbodywithanewwaterindex(NWI)[J].ScienceofSurveyingandMapping,2009,34(4):155-157. [3] 徐斌,楊秀春,陶偉國,等.中國草地產草量遙感監(jiān)測田[J].生態(tài)學報,2007,27(2):405-413. [4] 李昌凌,李文軍.基于NDV1的錫盟蘇尼特旗地表植被生物量的趨勢分析和空間格局[J].干旱區(qū)資源與環(huán)境,2010,24(3):147-152. [5] 陳國良,孫廣中,徐云,等.并行計算的一體化研究現狀與發(fā)展趨勢[J].科學通報,2009,54(8):1043-1049. [6] 蘇光大.圖像并行處理技術[M].北京:清華大學出版社,2002. [7]DeanJ,GhemawatS.MapReduece:Simpledataprocessingonlargeclusters[J].CommunicationsoftheACM,2005,51(1):107-113. [8]LammelR.Google’sMapreduceProgrammingModel-Revisited[M].Redmom,USA:DataProgrammabilityTeamMicrosoftCrop,2007. [9] 付天新,劉正軍,閆浩文.基于MapReduce模型的生物量遙感并行反演方法研究[J].干旱區(qū)資源與環(huán)境,2013,27(1):2-3. [10] 陳華芳,王金亮,陳忠,等.山地高原地區(qū)TM影像水體信息提取方法比較-以香格里拉縣部分地區(qū)為例[J].遙感技術與應用,2009,19(6):479-484. [11] 周成虎,駱劍承,楊曉梅,等.遙感影像地學理解與分析[M].北京:科學出版社,2001. [12]McFeetersSK.TheUseofNormalizedDifferenceWaterIndex(NDWI)intheDelineationofOpenWaterFeatures[J].InternationalJournalofRemoteSensing,1996,17(7):1425-1432. [13] 徐涵秋.利用改進的歸一化差異水體指數(MNDWI)提取水體信息的研究[J].遙感學報,2005,9(5):589-595. ON IDENTIFYING WATER BODY IN REMOTE SENSING IMAGES BASEDONDISTRIBUTEDCOMPUTING Yang LiuTian Shengwei (School of Software,Xinjiang University,Urumqi 830046,Xinjiang,China) AbstractIn order to improve the speed of remote sensing data processing and solve data-intensive and computing-intensive problems in remote sensing information extraction, we introduced the parallel computing idea to remote sensing image processing and information extraction, and built a Landsat ETM+images-based water body extraction model for distributed remote sensing image. We took Weigan River basin as the study region, used several methods such as single-band threshold, relationship between multiband spectra and water index, etc. to conduct experiments of automatic water body extraction. Experimental results demonstrated that the model has higher identification accuracy, it can identify water body information quickly, and has stable scalability and stretchability as well. KeywordsBig dataRemote sensingWater body identificationParallel computing 收稿日期:2014-11-26。國家自然科學基金項目(61363083,4126 1090);新疆研究生科研創(chuàng)新項目(XJGRI2014033)。楊柳,碩士生,主研領域:云計算,大數據。田生偉,教授。 中圖分類號TP391TP751 文獻標識碼A DOI:10.3969/j.issn.1000-386x.2016.06.034