朱明洋
(安徽理工大學(xué)空間信息與測繪工程學(xué)院,安徽 淮南 232001)
隨著遙感技術(shù)的不斷發(fā)展,基于衛(wèi)星影像的陸表水體監(jiān)測逐漸替代了傳統(tǒng)的人工監(jiān)測。從單波段的閾值法到多波段的水體指數(shù)法,水體監(jiān)測經(jīng)歷了從人工到全自動提取的轉(zhuǎn)變?,F(xiàn)如今機(jī)器學(xué)習(xí)技術(shù)正廣泛應(yīng)用于各個領(lǐng)域,基于機(jī)器學(xué)習(xí)的水體提取方法也逐漸成為水體提取的優(yōu)先選擇。
湖泊是重要的國土資源,對調(diào)節(jié)河流流徑、提供水源、繁衍水生物等有重要作用。三江源地區(qū)位于青藏高原東部,是長江、黃河及瀾滄江 (湄公河)的源頭匯水區(qū),也是高山不連續(xù)多年凍土區(qū)域,此處受人類活動影響較小,可以呈現(xiàn)湖泊最自然的變化狀態(tài)。青藏高原湖泊類型大致可以分為構(gòu)造湖、熱融湖和冰湖。如今,全球氣候變暖,多年凍土區(qū)域地下冰層融化,在融化過程中伴隨著物質(zhì)重分布的過程,在凍土層內(nèi)地下冰融化使地面發(fā)生沉陷,出現(xiàn)沉陷漏斗和淺洼地漏斗,洼地集水成湖,則稱為熱喀斯特湖,也稱為熱融湖[1]。由于青藏高原溫度升高,熱融湖大量蓄水,導(dǎo)致了凍土融化深度加大,湖面面積逐年擴(kuò)張。熱融湖是多年凍土退化的重要表現(xiàn),監(jiān)測熱融湖時空變化是開展凍土區(qū)域工程、地表地下水文工作的重要途徑之一。
遙感技術(shù)以其覆蓋廣、時效性強(qiáng)、信息量大以及不受地理環(huán)境影響等優(yōu)勢[2],為檢測水體的變化過程提供了良好的技術(shù)手段,特別是青藏高原地區(qū)等人類無法進(jìn)入的環(huán)境惡劣地區(qū)或高海拔地區(qū),遙感技術(shù)是監(jiān)測這類環(huán)境惡劣地區(qū)或高海拔地區(qū)的地表水體的唯一手段。
國內(nèi)外學(xué)者在水體識別的研究中已經(jīng)做了大量的工作。陸家駒等[3]針對專題制圖儀 (Thematic Mapper,TM)影像引進(jìn)比率測算法,大大增加了識別精度與速度,不足之處是無法識別大量的小區(qū)域水體; 汪金花等[4]提出了利用譜間關(guān)系法提取水體,相較于常規(guī)的閾值分類法,其分類精度更高; 武國瑛等[5]為解決閾值選取困難的問題,將改進(jìn)的OTSU算法用于閾值選取,結(jié)果表明該算法相較于原OTSU 算法極大地提高了水體信息的精度和速度;MCFEETERS[6]提出了歸一化水體指數(shù) (Normalized Difference Water Index,NDWI)的概念,利用了反射的近紅外輻射和可見綠光來增強(qiáng)水體特征,同時消除土壤和陸地植被的特征; 徐涵秋[7]提出了在NDWI 的基礎(chǔ)上改進(jìn)的歸一化水體指數(shù)(Modified Normalized Difference Water Index,MNDWI),可以很容易地區(qū)分陰影和水體; 沈占鋒等[8]提出了采用高斯歸一化水體指數(shù) (Gaussian Normalized Difference Water Index,GNDWI)提取水體模型,能夠應(yīng)對更為復(fù)雜的水體信息,并且能夠有效地剔除陰影的影響; 閆霈等[9]提出了區(qū)分干涸水系與背景噪聲的增強(qiáng)型水體指數(shù)8 (Enhanced Water Index 8,EWI8)可以快速準(zhǔn)確地提取半干旱地區(qū)的水系; 倪衡等[10]提出了一種區(qū)分灘涂、海岸帶地物信息的新型水體指數(shù)8 (New Water Index 8,NWI8); 陳旺等[11]提出了有效抑制背景地物干擾并有效降低云對水體提取影響的指數(shù)水體指數(shù) (EXPonential Water Index,EXPWI); FEYISA 等[12]提出了可以提高包括陰影在內(nèi)的深色表面區(qū)域水體分類精度的自動水體提取指數(shù) (Automated Water Extraction Index,AWEI); 彭凱峰等[13]提出了基于LBV 變換的水體提取算法,從而能夠更好地將水體與土壤植被建筑物等區(qū)分開來; 賈永紅等[14]提出使用K-T 變換提取多光譜影像的水體信息,從而能夠有效地區(qū)分水體與濕地的光譜特性。
由于傳統(tǒng)的分類方法存在著諸多問題,例如閾值選取具有主觀性、人工解譯過于耗時等,因此利用多棵決策樹樣本對樣本進(jìn)行訓(xùn)練并預(yù)測的分類器——隨機(jī)森林 (Random Forest,RF),被廣泛應(yīng)用與遙感分類中。PETERS 等[15]基于RF 與Logistic回歸分析,建立了水文分布模型。
針對青藏高原多年凍土區(qū)域,在復(fù)雜環(huán)境下要考慮云霧及陰影對于水體提取的影響,更要考慮湖冰及冰雪對于熱融湖提取的影響。本文選取最適宜提取多年凍土區(qū)域熱融湖的方法,實(shí)現(xiàn)水體提取的自動化。
青藏高原被稱為世界屋脊和第三極,該研究區(qū)位于青藏高原的三江源地區(qū)西部、可可西里國家級自然保護(hù)區(qū)西北處,面積大于1 km2的湖泊超過100個,年平均氣溫為-10~-4.1 ℃,最低氣溫可達(dá)-46.2 ℃,年平均降水量達(dá)173~495 mm。此處凍土面積超過保護(hù)區(qū)面積90%,凍土最厚超過400 m。熱融湖分布于高平原、山間盆地、洼地及小于3°的緩坡,伴生有凍脹丘、串珠狀河流等現(xiàn)象,湖水的補(bǔ)給來源為地下冰融化水和凍土層上水補(bǔ)給。地表水為瞬時的片流狀水系補(bǔ)給,匯水面積小[16]。圖1為研究區(qū)影像。
選取Landsat8-OLI 數(shù)據(jù),數(shù)據(jù)獲取時間為2019 年8 月10 日。陸地成像儀 (Operational Land Imager,OLI)包括9 個波段,空間分辨率為30 m,其中包含1 個15 m 的全色波段,成像寬幅為185 km×185 km。OLI 包括了增強(qiáng)型專題制圖儀(Enhanced Thematic Mapper Plus,ETM+)傳感器的所有波段,新增了藍(lán)色波段和短波紅外波段。熱紅外 傳 感 器 (Thermal Infrared Sensor,TIRS)包 括2 個單獨(dú)的熱紅外波段,空間分辨率為100 m。表1為Landsat 8 的傳感器參數(shù)。
圖1 熱融湖提取的研究區(qū)影像
表1 Landsat8 的傳感器參數(shù)
相較于單波段閾值法與多波段譜間關(guān)系法,水體指數(shù)的應(yīng)用更為廣泛。水體指數(shù)算法已經(jīng)過多年的發(fā)展與改進(jìn),在MCFEETERS 提出基于綠波和近紅外波段的NDWI 后,徐涵秋等相繼提出了MNDWI,EXPWI,AWEI,EWI8 等。
針對不同的地物特點(diǎn),不同的水體指數(shù)算法具有各自不同的優(yōu)勢。NDWI 可以有效地抑制非水體,但難以區(qū)分土壤和陰影; MNDWI 對人工地物、陰影、植被有較好的抑制作用,難以消除大氣影響; GNDWI 適用于細(xì)小河流的提取; NWI8 適用于Landsat8 數(shù)據(jù)的水體提??; AWEI 分為AWEInsh 和AWEIsh,分別適用于沒有陰影和有陰影的水體提??; EWI8 適用于提取半干旱地區(qū)的水系,但是提取濕潤地區(qū)的水系則受大氣噪聲的影響較大; EXPWI 能夠有效地抑制云、氣溶膠的影響,從而適用于提取微弱水體信息; 此外,還有穗帽水體 (Tasseled Cap Water,TCW)、脈沖神經(jīng)網(wǎng)絡(luò) (Spiking Neural Network,SNN)等水體指數(shù)算法。表2 為各種水體指數(shù)算法; 圖2 為各種水體指數(shù)算法的提取結(jié)果。
表2 各種水體指數(shù)算法匯總表
圖2 各種水體指數(shù)算法的提取結(jié)果
RF 作為一種基于決策樹學(xué)習(xí)器的集成學(xué)習(xí)方法,利用隨機(jī)選擇的特征和樣本集的決策樹作為其弱學(xué)習(xí)器,采用所有的決策樹投票結(jié)果得到最后的結(jié)果。RF 算法是當(dāng)下最熱門的算法之一,其容易實(shí)現(xiàn)、計算所需的環(huán)境簡單且投票結(jié)果精度高,成為當(dāng)下水體識別中廣泛應(yīng)用的算法。對于熱融湖水體識別來說,RF 能夠在保證較高精度的同時又具有很好的穩(wěn)健性。
RF 是一種集合分類方法,先構(gòu)建一組分類器,再通過投票決定最終的預(yù)測分類結(jié)果。最常用的集合分類方法有RF,Bagging 和Boosting。RF 是比較好的集合分類方法,集成一組樹狀分類器。在RF算法中,N 為訓(xùn)練樣本個數(shù),M 為總的特征數(shù)目。輸入特征數(shù)目m,用于確定決策樹上一個節(jié)點(diǎn)的決策結(jié)果,其中m 應(yīng)遠(yuǎn)小于M。在N 個訓(xùn)練樣本中做有放回抽樣,取樣次數(shù)為N 次,構(gòu)成一個訓(xùn)練集; 并使用未抽到的樣本作為預(yù)測,評估其誤差。訓(xùn)練每一個節(jié)點(diǎn)時,選擇m 個特征,決策樹上每一個節(jié)點(diǎn)的確定都是由這些特征確定的。根據(jù)這m 個特征,計算其最佳的分裂方式。每棵決策樹都會完整進(jìn)行而不會中斷,這在整個流程進(jìn)度完成后會被模型采用。圖3 為隨機(jī)森林簡化圖的構(gòu)建模型; 圖4 為隨機(jī)森林算法的提取結(jié)果。
圖3 隨機(jī)森林簡化圖的構(gòu)建模型
圖4 隨機(jī)森林算法的提取結(jié)果
在利用各種水體指數(shù)算法及RF 算法進(jìn)行水體提取后,為驗(yàn)證精度,對原始圖像進(jìn)行目視解譯,選取了超過500 個樣本點(diǎn)進(jìn)行神經(jīng)網(wǎng)絡(luò)分類,作為精度驗(yàn)證的驗(yàn)證數(shù)據(jù)。精度分析主要是通過混淆矩陣來評價樣本精度?;煜仃?(Confusion Matrix)也稱為誤差矩陣,混淆矩陣中將樣本的真實(shí)類別屬性和模型預(yù)測結(jié)果分為4 類: 一是True Positive,即樣本的真實(shí)類別為正,并且模型預(yù)測也為正; 二是True Negative,即樣本的真實(shí)類別為正,模型預(yù)測為負(fù); 三是False Positive,即樣本的真實(shí)類別的負(fù),模型預(yù)測為正; 四是False Negative,即樣本的真實(shí)類別為負(fù),模型預(yù)測也為負(fù)。選擇Kappa 系數(shù)、總體精度、用戶精度、制圖精度作為精度評價指標(biāo),得出各種水體指數(shù)算法的提取結(jié)果精度評價,見表3。
表3 各種水體指數(shù)算法的提取結(jié)果精度評價
根據(jù)水體提取結(jié)果和精度評價可知,傳統(tǒng)的NDWI 及EWI8 相較于改進(jìn)的MNDWI 等水體指數(shù)算法,能更加有效區(qū)分水體區(qū)域與冰雪覆蓋區(qū)域;TCW 在區(qū)分冰雪覆蓋區(qū)域與土壤邊界時混淆程度較大,但能夠成功區(qū)分大部分冰雪覆蓋區(qū)域與水體區(qū)域。
在RF 分類之后,并且經(jīng)過多數(shù) (Majority)分析、少數(shù) (Minority)分析、聚類處理之后,即可利用ArcGIS 計算熱融湖面積。根據(jù)熱融湖面積統(tǒng)計可知,0.01~0.02 km2的熱融湖數(shù)量占到了熱融湖總數(shù)量的20%,小于0.02 km2的熱融湖數(shù)量所占比例近乎50%。由此可得,該研究區(qū)熱融湖大部分處于初生階段,同時反映了多年凍土的退化情況較為嚴(yán)重。
Landsat8-OLI 影像用于獲取可見光、近紅外、短波紅外波譜范圍的遙感圖像,并采用推掃式結(jié)構(gòu)設(shè)計,使其具有了很好的幾何穩(wěn)定性,獲取的圖像質(zhì)量也更好。OLI 獲取的遙感圖像輻射分辨率達(dá)到12 b,圖像的幾何精度和數(shù)據(jù)信噪比也更高了。利用Landsat8-OLI 影像進(jìn)行水體指數(shù)的運(yùn)算,拉大了水體和非水體的灰度值,使得水體更易提取。本文比 較 了NDWI,MNDWI,NWI8,AWEI,EWI8,TCW,SNN 等水體指數(shù)算法,根據(jù)水體提取結(jié)果和精度評價可知,NDWI 與EWI8 在提取多年凍土區(qū)域水體時精度更高; 在利用RF 進(jìn)行水體提取時,通過建立訓(xùn)練集,區(qū)分出冰雪、河道、湖面,精度更高,且效果最好。
當(dāng)前,由于青藏高原的自然環(huán)境比較惡劣,導(dǎo)致大部分觀測局限于遙感技術(shù)手段,如何通過有限的遙感技術(shù)手段獲取無限的資源是目前應(yīng)該要考慮的主要問題。陳前等[17]利用卷積神經(jīng)網(wǎng)絡(luò)和Deeplabv3 語義分割神經(jīng)網(wǎng)絡(luò),探討了深度學(xué)習(xí)在水體提取中的應(yīng)用能力。在當(dāng)前的地球大數(shù)據(jù)背景下,深度學(xué)習(xí)極大地提高了海量地理空間數(shù)據(jù)服務(wù)于科學(xué)研究的價值與效率,因此未來可以嘗試使用深度學(xué)習(xí)算法進(jìn)行水體提取。