羅信,閆奇奇,宋思涵,杜泓達(dá),蘭志璽,龍穎波
(長(zhǎng)江大學(xué)地球科學(xué)學(xué)院,湖北 武漢 430100)
辮狀河道在河流沉積體系中分布廣泛,多發(fā)育在山區(qū)或河流上游的辮狀河段、辮狀河與三角洲的結(jié)合處,以及沖積扇上。辮狀河道信息是研究辮狀河沉積特征,識(shí)別沉積環(huán)境重要信息,對(duì)其幾何特征的識(shí)別和表征對(duì)河流沉積體系現(xiàn)代沉積研究具有重要意義。
近年來,隨著各類遙感圖像數(shù)據(jù)和遙感解譯軟件工具易得性和應(yīng)用性的提高,遙感監(jiān)測(cè)被廣泛應(yīng)用于各種地物的提取,其中用于水體信息提取遙感方法不斷推陳出新。沈占鋒等提出采用高斯歸一化水體指數(shù)GNDWI 提取河流水體的模型,使得指數(shù)能夠更大程度上保證河流提取的連續(xù)性,并通過DEM的輔助實(shí)現(xiàn)了其他干擾信息的去除。丁鳳在對(duì)水體及其背景地物進(jìn)行光譜特征分析的基礎(chǔ)上,結(jié)合水體在近紅外和中紅外波段均具有強(qiáng)吸收性這一典型特征,提出了一種新型的水體指數(shù)NWI。曹子榮采用SVM 監(jiān)督分類方法進(jìn)行地表水體提取試驗(yàn),證明了SVM 方法在同質(zhì)性較好地表區(qū)域進(jìn)行分類的適用性。陳云等用基于影像多種特征的CART決策樹分類方法進(jìn)行地物分類,結(jié)論是分類精度較高,尤其較好地提取了圍網(wǎng)養(yǎng)殖區(qū)和建設(shè)用地。那曉東等以三江平原東北部沼澤濕地為例,利用分類回歸樹算法進(jìn)行分類提取,發(fā)現(xiàn)分類精度較最大似然監(jiān)督分類方法有明顯提高,是內(nèi)陸淡水沼澤濕地信息提取的有效手段。
基于影像分類的方法與基于指數(shù)計(jì)算的方法都有一定的缺點(diǎn)。單一地使用現(xiàn)有的水體提取方法均會(huì)混淆一部分地物。使用基于影像的提取的方法,基本可以提取出水體,但仍有小部分的河灘歸為水體,且一小部分水體被誤分為其他地物,尤其對(duì)辮狀河道這種形態(tài)復(fù)雜的水體提取存在明顯的局限性。決策樹分類方法充分利用了空間輔助信息,對(duì)影像的多個(gè)特征變量進(jìn)行選擇性組合,識(shí)別繁多而有效的信息,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的分類、預(yù)測(cè)和挖掘,具有分類精度高,速度快的優(yōu)點(diǎn)。因此,本文基于CART 的自動(dòng)決策樹分類法,以勒拿河入??诘倪^渡帶為例,利用Landsat 8數(shù)據(jù)源,進(jìn)行辮狀河道的提取方法研究。
研究區(qū)位于俄羅斯的薩哈共和國(guó)布倫斯基區(qū)的勒拿河入??诘倪^渡帶。該區(qū)域夏季短暫,每年冰封期長(zhǎng)達(dá)八個(gè)月,具體地理位置為71°0′58.50″~73°22′54.98″N,124°2′49.10″~131°44′29.39″E(圖1)。勒拿河河床上以砂為主,礫石含量較低,屬于砂質(zhì)辮狀河,它水道和心灘壩較礫質(zhì)辮狀河穩(wěn)定,河漫灘寬7~15km,其上遍布湖沼,多河汊,航道變化無常,水深常在16~20m,彎曲度低,小于1.5,分叉系數(shù)大于1,對(duì)其進(jìn)行河道水體提取存在一定的難度。
圖1 研究區(qū)原始影像圖
本文選取的數(shù)據(jù)是2018 年6 月28 日Landsat 8 OLI_TIRS的衛(wèi)星獲取到的研究區(qū)域遙感影像數(shù)據(jù),影像數(shù)據(jù)來源于中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心開發(fā)建設(shè)的“地理空間數(shù)據(jù)云”(http://www.gscloud.cn/search),該數(shù)據(jù)已經(jīng)經(jīng)過幾何校正和地形校正,因此僅需對(duì)下載的數(shù)據(jù)以ENVI 作為圖像預(yù)處理軟件進(jìn)行輻射校正、大氣校正、圖像裁剪處理。圖2顯示的是研究區(qū)域主要地物的波譜曲線,可以發(fā)現(xiàn)在波段5(近紅外波段)中,水體與其他類型地物的光譜曲線存在的明顯差別,因此在使用自動(dòng)決策樹提取水體前,根據(jù)研究區(qū)地物在近紅外波段的特點(diǎn)進(jìn)行特征數(shù)據(jù)集的構(gòu)建,提高水體提取的精確度。
圖2 研究區(qū)主要地物光譜曲線圖
Mcfeeters.S.K 提出的歸一化差異水體指數(shù)(NDWI)通過利用水體在不同波段的吸收反射特性進(jìn)行比值計(jì)算,可達(dá)到抑制植被信息,增強(qiáng)水體信息的目的。水體在綠波段反射率高,在近紅波段反射率低而植被恰好相反(圖2),基于此將綠波段和近紅外波段的差與和進(jìn)行比值運(yùn)算,增強(qiáng)了水體的特征,公式如下:
其中,Green 表示綠波段;NIR 表示近紅外波段。在Landsat8 OLI影像中,分別為2,4波段。
本文采用基于CART的自動(dòng)決策樹分類法對(duì)影像對(duì)象進(jìn)行分類,主要包括生成決策樹樹與決策樹剪枝兩個(gè)步驟。首先基于訓(xùn)練數(shù)據(jù)集,遞歸構(gòu)建二叉決策樹;然后用驗(yàn)證數(shù)據(jù)集對(duì)生成的樹進(jìn)行剪枝,并選擇最優(yōu)子樹,以損失函數(shù)最小作為剪枝的標(biāo)準(zhǔn)。其中CART分類樹的剪枝過程中損失的度量采用基尼系數(shù),其定義如下:
其中,(/)是訓(xùn)練樣本集中隨機(jī)抽取的某樣本當(dāng)其測(cè)試變量值為時(shí)屬于類的概率;n()為訓(xùn)練樣本中測(cè)試變量值為時(shí),屬于第類的樣本個(gè)數(shù);()為訓(xùn)練樣本中該測(cè)試變量值為的樣本個(gè)數(shù);為類別個(gè)數(shù)。由于每次分割都只將樣本集劃分為兩個(gè)子集,因此最終生成的決策樹是一個(gè)二叉樹。
在進(jìn)行決策樹分類時(shí),合適的波段組合有利于提高分類精度。為了進(jìn)一步提高水體的分類精度,對(duì)預(yù)處理后的研究影像分別進(jìn)行NDWI 水體指數(shù)法和ISODATA分類的操作,其中NDWI方法可突出水體的基本信息,ISODATA 分類法則對(duì)波段信息進(jìn)行聚類,將兩種方法的結(jié)果影像與原始影像進(jìn)行組合,構(gòu)建特征數(shù)據(jù)集。在組合形成的特征數(shù)據(jù)集上進(jìn)行訓(xùn)練樣本的選取,建立分類規(guī)則。實(shí)驗(yàn)中主要是通過目視方法來確定地物的特征種類,在分析了研究區(qū)域的主要地物類型后,確定了沙地、裸地、植被、水體、草地五種主要地物。在ENVI 5.3軟件中,利用CART 擴(kuò)展工具對(duì)研究區(qū)進(jìn)行分類,最后選擇分類后的水體,將分類結(jié)果轉(zhuǎn)換為矢量文件輸出。具體實(shí)驗(yàn)流程如圖3所示。
圖3 總體分類流程圖
通過波段組合的方法,將預(yù)處理后影像的數(shù)據(jù)、NDWI 指數(shù)數(shù)據(jù)、ISODATA 分類數(shù)據(jù)進(jìn)行波段組合,合并成9個(gè)波段的特征數(shù)據(jù)集,用于本文決策樹分類。圖4中(a),(b),(c)和(d)分別是原始影像、NDWI指數(shù)數(shù)據(jù)、ISODATA 分類數(shù)據(jù)和合成數(shù)據(jù)的顯示效果。其中特征數(shù)據(jù)集的影像中灰色代表了植被,顏色越深表示植被越茂盛,淺色部分代表沙地,黑色部分代表水體。由于研究區(qū)域位于勒拿河入海口附近,可以推斷高亮部分的沙地大部分屬于泥沙沉積物。
圖4
CART 決策樹分類是一種典型的監(jiān)督分類算法,因此訓(xùn)練樣本的選擇直接影響分類的效果。將研究區(qū)分為沙地、裸地、植被、水體、草地5 類地物,在此分類體系下,選擇297 個(gè)樣本點(diǎn)作為訓(xùn)練對(duì)象,其中,沙地、裸地、植被、水體、草地的樣本數(shù)分別為58、63、53、60、63 個(gè)。沙地的樣本來自河流沖刷的泥沙沉積,裸地主要是凍土和解凍的植被稀少區(qū)域,植被以灌木叢、林地為主,水域是勒拿河的主干和支流部分等,草地是覆蓋在土地上苔原或者植被區(qū)。訓(xùn)練樣本點(diǎn)也將會(huì)作為對(duì)比算法(最大似然分類)的樣本,以便于精度分析。
本文方法分類結(jié)果和最大似然分類結(jié)果如圖5(a)和圖5(b)所示。總體上這兩種方法的分類結(jié)果都能夠提取主要的地物類別,尤其對(duì)水體主河道的提取效果較好,但是最大似然分類對(duì)河流中存在的浮冰、融雪不能很好地分辨,部分浮冰和融雪識(shí)別分為沙地,其導(dǎo)致在辮狀河道中存在較多的碎屑物,相比而言本文方法識(shí)別的河道更加連續(xù)。
圖5 分類結(jié)果
采用混淆矩陣對(duì)分類結(jié)果分別進(jìn)行精度評(píng)價(jià),結(jié)果如表1 所示。本文分類精度為96.53%,Kappa 系數(shù)為0.9558,水體生產(chǎn)精度達(dá)到99.47%,水體用戶精度達(dá)到了99.80%;最大似然分類的總體分類精度為93.54%,Kappa 系數(shù)為0.9180,生產(chǎn)精度為97.55%,用戶精度為99.36%。相較于最大似然分類法,本文方法表現(xiàn)出了更好的分類精度,總體分類精度是最大似然分類的1.03倍,Kappa 系數(shù)是最大似然分類的1.02倍,水體生產(chǎn)精度是最大似然分類的1.04 倍;同時(shí)最大似然分類的水體錯(cuò)分誤差是本文方法的2.56倍,水體漏分誤差是本文誤差的4.22倍??梢姳疚奶岢龅慕Y(jié)合NDWI指數(shù)與ISODATA 分類的特征數(shù)據(jù)集進(jìn)行CART 決策樹分類的方法是一種更加精確的水體提取方法。
表1 混淆矩陣精度評(píng)價(jià)
本文針對(duì)遙感影像中的辮狀河道識(shí)別問題進(jìn)行了多信息融合的CART決策樹分類研究。在landsat 8原有七個(gè)波段上添加NDWI 水體指數(shù)和ISODATA 分類數(shù)據(jù)兩個(gè)波段,組合成具有九個(gè)波段的特征數(shù)據(jù)集?;诖耍瑯?gòu)建CART 決策樹模型對(duì)俄羅斯勒拿河部分辮狀河道進(jìn)行提取。結(jié)果表明,相較于最大似然分類法,本文方法表現(xiàn)出了更好的分類精度,其中總體分類精度、水體生產(chǎn)精度和Kappa 系數(shù)分別是最大似然分類的1.03 倍、1.02 倍和1.04 倍;同時(shí),最大似然分類的水體錯(cuò)分誤差和水體漏分誤差是本文決策樹分類的2.56 倍和4.22 倍。說明構(gòu)建特征數(shù)據(jù)集后的CART 決策樹分類對(duì)辮狀多分叉河道水體的提取具有較好的效果。