鐘嫣然,李曉龍
(1.武漢大學(xué) 測(cè)繪學(xué)院,湖北 武漢430079;2. 重慶市地理信息中心,重慶 401120)
及時(shí)準(zhǔn)確的城市擴(kuò)張度量對(duì)于了解一個(gè)城市的經(jīng)濟(jì)發(fā)展情況、協(xié)調(diào)城鄉(xiāng)之間的發(fā)展平衡是非常必要的[1]。遙感技術(shù)作為一種多時(shí)相、覆蓋廣、快速實(shí)時(shí)的信息獲取手段,近年來(lái)在資源環(huán)境、城市擴(kuò)張監(jiān)測(cè)等方面得到了廣泛應(yīng)用[2]。迄今為止,已有許多學(xué)者基于不同分辨率的可見(jiàn)光與紅外波段遙感影像、夜間燈光遙感數(shù)據(jù)、合成孔徑雷達(dá)數(shù)據(jù)等,提出或使用了多種建成區(qū)即“不透水面”[3]的提取方法,本文主要討論多波段影像數(shù)據(jù)所使用的方法。其中,較常見(jiàn)的算法是各種光譜指數(shù),如歸一化差異建筑指數(shù)(NDBI)[4]、建成區(qū)提取指數(shù)(BAEI)[5]、基于指數(shù)的建筑指數(shù)(IBI)[6]和生物物理成分指數(shù)(BCI)[7]。然而,由于地物間存在同物異譜、異物同譜以及混合像元的情況,使得這些指標(biāo)在區(qū)分建成區(qū)和背景,尤其是裸土?xí)r,并沒(méi)有獲得較為理想的精度[8]。除此以外,也有基于紋理特征提取的算法,如Pesaresi M[9]等針對(duì)SPOT 衛(wèi)星的2.5 m分辨率全色波段影像提出了適用于5 m 甚至更低分辨率影像的建成區(qū)存在指數(shù)PanTex;沈小樂(lè)[10]等利用采樣輪廓波變換來(lái)描述圖像的紋理特征,并引入視覺(jué)注意機(jī)制,最終得出該方法適用于高分辨率遙感影像的結(jié)論;NING X G[11]等以甚高分辨率遙感影像為對(duì)象,通過(guò)探測(cè)幾何元素(如直角邊和角)并計(jì)算其密度來(lái)提取建成區(qū)。
上述方法主要是通過(guò)提取影像特征來(lái)達(dá)到提取建成區(qū)的目的。近年來(lái),隨著機(jī)器學(xué)習(xí)的興起,能自行訓(xùn)練分類模型的機(jī)器學(xué)習(xí)監(jiān)督分類算法成為研究熱點(diǎn)。陳亮[12]基于Landsat TM/ETM+影像,提出了基于最小二乘支持向量機(jī)模型(GA-LS-SVM)和遺傳算法的不透水面提取方法,結(jié)果較理想;饒萍[13]等基于高空間分辨率影像,以4 種歸一化指數(shù)、SVM 分類結(jié)果、河流緩沖區(qū)結(jié)果為決策樹分類器的特征結(jié)點(diǎn),提取了Landsat 8 影像中的建設(shè)用地,其精度高于其中任意單獨(dú)特征的分類結(jié)果。然而,過(guò)量且不必要的數(shù)據(jù)可能反而會(huì)使分類精度下降[14]。對(duì)于建成區(qū)提取而言,光譜特征仍是許多研究中選擇采用的特征,原因在于不透水面的反射特征與植被、水體等地物的差異較明顯,其提取結(jié)果有很大的參考價(jià)值。此外,建成區(qū)是由若干典型尺寸范圍的物體和投射陰影組成的,紋理特征相對(duì)明顯[9],因此本文選取光譜特征和紋理特征對(duì)建成區(qū)提取進(jìn)行分析。同時(shí),為了比較單一特征和多特征提取的效果,本文將兩種特征結(jié)合起來(lái)作為第三種提取方法,并根據(jù)總體精度和局部效果分析比較了這3 種方法的特點(diǎn)。
本文選取的研究區(qū)為廣東省廣州市南沙區(qū)的局部區(qū)域。隨著近年來(lái)GDP 的增長(zhǎng),該區(qū)域內(nèi)的建成區(qū)組成由單一的農(nóng)村住宅群轉(zhuǎn)化為新城區(qū)與舊農(nóng)村房屋并存,區(qū)域內(nèi)包括林地、農(nóng)田、水域、建成區(qū)和裸土5 種地類,種類較齊全。
本文采用的實(shí)驗(yàn)數(shù)據(jù)為2017 年10 月的Landsat8-OLI 影像和同年12 月的Sentinel-2A 影像,成像時(shí)間較接近,區(qū)域內(nèi)建成區(qū)基本沒(méi)有較大變化。Landsat 8 衛(wèi)星的OLI 傳感器能獲得空間分辨率為15 m 的全色波段以及空間分辨率為30 m 的其他短光譜段影像,因此對(duì)其他波段數(shù)據(jù)和全色波段進(jìn)行融合可使其空間分辨率提高至15 m。Sentinel-2A 衛(wèi)星可獲得可見(jiàn)光、近紅外和短波紅外波段的影像,前兩者空間分辨率為10 m,后者空間分辨率為20 m,在免費(fèi)公開(kāi)數(shù)據(jù)中屬于中高分辨率影像[15]。本文采用的Landsat 8 和Sentinel-2A數(shù)據(jù)均已經(jīng)過(guò)幾何和大氣校正、重采樣、圖像裁剪和灰度拉伸等預(yù)處理,得到的數(shù)據(jù)如圖1 所示,其中Sentinel-2A 影像的空間分辨率為10 m,Landsat8 多波段影像融合后的空間分辨率為15 m,沒(méi)有融合的為30 m。另外,本文的建成區(qū)參考結(jié)果為Sentinel-2A 影像的人工目視解譯提取樣本,最后得到的樣本數(shù)據(jù)為2 000 個(gè)建成區(qū)矢量點(diǎn)和2 000 個(gè)非建成區(qū)矢量點(diǎn),并將其按2∶3 的比例分別隨機(jī)選取800 個(gè)點(diǎn)作為訓(xùn)練決策樹模型的樣本,另外1 200 個(gè)點(diǎn)參與分類后的精度評(píng)定。
圖1 研究區(qū)影像圖
本文首先計(jì)算影像的CBI 和PanTex,再把二者作為決策樹分類法的節(jié)點(diǎn)進(jìn)行提取,最后得到3 種方法的提取結(jié)果,如圖2 所示。根據(jù)Valdiviezon J C[8]等的實(shí)驗(yàn),對(duì)多種建筑指數(shù)計(jì)算裸土和建成區(qū)之間的光譜區(qū)分指數(shù)(SDI)可知,CBI 在這兩類地物之間的SDI 值是最高的,因此本文采用CBI。另外,本文研究區(qū)為小面積住宅居多、建筑物既有集中又有分散的農(nóng)村地域,且實(shí)驗(yàn)數(shù)據(jù)最高空間分辨率為10 m,建筑物個(gè)體在圖上難以清晰展現(xiàn),因此幾何特征的提取方法采用PanTex。特征集合方法采用決策樹分類法,因?yàn)闃颖军c(diǎn)數(shù)量不多,采用樹形算法可能比神經(jīng)網(wǎng)絡(luò)算法的效果要好。
圖2 研究流程圖
CBI 由主成分變換得到的第一主分量(PC1)、調(diào)整土壤亮度的植被指數(shù)(SAVI)和歸一化差異水體指數(shù)(NDWI)3 個(gè)子指數(shù)組成[16],其中主成分變換是一種常用的數(shù)據(jù)降維、影像增強(qiáng)方法,利用正交變換原理得到原圖像的主要信息(如亮度、綠度、濕度等),尤其是對(duì)應(yīng)最大方差的第一主分量[17];SAVI 與經(jīng)典的NDVI 相比,更能從裸土背景中提取出較為破碎的植被斑塊[18],有利于削弱建成區(qū)內(nèi)小范圍植被的影響。其計(jì)算公式為:
式中,L為土壤調(diào)節(jié)系數(shù),取值范圍為0~1,對(duì)應(yīng)植被覆蓋度由低至高[19]。由圖2 可知,研究區(qū)內(nèi)有不少被建成區(qū)割碎的塊狀植被,因此這里L(fēng)取0.5。
NDWI 的計(jì)算公式為:
在計(jì)算CBI 之前,需先用水體指數(shù)對(duì)上述各指數(shù)結(jié)果進(jìn)行掩膜提取,裁掉水體部分。實(shí)驗(yàn)表明,改進(jìn)的歸一化差異水體指數(shù)(MNDWI)計(jì)算結(jié)果中的建成區(qū)基本為負(fù)值[20],其效果比NDWI 更理想,因此本文采用MNDWI 來(lái)提取水體部分。其計(jì)算公式為:
裁掉水體后,將3 個(gè)指數(shù)進(jìn)行歸一化,再進(jìn)行CBI 計(jì)算。其計(jì)算公式為:
最后得到的CBI 計(jì)算結(jié)果介于-1~1 之間,其中正值部分為建成區(qū),接近0 的部分為裸土,負(fù)值部分為植被[16]。
PanTex 基于一幅灰度圖的灰度共生矩陣,根據(jù)模糊規(guī)則對(duì)多方向的紋理特征值進(jìn)行融合,即進(jìn)行旋轉(zhuǎn)不變的各向異性紋理分析,再根據(jù)紋理特征值提取建成區(qū)。
對(duì)于Sentinel-2A 數(shù)據(jù),本文選取可見(jiàn)光波段中各像元的最大灰度值作為該像元在新的灰度圖中的值,某些研究會(huì)選取可見(jiàn)光3 個(gè)波段的平均值或?qū)D像作HIS 轉(zhuǎn)換等形式得到新的灰度圖,但考慮了一些不必要的波段而導(dǎo)致實(shí)驗(yàn)結(jié)果不太理想[21];對(duì)于Landsat 8數(shù)據(jù),可直接使用經(jīng)過(guò)線性拉伸的全色波段。
計(jì)算GLCM 時(shí)包括滑動(dòng)窗口大小、矢量位移(方向和距離)、圖像灰度級(jí)[9]3 個(gè)關(guān)鍵參數(shù)。為了避免數(shù)據(jù)量過(guò)大,在預(yù)處理時(shí)將Sentinel-2A 影像從16 位降為8 位整型;根據(jù)圖中建筑斑塊的面積,本文選擇的窗口大小為3×3;方向選取了常用的8 個(gè)方向,即0°、45°、90°和135°及其對(duì)角線方向;距離的選擇取決于紋理的粗細(xì),本文設(shè)定距離d=1,著眼于最鄰近像元的灰度變化情況。
Pesaresi M[21]等通過(guò)對(duì)不同空間分辨率的圖像進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn),對(duì)比度(CON)是最能把建成區(qū)和非建成區(qū)區(qū)分開(kāi)的特征量,計(jì)算公式為:
式中,Ng為圖像灰度值的最大值;i、j為GLCM 中的行列號(hào),即任意兩個(gè)灰度值。
若要獲得每個(gè)像元對(duì)比度的唯一值,需對(duì)所有方向的值進(jìn)行模糊邏輯處理。實(shí)驗(yàn)證明,相比于最小值,平均值和原始各方向值都傾向于使農(nóng)田、鄉(xiāng)村道路等非建成區(qū)呈現(xiàn)較高的亮度值[9,21],因此本文采用所有方向值中的最小值作為最終的對(duì)比度值。
決策樹分類法是機(jī)器學(xué)習(xí)中的一種基于空間知識(shí)挖掘、無(wú)需先驗(yàn)知識(shí)的監(jiān)督分類方法,可對(duì)訓(xùn)練樣本進(jìn)行歸納學(xué)習(xí),自行生成決策樹或決策規(guī)則,即從“無(wú)序”中找出“有序”的規(guī)則,再對(duì)輸入的數(shù)據(jù)進(jìn)行分類。決策樹可用樹型結(jié)構(gòu)表示,每個(gè)決策樹包含一個(gè)根節(jié)點(diǎn)、若干個(gè)內(nèi)部結(jié)點(diǎn)和葉節(jié)點(diǎn),每個(gè)內(nèi)部結(jié)點(diǎn)對(duì)應(yīng)一個(gè)非類別屬性或?qū)傩缘募?。本文將?jì)算得到的CBI 和PanTex 結(jié)果作為節(jié)點(diǎn)輸入到?jīng)Q策樹分類器中,再進(jìn)行整個(gè)圖像的分類,上述過(guò)程均利用Python 代碼實(shí)現(xiàn)。
基于3 種空間分辨率數(shù)據(jù),本文分別利用3 種方法提取的建成區(qū)結(jié)果如圖3~5 所示,可以看出,雙特征決策樹方法提取的結(jié)果區(qū)域間連通性最強(qiáng),其次為CBI,最后為PanTex。
圖3 Sentinel-2A 數(shù)據(jù)(10 m)提取結(jié)果
基于Sentinel-2A 數(shù)據(jù)提取的建成區(qū)結(jié)果局部圖如圖6 所示,藍(lán)色為PanTex 提取結(jié)果,紫色為CBI 提取結(jié)果。由圖6 上方3 幅圖可知,PanTex 提取結(jié)果與不規(guī)則分布的農(nóng)村住宅群較為吻合,且它對(duì)建成區(qū)和裸土的區(qū)分度優(yōu)于CBI 提取結(jié)果;CBI 作為一種光譜指數(shù),其結(jié)果難免摻雜不少非建成區(qū);PanTex 對(duì)道路等條狀地物的敏感度不高,是由紋理不明顯導(dǎo)致的。由圖6 下方3 幅圖可知,PanTex 提取結(jié)果里存在部分高亮建筑沒(méi)有被識(shí)別為建成區(qū),這是由于高亮建筑在滑動(dòng)窗口內(nèi)成分單一、亮度變化不明顯所造成的;采用雙特征決策樹分類法可以改善PanTex 的這種現(xiàn)象。
圖4 Landsat8-OLI 融合后數(shù)據(jù)(15 m)提取結(jié)果
圖5 Landsat8-OLI 數(shù)據(jù)(30 m)提取結(jié)果
圖6 基于Sentinel-2A 影像的提取結(jié)果局部圖
基于3 種數(shù)據(jù),3 種方法得到的9 個(gè)結(jié)果的總體精度如表1 所示??傮w而言,雙特征決策樹分類法和PanTex 的提取結(jié)果均優(yōu)于CBI,即按總體精度對(duì)3 種方法的排序?yàn)椋弘p特征決策樹分類法>PanTex>CBI。此外,圖像空間分辨率越高,提取結(jié)果精度越高。
表1 提取結(jié)果的總體精度
本文以2017 年Landsat8-OLI 和Sentinel-2A 的影像數(shù)據(jù)為數(shù)據(jù)源,以廣州市南沙區(qū)內(nèi)局部區(qū)域?yàn)檠芯繀^(qū),利用CBI、PanTex 和雙特征決策樹分類法3 種方法,基于相同時(shí)間內(nèi)3 種空間分辨率的數(shù)據(jù),得到了9 個(gè)提取結(jié)果。結(jié)果表明:①3 種方法提取結(jié)果的精度排序?yàn)殡p特征決策樹分類法>PanTex>CBI;②在數(shù)據(jù)源和提取方法相同的情況下,PanTex 提取結(jié)果的面積均小于其他兩種方法,斑塊較破碎;③影像的空間分辨率越高,提取結(jié)果的總體精度也越高;④PanTex在識(shí)別占地面積較小的農(nóng)村住宅以及區(qū)分裸土和建成區(qū)方面更優(yōu),而CBI 識(shí)別高亮度、面積較大建筑和道路的效果更好。
本文沒(méi)有專門比較裸土與建成區(qū)CBI 和PanTex 的差別規(guī)律,在后續(xù)研究中可對(duì)二者作較詳細(xì)的分析;兩個(gè)指標(biāo)都是通過(guò)重復(fù)試驗(yàn)來(lái)自定義閾值的,因此分類結(jié)果易受解譯者的主觀影響。此外,采用雙特征決策樹分類法得到的結(jié)果中仍包含錯(cuò)分區(qū)域,可能是由于非建成區(qū)樣本在其他幾類地物中分布不均勻,導(dǎo)致缺乏更全面的信息,使得建成區(qū)與其他地物區(qū)分開(kāi)來(lái)。本文僅用CBI、PanTex 結(jié)果代表建成區(qū)的物理特征和幾何特征是較片面的,在后續(xù)研究中應(yīng)各自多選取幾種指標(biāo)來(lái)綜合比較,同時(shí)增加其他類型的數(shù)據(jù)(如DEM、水文信息等)作為決策樹分類法的節(jié)點(diǎn),使提取效果更優(yōu)。