胡 曉 梅,李 文 楷,李 佳 豪,劉 子 越,黃 偉 鈞
(中山大學(xué)地理科學(xué)與規(guī)劃學(xué)院,廣東 廣州 510006)
地理學(xué)第一定律[1]概括性地陳述了相鄰地理單元的空間相關(guān)性,且地理位置越靠近其性質(zhì)越相似,具體表現(xiàn)形式有距離衰減函數(shù)、空間自相關(guān)系數(shù)及泰森多邊形等[2]。地理空間上的“遠近”是對距離的表達,而地理空間信息既可是遙感影像像元的行列信息(row,col),也可是笛卡爾坐標系下的坐標信息(X,Y),或是地理坐標系下的經(jīng)緯度信息(lon,lat)。遙感圖像分類不僅要考慮光譜信息,空間信息也至關(guān)重要[3]。近年來,隨著遙感影像應(yīng)用范圍越來越廣泛,空譜信息耦合逐漸受到學(xué)者重視。常用的空間信息主要有紋理、數(shù)學(xué)形態(tài)和鄰域等信息,多利用灰度共生矩陣[4]、Gabor濾波、小波變換[5]等方法提取。例如:段小川等[6]利用二維和三維Gabor濾波提取遙感圖像的空間特征信息,并與光譜信息融合后基于堆棧式稀疏自編碼器深度學(xué)習(xí)網(wǎng)絡(luò)對圖像進行分類;宋雯琦等[7]提出一種基于空譜特征的核極端學(xué)習(xí)機高光譜遙感圖像分類算法,通過將光譜信息與空間信息疊加并引入核極端學(xué)習(xí)機中,使分類性能有所提升;陳杉等[8]證明小波變換方法有利于具有規(guī)則和較強方向性的紋理結(jié)構(gòu)影像分類。然而傳統(tǒng)空譜信息耦合的圖像分類方法只考慮相鄰單元位置的局部空間信息,忽視了圖像整體空間的“遠近”信息,未能充分利用地理空間信息。
將地理空間信息與光譜信息結(jié)合可產(chǎn)生較好的遙感圖像分類效果,其中地理空間信息通常以較復(fù)雜的方式引入[9]。例如,Goovaerts[10]將空間坐標信息與最大似然分類法結(jié)合,根據(jù)鄰域信息運用指示克里金方法估計每個像素的類別先驗分布概率,并與通過光譜信息獲取的類別分布概率值相結(jié)合進行圖像分類,其中空間坐標主要用于確定中心樣本的相鄰樣本,該方法適用于最大似然分類等生成模型,但不適用于隨機森林(RF)等模型,且克里金空間插值對樣本密度要求較高;Mu等[9]分別將地理空間信息和光譜信息作為特征值并利用支持向量機(SVM)分類器估算類別概率,將兩種概率值作為特征值融合后再利用SVM進行最終分類,但其實現(xiàn)步驟仍很復(fù)雜。此外,在遙感圖像場景分類、語義分割等方面,有學(xué)者提出結(jié)合地理空間信息的分類模型并取得較好的分類或分割精度[11-13]??紤]到遙感影像空間分布具有集聚性特點,Yang等提出的GeoBoost學(xué)習(xí)算法根據(jù)地理坐標劃分不同的邊界框,對落在特定邊界框內(nèi)的影像選擇對應(yīng)的基分類器進行語義分割[12],進一步利用地理哈希編碼(geohash)將經(jīng)緯度信息轉(zhuǎn)換成二進制編碼,并與深度神經(jīng)網(wǎng)絡(luò)模型中不同的單元進行特征耦合,雖然也可提高語義分割精度,但編碼長度對模型精度有重要影響[13]。隨著遙感技術(shù)的快速發(fā)展,LiDAR因能快速獲取高精度的三維點云數(shù)據(jù)而被廣泛應(yīng)用于三維目標檢測[14,15]、目標跟蹤[16,17]以及三維建模[18]等領(lǐng)域。在三維LiDAR點云分類中,點云坐標可直接作為特征值輸入監(jiān)督分類器。目前流行的深度學(xué)習(xí)網(wǎng)絡(luò)依靠點云的高精度空間坐標信息和回波強度信息可獲得較高的分類精度,這不僅依賴于卷積網(wǎng)絡(luò)[19]對空間結(jié)構(gòu)信息的挖掘,更在于點云能精確反映物體的真實結(jié)構(gòu)和三維尺寸,充分發(fā)揮了地理空間信息的作用,說明地理坐標信息對分類任務(wù)有一定貢獻。遙感二維圖像分類與三維LiDAR點云分類存在一定相似性,能否也將像素坐標信息直接作為特征值,以一種更簡單通用的方式耦合坐標信息提高分類效果?為此,本文選取RF、SVM和人工神經(jīng)網(wǎng)絡(luò)(ANN)3個代表性的監(jiān)督分類模型,探討耦合像素坐標信息和空譜信息(紋理和顏色)對改善二維影像分類結(jié)果的有效性。
為充分驗證方法的可行性和魯棒性,分別選擇不同地區(qū)和類型的數(shù)據(jù)集進行實驗:1)EI Cerrito和Richmond航空影像數(shù)據(jù),分別為由Lecia ADS40數(shù)碼相機拍攝得到的美國加利福尼亞州埃爾塞里托(EI Cerrito)和里士滿(Richmond)航空影像(圖1a、圖1b),包含紅、綠、藍3個可見光波段,空間分辨率高達0.3 m,像元數(shù)分別為1 667×1 667、1 169×1 169。通過人工目視解譯,EI Cerrito影像分為樹木、綠地、裸土、不透水面(城市中的人造表面)和其他(目視解譯難以識別的像元)5種類別,Richmond影像分為樹木、綠地、裸土、不透水面、水體與陰影6種類別。2)Landsat8影像數(shù)據(jù),來自Landsat8 L1T (https://earthexplorer.usgs.gov/),影像范圍為廣州市南部地區(qū)(圖1c),原始影像包括11個波段,本文選取第7波段SWIR2、第6波段SWIR1與第4波段Red進行波段組合,空間分辨率為30 m。影像中包含不透水面、林地、草地、水體、裸土等多種地物,但由于分辨率較低,目視解譯詳細辨認各種地物比較困難,因此,該數(shù)據(jù)僅進行不透水面和非不透水面的二分類。
圖1 數(shù)據(jù)集概況Fig.1 Overview of datasets
本文研究技術(shù)流程(圖2)為:首先利用灰度共生矩陣提取影像的紋理信息,與顏色信息和空間像素坐標信息耦合后,采用最大—最小線性歸一化消除特征之間的量綱影響,形成不同樣本量的隨機訓(xùn)練數(shù)據(jù)集,為減少數(shù)據(jù)冗余,避免過擬合現(xiàn)象,特征選擇階段通過RF對特征值進行評估,選擇具有代表性的特征;其次,為充分探討像素坐標信息對圖像分類的貢獻,對基于RF、SVM和ANN的分類結(jié)果進行多次對比實驗,即耦合像素坐標信息特征前后的對比,采用F1值和 Kappa系數(shù)評價不同模型分類結(jié)果的精度。
圖2 耦合像素坐標遙感圖像分類技術(shù)流程Fig.2 Flow chart of remote sensing image classification coupled with pixel coordinates
1.2.1 特征提取及歸一化 在進行影像監(jiān)督分類時,所有特征將歸一化至0~1范圍,是否對原始影像進行輻射定標對分類結(jié)果沒有影響,因此本研究直接對3幅影像進行特征提取。1)EI Cerrito和Richmond航空影像數(shù)據(jù)的顏色信息為紅、綠、藍波段,Landsat8影像的顏色信息為SWIR2、SWIR1與紅波段;2)利用灰度共生矩陣計算3×3像素窗口的均值、方差、對比度、二階矩陣與同質(zhì)性5種紋理信息,用以描述圖像灰度的局部空間相關(guān)特性;3)每個像素的空間坐標信息(X,Y)由該像素的行號row_id、列號col_id、空間分辨率R和影像左下角坐標(xmin、ymin)計算(式(1)、式(2))。遙感影像的波段信息豐富且相關(guān)性較強,造成波段組合數(shù)量過大、數(shù)據(jù)冗余等問題,不僅減緩模型速度和泛化能力、占用過多的計算機資源,還易出現(xiàn)過擬合現(xiàn)象(休斯現(xiàn)象[20])。為減少冗余信息并盡可能保留圖像高維特征中的潛在分類特征,本文采用RF對特征進行重要性排序[21],依據(jù)某特征值形成分支節(jié)點的Gini增益程度進行重要性評估[22],選取累計貢獻率高于85%的特征。
X=xmin+(col_id-0.5)×R
(1)
Y=ymin+(nrows-row_id+0.5)×R
(2)
式中:nrows為總行數(shù)。
1.2.2 分類模型
(1)隨機森林(RF)模型。該模型通過隨機抽取并放回N組樣本,建立N個分類回歸樹(CART),并以1∶2的比例劃分袋內(nèi)數(shù)據(jù)與袋外數(shù)據(jù),袋外數(shù)據(jù)通過內(nèi)部交叉驗證應(yīng)用于所有決策樹,以估算整個隨機森林的泛化能力,最終分類結(jié)果由所有決策樹投票決定[23,24]。該模型對異常值和噪聲具有一定的容忍度與魯棒性,不易出現(xiàn)過擬合現(xiàn)象。EI Cerrito和Richmond航空影像數(shù)據(jù)中,隨機森林決策樹的數(shù)量(n_estimators)設(shè)置為10,最大分割特征數(shù)(max_features)選擇默認值,內(nèi)部節(jié)點最小分割樣本數(shù)量(min_samples_split)設(shè)置為2;Landsat8影像數(shù)據(jù)中決策樹的數(shù)量設(shè)置為5,其余參數(shù)與上述一致。
(2)支持向量機(SVM)模型。該模型的目標是尋找最大邊距超平面[25],可直接通過Sequential Minimal Optimization等[26]優(yōu)化算法得到全局最優(yōu)解,結(jié)構(gòu)化風險最小,可避免過擬合問題,具有一定的魯棒性,比其他分類器學(xué)習(xí)效率更高,廣泛應(yīng)用于眾多分類任務(wù)中[27]。核函數(shù)是SVM的重要組成部分,其可隱式地將樣本從原始特征空間映射到高維希爾伯特空間,解決原始特征空間中的線性不可分問題,本文統(tǒng)一采用三階多項式核函數(shù),設(shè)置‘Hinge’損失函數(shù),最大次數(shù)為1 000,可以較好擬合出復(fù)雜的分割超平面,且非線性映射能力較強。
(3)人工神經(jīng)網(wǎng)絡(luò)(ANN)模型。該模型通過逐漸改變神經(jīng)元之間的連接強度學(xué)習(xí)新知識,并利用BP(Back Propagation)誤差反向傳播算法解決貢獻度分配問題,無需人為干預(yù)[28],對非線性結(jié)構(gòu)具有良好的擬合能力。本研究建立的 ANN包含輸入層、3個隱含層和輸出層。輸入層的節(jié)點數(shù)由輸入的特征數(shù)量決定,輸出層的節(jié)點數(shù)由類別數(shù)量決定,隱含層節(jié)點數(shù)量過少會導(dǎo)致網(wǎng)絡(luò)表達能力不足、出現(xiàn)欠擬合現(xiàn)象,數(shù)量過多又會產(chǎn)生過擬合現(xiàn)象。經(jīng)過多次實驗,EI Cerrito航空影像數(shù)據(jù)中神經(jīng)網(wǎng)絡(luò)隱含層和輸出層節(jié)點數(shù)分別設(shè)置為50、30、15和5,Richmond航空影像數(shù)據(jù)中神經(jīng)網(wǎng)絡(luò)隱含層和輸出層節(jié)點數(shù)分別設(shè)置為50、30、15和6,Landsat8影像數(shù)據(jù)中神經(jīng)網(wǎng)絡(luò)隱含層和輸出層節(jié)點數(shù)分別設(shè)置為50、30、10和2。同時,為防止梯度消失或爆炸,加快網(wǎng)絡(luò)收斂速度,本文進行逐層歸一化,即每層神經(jīng)網(wǎng)絡(luò)后增加一個BN(Batch Normalization)層,并選擇SELU(Scaled Exponential Linear Units)為激活函數(shù)。
1.2.3 樣本數(shù)據(jù)及精度評價 本文采用目視解譯和隨機抽樣方式采集樣本數(shù)據(jù)。EI Cerrito和Richmond航空影像數(shù)據(jù)的訓(xùn)練樣本量分別為10 000、5 000和3 000,測試樣本量為3 000,EI Cerrito數(shù)據(jù)樣本中各類別的比例為:不透水面22.92%、樹木21.06%、綠地18.80%、裸土10.23%、其他26.99%,Richmond數(shù)據(jù)樣本中各類別的比例為:不透水面42.66%、樹木20.09%、綠地16.42%、陰影15.47%、水體3.26%、裸土2.09%;Landsat8影像數(shù)據(jù)的訓(xùn)練樣本量設(shè)為3 000、2 000和1 000,測試樣本量為1 000,各類別的比例為:不透水面56.07%、非不透水面43.93%。為充分驗證方法的可靠性,對每組對比實驗采用不同的隨機樣本重復(fù)10次實驗,計算精度指標(F1值和Kappa系數(shù))的平均值和標準差,并采用T檢驗驗證耦合像素坐標與不耦合像素坐標精度差異是否顯著。
針對EI Cerrito航空影像數(shù)據(jù),在耦合像素坐標情況下,累計特征貢獻率高于85%的特征共有10個;僅使用顏色和紋理信息而不耦合像素坐標情況下,累計特征貢獻率高于85%的特征共有9個;針對Richmond航空影像數(shù)據(jù),在耦合與不耦合像素坐標情況下,累計特征貢獻率高于85%的特征分別有11個和10個;針對Landsat8影像數(shù)據(jù),兩種情況下累計貢獻率高于85%的特征分別有11個和9個。特征重要性排序結(jié)果側(cè)面反映了像素坐標對影像分類也具有一定貢獻。以EI Cerrito航空影像數(shù)據(jù)為例,像素坐標特征行號與列號重要性分別高達0.069和0.055,普遍高于一些紋理特征的重要性。
(1)EI Cerrito航空影像數(shù)據(jù)分類。由表1可知,3個分類器在3個不同樣本量上耦合像素坐標前后精度差異均具有較強的顯著性,T檢驗的P值均小于0.01。根據(jù)圖3所示,對于遙感圖像中的不同地類,基于ANN模型耦合像素坐標方法下Kappa系數(shù)及F1值均有所提升,其中以樹木類型的提升效果最明顯。結(jié)合基于SVM和RF模型的分類結(jié)果(圖略)可知:ANN、SVM和RF模型在僅使用傳統(tǒng)空譜信息時對應(yīng)的F1均值分別為80.91%、80.31%和78.92%,耦合像素坐標后F1均值分別提升為82.79%、81.66%和81.19%,說明耦合像素坐標分類方法的性能在不同實驗條件下均優(yōu)于傳統(tǒng)空譜信息耦合的方法。選取局部影像分類結(jié)果進行對比(圖4),發(fā)現(xiàn)圖4兩個紅色方框中有部分樹蔭下的裸土被傳統(tǒng)空譜信息耦合方法錯分為不透水面,而耦合像素坐標方法能較好地識別這些裸土,分類效果良好。
表1 EI Cerrito數(shù)據(jù)集F1值和Kappa系數(shù)的T檢驗P值Table 1 P values of T test of F1-score and Kappa coefficient on EI Cerrito dataset
圖3 EI Cerrito數(shù)據(jù)集樣本量為10 000時不同地物耦合像素坐標前后精度(平均值±2倍標準差)對比Fig.3 Comparison of accuracies (mean ± 2 times standard deviation) with and without pixel coordinates for different land types on EI Cerrito dataset with the sample size of 10 000
圖4 EI Cerrito數(shù)據(jù)集局部區(qū)域放大圖對比Fig.4 Comparison of enlarged images of local areas of EI Cerrito dataset with and without pixel coordinates
(2)Richmond航空影像數(shù)據(jù)分類。根據(jù)表2,3個分類器在3個不同樣本量上耦合像素坐標前后精度差異均具有較強顯著性,T檢驗的P值均小于0.01。由圖5可知,對于遙感圖像中不同地類,基于SVM模型耦合像素坐標方法下Kappa系數(shù)及F1值均有所提升,其中水體和裸土提升效果最明顯。結(jié)合基于ANN和RF模型的分類結(jié)果(圖略)可知:以樣本量5 000為例,僅使用傳統(tǒng)空譜信息時,ANN、SVM和RF 3種分類器對應(yīng)的F1值分別為67.58%、64.67%和64.45%,耦合像素坐標后F1均值分別提升為77.60%、77.31%和74.83%,說明耦合像素坐標分類方法在不同實驗條件下均優(yōu)于傳統(tǒng)空譜信息耦合方法。選取局部影像分類結(jié)果進行對比,發(fā)現(xiàn)傳統(tǒng)空譜信息耦合方法在靠近岸邊區(qū)域?qū)⒑芏嗨w像素錯分為陰影,而耦合像素坐標方法在該區(qū)域僅將少量零散水體像素錯分為陰影,其總體分類效果較好(圖6)。
表2 Richmond數(shù)據(jù)集F1值和Kappa系數(shù)的T檢驗P值Table 2 P values of T test of F1-score and Kappa coefficient on Richmond dataset
圖5 Richmond數(shù)據(jù)集樣本量為10 000時不同地物耦合像素坐標前后精度(平均值±2倍標準差)對比Fig.5 Comparison of accuracies (mean ±2 times standard deviation) with and without pixel coordinates for different land types on Richmond dataset with the sample size of 10 000
圖6 Richmond數(shù)據(jù)集局部區(qū)域放大圖對比Fig.6 Comparison of enlarged images of local areas of Richmond dataset with and without pixel coordinates
(3)Landsat8數(shù)據(jù)影像分類。根據(jù)表3,耦合像素坐標前后精度差異在不同樣本量和分類器上顯著性不同:ANN和SVM在樣本量為2 000和3 000時顯著性較強,但在樣本量為1 000時不顯著;RF在3個不同樣本量上均不顯著。根據(jù)圖7可知,耦合像素坐標分類方法相較于傳統(tǒng)無坐標分類方法,10個隨機數(shù)據(jù)集的Kappa均值更高,且隨著數(shù)據(jù)集樣本量減小,Kappa值也有所降低?;贏NN、SVM和RF模型,耦合像素坐標分類方法在3種不同樣本量中的F1值均高于傳統(tǒng)空譜信息耦合方法。例如,當樣本量為3 000時,ANN、SVM和RF的10次隨機樣本集F1均值分別為91.59%、91.60%和88.88%,而傳統(tǒng)空譜信息耦合方法對應(yīng)的F1均值分別為90.45%、90.58%和88.26%。由局部區(qū)域放大圖(圖8)可見,傳統(tǒng)圖像分類方法結(jié)果較差,有大量的不透水面被錯分,而耦合像素坐標分類方法能更好識別不透水面,說明像素坐標對圖像分類有一定貢獻。
表3 Landsat8數(shù)據(jù)集F1值和Kappa系數(shù)的T檢驗P值Table 3 P values of T test of F1-score and Kappa coefficient on Landsat8 dataset
圖7 Landsat8數(shù)據(jù)集耦合像素坐標前后Kappa系數(shù)(平均值±2倍標準差)對比Fig.7 Comparison of Kappa coefficients (mean ±2 times standard deviation) with and without pixel coordinates on Landsat8 dataset
圖8 Landsat8數(shù)據(jù)集局部區(qū)域放大圖對比Fig.8 Comparison of enlarged images of local areas of Landsat8 dataset with and without pixel coordinates
本文基于3種不同分辨率衛(wèi)星與航空遙感影像,利用灰度共生矩陣提取紋理信息,并與顏色信息和像素坐標耦合,進而采用RF對初始特征進行重要性排序,選取具有代表性的特征,最后使用RF、SVM和ANN 3種不同分類器進行遙感影像分類。結(jié)果顯示,相較于僅使用空譜信息圖像分類方法,耦合像素坐標方法分類效果更好,F(xiàn)1值和Kappa系數(shù)均有所提升,從定性和定量角度驗證了耦合像素坐標能有效提高圖像分類精度。此外,本文實驗結(jié)果還驗證了耦合像素坐標對Landsat8數(shù)據(jù)集的精度提升(1%左右)略低于對航空影像數(shù)據(jù)集的精度提升(2%~12%)。
一個特征是否有助于分類,取決于地物類別在該特征空間上的分布情況,如果地物在該特征空間上呈隨機分布,則對分類無幫助,如果地物在該特征上呈現(xiàn)某種形態(tài)的集聚分布,則對分類有幫助。地理學(xué)第一定律揭示了地物集聚分布的普遍性,在遙感影像中各種地物類別的像素也是集聚分布而非隨機分布,因此,將空間坐標信息作為特征時分類精度有所提升。另外,空間自相關(guān)現(xiàn)象會隨著距離衰減,由于Landsat8的空間分辨率(30 m)遠小于航空影像的空間分辨率(0.3 m),相鄰像元對應(yīng)的地理空間距離尺度不同,通過對比兩個不同分辨率數(shù)據(jù)集的實驗結(jié)果,發(fā)現(xiàn)耦合像素坐標對高分辨率影像分類精度提升的幅度更大,且統(tǒng)計檢驗結(jié)果的顯著性更強,這從側(cè)面驗證了地理學(xué)第一定律:越相近的地理單元性質(zhì)越相似,坐標信息發(fā)揮的重要性越高。
相關(guān)文獻和本文實驗結(jié)果表明,坐標信息可提升分類精度,然而,在傳統(tǒng)遙感影像分類中坐標信息常被忽略[29],或者以一種較為復(fù)雜的方式與空譜信息相耦合。本文的創(chuàng)新性在于提出一種更簡單有效的像素坐標信息耦合方式。理論上,本文方法適用于各種監(jiān)督分類器,但本研究僅選擇3種常用的分類器為代表。當前,深度學(xué)習(xí)方法已被廣泛應(yīng)用于遙感影像分類[30],今后可進一步驗證該方法對其他分類器(如深度卷積語義分割模型)的適用性,并選擇更多的數(shù)據(jù)集驗證其有效性。