劉曼張靜
(1.長安大學地球科學與資源學院,陜西 西安 710054;2.長安大學地質工程與測繪學院,陜西 西安 710054)
土地利用/覆被分類在土地利用狀況動態(tài)監(jiān)測、國土空間規(guī)劃、土地利用結構調(diào)整等方面具有重要作用[1]。遙感技術具有時效性、準確性、宏觀性、經(jīng)濟性及周期性等特點,隨著遙感技術的飛速發(fā)展,遙感在土地利用/覆被分類和土地資源監(jiān)測中得到了廣泛應用。
遙感影像的土地利用/覆被分類是遙感影像上的各地物根據(jù)不同的特征信息進行分類,遙感信息特征是分析遙感影像的基礎。遙感特征是指遙感信息在物理、幾何及地學屬性方面的特征,其包括了光譜特征、指數(shù)特征、紋理特征等。
在進行分類時,使用多特征融合方法可以充分利用遙感影像信息,可以改善地物區(qū)分度低的現(xiàn)象[2]。但特征數(shù)量過多可能造成維數(shù)災難、信息冗余等問題,因此,從特征集中優(yōu)選出一些關鍵特征,在不減少分類相關信息的同時盡量減少數(shù)據(jù)總量,對土地利用分類起到至關重要的作用。馬玥等[3]發(fā)現(xiàn),進行土地利用分類時,利用隨機森林算法結合紋理特征等多源分類方案可以提升土地利用分類精度。張磊等[4]對黃河三角洲濕地進行土地利用分類時,采用隨機森林算法并且在光譜特征基礎上分別加入植被指數(shù)和紋理特征,使總體分類精度提高了3.26%。此外,一些研究也證實紅邊指數(shù)可以提高農(nóng)耕區(qū)作物分類精度。
在土地利用分類中,常用的傳統(tǒng)分類算法包括馬氏距離、最小距離等,馬氏距離[5]是一種有效的計算2個未知樣本集的相似度的方法。最小距離[6]是通過求出待分類向量X到各類別中心向量的距離,然后將待分類的向量X歸結為這些距離中最小的那一類的分類方法。近年來,將遙感數(shù)據(jù)與機器學習算法相結合進行土地利用分類是研究熱點,常用的方法包括隨機森林和人工神經(jīng)網(wǎng)絡等。隨機森林[7]是一種基于決策樹的集成機器學習算法,具有分類速度快,精度較高,可以有效地運行大尺度數(shù)據(jù)集等特點。人工神經(jīng)網(wǎng)絡[8]作為一種由大量神經(jīng)元相互聯(lián)接而成的非線性映射模型,能有效解決遙感圖像處理中常見的困難,因此其很快在遙感圖像分析與處理領域得到了廣泛應用,為遙感信息的處理提供了嶄新的手段。
2015年6月歐空局成功發(fā)射了Sentinel-2A衛(wèi)星,2017年3月發(fā)射Sentinel-2B衛(wèi)星。Sentinel-2號衛(wèi)星可覆蓋13個光譜波段,幅寬達290km。地面分辨率分別為10m、20m和60m。1顆衛(wèi)星的重訪周期為10d,2顆衛(wèi)星互補,重訪周期為5d。在光學數(shù)據(jù)中,Sentinel-2號在紅邊范圍含有3個波段的數(shù)據(jù)[9]。多光譜、高分辨率的Sentinel-2衛(wèi)星數(shù)據(jù)向用戶免費開放,對利用遙感信息開展土地利用分類研究提供了新的數(shù)據(jù)源。
本文以Sentinel-2A影像為數(shù)據(jù)源,提取光譜特征、植被指數(shù)、紋理特征3種基本特征變量,通過對以上變量進行特征優(yōu)選及優(yōu)選特征融合,采用隨機森林算法進行土地利用分類,最后通過與最小距離算法、馬氏距離算法和神經(jīng)網(wǎng)絡算法分類結果進行對比,以驗證本文方法的有效性和可行性。
白鹿原[10]是位于陜西省西安市的黃土臺塬,地跨長安區(qū)、灞橋區(qū)、藍田縣,總面積約263km2,是西安境內(nèi)最大的黃土臺塬。白鹿原海拔630~670m,從東南向西北傾斜,屬溫帶大陸性半濕潤氣候,四季分明,雨熱同季。降雨集中在6—10月,年均降水量700mm,年均氣溫13℃,光照資源豐富,年光照時數(shù)為2372~2920h,熱量可滿足農(nóng)作物一年兩熟的需要。研究區(qū)位置及衛(wèi)星影像如圖1所示。
圖1 研究區(qū)位置圖
本文采用白鹿原地區(qū)的Sentinel-2 L2A數(shù)據(jù)。Sentinel-2A有13個光譜波段,其中分為藍、綠、紅3個可見光波段(B2-B4)和近紅外波段(B8)分辨率為10m;3個紅邊波段(B5-B7)、Narrow NIR波段(B8A)以及2個短波紅外波段(B11和B12)分辨率為20m;其余3個波段(B1、B9和B10)分辨率為60m[9]。
從歐洲航天局數(shù)據(jù)共享網(wǎng)站(https://scihub. copernicus.eu/dhus/#/home)獲取研究區(qū)2021年5月8日Sentinel-2 L2A級別影像,影像清晰無云,質量良好。該影像已進行了輻射定標、大氣校正和幾何校正。為后續(xù)分類方便,將20m分辨率的紅邊波段(B5-B7)和近紅外波段(B8A)影像統(tǒng)一重采樣為10m,利用SNAP和ENVI進行影像合成及分類等處理。
參考《全國遙感監(jiān)測土地利用/土地覆被分類體系》[11],結合Sentinel-2A影像的空間分辨率以及研究區(qū)土地利用的實際情況,將研究區(qū)土地利用類型劃分為林地、耕地、水域、道路和建設用地5種類型?;赟entinel-2A的光譜特征、植被指數(shù)及紋理特征,通過特征優(yōu)化融合,采用隨機森林、人工神經(jīng)網(wǎng)絡、最小距離和馬氏距離共4種分類方法進行土地利用分類對比研究。
2.1.1 光譜特征及特征優(yōu)選
在Sentinel 2A的波段中,Band1為海岸/氣溶膠波段;Band2、Band3、Band4為可見光波段;Band5、Band6、Band7是紅邊波段;Band8是近紅外波段(寬);Band8A是近紅外波段(窄);Band9是水蒸氣波段;Band10、Band11、Band12是短波紅外波段。因此,在進行光譜特征優(yōu)選時,可見光波段作為常用的分類波段在本文中為必選波段。在剩余波段中,3個紅邊波段、2個近紅外波段、3個短波紅外波段作為待選波段,2個近紅外波段中,本文計算得出Band8和Band8A的相關系數(shù)為0.987,因此Band8或者Band8A均可作為待選波段,參照宋宏利等[12]對黑龍江流域主要農(nóng)作物的分類方法,本文選擇Band8A作為光譜特征的優(yōu)選波段。3個短紅外波段中,Band10為卷云波段,因此不予考慮。依據(jù)上述思路,選擇Band5、Band6、Band7、Band8A、Band11、Band12共6個波段作為光譜特征進行特征優(yōu)選。
本文采用最佳指數(shù)因子法(Optimum Index Factor,OIF)對光譜特征進行優(yōu)選。其基本原理是圖像中所涵蓋的信息量與其標準差成正比,標準差越大信息量就越多,圖像的獨性與波段間的相關系數(shù)成反比,其相關系數(shù)越低,信息冗余度越小。此方法綜合了各波段間的關聯(lián)性及單波段圖像的信息量,得到了廣泛應用[13],其數(shù)學公式:
(1)
式中,Si表示第i個波段的標準差;Rij表示第i個、第j個2波段的相關系數(shù)。
2.1.2 植被指數(shù)及特征優(yōu)選
植被指數(shù)(Vegetation Index,VI)是根據(jù)植被的光譜特性,將衛(wèi)星可見光和近紅外波段進行組合,反映植被在可見光、近紅外波段反射與土壤背景之間差異。植被指數(shù)已廣泛用來定性和定量評價植被覆蓋及其生長活力[14]。
根據(jù)選取的波段,計算了4種無紅邊植被指數(shù)及7種紅邊指數(shù),具體指數(shù)及其計算公式如表1所示。通過計算上述植被指數(shù)之間的相關系數(shù)矩陣,篩選出相關性較弱的植被指數(shù),以降低特征變量間的冗余性。
表1 植被指數(shù)
2.1.3 紋理特征及特征優(yōu)選
除上述特征變量之外,紋理也是圖像最重要的空間特征之一。與形狀、大小等其他空間特征相比,紋理特征的使用相對簡單,不需要預先進行圖像分割[19]。本文采用灰度共生矩陣的方法(Gray-level Co-occurrence Matrix,GLCM)獲取影像的紋理特征。本文通過多次試驗對比,設置滑動窗口大小為3,步長為1,利用灰度共生矩陣提取了均值(Mean)、方差(Variance)、同質性(Homogeneity)、對比度(Contrast)、差異性(Dissimilarity)、熵(Entropy)、二階矩(Second Moment)、相關性(Correlation)共8個紋理特征,并使用主成分分析對紋理特征進行特征優(yōu)選。
在特征優(yōu)選的基礎上,基于隨機森林、神經(jīng)網(wǎng)絡、最小距離和馬氏距離4種方法,對比了基于光譜特征和多特征融合的土地利用分類精度。
2.2.1 隨機森林分類
隨機森林(Random Forest)是一種由多個決策樹組成的基于監(jiān)督學習算法構成的集成分類器。RF采用決策組合機制將多棵決策樹組合成1個更強的分類器,從而獲得比單一決策樹更高的泛化能力和分類精度。許多研究表明,與傳統(tǒng)的基于數(shù)理統(tǒng)計的分類方法相比較,隨機森林在分類精度、分類速度及穩(wěn)定性上表現(xiàn)良好。
2.2.2 人工神經(jīng)網(wǎng)絡算法
人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)于20世紀40年代出現(xiàn),到20世紀70年代被逐漸應用于遙感影像土地利用/土地覆被分類領域,ANN通過模仿生物神經(jīng)系統(tǒng)的構造原理和數(shù)據(jù)處理流程建立分類模型。通過各神經(jīng)單元互相作用來處理數(shù)據(jù),數(shù)據(jù)以網(wǎng)絡結構的形式分布式儲存,通過調(diào)整各神經(jīng)單元的權重值的變化來完成學習過程,從而得到數(shù)據(jù)的分類結果。
2.2.3 馬氏距離算法
馬氏距離(Mahalanobis Distance)是由馬哈拉諾比斯于1936年引入的一種廣義距離,馬氏距離是一種加權的歐氏距離,通過計算待分類圖像到各類別的馬氏距離,將待分類圖像劃歸到距離其最近所在的類,下文簡稱MAD。集合X到類別uK之間的馬氏距離公式:
(2)
式中,∑是多維隨機變量的協(xié)方差矩陣;uK為樣本均值。
2.2.4 最小距離算法
最小距離(Minimum Distance)分類是根據(jù)訓練樣本數(shù)據(jù)去計算每種類別的均值和協(xié)方差矩陣,把均值當作此類別在特征空間中的中心位置,計算待分類圖像中每個像元到各地物類別中心之間的距離,將未知類別向量歸屬于距離最小一類的一種圖像分類方法,下文簡稱MID。
X到類別ui之間的最小距離公式:
(3)
基于上述的光譜特征、植被指數(shù)、紋理特征及其優(yōu)選結果,再結合不同的分類方法,構建以下分類特征組合方案見表2,對隨機森林、ANN、最小距離和馬氏距離算法在純光譜分類與多特征融合方類中的分類精度進行對比。
表2 分類特征組合方案
本文基于混淆矩陣開展分類精度評價?;煜仃囃ㄟ^對樣區(qū)內(nèi)所有像元,統(tǒng)計其分類圖中的地物類別與真實地物類別之間的混淆程度來評估分類精度。其中,常用的評價指標包括生產(chǎn)者精度(Producer's Accuracy,PA)、用戶精度(User's Accuracy,UA)、總體精度(Overall Accuracy)和Kappa系數(shù)等。
3.1.1 光譜特征優(yōu)選
如前文所述,可見光波段作為常用分類波段在本文中為必選波段;在剩余波段中,3個紅邊波段、1個近紅外波段和3個短波紅外波段作為待選波段,將其進行排列組合后,不同波段組合的OIF值如表3所示。由表3可知,Band7、Band8A、Band11的OIF指數(shù)值最大。因此本文選取Band2、Band3、Band4、Band7、Band8A及Band11的波段組合作為優(yōu)選后的光譜特征。
表3 不同波段組合的OIF值
3.1.2 植被指數(shù)特征優(yōu)選
為無紅邊指數(shù)的相關性見表4,由表4可知,SAVI與NDVI及MSAVI的相關性均大于97%,因此首先排除SAVI;MSAVI與NDVI及SAVI相關性大于96%,因此排除MSAVI。在4個無紅邊指數(shù)中,排除SAVI和MSAVI,保留RVI與NDVI。
表4 無紅邊指數(shù)相關性
同樣,紅邊指數(shù)相關性見表5,由表5可知,CIre與MSRre相關性高達99.44%,CIre在紅邊指數(shù)中比較常用,因此排除MSRre;REDNDVI與TVI相關性高達95%,與RRI2相關性高達98%,與CIre相關性高達95%,因此將其排除;RNDVI與TVI相關性高達95%,與RRI2相關性高達92%,因此也將其排除。排除MSRre、REDNDVI與RNDVI,最后保留TVI、RRI1、RRI2和CIre,保留指數(shù)間的相關性均小于90%,減少了冗余性。
3.1.3 紋理特征優(yōu)選
紋理特征的主成分分析結果如表6所示。由表6可知,前2個主成分已經(jīng)包含了94.87%的信息量,因此選擇紋理特征的前2個主成分作為特征優(yōu)選變量。
表5 紅邊指數(shù)相關性
表6 紋理特征主成分分析結果
根據(jù)表2中的分類方案,對RF、ANN、MID及MAD在光譜特征及優(yōu)選融合特征的分類精度進行對比,結果如圖2所示。
從圖2可知,RF分類結果區(qū)分度較為明顯;ANN對于建筑的區(qū)分度不高;MID算法對于林地及耕地的分類效果不夠理想;MAD對于林地的分類效果較差。整體來看,優(yōu)選多特征融合方案對分類結果產(chǎn)生了正面的影響,特別是在ANN和MID分類方案中,優(yōu)選多特征融合方案大大提升了各地物類別的區(qū)分度。
總體精度評價的分類混淆矩陣見表7。從表7可知,所有組合中,RF組合方案總體精度高于其他算法,其中基于光譜特征的RF分類方案總體精度達到85.21%,基于融合特征的RF分類方案總體精度達到87.31%。說明相較于其他分類算法,RF土地利用分類的準確性更高、分類效果更好;相較于基于光譜的RF分類方案,優(yōu)選多特征融合的RF分類方案總體精度提升了2.1%,并且高于其他組合方案的分類精度。優(yōu)選多特征融合的RF方案對建筑、森林、農(nóng)田及公路的用戶精度均高于其他組合的用戶精度。在ANN方案中,優(yōu)選多特征融合方案總體精度提升了10.52%;在MID和MAD方案中,優(yōu)選多特征融合方案總體精度分別提升9.21%和1.79%。說明優(yōu)選多特征融合方案對提升土地利用分類精度具有一定的效果。光譜特征提高了圖像質量,指數(shù)特征反映了地物差異,紋理特征表現(xiàn)了地物與其周圍環(huán)境的關系。融合后的多特征提高了土地類別之間的區(qū)分度。
表7 總體精度評價
圖2 光譜特征及融合特征分類結果
基于多光譜Sentinel-2影像,通過優(yōu)選后的多特征融合影像信息,構建了多種算法的土地利用分類模型,以白鹿原地區(qū)為例開展了土地利用分類對比研究。主要結論如下:對光譜特征、植被指數(shù)及紋理特征采用不同方法進行優(yōu)選,可以實現(xiàn)特征變量降維,減少特征的冗余性;相較基于光譜特征的分類方案,優(yōu)選多特征融合方案的分類精度提升了2%~10%,表明多特征融合方法能夠提升土地利用分類的準確率;與優(yōu)選多特征融合的ANN、MID和MAD相比,優(yōu)選多特征融合的RF分類方案精度分別提升了10.85%、26.22%及4.55%,RF相比于其他分類方案具有更高的分類精度,分類結果與真實類別具有高度一致性,在黃土臺塬區(qū)土地利用分類中具有較高適宜性。