張夢茹 馮志立
摘 要:考慮多特征組合下的遙感影像分類時,信息量冗余會影響分類精度的問題。本文采用最佳波段指數(shù)(OIF)選擇最佳波段組合,然后提取紋理和植被指數(shù)特征并結(jié)合隨機森林特征重要性與分類精度之間的線性關(guān)系達到特征優(yōu)選目標(biāo):獲取最佳特征集合。最后采用隨機森林算法、SVM、最大似然算法對實驗區(qū)進行土地利用分類,對比原始波段、最佳波段組合、全特征集合、優(yōu)選特征集合分類結(jié)果,研究多特征優(yōu)選下適宜于土地利用分類的最優(yōu)分類模型。研究結(jié)果表明:不同特征集合的分類結(jié)果存在一定的差異,在相同的算法下:最大似然算法下原始光譜波段分類精度最高;隨機森林算法下優(yōu)選特征分類精度最高;支持向量算法下全特征集合分類精度最高。在不同算法的特征集合結(jié)合中基于隨機森林算法的優(yōu)選特征分類精度最高:總體精度88.07%、F1函數(shù)0.843 4、kappa系數(shù)0.830 5。因此特征優(yōu)選下的特征集合結(jié)合優(yōu)勢算法在土地利用分類中具有一定的應(yīng)用價值。
關(guān)鍵詞:最佳波段指數(shù);特征優(yōu)選;隨機森林;GF-6
中圖分類號:P237 ? ? ?文獻標(biāo)志碼:A ? ? 文章編號:1003-5168(2022)11-0106-05
DOI:10.19968/j.cnki.hnkj.1003-5168.2022.11.024
Research on GF-6 Image Land Use Classification Method under Feature Optimization
ZHANG Mengru? ? FENG Zhili
(Key Laboratory of mining space-time information and ecological restoration, Ministry of natural resources,
Jiaozuo 454003,China)
Abstract: When reviewing the classification of remote sensing images under the combination of multiple features, the redundancy of information will affect the classification accuracy. In this paper, the optimal band index (OIF) is used to select the best band combination, and then the texture and vegetation index features are extracted and combined with the linear relationship between random forest feature importance and classification accuracy to achieve the feature optimization goal: obtain the best feature set.? Finally, the random forest algorithm, SVM, and maximum likelihood algorithm are used to classify the land use in the experimental area, and the classification results of the original band, the best band combination, the full feature set, and the optimal feature set are compared, and the method suitable for land use classification under multi-feature optimization is studied. Optimal classification model. The research results show that there is certain differences in the classification results of different feature sets. Under the matching algorithm, the original spectral band classification accuracy is the highest under the maximum likelihood algorithm; the optimal feature classification accuracy is the highest under the random forest algorithm; the full feature set under the support vector algorithm is the highest. The classification accuracy is the highest. In the combination of feature sets of different algorithms, the preferred feature classification accuracy based on random forest algorithm is the highest: the overall accuracy is 88.07%. The F1 function is 0.843 4, and the kappa coefficient is 0.830 5. Therefore, the feature set combination advantage algorithm under feature optimization has definite application value in land use classification.
Keywords: Best Band Index; Feature Optimization; Random Forest; GF-6
0 引言
利用遙感技術(shù)獲取土地利用分類現(xiàn)狀對及時掌握土地利用現(xiàn)狀,為管理部門提供數(shù)據(jù)支持具有重要意義。而采用單一特征結(jié)合分類算法實現(xiàn)土地利用分類無法滿足精度要求,結(jié)合多特征[1]與優(yōu)勢分類算法的土地利用分類可以達到較高精度。但是數(shù)據(jù)維數(shù)的增加導(dǎo)致信息量冗余會間接影響分類精度。因此本文利用GF-6國產(chǎn)數(shù)據(jù),通過建立基于特征維數(shù)的隨機森林特征重要性與分類精度的線性關(guān)系,同時采用最佳波段指數(shù)OIF,分別實現(xiàn)優(yōu)選特征集合目標(biāo),并對比分析隨機森林、最大似然、支持向量機算法在優(yōu)選特征集合下的分類精度,獲取一種能夠獲得較高分類精度的土地利用分類現(xiàn)狀調(diào)查方法。
1 研究區(qū)及數(shù)據(jù)源
1.1 研究區(qū)
土地利用現(xiàn)狀調(diào)查對于土地的使用類型的掌握具有一定的價值。鄭州市作為河南省省會城市,其土地利用現(xiàn)狀及土地規(guī)劃發(fā)展對于城市及周邊城市發(fā)展起著至關(guān)重要的作用。因此本文選擇鄭州市金水區(qū)作為本文實驗的研究區(qū)。研究區(qū)展示如圖1所示。
1.2 數(shù)據(jù)源
本文遙感數(shù)據(jù)主要采用的是中國資源衛(wèi)星應(yīng)用中心(中國資源衛(wèi)星應(yīng)用中心(cresda.com))提供的GF6號WFV影像數(shù)據(jù)。影像信息介紹如表1所示。
2 特征提取與分析
2.1 最佳波段組合選取
為充分利用原始光譜波段特征的信息量,進一步提高原始光譜波段的應(yīng)用價值,本文采用最佳波段指數(shù)對原始光譜波段進行排列組合,以期獲取基于原始光譜波段的最佳波段組合,為提高信息量應(yīng)用價值以及提高分類工作效率,降低劣勢光譜波段的向優(yōu)抑制性。最佳波段指數(shù)計算公式如式(1)。
[ OIF=i3Sij3Rij]? ? (1)
式中:3代表選擇的三個波段;[Si]表示所選擇波段的標(biāo)準(zhǔn)差;[Rij]表示所選擇波段相互之間相關(guān)系數(shù)的絕對值。計算結(jié)果如表2所示。
2.2 紋理特征
紋理特征是一種反映圖像同質(zhì)現(xiàn)象的視覺特征,能夠體現(xiàn)出真實地物在影像上的周期變化信息,采用灰度共生矩陣[2]計算影像灰度在方向、間隔、變化幅度與快慢信息,對于地物信息的準(zhǔn)確獲取具有一定的應(yīng)用價值。因此本文基于PCA第一主成分影像與灰度共生矩陣計算0°、45°、90°、135°上的方差、對比度、差異性、熵、均值、二階矩、相關(guān)性、同質(zhì)性等共八個紋理特征,用于構(gòu)建特征集合,為獲取土地利用分類優(yōu)勢特征提供幫助。
2.3 植被指數(shù)
植被指數(shù)是基于遙感原始光譜數(shù)據(jù)進行波段運算獲得的一些對植被具有一定指示的數(shù)值。因此為更好地利用遙感原始光譜波段數(shù)據(jù),達到更好的土地利用分類結(jié)果。本文選擇幾種較為常用的植被指數(shù)用于增加特征集合維數(shù):增強型植被指數(shù)[3](Enhanced Vegetation Index,EVI),超綠指數(shù)(Excess Green,EXG)、歸一化綠紅差異指數(shù)(Normalized Green Red Difference Index,NGRDI)以及可見光波段差異植被指數(shù)[4](Visible band Difference Vegetation Index,VDVI),修正型歸一化植被指數(shù)[5](Modified Normalized Difference Vegetation Index,MNDVI),歸一化水體指數(shù)(Nomalized Difference Water Index,NDWI)、改進陰影水體指數(shù)[6](Modified Shadow Water Index,MSWI),比值居民地指數(shù)[7](the Ratio of Residential Area Index,RRI)、歸一化植被指數(shù)[8](Normalized Difference Vegetation Index,NDVI)、比值植被指數(shù)[9](Ratio Vegetation Index,RVI)。
2.4 優(yōu)選特征集合選取
在采用多特征集合進行土地利用分類時,算法的強大與特征集合的維度是影響最終結(jié)果的關(guān)鍵。算法適應(yīng)性較差、特征維度較高則分類結(jié)果在一定程度上無法滿足需要。而隨機森林算法中的特征重要性計算方法可以根據(jù)各特征在分類中的貢獻程度將不同特征的分類重要性進行表達。因此,基于python平臺編寫隨機森林算法特征重要性計算程序,計算該算法每一個特征的貢獻率,并基于ENVI軟件繪制特征重要性排序圖與分類精度變化圖。最終結(jié)合分析獲得優(yōu)選特征集合。
結(jié)合特征重要性排序結(jié)果(圖2)與精度變化趨勢圖(圖3)可以看出:當(dāng)選擇前兩個特征時相較于其他特征集合分類精度達到最高。因此本文優(yōu)選特征集合由B16與B12組成。具體特征描述如表3所示。
3 方法選擇
為突出算法及特征組合在土地利用分類中結(jié)合的優(yōu)勢,本小節(jié)采用多特征組合的方式分別構(gòu)建基于最大似然算法(Maximum Likelihood Classification Algorithm,MLC)、隨機森林算法(Random Forest Algorithm,RF)、支持向量機算法(Support Vector Machine Algorithm,SVM)的OIF特征、原始光譜特征、優(yōu)選特征、全特征的分類模型對研究區(qū)進行土地利用現(xiàn)狀分類。其中特征集合對應(yīng)特征個數(shù)為3、6、2、48。分類使用樣本為基于GF-2研究區(qū)影像像元,根據(jù)研究區(qū)實際地物類型并結(jié)合《土地利用分類標(biāo)準(zhǔn)》(GB/T 2010—2017)采集樣本:城鎮(zhèn)建設(shè)用地133、耕地14、裸地25、水域89、植被103,按照7∶3將樣本分為訓(xùn)練集與測試集。獲取不同模型下分類結(jié)果如圖4、圖5、圖6所示。
根據(jù)上述分類圖對比未分類圖像進行直觀定性分析可知:①在最大似然方法中OIF特征集合將大面積城鎮(zhèn)建設(shè)用地誤分為水域或者是裸地;原始光譜特征集合將少量水域誤分為城鎮(zhèn)建設(shè)用地,同時將少量城鎮(zhèn)建設(shè)用地誤分為裸地;優(yōu)選特征集合將大面積城鎮(zhèn)建設(shè)用地誤分為裸地;在全特征集合中由于隨著波段維數(shù)的增加,研究區(qū)某地類存在面積較小無法獲取較多樣本從而導(dǎo)致算法無法正常運行。綜合可知該算法在與特征集合結(jié)合的方式下對土地利用現(xiàn)狀進行分類獲取時存在一定的缺陷性。②在隨機森林算法中OIF特征集合分類結(jié)果整體較好,但出現(xiàn)少量城鎮(zhèn)建設(shè)用地誤分為水域的現(xiàn)象;原始光譜特征集合表現(xiàn)與OIF特征集合相似,區(qū)別在于將耕地分為植被,原因主要是樣本比例由于研究區(qū)地類所占面積較小導(dǎo)致的失衡;優(yōu)選特征相同上述兩種特征集合但在其他類別的分類中與未分類圖基本一致;全特征集合能夠達到與優(yōu)選特征集合基本相同的結(jié)果,但是在對個別地類分類的過程中出現(xiàn)未分類現(xiàn)象。③在支持向量機算法中全特征集合相比于其他特征集合的分類結(jié)果除去較小偏差基本與未分類圖地物類別分布一致,而其他特征集合出現(xiàn)較多的誤分現(xiàn)象。為進一步定量分析不同模型在土地利用現(xiàn)狀分類中的應(yīng)用價值,選取總體精度(Overall accuracy,OA)、F1函數(shù)、kappa系數(shù)對分類結(jié)果進行數(shù)值分析。計算結(jié)果如表4所示。
結(jié)合精度指標(biāo)可以看出:不同的分類算法結(jié)合不同的特征集合會產(chǎn)生不同的分類結(jié)果。在相同的特征集合下,整體上隨機森林算法所達到的精度較高。在相同的分類算法下,最大似然算法結(jié)合原始光譜特征集合的精度可以達到80%以上;隨機森林算法結(jié)合優(yōu)選特征的精度最高:總體精度88.07%、F1函數(shù)0.843 4、kappa系數(shù)0.830 5;支持向量機算法集合全特征集合的精度最高:總體精度87.16%、F1函數(shù)0.833 3、kappa系數(shù)0.813 6。
綜合上述定性與定量分析結(jié)果可以得出基于GF-6影像的隨機森林算法結(jié)合優(yōu)選特征集合對研究區(qū)土地利用現(xiàn)狀進行分類獲取能夠得到較好的結(jié)果。
4 結(jié)論
掌握土地利用現(xiàn)狀對土地管理具有重要作用,在土地利用現(xiàn)狀調(diào)查中為提高分類精度而促使基于遙感技術(shù)的多特征組合方式多被使用,但是多特征組合的使用導(dǎo)致信息量的冗余從而降低分類精度。因此本文考慮多特征組合下的遙感影像分類時,信息量冗余會影響分類精度的問題,采用國產(chǎn)GF6號WFV影像數(shù)據(jù),提取植被指數(shù)、紋理特征構(gòu)建多特征集合,并結(jié)合最佳指數(shù)OIF與隨機森林特征重要性計算方法優(yōu)選特征,最終選取最大似然、隨機森林、支持向量機算法對比不同特征集合下的分類精度。結(jié)果表明:基于隨機森林算法的優(yōu)選特征集合對土地利用現(xiàn)狀分類的精度最高為總體精度88.07%、F1函數(shù)0.843 4、kappa系數(shù)0.830 5。因此,特征優(yōu)選下的優(yōu)勢算法結(jié)合對土地利用分類現(xiàn)狀的分類具有一定的應(yīng)用價值。
參考文獻:
[1] 王宏勝,李永樹,張?zhí)炱?,?融合多特征的村域無人機影像兩階段土地利用分類方法[J].測繪與空間地理信息,2022,45(3):44-49.
[2] 馮子恒,宋莉,張少華,等.基于無人機多光譜和熱紅外影像信息融合的小麥白粉病監(jiān)測[J].中國農(nóng)業(yè)科學(xué),2022,55(5):890-906.
[3] 王敏鈺,羅毅,張正陽,等.植被物候參數(shù)遙感提取與驗證方法研究進展[J].遙感學(xué)報,2022,26(3):431-455.
[4] 張雅瓊,趙宇昕,屈冉,等.基于GF-1衛(wèi)星遙感影像的生態(tài)空間周邊建筑余泥渣土場提取方法研究[J].環(huán)境保護科學(xué),2018,44(6):50-55,89.
[5] 趙慶展,江萍,王學(xué)文,等.基于無人機高光譜遙感影像的防護林樹種分類[J].農(nóng)業(yè)機械學(xué)報,2021,52(11):190-199.
[6] 龔文峰,王鵬,王雙宇,等.基于GF-2衛(wèi)星遙感影像的界河水體信息提取方法[J].黑龍江大學(xué)工程學(xué)報,2018,9(4):1-7.
[7] 唐瓔,劉正軍,楊樹文.基于三指數(shù)合成影像的西北地區(qū)城市建筑用地遙感信息提取研究[J].地球信息科學(xué)學(xué)報,2019,21(9):1455-1466.
[8] DIHKAN M, GUNEROGLU N, KARSLI F, et al. Remote sensing of tea plantations using an SVM classifier and pattern-based accuracy assessment technique[J].International Journal of Remote Sensing, 2013,34(23):8549-8565.
[9] 奚雪,趙庚星,高鵬,等.基于Sentinel衛(wèi)星及無人機多光譜的濱海冬小麥種植區(qū)土壤鹽分反演研究:以黃三角墾利區(qū)為例[J].中國農(nóng)業(yè)科學(xué),2020,53(24):5005-5016.