朱 麗,國巧真*,吳正鵬,吳歡歡,何云海
1.天津城建大學 地質(zhì)與測繪學院,天津 300384
2.天津市測繪院有限公司,天津 300381
鹽堿地是鹽土和堿土的總稱,其形成的根本原因是土壤中水鹽失衡導致鹽分在土壤表面移動與積累(翁永玲和宮鵬,2006)。鹽堿地的堿性性質(zhì)會抑制甚至危害作物的生長發(fā)育,因此鹽堿地的存在會造成糧食減產(chǎn)、土壤退化等問題,嚴重制約經(jīng)濟和生態(tài)環(huán)境的發(fā)展。鹽堿地作為潛在的土地資源,對其進行監(jiān)測與改良,對于緩解土地資源緊張、挖掘農(nóng)業(yè)發(fā)展?jié)摿哂兄匾饬x。
傳統(tǒng)的鹽堿地監(jiān)測主要采用實地土壤調(diào)查取樣的方法,通過分析土壤各組分含量來驗證土壤類型,其精度較高,但在大范圍區(qū)域監(jiān)測中,該方法需要消耗大量的社會資源且及時性不強,實現(xiàn)實時動態(tài)監(jiān)測存在一定的困難。隨著空間信息技術(shù)的不斷發(fā)展,國內(nèi)外已經(jīng)開始廣泛利用影像數(shù)據(jù)如 Landsat、QuickBird、SPOT、IKONOS、GF-1等對土地的鹽漬化信息進行提取,以此提高土地鹽漬化的監(jiān)測效率(Elnaggar and Noller,2009;Ivits et al,2013;Allbed et al,2014;Sidike et al,2014;牛增懿等,2016)。由于高空間分辨率遙感影像包含了更豐富的地物信息,因此選擇合適的圖像分割算法能夠提高目標識別的精確度和穩(wěn)健性(高仁強等,2020)。隨著影像分辨率的不斷提高和影像特征的不斷增加,傳統(tǒng)的圖像分割方法如閾值分割、區(qū)域合成、邊緣檢測等方法也在不斷發(fā)展,分形網(wǎng)絡(luò)演化算法(FNEA)作為一種基于區(qū)域合成的多尺度分割算法,能綜合考慮地物之間的光譜、紋理信息等特征差異,目前已被廣泛運用于圖像分割中。
從20世紀80年代至今,國內(nèi)外針對鹽堿地的提取方法研究也在不斷發(fā)展,決策樹、支持向量機、神經(jīng)網(wǎng)絡(luò)、隨機森林等機器學習方法也普遍用于鹽堿地信息的提取和反演(李晉等,2014;姜紅等,2017;徐存東等,2018;Jiang et al,2019;Wang et al,2019;楊練兵等,2021),隨機森林作為一種并行的集成學習算法,在決策樹的基礎(chǔ)上進行集成,突破了單分類器的性能提升瓶頸,各個樹之間的獨立運行讓它可以在高維數(shù)據(jù)上實現(xiàn)并行處理,但其在高維數(shù)據(jù)上性能仍有提升空間(王奕森和夏樹濤,2018)。Rodríguez et al(2006)通過主成分變換(PCA)對隨機森林的特征進行降維,但使用該方法時只保留了主成分值較大的值,一些主成分值小但相關(guān)性強的特征會被過濾掉。還有學者通過構(gòu)建特征子空間來優(yōu)化隨機森林,主要思想都是通過分析特征的信息量和相互關(guān)系來構(gòu)建算法(Amaratunga et al,2008;Ye et al,2013)。鹽堿地信息由于受到季節(jié)變化、土壤濕度等影響,利用機器學習需要充分考慮鹽堿地的信息復雜性,需結(jié)合鹽堿地的形狀、紋理等特征,但當特征維數(shù)過大,會造成數(shù)據(jù)冗余和無關(guān)特征的增加,反而會導致機器學習能力下降,也會使得分類精度降低(Cui et al,2020),因此在機器學習前需進行特征優(yōu)選,進而提高機器學習的分類性能。目前特征優(yōu)選在干旱區(qū)精細植被分類、沙化土地識別、濕地分類等方向皆有所應(yīng)用,而在鹽堿地提取方向,仍需要進一步的研究(李長龍等,2015;張磊等,2019;張文博等,2021)。
本文基于GF-6多光譜影像數(shù)據(jù),利用分形網(wǎng)絡(luò)演化算法(FNEA)對影像對象進行多尺度分割,針對多維數(shù)和數(shù)據(jù)不平衡問題,使用數(shù)據(jù)挖掘中的經(jīng)典算法 —— CFS算法與Relief F算法進行數(shù)據(jù)降維,精簡特征子集,再利用這兩種特征優(yōu)選算法對面向?qū)ο蟮碾S機森林算法進行優(yōu)化。
研究區(qū)位于天津市濱海新區(qū)東北部,位置范圍北緯38°40′ — 39°00′,東經(jīng)117°20′ — 118°00′。天津市北面區(qū)域緊鄰燕山山脈,山區(qū)南部與華北平原地區(qū)相連,自此至東南區(qū)域地勢總體上平緩,海拔在8 m以下,一般處于3 — 5 m。濱海新區(qū)瀕臨渤海,處于海陸交接處,多年以來受海水浸漬土壤,在溫帶季風氣候影響下,年降水量在500 mm左右,而年蒸發(fā)量達到降水量的4倍(楊曉瀟等,2019),因此導致該地區(qū)土壤的淺層不斷積累鹽分,從而形成鹽漬化土壤。其次,工業(yè)化的迅速發(fā)展、農(nóng)業(yè)耕作中不合理的灌溉方式也在加重該區(qū)域的土壤鹽漬化程度。由于土壤含鹽量高,肥力低,區(qū)域正常植被生長受到抑制,多生長堿蓬(Suaeda glauca)、檉柳(Tamarix chinensis)等鹽生植物。本文選擇研究區(qū)域位于濱海新區(qū)北大港水庫附近,研究區(qū)大小為1500× 1500個像元,研究區(qū)內(nèi)主要包含的土地利用類型為裸露鹽堿地、鹽生植被、建筑區(qū)、道路、水體等地物,土地鹽漬化程度不均勻,土壤環(huán)境復雜。
研究區(qū)采用的數(shù)據(jù)源為高分六號PMS多光譜波段數(shù)據(jù),主要參數(shù)如表1所示。研究區(qū)遙感影像獲取時間為2019年9月30日,處于夏季旱期,植被生長旺盛,日照強烈,降水少且蒸發(fā)量大,在鹽堿地形成過程中正處于脫鹽末期,較適合對其進行提取。
表1 高分六號主要參數(shù)Tab.1 Main parameters of GF-6
高空間分辨率遙感影像的優(yōu)勢在于展現(xiàn)地物豐富的形態(tài)特征,對于小目標的識別能力也更強,利用傳統(tǒng)基于像元的分類方法往往會造成空間數(shù)據(jù)的冗余,產(chǎn)生椒鹽圖像,進而降低分類效果。本文選取面向?qū)ο蠓椒?,其基本思想是通過綜合分析不同對象在特征和屬性上的差異,將具有相同特質(zhì)的像元歸為一個研究對象。面向?qū)ο蟮姆诸惙椒ㄟ^程主要包含影像分割、影像對象構(gòu)建、分類規(guī)則的建立、信息提取(陳云浩等,2006)。
影像分割是面向?qū)ο蠓诸惙椒ㄖ嘘P(guān)鍵的過程之一,其分割尺度的確定對影像分類精度有直接影響。本文利用一種基于區(qū)域生長的多尺度分割算法 —— 分形網(wǎng)絡(luò)演化算法(FNEA)進行圖像分割,該算法通過將影像對象間的平均異質(zhì)性(average heterogeneity)最小化,并將其各自的同質(zhì)性(homogeneity)最大化,綜合考慮影像的光譜和空間紋理信息,基于成對區(qū)域合并技術(shù)進行自下而上的影像對象合并(Benz et al,2004)。該算法中異質(zhì)性由光譜異質(zhì)性與形狀異質(zhì)性共同決定,其中形狀異質(zhì)性又由緊致度與光滑度兩部分組成。FNEA算法(張萌,2019)如下:
式中:H為異質(zhì)性值;ω為光譜異質(zhì)性值的權(quán)重;Hcolor為光譜異質(zhì)性值;Hshape為形狀異質(zhì)性值;ωn為某一波段權(quán)重;σn為某一波段的像元標準差;Hsmooth為光滑度;Hcompact為緊致度。
不同的地物類型,由于各自的屬性特征,在不同分割尺度上有不同的分割效果,因此本文利用ESP(estimation of scale parameter)尺度評價工具進行鹽堿地的最優(yōu)尺度選擇,多尺度分割中的尺度參數(shù)需要進行多次人為調(diào)試,而ESP則通過計算不同分割尺度下影像對象的局部變化(local variance,LV),通過變化率(rate of change,ROC)峰值來確定適宜的分割尺度,來消除人工調(diào)試的主觀因素影響(Drǎgu? et al,2010)。由于影像中存在多種地物,通過計算得到的ROC峰值一般也不止1個,針對出現(xiàn)的若干分割尺度,需要進行試驗確定地物對應(yīng)的分割尺度。
Relief F算法是Kononenko et al(1997)在只適用于處理二分類問題的Relief算法上進行改進的支持多分類的數(shù)據(jù)分析方法。作為數(shù)據(jù)挖掘中經(jīng)典的Filter算法,其基本思想是對每一個特征進行評價,根據(jù)每一個特征與已定義樣本類別的相關(guān)性,賦予特征權(quán)重,每個特征的權(quán)重是通過在樣本集D中隨機選擇一個樣本S,計算樣本S特征值與同類的其他特征值的k個最近鄰距離與不同類樣本的k個最近鄰距離,通過循環(huán)迭代M次,類別相關(guān)性高的特征將會賦予高的權(quán)重。權(quán)重計算公式(何牧宇和周暉,2019)如下:
式中:ωA為特征A的權(quán)重;Hi為與S同類的最近鄰樣本;Mi為與S不同類的最近鄰樣本;PC為類別為C的概率;class(S)為樣本S所屬的同類別樣本子集;diff(A,S,Mi)為樣本S1與S2在特征A上的差,當特征為數(shù)值變量時,將數(shù)據(jù)歸一化至[0, 1]。
CFS算法是一種關(guān)聯(lián)性的Filter算法,通過計算特征與類別、特征與特征之間的相關(guān)性進行評估,從而實現(xiàn)數(shù)據(jù)清洗(Li et al,2011)。CFS算法首先針對初始特征空間,采用前向選擇或后向選擇進行特征子空間的搜索,構(gòu)建特征子空間T,基于啟發(fā)式估計方法對特征子空間內(nèi)特征與特征、特征與類別間的相關(guān)性進行評估,其相關(guān)性強弱利用皮爾遜相關(guān)系數(shù)進行計算,去除特征與類別間相關(guān)性低的特征以及特征與特征相關(guān)性過高的特征。啟發(fā)式評估公式(孫寧青,2010)如下:
式中:MT為特征子集T的評估值;為類別與特征的平均相關(guān)性;為特征與特征間的相關(guān)性;α表示特征子集包含的特征個數(shù)。
隨機森林(random forest,RF)算法作為集成決策樹的機器學習方法,通過在訓練集中隨機抽取樣本且放回的方法,進行每一個決策樹的無剪枝生長,來消除決策樹受訓練集影響而泛化能力弱的問題(Breiman,2001)。高維數(shù)據(jù)下隨機森林產(chǎn)生的并行分類器在處理速度和分類精度都有較好的效果,但當數(shù)據(jù)噪聲量過大時,隨機森林仍然缺少去除多余噪聲的能力,在分類過程中出現(xiàn)過擬合(Wang et al,2018),特征個數(shù)過大,會產(chǎn)生過擬合問題,而特征個數(shù)不夠,則會降低每個樹的分類能力,從而增加了算法的錯誤率,針對該問題,該算法采用基于OOB(out of bag)誤差的無偏估計進行隨機選擇最大特征數(shù)的確定。
使用ESP分割尺度工具時需要先確定分割的起始尺度,本文每隔10單位進行一次分割,目視對比分割效果和各分割尺度下的LV與ROC的曲線變化,當分割尺度為70時,既可以較好地將鹽堿地與其他地物分割開,又避免了內(nèi)部的過分割現(xiàn)象。尺度分割LV與ROC變化如圖1所示,可以看出當分割尺度為71、97、123、132、152、166時為峰值,分別使用這些尺度對影像進行分割,當分割尺度為123時,能較好地區(qū)分鹽堿地與周圍地物類型。對于異質(zhì)性相關(guān)因子權(quán)重的設(shè)置,采用單一參數(shù)設(shè)定法進行多次試驗,發(fā)現(xiàn)增加近紅外波段的權(quán)重,可以使鹽堿地在該波段光譜信息更為豐富;將形狀異質(zhì)性與緊致度因子分別設(shè)定為0.5和0.6,能夠最大化體現(xiàn)目標的邊界特征。
圖1 分割尺度效果圖Fig.1 Effect of segmentation scale
從目標對象紋理特征、光譜特征、形狀特征以及遙感指數(shù)等自定義特征中選擇適宜的特征數(shù)量和類型,可以提高分類的精度,減少數(shù)據(jù)的冗余計算。本文針對鹽堿地的特征信息,構(gòu)建了初始特征空間,在光譜特征與紋理特征中,每一個特征屬性均在藍、綠、紅、近紅波段上進行特征構(gòu)建,最大化保留每一個波段的特征信息,選擇遙感指數(shù)SAVI(土壤調(diào)節(jié)植被指數(shù))、NDVI(歸一化植被指數(shù))、SI(鹽度指數(shù))作為獨立波段參與分類。該初始特征空間包含93個特征。初始特征空間中各屬性數(shù)據(jù)量級不同,為防止數(shù)據(jù)數(shù)值之間差異過大而導致數(shù)據(jù)被吞噬問題,對各屬性數(shù)據(jù)進行Min-max標準化處理,將各屬性值限定至[ ?1, 1]。
利用Relief F算法對初始特征空間進行降維,采取Ranker搜索策略對每一個特征進行權(quán)重計算并按順序排列,得到的特征重要性排序如圖2所示。按排序可知前9個特征得分較高,依次為HIS變換、土壤調(diào)節(jié)植被指數(shù)、歸一化植被指數(shù)、最大差分、近紅外波段、紅波段、鹽度指數(shù)、藍波段、綠波段;第10 — 20個特征處于中等得分,主要是灰度共生矩陣紋理特征以及部分形狀特征,說明光譜特征與遙感指數(shù)在鹽堿地提取中占有重要地位,紋理特征次之,形狀特征最末。這是由于鹽堿地的含鹽量越高,在近紅外區(qū)域反射率則越高,而裸露鹽堿地多與鹽生植被混合存在,因此紋理方向不定,紋理特征復雜。鹽生植被的簇狀生長,在土壤含鹽量高的地方生長受抑制,土壤含鹽量低則生長旺盛,鹽堿地也受到其影響,形狀呈簇狀聚集,邊緣形狀彎曲多變。Relief F算法雖然賦予了每個特征權(quán)重,但不能確定特征子集的數(shù)目,本文利用隨機森林方法對數(shù)據(jù)集進行建模,通過得到不同特征數(shù)目下的分類總體精度(overall accuracy)與Kappa系數(shù)來確定最優(yōu)特征數(shù)目。建模過程中對訓練集采用十折交叉驗證法進行訓練,即將數(shù)據(jù)集分為十等份,將其中9份作為訓練集,1份作為驗證集,直到每份數(shù)據(jù)都作為驗證子集進行驗證且驗證1次。十折交叉驗證法使得每個數(shù)據(jù)都參與了訓練與測試兩個環(huán)節(jié),避免了模型的過度學習以及欠學習。由圖3可知:隨著特征變量數(shù)目逐漸增加,總體精度與Kappa系數(shù)也在快速增加,當特征變量達到15之后,曲線開始轉(zhuǎn)變?yōu)椴▌訝顟B(tài),直到當特征數(shù)目為40時,精度達到峰值,分類總體精度達到96%,Kappa系數(shù)為0.95,因此選擇前40個特征作為優(yōu)選特征,選擇特征如表2所示。
針對CFS算法,采用全局最優(yōu)算法(best first)作為搜索策略進行啟發(fā)式搜索,進行特征預(yù)選,去除不相關(guān)變量。CFS算法并不對每個特征變量進行排序,通過對特征子集的評估直接得到最優(yōu)特征空間。通過CFS篩選后共有17個特征,結(jié)果如表2所示。通過比較可得兩個算法所獲得的特征中共有14個重合特征?;赗elief F得到的特征結(jié)果包括了82%的CFS篩選的特征,說明兩種算法對重要特征均有較好的搜索效果,通過對比可以看出:各波段的光譜信息與自定義遙感指數(shù)在兩種算法中都得到了保留,與上述重要性得分排序表現(xiàn)的結(jié)論相同,說明光譜信息在識別鹽堿地類中的重要性,是區(qū)分其與其他地類的重要特征。CFS算法在紋理特征與形狀特征中相對于Relief F算法則約簡了更多屬性。
圖2 特征重要性得分Fig.2 Scores of feature importance
通過Relief F與CFS算法篩選后的特征對研究區(qū)域進行隨機森林分類,通過選取的隨機樣本點利用解譯標志以及Google Earth目視解譯賦予樣本數(shù)據(jù)屬性,利用生產(chǎn)者精度(produce accuracy)、用戶精度(user accuracy)統(tǒng)計不同算法下漏分誤差與錯分誤差,利用總體分類精度(overall accuracy)、Kappa系數(shù)評價總體分類效果。由表3可知:Relief F-RF在鹽堿地與鹽化植被的分類上,生產(chǎn)者精度與用戶精度均有所提高,但在其他類別上精度降低了0.7%與1.6%,原因是Relief F算法進行特征篩選時,對于相關(guān)性較強的特征過濾效果不好,導致冗余特征,進而影響了分類性能;Relief F-RF算法的總體精度提高了1.1%。而CFS基于相關(guān)性的特征篩選算法則在分類效果有了明顯提升,相較于直接建立隨機森林,總體精度達到83.7%,提高了7.4%,Kappa系數(shù)為0.74,鹽堿地的生產(chǎn)者精度提高了8.9%,用戶精度提高了6.8%。鹽化植被的生產(chǎn)者精度提高了10.4%,用戶精度提高了12.2%。
上述結(jié)果表明:基于Relief F與CFS對隨機森林進行優(yōu)化均能提高對鹽漬化土地的提取精度,未進行特征優(yōu)選的隨機森林算法提取精度最低,表現(xiàn)出多維數(shù)問題對機器學習的分類性能存在一定的影響。Relief F算法在特征中篩選出40個特征,相較來說CFS算法只保留了17個特征,卻得到了更高的提取精度,說明特征數(shù)目與精度不呈現(xiàn)正相關(guān)性,特征之間的高相關(guān)性也會影響機器的學習能力(李文杰等,2020)。
不同算法下的分類結(jié)果以及局部細節(jié)如圖4所示。通過對比遙感影像圖,可以看出CFS-RF算法對鹽堿地識別精度更高。究其原因,是受到土壤含鹽量高低的影響,鹽漬化土地上會生長較為單一的植被如堿蓬、蘆葦(Phragmites australis)等,分布稀疏,呈簇狀聚集。植被的生長發(fā)育受到抑制,NDVI值會比正常植被低,在假彩色圖像上呈現(xiàn)暗紅色,而鹽漬化嚴重區(qū)域則會表現(xiàn)出亮斑現(xiàn)象。鹽堿地與鹽化植被在影像上通常呈交錯分布,鹽漬化植被分布不均,與鹽堿地成為混合像元。對于鹽堿地與鹽化植被的混分現(xiàn)象,通過多尺度分割以及CFS的特征篩選,增大了類別之間的可分離性,CFS優(yōu)化后鹽化植被的分類精度提升最多。有些鹽堿地區(qū)域由于排水不暢、土壤濕度增大造成的地表反射率降低,在影像上呈現(xiàn)暗色調(diào),CFS-RF對此也有很好的識別效果。
圖3 特征數(shù)目與精度關(guān)系Fig.3 Relationship between feature numbers and accuracy
表2 Relief F與CFS特征優(yōu)選結(jié)果Tab.2 Results of Relief F and CFS feature selection
表3 基于不同算法的分類精度統(tǒng)計Tab.3 Statistics of classification accuracy based on different algorithms
本文通過對GF-6遙感影像利用FNEA算法進行面向?qū)ο蟮亩喑叨确指睿_定適宜鹽堿地提取的分割尺度,利用Relief F與CFS算法進行特征篩選,以此實現(xiàn)對隨機森林的優(yōu)化。得到結(jié)論如下:(1)確定了在GF-6高空間分辨率下鹽堿地的分割尺度,為鹽漬化土地信息的提取提供參考依據(jù);(2)特征篩選可以過濾冗余數(shù)據(jù),提高機器學習的分類精度,CFS算法對特征的過濾程度大于Relief F算法;(3)本文提出的利用CFS算法對隨機森林進行優(yōu)化,在鹽堿地提取應(yīng)用上有較好的分類效果,特征變量減至17個,且總體精度達到83.7%,提高了7.4%,Kappa系數(shù)為0.74;(4)對于高維屬性數(shù)據(jù)特征復雜問題,本文提出的方法也可以適用于其他地類信息的提取,可以有效提高特征子集的數(shù)據(jù)質(zhì)量與數(shù)據(jù)挖掘的效率。