雷惠敏,張和生
太原理工大學(xué) 礦業(yè)工程學(xué)院,太原 030024
道路是基礎(chǔ)地理信息的重要組成部分,道路提取的相關(guān)方法和理論具有較大的探索前景。隨著遙感技術(shù)的發(fā)展,遙感影像的分辨率不斷提高,影像所包含的幾何特征以及紋理信息也不斷增加,因此利用高分辨率影像進(jìn)行道路提取的方法也獲得了很大的發(fā)展。目前最常用的道路提取的方法有基于像元的方法、面向?qū)ο蟮姆椒ê蜕疃葘W(xué)習(xí)的方法。陳立福等利用數(shù)學(xué)形態(tài)學(xué)和MRF分割的方法對(duì)高分辨率SAR影像的道路進(jìn)行提取,有效的提取出了道路輪廓,但未能充分利用影像的光譜信息、紋理信息,在復(fù)雜場(chǎng)景的道路提取中不具有普適性[1]。王文慶、袁偉等利用深度學(xué)習(xí)方法實(shí)現(xiàn)了道路的自動(dòng)化提取[2-3]。但深度學(xué)習(xí)方法對(duì)計(jì)算機(jī)性能要求較高,需要的數(shù)據(jù)集較多,模型搭建復(fù)雜,對(duì)于普通的道路提取效果一般。面向?qū)ο笞鳛榈缆纷詣?dòng)提取中最常用的方法,現(xiàn)階段仍具有重要的意義。例如,Ding等發(fā)現(xiàn)道路局部區(qū)域通常具有一致性,將像素合并到具有相似主方向的對(duì)象中,以計(jì)算幾何測(cè)量值,然后,使用線段連接算法提取其中的道路對(duì)象[4]。Huang等基于對(duì)象多尺度結(jié)構(gòu)特征,利用SVM對(duì)不同地物進(jìn)行分類,利用多數(shù)投票機(jī)制識(shí)別道路對(duì)象[5]。Maboudi、Stein等利用面向?qū)ο蠓椒ㄌ崛〉缆帆@得了較好的效果[6-7]。面向?qū)ο蟮姆椒ǔ浞掷昧擞跋裥畔?duì)道路進(jìn)行提取,雖然避免了僅利用光譜像元分類造成的影像“同譜異物和”“椒鹽現(xiàn)象”,取得了很好的效果[8]。但同時(shí)參與道路提取的特征增多,也造成了特征維數(shù)的增大,在一定程度上降低了道路提取過(guò)程中影像的分類精度,因此在分類前需要對(duì)特征進(jìn)行選擇降低其維度[9]。
隨機(jī)森林算法是一種機(jī)器學(xué)習(xí)分類算法,可以直接處理高維數(shù)據(jù)的降維問題[10]。目前與隨機(jī)森林結(jié)合使用的特征選擇算法主要有過(guò)濾式(Filter)和封裝式(Wrapper)。溫小樂等通過(guò)隨機(jī)森林封裝算法進(jìn)行特征選擇對(duì)喬木林樹種進(jìn)行分類,提高了樹種的分類精度[11]。馬玥、姚登舉等利用隨機(jī)森林算法封裝式特征選擇方法對(duì)特征變量進(jìn)行降維,將降維后的變量用于影像分類,提高了分類的精度[12-13]。但封裝式算法對(duì)分類器和搜索算法的依賴性較大,根據(jù)原始特征集在分類器上的性能評(píng)估特征子集的優(yōu)劣,效率較低。Filter方法具有較好的預(yù)測(cè)能力,并獨(dú)立于封裝式算法,將其與封裝式算法結(jié)合使用構(gòu)成過(guò)濾式-封裝式特征選擇方法,能充分利用兩者的優(yōu)勢(shì)。例如,劉舒等采用ReliefF過(guò)濾式算法和基于隨機(jī)森林的封裝式多目標(biāo)遺傳算法相結(jié)合的方法優(yōu)化特征集,將所得的特征集用于濕地提取,取得了較好的效果[14]。傳統(tǒng)隨機(jī)森林分類在選擇特征時(shí)具有隨意性,會(huì)忽略特征對(duì)類別的重要性,很難選擇出隨機(jī)森林的最優(yōu)參數(shù)組合并且選擇過(guò)程效率低。因此本文在前人的基礎(chǔ)上提出了將PSO搜索算法與優(yōu)化的隨機(jī)森林算法結(jié)合使用構(gòu)成PSO_OPRF封裝式特征選擇方法并和ReliefF過(guò)濾式算法共同使用。在充分考慮特征間相關(guān)關(guān)系的同時(shí)選擇最優(yōu)的隨機(jī)森林的參數(shù)組合,來(lái)提高影像分類和道路提取的精度。
研究區(qū)位于山西省太原市城區(qū)內(nèi)部,位置為112°30′29″-112°32′37″E,37°52′27″-37°53′47″N(如圖1),根據(jù)城市生態(tài)用地的分類經(jīng)驗(yàn)將研究區(qū)分為水體、植被、主干路、次干道、支路、建筑、陰影和其他8類地物[15]。
數(shù)據(jù)選用2020年7月7日獲取的全色分辨率為1 m,多光譜分辨率為4 m的GF-2遙感影像(如圖1)。利用ENVI平臺(tái)對(duì)GF-2遙感影像進(jìn)行正射校正、幾何配準(zhǔn),將配準(zhǔn)后的影像進(jìn)行融合、裁剪得到研究區(qū)初始影像,進(jìn)一步采用中值濾波去除噪聲提高影像對(duì)比度,利用改進(jìn)的雙閾值canny算子對(duì)研究區(qū)影像進(jìn)行邊緣提取[16],將提取的邊緣和原始影像疊加得到最終研究區(qū)圖像(如圖2)。最終圖像在不減少光譜信息的情況下同時(shí)擁有了邊緣信息,能得到更好的影像分割效果。
圖1 研究區(qū)示意圖Fig.1 Schematic diagram of the study area
圖2 添加邊緣算子圖Fig.2 Add edge operator graph
多尺度分割算法是一種自底向上的區(qū)域生長(zhǎng)算法[17]。其依據(jù)異質(zhì)性準(zhǔn)則,將單個(gè)像元逐層合并成具有相似性特征的影像對(duì)象,具體流程為:設(shè)置影像的尺度參數(shù)、光譜、形狀的權(quán)值,將影像的局部區(qū)域異質(zhì)性與給定閾值大小進(jìn)行對(duì)比,當(dāng)異質(zhì)性小于給定閾值時(shí)進(jìn)行迭代合并,依次循環(huán),當(dāng)異質(zhì)性大于給定閾值時(shí),停止合并。使得影像分割后對(duì)象內(nèi)部同質(zhì)性和對(duì)象間異質(zhì)性達(dá)到最大[18]。多尺度分割根據(jù)影像中各個(gè)地物特征的不同,選擇不同的尺度對(duì)遙感影像進(jìn)行分割[19],形成不同地物間的層次等級(jí)網(wǎng)絡(luò)體系,在特定影像層上提取出特定地物。本文在不同的尺度層次上對(duì)3種類型的道路進(jìn)行了提取,首先根據(jù)ESP插件獲得影像多尺度分割的大致尺度為120、180、210、260、300,再根據(jù)RMAS指數(shù)法[19]結(jié)合目視方法分別獲得各個(gè)地物的尺度參數(shù)、形狀與緊致度因子的參數(shù)見表1。
表1 各個(gè)地物最佳分割尺度和形狀緊致度因子參數(shù)
研究共選擇93個(gè)特征,其中包括光譜特征8個(gè),幾何特征15個(gè),紋理特征51個(gè),語(yǔ)義特征16個(gè) ,自定義特征3個(gè)。光譜特征包括4個(gè)波段的均值和標(biāo)準(zhǔn)差;幾何特征包括面積、邊界長(zhǎng)度、長(zhǎng)寬比、寬度、不對(duì)稱性、密度等;紋理特征包括GLCM和GLDV方向的均值、標(biāo)準(zhǔn)差、熵、同質(zhì)性、對(duì)比度、非相似性、角二階矩、相關(guān)性等;語(yǔ)義特征包括距離相關(guān)性和相鄰邊界相關(guān)性等;自定義特征包括建筑指數(shù)(BAI)、自定義水體指數(shù)(NDWI)以及自定義植被指數(shù)(NDVI)。
(1)ReliefF特征選擇
ReliefF是由Kononeill通過(guò)改進(jìn)Kira提出,Relief得到的一種過(guò)濾式特征選擇算法,可以解決多類別問題。它基于特征和類別之間的相關(guān)性來(lái)確定權(quán)重,濾除權(quán)重小于閾值的特征。具體過(guò)程為:隨機(jī)選取訓(xùn)練樣本集中的一個(gè)特征樣本R,分別選擇樣本R的k個(gè)同類最近鄰樣本和異類最近鄰樣本構(gòu)成樣本集H和樣本集T,求出H和T中特征與原始樣本R中特征的差值,將其定義為特征權(quán)重W[20]。對(duì)于任意特征樣本集m,進(jìn)行n次抽樣的特征權(quán)重Wm計(jì)算式[21]如下:
(1)
式中:c為異類樣本集類別;R[m]代表特征集R中特征為m的值;p(c)為異類樣本類別c的概率;Hj[m]為同類樣本中距離m的第j個(gè)最近鄰特征的值;class(R)代表對(duì)象集R的類別,p(class(R))是所有樣本中與R相同的概率;T(c)j[m]為距離c類樣本第j個(gè)最近鄰特征m的值。
(2)粒子群優(yōu)化搜索算法
Kennedy和Eberhart在1995年提出的粒子群優(yōu)化算法(PSO)是一種群體協(xié)作式的隨機(jī)搜索算法[22]。根據(jù)粒子的適應(yīng)值和速度與其他粒子協(xié)作共享信息尋找解空間中的最優(yōu)解。本文中將粒子群優(yōu)化算法作為封裝式算法中的搜索算法,在預(yù)處理后的特征集中選擇更優(yōu)的特征。
(3)PSO_OPRF封裝算法
首先按權(quán)重大小對(duì)原始特征子集進(jìn)行排序,利用ReliefF過(guò)濾式算法對(duì)排序后的特征子集進(jìn)行篩選,去除權(quán)重較小的特征,保留權(quán)重較大的特征用參與到下一步的特征選擇。然后,利用PSO算法和OPRF算法共同構(gòu)成封裝式(Wrapper)子集評(píng)估器對(duì)預(yù)選出的特征進(jìn)一步降維。將PSO算法作為封裝算法中的搜索算法,對(duì)經(jīng)過(guò)ReliefF過(guò)濾式算法篩選出的特征的重要性進(jìn)行評(píng)估判斷,對(duì)冗余特征進(jìn)一步消除,降低其維度。利用OPRF作為封裝算法中的分類器, 對(duì)隨機(jī)森林的參數(shù)進(jìn)行自動(dòng)選擇,同時(shí)考慮特征之間的相關(guān)性,刪除PSO算法中重要性較低的特征,逐次迭代,依據(jù)分類精度的大小對(duì)特征選擇的優(yōu)劣進(jìn)行判斷,建立分類精度變化與特征維度之間的關(guān)系,最終選擇出最優(yōu)的特征子集。并利用十折交叉驗(yàn)證法驗(yàn)證該特征選擇方法對(duì)地物的分類精度。
(1)J48決策樹分類
J48決策樹的基本理論算法為ID3算法,如圖3所示?;趶纳系较碌倪f歸策略,構(gòu)造決策樹的分支,依次循環(huán),對(duì)連續(xù)屬性進(jìn)行離散化處理[23]。以J48決策樹構(gòu)建分類規(guī)則集對(duì)影像進(jìn)行多層次分類,進(jìn)一步在多層次分類的基礎(chǔ)上提取城市道路。與通過(guò)優(yōu)化隨機(jī)森林分類器分類的結(jié)果進(jìn)行對(duì)比。
圖3 ReliefF_PSO_OPRF特征選擇流程圖Fig.3 ReliefF_PSO_OPRF feature selection flow chart
(2)隨機(jī)森林算法(RF)分類
隨機(jī)森林算法是由多個(gè)決策樹組成的一種機(jī)器學(xué)習(xí)的分類算法。該算法對(duì)訓(xùn)練數(shù)據(jù)中隨機(jī)選取的子訓(xùn)練樣本構(gòu)建決策樹,并對(duì)決策樹每個(gè)節(jié)點(diǎn)上特征進(jìn)行隨機(jī)抽取。根據(jù)選取的特征信息量分裂和增長(zhǎng)決策樹的節(jié)點(diǎn),重復(fù)循環(huán)此過(guò)程,直到不再繼續(xù)分裂。對(duì)各決策樹進(jìn)行分類,并對(duì)其結(jié)果進(jìn)行投票,得到最終的投票分類結(jié)果[24]。
(3)優(yōu)化的隨機(jī)森林(OPRF)分類
現(xiàn)有的隨機(jī)森林算法通常構(gòu)建大量決策樹,對(duì)內(nèi)存消耗較大計(jì)算效率較低。使用遺傳算法優(yōu)化隨機(jī)森林中決策樹的個(gè)數(shù),選擇高質(zhì)量的個(gè)體樹來(lái)作為遺傳算法的初始種群,可以提高隨機(jī)森林的算法精度[25]。首先將OPRF作為封裝算法中的分類器,對(duì)選擇后的特征集合進(jìn)行評(píng)估,在剩余的特征中選擇出最優(yōu)的特征集,再依據(jù)分類規(guī)則對(duì)三個(gè)等級(jí)的道路分別進(jìn)行提取。
利用ArcGIS軟件對(duì)提取后的道路進(jìn)行細(xì)化處理,對(duì)樹木、房屋陰影造成的道路斷裂問題,進(jìn)行拓?fù)涮幚韺?shí)現(xiàn)道路連接,對(duì)提取出的道路面進(jìn)行線化處理細(xì)化道路,去除粗提取產(chǎn)生的道路毛刺,對(duì)道路進(jìn)行平滑。道路提取流程圖如圖4所示。
圖4 道路提取流程Fig.4 Flow chart of road extraction
本文采用FNEA分割算法按RMAS指數(shù)法獲得的各個(gè)地物的分割尺度和形狀緊密度因子,利用eCognition9.1對(duì)遙感影像進(jìn)行逐層分割,在分割好的影像的基礎(chǔ)上共選擇903個(gè)樣本點(diǎn),選擇其中2/3作為測(cè)試數(shù)據(jù),1/3作為驗(yàn)證數(shù)據(jù),利用weka3.9平臺(tái)設(shè)計(jì)對(duì)初始特征進(jìn)行選擇,得到最優(yōu)特征參與后續(xù)分類過(guò)程,在不同層級(jí)上對(duì)不同尺度的道路進(jìn)行粗提取。
對(duì)原始空間特征利用weka3.9平臺(tái)設(shè)計(jì)實(shí)驗(yàn)首先利用ReliefF過(guò)濾算法進(jìn)行初始選擇,保留與目標(biāo)類別相關(guān)性較大的60個(gè)特征,再利用粒子群優(yōu)化算法對(duì)預(yù)選出的特征重要性進(jìn)行排序,同時(shí)優(yōu)化隨機(jī)森林算法,選擇最優(yōu)隨機(jī)森林子樹組合對(duì)特征子集進(jìn)行評(píng)估,得到最終的26個(gè)特征(如表2)。其中包括光譜特征3個(gè),幾何特征5個(gè),紋理特征7個(gè),語(yǔ)義特征9個(gè),自定義特征2個(gè)??倐€(gè)數(shù)比僅使用ReliefF少34個(gè),比ReliefF_PSO_RF選擇出的特征少8個(gè),比ReliefF_PSO_J48少了10個(gè)。ReliefF_PSO_OPRF特征選擇方法選擇出了最少的特征子集參與后續(xù)的影像分類,減少了計(jì)算時(shí)間,提高了影像分類的精度。
表2 ReliefF_PSO_OPRF選擇的特征
為了進(jìn)一步驗(yàn)證ReliefF_PSO_OPRF方法的可靠性,將其與ReliefF_OPRF、PSO_RF、PSO_J48等方法的結(jié)果對(duì)比分析,見表3。從表3中可以看出4種方法中ReliefF_PSO_OPRF分類的總精度和kappa系數(shù)最高。相比于ReliefF_OPRF分類精度高出4%左右,kappa系數(shù)也高出0.04,驗(yàn)證了在封裝算法中引入PSO搜索算法的必要性。發(fā)現(xiàn)ReliefF_PSO_OPRF方法的分類精度分別提高了3.87%、3.21%、10.3%,kappa系數(shù)提高了0.047 6、0.039 4、0.124 8。利用PSO_ORPF構(gòu)成封裝式算法選擇的特征分類精度比PSO_RF構(gòu)成封裝式算法選擇的特征分類精度高3%,kappa系數(shù)高出0.04;比PSO_J48構(gòu)成封裝式算法選擇的特征分類精度高出10%,kappa系數(shù)高出0.12,驗(yàn)證了將OPRF作為封裝式算法中分類器的有效性。實(shí)驗(yàn)證明ReliefF_PSO_OPRF構(gòu)成的過(guò)濾式-封裝式特征選擇方法選出的特征最優(yōu)。將該特征集依據(jù)分類器構(gòu)建的分類規(guī)則參與到影像的多層次分類中能將道路與其他地物很好地區(qū)分開(如圖4),提高了道路提取的精度。
表3 不同特征選擇方法分類精度對(duì)比
利用以上多種特征選擇方法及分類方法在多個(gè)層次上對(duì)不同類型的道路進(jìn)行提取,在此過(guò)程中將選出的不同特征集的閾值構(gòu)造作為規(guī)則集寫入易康軟件中作為分類的依據(jù),建立分類模型。通過(guò)對(duì)道路提取的查全率、查準(zhǔn)率、F-measure,三個(gè)指標(biāo)來(lái)判斷道路提取的質(zhì)量。
查全率(Recall):指道路提取的完整程度,用于衡量正確分類的道路總面積與目視解參考道路總面積之比:
(2)
查準(zhǔn)率(Precision):指正確提取道路數(shù)據(jù)的百分比,即算法分類之后的得到的正確分類的道路總面積與提取的道路網(wǎng)總面積之比:
(3)
F-Measure(F度量):是查準(zhǔn)率和查全率的調(diào)和平均數(shù),是查準(zhǔn)率和查全率的綜合表示:
(4)
式中:TP代表道路提取中將正類判定為正類;FP是指將負(fù)類判定為正類,即“存?zhèn)巍?;FN是指將正類判定為負(fù)類,即“去真”。
由表4可知,本文提出的ReliefF_PSO_OPRF方法選擇的特征參與影像分類后,提取出的道路具有較好的效果,主干道和支路的查全率、查準(zhǔn)率、F度量值都達(dá)到了0.9以上,次干道的查全率、F度量都達(dá)到了0.8以上,查準(zhǔn)率達(dá)到了0.85以上,支路的查準(zhǔn)率、查全率和F度量值都達(dá)到了0.9以上,高于其余幾種方法。ReliefF_PSO_RF特征選擇方法選取的特征提取出的道路精度次之,查準(zhǔn)率、查全率和F度量都低于本文提出的方法。結(jié)合圖6可以明顯看出基于ReliefF_PSO_RF選擇的特征提取出的道路存在錯(cuò)提,漏提的現(xiàn)象。驗(yàn)證了優(yōu)化的隨機(jī)森林算法的有效性。僅使用ReliefF算法與優(yōu)化的隨機(jī)森林算法結(jié)合使用選擇出來(lái)的特征提取出來(lái)的道路的質(zhì)量低于ReliefF_PSO_OPRF、ReliefF_PSO_RF方法選擇出來(lái)的特征提取的道路質(zhì)量。單獨(dú)使用ReliefF算法進(jìn)行特征選擇,只能依據(jù)特征權(quán)重過(guò)濾掉權(quán)重較低的特征,不能充分考慮特征子集之間的關(guān)系對(duì)其進(jìn)行準(zhǔn)確的評(píng)估,選擇出的特征對(duì)道路提取的質(zhì)量較低。利用J48作為封裝式算法的分類器評(píng)估特征子集,選擇出的特征對(duì)道路的提取效果相較于前三種方法最差。驗(yàn)證了隨機(jī)森林算法作為分類器選擇特征時(shí),具有較高的預(yù)測(cè)準(zhǔn)確性。
表4 不同方法道路提取質(zhì)量對(duì)比
圖5 四種特征選擇方法分類結(jié)果對(duì)比Fig.5 Comparison of classification results of four feature selection methods
圖6 四種特征選擇方法部分道路提取對(duì)比圖Fig.6 Comparison diagram of partial road extraction of four feature selection methods
本文針對(duì)GF-2遙感影像道路提取中遇到的特征冗余的問題, 提出了ReliefF_PSO_OPRF特征選擇方法,將選擇的特征應(yīng)用于面向?qū)ο蟮牡缆诽崛≈?,取得了較好的效果,對(duì)主干道的提取質(zhì)量達(dá)到了0.959,對(duì)次干道的提取質(zhì)量達(dá)到了0.853,對(duì)支路的提取質(zhì)量達(dá)到了0.931。通過(guò)四個(gè)試驗(yàn)對(duì)比可知:特征選擇可以降低特征維度,提高道路的提取精度;封裝式算法的分類器選擇中本文選用的OPRF分類器相較于RF分類器和J48分類器選擇出的特征集更優(yōu),對(duì)道路的提取效果更好;結(jié)合過(guò)濾式-封裝式算法選擇的特征對(duì)道路的提取精度高于僅使用過(guò)濾式算法選擇的特征提取的道路精度。驗(yàn)證了本文方法在特征選擇方面的可行性。由于城市中地物類型復(fù)雜,本文對(duì)主干道、支路的提取效果較好,在次干道的提取質(zhì)量中還有待精進(jìn)。