劉芫汐, 施文灶, 孫雯婷, 溫鵬宇, 王 磊
1(福建師范大學 光電與信息工程學院, 福州 350007)
2(福建師范大學 福建省光電傳感應(yīng)用工程技術(shù)研究中心, 福州 350007)
3(福建師范大學 醫(yī)學光電科學與技術(shù)教育部重點實驗室, 福州 350007)
4(福建師范大學 福建省光子技術(shù)重點實驗室, 福州 350007)
圖像目標識別技術(shù)起源于20 世紀40 年代, 提取各目標的狀態(tài)參數(shù)和屬性值, 進而精確辨別圖像中的各類目標, 是圖像目標識別的基本任務(wù). 遙感圖像有著豐富的地表信息, 它的應(yīng)用大大縮短了數(shù)據(jù)采集的時間, 降低了消耗的費用. 相關(guān)研究表明, 城市遙感圖像目標識別是監(jiān)測城市環(huán)境的最佳手段, 其能夠快速獲取城市地物類型, 從而展現(xiàn)城市各板塊內(nèi)容, 具有較高水平的準確性和實時性, 所以城市遙感圖像目標識別具有重大的研究意義[1]. 然而, 精確識別遙感圖像目標仍然還處于攻克難關(guān)的階段, 且隨著遙感技術(shù)日漸發(fā)達, 其也被定義為投入應(yīng)用的關(guān)鍵[2].
隨著社會的日益進步, 科學水平持續(xù)提高, 遙感技術(shù)作為科學新興技術(shù)的重要組成部分顯現(xiàn)了迅猛的發(fā)展勢頭. 追求高分辨率是遙感圖像的一大發(fā)展趨勢, 它卻逐步加大了相同地物內(nèi)在差異, 那么基于像元的傳統(tǒng)方法早已無法達到城市遙感圖像目標識別的精度需求[3]. 而面向?qū)ο蟮膫鹘y(tǒng)方法雖然可以充分利用特征信息, 卻不能妥善處理一個對象內(nèi)部存在多種地物光譜的情況, 這主要原因在于目前的分割技術(shù)還無法達到精確度最大化. 這些傳統(tǒng)方法的識別結(jié)果由于同物異譜、異物同譜現(xiàn)象的存在, 往往出現(xiàn)較多的錯分、漏分現(xiàn)象, 導(dǎo)致最后得到的識別精度并不理想. 因此, 不少研究者針對城市遙感圖像目標不斷探索著新的識別方法來取得更好的效果.
對于圖像目標識別領(lǐng)域, 特征無疑是直接影響識別結(jié)果的重要因素. 目前, 越來越多研究者的目光聚集在特征空間的構(gòu)建上, 而特征空間的構(gòu)建著重于特征的集成與特征的選擇. 例如, 姬曉飛等[4]提出了一種基于多特征的光學遙感圖像多目標識別算法, 驗證了基于多特征的方法比基于單一特征具有更好的識別性能;詹國旗等[5]展開了基于特征空間優(yōu)化的隨機森林算法在GF-2 影像濕地分類中的研究, 證明了優(yōu)化后的特征空間能取得更好的識別效果. 特征集成有益于充分發(fā)揮各特征的優(yōu)勢, 揚長避短, 共同構(gòu)建一個特征空間[6,7],而傳統(tǒng)的特征集成大多是數(shù)量、類型均較少的集成形式, 并不能體現(xiàn)出集成的深刻意義. 但是, 選入大量特征不僅會對最終識別結(jié)果造成消極影響, 也會令構(gòu)造的算法模型復(fù)雜化. 此時特征選擇是一項必不可少的實驗步驟, 傳統(tǒng)的特征選擇卻大多是依據(jù)經(jīng)驗自行判斷, 無法使得選擇行為邏輯化.
針對以上傳統(tǒng)方法的局限性, 本文設(shè)計了一種基于多特征空間及其優(yōu)化的城市遙感圖像目標識別方法,該方法聯(lián)合像元、對象以及深度特征, 構(gòu)建了一個龐大的多特征空間, 對多特征空間進行優(yōu)化后得到最優(yōu)特征空間, 最后送入識別器, 從而實現(xiàn)對城市遙感圖像目標的識別.
eCognition 軟件是目前所有商用遙感軟件中第一個基于目標信息的遙感信息提取軟件, 它采用決策專家系統(tǒng)支持的模糊分類算法, 突破了傳統(tǒng)遙感軟件單純基于光譜信息進行影像分類的局限性[8]. 有相關(guān)研究通過對eCognition、ENVI、ERDAS IMAGINE、SPRING等軟件的分割功能進行比較分析, 得出了eCognition軟件分割性能更佳的結(jié)論[9].
多尺度影像分割(multiresolution segmentation)算法是eCognition 軟件的一大特色, 它是釆用基于異質(zhì)性最小的一種區(qū)域合并算法, 其目標是實現(xiàn)分割后影像對象的異質(zhì)性最小化[10]. 由于分割尺度參數(shù)(scale parameter, SP)用于控制獲取到的對象的內(nèi)部異質(zhì)性,最優(yōu)分割尺度的選擇是使用該算法的關(guān)鍵.
eCognition 軟件的另一大特色則是對多種圖像特征的自動計算, 為本研究構(gòu)建龐大的多特征空間打下了堅實的基礎(chǔ). 通過eCognition 軟件的使用, 能夠獲取遙感圖像的多類型特征, 例如光譜、形狀、紋理特征等, 但軟件中不存在內(nèi)置的指數(shù)特征, 需要利用其提供的自定義特征功能來獲取指數(shù)特征.
隨著卷積神經(jīng)網(wǎng)絡(luò)成功作用于圖像識別, Simonyan等人提出了一種全新架構(gòu)—VGGNet[11], 它的體系結(jié)構(gòu)是模塊化的分層模式. 當VGGNet 被提出時, 其憑借自身的準確性和便捷性被眾多學者們肯定推崇, 迅速成為了一種廣泛運用的卷積神經(jīng)網(wǎng)絡(luò).
針對AlexNet 中的卷積核形式, VGGNet 進行了相應(yīng)的改進, 具體措施是使用堆積的3×3 卷積核來替代AlexNet 中的較大卷積核[12], 例如一個5×5 卷積核被兩個堆積的3×3 卷積核替代. 使用連續(xù)的小卷積核來替代較大卷積核更加具有優(yōu)越性, 其增加網(wǎng)絡(luò)深度后, 不僅能夠?qū)W習更豐富的內(nèi)容, 而且涉及到的參數(shù)較少, 并未大幅增加計算量. VGGNet 獲得ImageNet2014 年目標定位與圖像分類比賽的冠亞軍, 在圖像分類和定位領(lǐng)域上均顯示出良好效果, 它的出現(xiàn)證明了增加網(wǎng)絡(luò)的深度能在一定程度上影響網(wǎng)絡(luò)最終的性能.
特征選擇, 即建立特征子集, 使得構(gòu)造出來的特征空間最后能取得更好的效果. 好的特征選擇能夠提升模型的性能, 更易于顯現(xiàn)數(shù)據(jù)的特點、底層結(jié)構(gòu), 這對進一步改善模型、算法都有著重要作用[13]. 特征重要度是一種利用訓練好的有監(jiān)督分類器來選擇特征的技術(shù), 憑借自身的簡潔性和實用性得到了廣泛應(yīng)用.特征重要度的常用方法有RF、GBDT、LightGBM、XGBoost.
本文通過實驗, 綜合評價后采用XGBoost 算法進行特征選擇. 極端梯度提升(extreme gradient boosting,XGBoost)算法高效實現(xiàn)了梯度提升決策樹(gradient boosting decision tree, GBDT)算法并進行了改進, 它力爭把訓練速度、預(yù)測精度發(fā)揮到極致. 在提升樹被創(chuàng)建后, 可以相對直接地得到每個屬性的重要性得分, 它衡量了特征在模型中的價值. 重要性得分通過評估各個屬性分裂點優(yōu)化模型性能的程度來計算, 若一個屬性優(yōu)化模型性能程度越高, 權(quán)值也就越大, 被選擇的次數(shù)也會越多. 通過節(jié)點記錄次數(shù)得到該屬性在每棵決策樹上的重要性得分, 再把所有結(jié)果加權(quán)求和后平均,最終得到特征重要度評價分數(shù)[14].
隨機森林算法(random forests, RF)是一種重要的基于Bagging 思想的集成學習算法, 它利用多棵決策樹對樣本進行訓練并預(yù)測, 可以用于解決分類、回歸等問題[15]. 其算法示意圖如圖1 所示, 其中,Di表示第i個訓練樣本集,Ti表示第i個特征樣本集,Ri表示第i個分類結(jié)果,R表示投票后的最終結(jié)果.
圖1 隨機森林算法示意圖
RF 算法通過自助抽樣法得到n個訓練集, 針對這些訓練集再創(chuàng)建n棵決策樹. 最后, 在預(yù)測時將n個模型的結(jié)果進行整合, 進而得到最終結(jié)果, 分類問題的整合方式采用多數(shù)投票規(guī)則. RF 算法除了對樣本進行了抽樣, 在節(jié)點分裂時對特征也進行了抽樣. 對特征進行隨機抽樣后, 在被抽出的部分特征中判斷最優(yōu)解, 再把最優(yōu)解運用到節(jié)點分裂. RF 算法由于存在Bagging 思想, 實際上對樣本和特征都進行了隨機抽樣, 所以在一定程度上可以避免過擬合現(xiàn)象.
本文采用的遙感影像數(shù)據(jù)為multi-temp scene Wuhan (MtS-WH)數(shù)據(jù)集[16,17]提供, 該影像數(shù)據(jù)是由IKONOS 傳感器獲得的大尺寸高分辨率遙感影像, 覆蓋范圍為湖北省武漢市漢陽區(qū). 影像經(jīng)過GS 算法融合, 分辨率為1 m, 包含4 個波段, 分別為藍、綠、紅和近紅外波段. 針對該影像數(shù)據(jù), 本文分別選取部分區(qū)域作為研究區(qū)域、驗證區(qū)域, 運用eCognition 軟件進行精確截取, 如圖2 所示.
圖2 實驗數(shù)據(jù)
本文的總體實驗流程如圖3 所示.
圖3 本文實驗流程圖
3.3.1 對象特征的提取
本文利用eCognition 軟件中內(nèi)置的多尺度分割算法, 對遙感圖像進行面向?qū)ο蠓指畈僮? 進而得到對象特征. 分割尺度參數(shù)是一個抽象的閾值, 它決定影像分割結(jié)果對象允許的最大異質(zhì)性. 本文借助ESP (estimation of scale parameter)尺度評價工具來獲取圖像的最優(yōu)分割尺度參數(shù), 該工具通過計算不同分割尺度參數(shù)下影像對象同質(zhì)性的局部變化(local variance, LV)作為分割對象層的平均標準差, 以此來代表分割效果. 當LV 的變化率值最大即呈現(xiàn)峰值時, 該點對應(yīng)的分割尺度值即為最佳分割尺度[18]. 首先, 采用ESP 尺度評價工具獲取到幾個適宜的分割參數(shù), 再通過目視判別分割效果來選擇地物的最優(yōu)分割尺度參數(shù). 本研究的ESP尺度評價示意圖如圖4.
圖4 ESP 尺度評價示意圖
通過圖4, 可以得到研究區(qū)域的適宜分割尺度參數(shù)包括17、50、65、88、98, 再將它們分別代入后目視判別分割效果, 經(jīng)過判別, 本文最后選擇的最優(yōu)分割尺度參數(shù)為50. 完成面向?qū)ο蠓指畈僮骱蟮男Ч鐖D5.
圖5 面向?qū)ο蠓指钚Ч麍D
對象特征是通過評價影像對象本身計算出來的,經(jīng)過eCognition 軟件計算對象特征各屬性后, 本文共提取到研究區(qū)域的53 個對象特征, 對象特征可視化示例效果如圖6.
圖6 對象特征可視化效果示例圖
3.3.2 像元特征的提取
本文利用eCognition 軟件中內(nèi)置的棋盤分割算法來提取圖像的像元特征信息, 通過最小化的棋盤分割操作, 能夠獲取到圖像中所有的單像素信息. 像元特征通過評價像元單位計算出來, 本文共提取到研究區(qū)域的34 個像元特征, 像元特征可視化示例效果如圖7.
圖7 像元特征可視化效果示例圖
3.3.3 深度特征的提取
由于VGG19 網(wǎng)絡(luò)在較多研究中顯現(xiàn)出良好分類效果, 本文將研究區(qū)域圖像送入預(yù)訓練好的VGG19 模型, 獲取了各個卷積層的特征圖, 共提取到研究區(qū)域的36 個深度特征, 深度特征可視化示例效果如圖8 所示.淺層的深度特征側(cè)重于展示細節(jié), 而較深層的特征主要以模塊形式顯示, 描繪了突出的形狀, 并且隨著層數(shù)的逐漸加深, 深度特征會變得更加抽象化.
圖8 深度特征可視化效果示例圖
3.3.4 建立多特征空間
針對上述實驗提取到的各類特征, 本文建立了一個較為豐富的多特征空間, 共有123 個特征, 其中包含53 個對象特征、34 個像元特征、36 個深度特征. 多特征空間的具體信息如表1 所示.
表1 多特征空間具體信息
3.4.1 特征數(shù)量的確定
特征重要度的常用方法有RF、GBDT、LightGBM、XGBoost. 在研究區(qū)域中選取232 個訓練樣本點, 從多特征空間中提取這232 個樣本點的全部數(shù)據(jù), 分別使用4 種常用算法對它們展開特征重要度排序, 再按照重要度由高至低的順序, 以1 個步長增加數(shù)量, 從而使用不同數(shù)量來獲取樣本識別精度.
本文通過對比實驗發(fā)現(xiàn), 在特征選擇中XGBoost算法和GBDT 算法的效果較好, 當特征數(shù)量為9 時,GBDT 識別精度達到87.01%, 當特征數(shù)量為18 時,XGBoost 識別精度達到88.31%, 兩者都能夠在運用較少特征數(shù)量的情況下達到較高識別精度, 對比實驗結(jié)果如圖9 所示. 進一步評估兩種算法性能, 將兩者在特征選擇中的運行時間進行比較, XGBoost 算法的運行時間比GBDT 算法快了約0.43 s, 算法性能提高了28.1%,比較結(jié)果如表2 所示. 與GBDT 算法相比, XGBoost算法既能夠充分利用特征信息, 又能取得更高的識別精度, 且自身性能也存在較大優(yōu)勢, 因此, 本研究采用XGBoost 算法進行特征選擇.
圖9 4 種常用算法對比實驗
表2 XGBoost、GBDT 算法在特征選擇中運行時間的比較
3.4.2 構(gòu)建最優(yōu)特征空間
為了構(gòu)建一個最優(yōu)特征空間, 當確定特征數(shù)量為18 個后, 使用XGBoost 算法對123 個特征進行特征重要度排序, 按重要度從高到低依次選擇前18 個特征,特征重要度前18 名具體信息如圖10 所示. 從圖10 中可以看出, 構(gòu)建多特征空間是充分必要的, 無論是對象、像元特征, 還是深度特征, 都存在對識別精度貢獻較大的具體特征. 本研究的最優(yōu)特征空間由這18 個特征構(gòu)建而成.
圖10 特征重要度前18 名具體信息
由于隨機森林識別器具有較強的分類、泛化能力,本研究采用隨機森林算法來構(gòu)建城市遙感圖像目標識別模型, 運用訓練樣本點的最優(yōu)特征數(shù)據(jù)集在PyCharm中進行算法參數(shù)調(diào)優(yōu), 具體參數(shù)設(shè)置如表3 所示. 經(jīng)過參數(shù)調(diào)優(yōu)后, 袋外(out of bag, OOB)算法精度由未調(diào)參時的80.08%上升到82.25%, 由此也證明了算法參數(shù)調(diào)優(yōu)的重要性. 構(gòu)建隨機森林模型后, 實現(xiàn)對研究區(qū)域的遙感圖像目標識別操作, 其圖像識別結(jié)果如圖11 所示.
圖11 研究區(qū)域識別結(jié)果
基于像元的方法、基于對象的方法都是遙感圖像目標識別中的常用且已被證實可行的方法. 基于像元的方法主要依據(jù)的是各像元信息, 而基于對象的方法注重于以對象為單位展開一切處理. 本文運用兩種傳統(tǒng)方法實現(xiàn)了對研究區(qū)域的遙感圖像目標識別操作,其識別結(jié)果如圖12 所示.
圖12 兩種傳統(tǒng)方法的識別結(jié)果
從圖12(a)中可以明確看出, 基于對象的方法依賴于面向?qū)ο蠓指畈僮? 分割效果直接影響識別結(jié)果, 而目前各種研究工具中并沒有提供非常精準的分割技術(shù),因此過分割和欠分割現(xiàn)象尤其明顯, 這也直接導(dǎo)致圖像錯誤識別. 從圖12(b)中也可以明確看出, 基于像元的方法依賴于各像元信息, 各像元卻沒有與鄰近像元充分地相互影響, 導(dǎo)致“椒鹽現(xiàn)象”格外嚴重.
深度學習是近些年機器學習發(fā)展中的熱點話題,它憑借自身的優(yōu)越性越來越受到國內(nèi)外學者的重視,那么研究如何將可行的常用方法與深度學習聯(lián)合在一起, 再運用到遙感圖像目標識別中具有重大的價值. 本文在聯(lián)合兩種傳統(tǒng)方法的基礎(chǔ)上, 加入了通過VGG19網(wǎng)絡(luò)獲取到的深度特征, 并在圖10 中證明了深度特征對本文方法的重要性, conv1_2、conv4_1 分別高居特征重要度排序的第2 名和第3 名.
從圖13 部分區(qū)域識別結(jié)果對比中可以發(fā)現(xiàn), 基于對象的方法因不同地物間界線不明, 易將不同類型地物統(tǒng)一歸納為同種地物, 圖13(e)中較大區(qū)域的植被被歸納于陰影模塊; 基于像元的方法因兩種地物間的異質(zhì)性較低, 又過度依賴單像元信息, 導(dǎo)致圖斑不完整,圖13(f)中陰影的孤立感強烈, 各部分無法做到連貫、流通. 而在兩種方法的基礎(chǔ)上聯(lián)合深度特征的方法做到了較為精確的刻畫, 圖13(g)識別效果明顯優(yōu)于上述兩種方法. 深度特征對細節(jié)的把控度較高, 能夠在其它特征的基礎(chǔ)上進行優(yōu)化. 但是深度特征來源于融合相似信息, 突出顯性信息, 致使部分有用信息被忽略. 因此,單純基于深度特征的方法不適宜于遙感圖像目標識別,在多特征空間中添加深度特征才能發(fā)揮其真正作用.
圖13 部分區(qū)域識別結(jié)果對比
為了評估研究區(qū)域識別結(jié)果的準確性, 本文利用隨機、均勻分布的樣本點對分類結(jié)果進行精度驗證,建立混淆矩陣分別計算識別結(jié)果的總體精度、Kappa系數(shù), 如表4 所示.
表4 研究區(qū)域識別精度評價
Kappa 系數(shù)的計算基于混淆矩陣, 它通常作為檢驗一致性的主要指標, 也能運用于揭示分類效果. 計算結(jié)果一般落于0-1 之間, 數(shù)值越大代表一致性越高, 可以分為5 組來表示不同級別的一致性, 其中, 0.61-0.80表示高度的一致性, 0.81-1 表示幾乎完全一致. 本文實驗方法得到的Kappa 系數(shù)為0.83, 進一步說明了基于多特征空間及其優(yōu)化的城市遙感圖像目標識別具有較高識別能力.
分析研究區(qū)域識別結(jié)果后發(fā)現(xiàn), 多個植被樣本被錯分成陰影. 由此可以看出, 本文研究方法對植被和陰影的區(qū)分能力有待提高. 進一步分析造成這種現(xiàn)象的原因, 主要包括3 個方面: (1) 研究區(qū)域的植被內(nèi)部復(fù)雜度較高, 對精確識別產(chǎn)生巨大消極影響; (2)部分植被區(qū)域的一些特征與陰影相似度過大, 例如光譜特征的mean_nir、mean_blue; (3)在提取對象特征時, 沒有精確分割出植被和陰影, 從而導(dǎo)致后續(xù)無法精確識別.
將兩種傳統(tǒng)方法的識別結(jié)果與本文方法進行對比,可以發(fā)現(xiàn)本文方法的總體精度和Kappa 系數(shù)都有較大幅度的提高, 直接表明基于多特征空間及其優(yōu)化的城市遙感圖像目標識別是可行且效果良好的方法.
為了驗證本文方法的有效性, 在所采用的遙感影像數(shù)據(jù)中選擇了一塊較大驗證區(qū)域, 運用本文研究方法來獲得目標識別結(jié)果, 識別結(jié)果如圖14 所示. 建立混淆矩陣分別計算識別結(jié)果的總體精度、Kappa 系數(shù),經(jīng)過計算, 該驗證區(qū)域的識別精度達到85.92%, Kappa系數(shù)達到0.81. 因此, 本文提出的基于多特征空間及其優(yōu)化的城市遙感圖像目標識別方法具有一定的有效性和準確性.
圖14 驗證區(qū)域識別結(jié)果
本文針對遙感圖像目標識別傳統(tǒng)方法的限制性,提出了一種基于多特征空間及其優(yōu)化的城市遙感圖像目標識別方法. 提取多類型特征, 進行特征選擇, 從而構(gòu)建一個最優(yōu)的多特征空間, 是本研究的最大貢獻. 通過實驗證明, 研究區(qū)域的總體識別精度達到87.89%,Kappa 系數(shù)達到0.83, 本文方法實現(xiàn)了城市遙感圖像目標的高精度識別. 但還存在許多不足, 例如分割對象需要更加精確、優(yōu)化特征空間可以關(guān)注更多細節(jié)等,深入探析, 彌補不足, 這也是接下來的研究目標.