張立恒,王 浩,薛博維,何立明,呂 悅
(1.長安大學 信息工程學院,西安 710064;2.西安中科星圖空間數據技術有限公司,西安 710000)
高分遙感影像是現代交通體系的重要載體,而路網提取技術是近些年來逐漸發(fā)展成熟的一門獨立學科,其在高分遙感影像中的應用價值主要體現在車輛導航、智能交通、地圖繪制、城市規(guī)劃等諸多領域。同時也給自然災害預警、災后重建、軍事目標打擊等相關場景提供有效的參考,對經濟、政治、地理、軍事等方面具有不可替代的意義[1-2]。
但隨著遙感技術的不斷革新,測量精度已經達到亞米級,分辨率也已經突破分米(dm)級別,并且有進一步發(fā)展的趨勢。伴隨而來的是地物背景信息的細節(jié)更加豐富,非道路信息如植被陰影、車輛流動、高樓建筑遮擋、人流流動等作為干擾噪聲十分繁雜,造成目標信息提取難度增加,即道路信息識別難度加大。另外,在路網識別過程中不同質地的道路會呈現出不同的光譜特性[3],還可能出現同譜異物或同物異譜的現象;當前道路提取絕大多數都采用半自動化方式,加上算法自身魯棒性較差、傳統(tǒng)方法識別精度較低、過程繁瑣等一系列問題,都給路網提取帶來較大的挑戰(zhàn)。
目前,以卷積神經網絡(Convolutional Neural Network,CNN)為典型代表的深度學習理論,在圖像分類[4-5]及目標檢測[6-7]等領域均表現出巨大的發(fā)展?jié)摿ΑI疃葘W習作為近來比較熱門的研究方法,其在高分影像道路智能化提取領域的實際應用也取得了長足的發(fā)展。文獻[8]提出CNN 訓練大樣本數據集的線性整合卷積算法,該算法可以預測像素區(qū)域為道路的概率,同時為每個像素點分配標記標簽來判斷是否為道路區(qū)域,適用場景為道路邊緣輪廓較粗糙的影像。文獻[9]以地面材質不同的分類為依據,提出一種弱監(jiān)督的提取算法,該算法利用Deep Lab 構建學習網絡,由ResNet 網絡結構負責測試穩(wěn)定性,最后根據條件隨機場(Conditional Random Field,CRF)修復邊界,在滑動窗口利用光譜角度距離連接相鄰路段。文獻[10]提出一種改進型graphcut 道路檢測算法,該算法能夠利用Orchard-Boumand 聚類算法聚類道路和非道路像素點,構建Gibbs 能量懲罰函數中的區(qū)域項,繼而使用maxflow算法對生成的權重圖進行分割,提取出道路信息。從上述方法的提取效果來看,較之前有大幅度提升,其準確性、魯棒性、適應性也較傳統(tǒng)方法有明顯改善。
高分遙感影像道路提取問題的關鍵在于識別影像中相關聯的道路像素特征信息。然而,在一些實際的應用場景中,常會因非道路關聯像素點的干擾,即受前景道路像素點與背景非道路像素點在量級上存在巨大差距的困擾,這種情況導致很難建立起一種高效的道路分割模型。
D-LinkNet[11]模型架構在中心區(qū)域加 入了空洞卷積層[12],這樣能夠最大程度地增大感受野的范圍及促進多尺度特征融合,同時不會造成特征圖分辨率的損失,盡量保留道路的空間細節(jié)信息。本文將D-LinkNet 應用于高分遙感影像道路提取研究,并依據影像中道路的特征對模型做出改進措施,提升該網絡模型在高分遙感影像中道路的分割精度。
D-LinkNet 網絡模型是北京郵電大學模式識別實驗室在2018 年的CVPR(Computer Vision and Pattern Recognition)全球衛(wèi)星圖像道路提取競賽(DeepGlobe Road Extraction Challenge)項目中取得最高分數脫穎而出的模型。本文D-LinkNet 網絡架構是由殘差網絡構建的編碼區(qū)、中心區(qū)域以及解碼區(qū)3 個部分組成。
該模型以LinkNet 作為基本框架,采用一種Encoder-Decoder 的架構。該模型的主要思想是:編碼區(qū)將道路信息編碼到特征信息上;解碼區(qū)將編碼的道路特征信息映射到空間中進行分割。由于在中心區(qū)域加入卷積層的基礎上,網絡本身并未增加學習參數,大幅降低了訓練的難度。對于道路提取任務,D-LinkNet 增加中心區(qū)域的空洞卷積層能進一步識別道路特征點信息的感受野。空洞卷積層相對于LinkNet 中池化層的優(yōu)勢是在保證特征圖分辨率的同時,不會丟失空間信息。
編碼區(qū)是由1 個尺寸為7×7、stride=2 的初始卷積模塊和4 個殘差模塊組成。殘差模塊使用ResNet34 作為預訓練網絡結構,采用跳躍連接的方式增強區(qū)域塊的泛化表征能力。中心區(qū)域的核心部分是空洞卷積層模塊,該模塊是一種串、并聯并存的連接方式。另外,本文在原有結構的基礎上嵌入channel-spatial 雙注意力模塊,精準地捕獲道路特征信息。解碼區(qū)采用一種殘差網絡的瓶頸連接結構[13],該結構利用1×1 的卷積核來提升 網絡的計算效率,如圖1 所示,最后利用轉置卷積上采樣將邊長變?yōu)樵瓉淼?2 倍,還原為原始圖像的尺寸。本文構建的改進D-LinkNet 網絡結構如圖2所示。
圖1 殘差網絡瓶頸結構1×1 卷積核Fig.1 Residual network bottleneck structure 1×1 convolution kernel
圖2 用于道路提取的改進D-LinkNet 網絡Fig.2 Improved D-LinkNet network for road extraction
在神經網絡中引入注意力機制的目的在于通過對重要的特征進行加權處理,來增強有效層的特征。對于本文而言,引入注意力機制的作用是從復雜的背景干擾信息中檢測出條狀道路輪廓。神經網絡主要是通過掩碼這一橋梁搭建注意力機制。掩碼的實現原理是通過一層新的權重分布層,將圖像中的重要的目標特征信息標注出來,網絡再通過學習及訓練獲取標注后的圖片道路區(qū)域,從而形成注意力。注意力機制的優(yōu)勢在于能夠依據梯度算子的前向傳播及后向反饋能力,通過訓練來學習圖像中的注意力權重參數。本文提出一種綜合注意力通道域[14]、空間域[15]組合形式的新型通道-空間雙注意力域機制,并且對加入的新型注意力模塊展開詳細的說明。
1.2.1 通道域注意力
通道域注意力機制的設計思路類似于信號與系統(tǒng)分析的傅里葉變換。任意連續(xù)信號均可由正弦波的不同權重的線性組合表示,而這一時域信號經時頻變換可轉換成頻域信號的形式。同樣,每張圖像均可由(R,G,B)三通道表示。圖像經過n個卷積核的卷積運算,得到n通道的矩陣(H,W,n)。這個過程將圖像的特征信息分配到n個卷積核上,從而生成n通道的特征圖。通過對不同通道賦予不同權重的大小,體現相應相關度特征信息的通道。
為學習每個輸出通道的不同權重,繼而得出相對應相關度的道路信息,此處使用一種擠壓-激勵模型結構來完成道路通道域信息的提取,圖3 所示為通道域注意力模型。其中X表示輸入圖像的特征信息,經過卷積運算Ftr,得到下一層的輸入特征信息U。其核心區(qū)域主要包括擠壓、激勵、尺度變換3 個小模塊。
圖3 通道域注意力模型Fig.3 Channel domain attention model
擠壓過程是一個全局平均池化的運算:
其中:H、W、C分別表示上層張量的高度、寬度以及通道數。然后對得到的C通道擠壓后的信息引入非線性變換,該過程通過激勵函數實現:
其中:σ表示sigmoid 非 線性激活函數;δ為ReLU 非線性映射激活函數;W1、W2?,通過對權重參數zc、s的學習訓練,獲得一維的激勵權重參數,用于激活各層通道。最后利用一個尺度函數Fscale根據不同通道任務需求來乘以不同的權重參數完成通道道路信息的尺度變換,實現對道路通道信息增強注意力的功能:
其中:uc表示不同的通道;sc表示通過訓練學習到的權重參數。
1.2.2 空間域注意力
空間域注意力機制是通過空間轉換器模塊,將原始圖像的空間信息做相應的空間信息轉換,提取出重要的道路信息??臻g域注意力模型如圖4所示。
圖4 空間域注意力模型Fig.4 Spatial domain attention model
空間域注意力機制設計思路是通過學習圖像中道路信息,經過訓練使得空間轉換器能夠在復雜條件下通過旋轉、聚焦、縮放的手段將道路信息以框盒的形式提取出來。輸入U會分兩路進入空間轉換器模塊:支路1 會直接進入采樣層;支路2 會通過定位網絡和與其重合的網格生成器部分,這個過程經過定位網絡能夠學習一組參數θ,可作為網格生成器模塊的訓練參數,得到的采樣信號本質就是一個變換矩陣Tθ(G),再到達網格生成器和采樣層的重合區(qū)域,此時變換矩陣與支路1 的原始圖像卷積得到圖像特征輸出矩陣V,V?,其中H′、W′分別表示輸出網格的高度和寬度。另外,空間轉換器中還包含單位矩陣E和采樣矩陣,分別完成原始關鍵信號提取和旋轉縮放功能。采樣矩陣可表示為:
1.2.3 通道-空間注意力
本文提出的空間-通道雙注意力機制集中了以上2 種注意力域的優(yōu)勢,能夠同時實現學習道路特征通道權重參數對所需道路通道的增強,又能在復雜環(huán)境下,通過多種手段完成對道路信息的標注提取。
該網絡的設計思路是受DANet 雙注意力網絡結構的啟發(fā)[16],采用級聯的連接方式,可以依次在空間域和通道域捕獲道路信息的全局特征依賴,利用前者建立通道的相關性,后者來學習空間域特征信息的相關性,如圖5 所示。
圖5 通道-空間域模型Fig.5 Model of channel-spatial domain
對每張尺寸為C×H×W特征圖分2 條支路操作:支路1 直接對特征圖下采樣運算變形(reshape)得到一個輸出結果;支路2 是變形后的特征圖,先通過通道域模型,然后經過變形與轉置再與變形后的特征圖進行乘積運算,得到1 個尺寸為C×C的通道注意力圖,最后通過1 個softmax 層,得到第2 個輸出結果。2 條支路進行卷積運算,再經過上采樣運算變形還原為原始輸入尺寸。與原始輸入圖像融合,得到最終尺寸同樣為C×H×W的輸出,而此輸出作為空間注意力模型的輸入。特征圖矩陣S中的元素為:
其中:xij為通道j對通道i的影響程度;Ai、Aj表示A中的元素,輸出E中的元素為:
其中:β為尺度變換因子。對于空間注意力模塊,與上述通道注意力模塊相似,主要區(qū)別在于將原有的通道域模塊換成空間域模塊,生成尺度為N×N(其中N=H×W)的空間注意力圖。矩陣S′中的元素及輸出為:
其中:α為尺度變換因子。上述矩陣S可看作一個小型注意力模型,用于計算每行像素的依賴關系。
在深度學習圖像識別領域,構建損失函數最常用的2 種方式是交叉熵損失[17]和折頁損失[18]。交叉熵損失是一種邏輯斯蒂回歸模型,而折頁損失是一種支持向量機(SVM)模型[19-20]。這2 種損失通常被當作是構建損失函數優(yōu)化分割網絡必不可少的元素。作為網絡輸出的最后的網絡層,通常是以交叉熵損失為主。二值交叉熵(Binary Cross Entropy,BCE)損失函數能夠使輸出預測最大程度上與真實樣本相符,滿足“最大熵原則”優(yōu)化網絡輸出;DICE系數損失(DICE Coefficient Loss,DICE)是一種集合相似度度量的函數,用于衡量2 個樣本間的相似度。2 種損失的梯度不同,DICE 損失的梯度為p-t,DICE損失的梯度為2t2/(p+t)2。其中:p為輸出預測樣本的概率;t為目標標簽的概率。由數學知識可知DICE 的損失大于BCE 的損失。本文在原有基于DICE+BCE 的D-LinkNet 模型損失函數的基礎上,提出一種新型超參數損失函數。對2 項損失做加權處理,通過調節(jié)新定義2 項損失的超參數μ、λ的不同權重比,來優(yōu)化調整網絡模型的分割及預測性能:
其中:i表示當前迭代樣本的序號;N表示批量大小;P為輸出的預測概率圖;GT 是真實標簽。在μ>λ的前提條件下,可通過實驗來獲取最佳權重比例。
D-LinkNet 分割網絡結構是采用backbone-head的骨架結構,直接利用線性插值上采樣的操作。它是一種端到端的神經網絡架構,沒有冗雜的學習參數,不需要大量的冗余計算,這樣就可以直接將注意力模塊加入到D-LinkNet 網絡中。另外,將注意力機制引入到神經網絡中,通常是Encoder-Attention-Decoder 的形式,因此只需對圖2 中心區(qū)域做出改進。但又由于該網絡中有上采樣層,因此注意力模型的位置需要經過實驗對比來獲取最佳的植入位置,如圖6 所示,虛框A、B 部分為注意力模塊。
圖6 改進D-LinkNet 結構Fig.6 Structure of improved D-LinkNet
在圖6 所示的改進D-LinkNet 結構框架中,注意力模塊A 左側連接的是將預訓練好的ResNet34 作為編碼器,充分激活網絡的表征能力。中心區(qū)域的5 條分支路加入空洞卷積運算模塊。所謂的空洞卷積本質就是一種特殊的“池化”運算。相對于普通的池化過程,空洞卷積的優(yōu)點是在不損耗特征信息情況下,能夠增大感受野的范圍,從而輸出更多的信息。圖中灰色箭頭表示神經網絡的深度,5 條支路的深度依次為4、3、2、1、0(0 代表恒等映射),感受野的尺寸依次為15、7、3、1、0。該結構能在不損失分辨率的條件下完成特征多深度、多尺寸的融合,采用特征層“堆疊”的特征融合方式,無后處理運算過程。之后加入1×1 的卷積層進行特征融合。最后通過用于歸一化的Sigmoid 函數及ReLU 激活函數獲得與輸入圖像分辨率相同像素級的道路預測概率圖。根據設定的閾值最終得到遙感影像道路分割預測的二值圖像。
為驗證本文提出的高分遙感影像道路提取方法的準確性與有效性,針對改進D-LinkNet 模型內部不同超參數權重比比值的設定,進行一系列的橫向對比實驗。另外,對于改進模型外部而言,對當前主流的道路分割方法進行縱向對比實驗,直觀展現本文改進的網絡與當前主流經典網絡道路預測效果的對比。
本文是在開源的數據集Massachusetts Road Datasets 上進行實驗。該數據集是美國馬薩諸塞州2 600 km×2 600 km 范圍內的地面遙感影像數據,這其中的地物信息主要涵蓋城市、郊區(qū)以及農村地區(qū)的道路分布。該數據集總共有1 171張尺寸為1 500像素×1 500 像素的遙感圖像,空間分辨率為1 m(1 m/pixel)。其中包含1 108 張訓練數據集(完整的圖像有706 張,其余402 張均有不同嚴重程度的缺失)、49 張測試集以及14 張驗證集。本文的訓練樣本選擇經清洗后的訓練集及驗證集共720 張遙感圖像作為訓練數據。
為對本文提出改進網絡模型的道路分割預測效果做出客觀的評價與對比,所有實驗均在相同軟、硬件環(huán)境下進行。
軟件環(huán)境:操作系統(tǒng)為內存為64 GB 的CentOS7.2;深度學習框架為Pytorch1.5;編程環(huán)境為Python3.5。
硬件環(huán)境:CPU 型號為Intel?Xeon?E5-2650 v4@
參數設置:動量參數為0.9,batchsize 設定為8,學習率調整3 次,初始值為0.001 的SGD 更新梯度優(yōu)化算法。訓練過程總共迭代90 輪,分別于訓練的第30、50、70 輪分別對學習率更新1 次,學習率分別為0.000 1、0.000 01、0.000 001。其中,在初始學習率下迭代10 098/8×30=37 868 次,后面3 種學習率均迭代10 098/8×20=25 245 次,所以整個訓練過程總共迭代37 868+25 245×3=113 603 次。
在數據集訓練之前,首先需要對圖像進行預處理。受限于GPU 內存的運算能力,對每張1 500 像素×1 500 像素的圖像進行切分。切塊大小為512×512,切塊后的訓練集總共包含10 098 幅圖像,驗證集包含441 張圖像。另外,在訓練過程中對數據進行了簡單的增強,包括隨機翻轉和隨機裁剪,隨機裁剪大小為480 像素×480 像素的圖像。本文使用的Massachusetts Road Datasets 道路與背景的像素占比分別為5%和95%。此處采用一種占比倒數加權的方法來解決兩類像素點占比不平衡的問題。
實驗采用精確率P(Precision)、召回率R(Recall)、F1-score、平均交并比(Mean Intersection over Union,mIoU)4 項評價指標,作為評價本文道路分割效果的參考依據,分別定義如下:
其中:TP 表示真正列,實際道路像素被預測為道路像素;FP 表示假正例,非道路像素被預測為道路像素;FN 表示假反例,非道路信息被預測成非道路信息;另外2 種評價指標F1與mIoU 是圖像分割中常見的2 項評價指標;k+1 表示類別數目(k個目標類和1 個背景類);pij表示將類別i誤判為類別j的像素數量,pji反之;pii表示分類正確像素的數目。
圖7 和圖8 所示分別為經過90 輪迭代,DLinkNet 和本文提出的改進D-LinkNet 各項評價指標隨迭代次數變化的折線圖。
圖7 D-LinkNet 各項評價指標迭代折線圖Fig.7 Iteration line diagram of D-LinkNet each evaluation index
圖8 改進D-LinkNet 各項評價指標迭代折線圖Fig.8 Iterative line diagram of improve D-LinkNet evaluation index
從圖7和圖8可以看出,當各項指標趨于穩(wěn)定之后,本文改進的網絡均高于原始網路。其中:精確率由原來的0.817 3 增長到0.854 9;召回率由之前的0.743 3 增長到0.779 3;F1-score從0.778 6 增長到0.815 4;mIoU 從0.637 4增長到0.663 1。4項指標分別約增長了3.8、3.6、3.7 和2.6 個百分點。不難得出,改進后網絡的道路分割性能較之前有顯著改善,預測效果明顯提升。
對于式(10)中DICE+BCE 損失設定的超參數權重比值,固定λ=1 調整μ的取值,DICE 與BCE 權重比分別按照1∶1、2∶1、3∶1、4∶1、5∶1 這5 種先驗比例設定,分別在不同的比例條件下,通過對比分析得出最佳效果的道路分割權重比。此處以F1-score 作為評價改進網絡預測性能的指標。另外,下文實驗在實際訓練過程中,均以49 張測試集上的測試結果作為評測指標。
如圖9 所示,本文設定的5 種超參數權重比的F1-score 會隨著迭代輪次的增加呈現上升的趨勢。通過對比可以發(fā)現,當沒有設定超參數權重(即權重比為1∶1)時,F1-score 的分數最低,經過90 輪迭代的取值僅為0.776 7;而當權重比為4∶1 時,其F1-score的分數最高,達到0.815 4。并且,該權重比下網絡的預測性能處于較為穩(wěn)定的狀態(tài)。5 種超參數權重比的性能對比如表1 所示。
圖9 不同權重比的F1-socre 迭代折線圖Fig.9 F1-score iteration line graph of different weight ratio
表1 不同超參數權重比的性能對比Table 1 Performance comparison of different super parameter weight ratio
為進一步驗證本文提出網絡的準確性與有效性,選取FCN-8s、U-Net[21]、DeepLabv3+[22]、DANet[16]和D-LinkNet5 種用于道路分割的經典網絡與本文提出的網絡進行實驗對比。
FCN-8s 網絡模型共包含13 個卷積層、2 個轉置卷積層和5 個池化層。在訓練過程中為實現模型的穩(wěn)定性及收斂性,適當降低網絡的振幅及調整學習參數,加快網絡的收斂速度,以提升網絡模型的準確性和高效性。U-Net 網絡模型能夠利用拼接技術進行道路特征信息的融合,加寬網絡的深度,強化道路特征信息,其在道路提取任務中表現得更為出色,準確率也更高。該模型在下采樣過程中,每張圖像后面復用2 個3×3 的卷積層,每個卷積層后包含1 個非線性ReLU 層,第2 個復用的卷積層后有1 個尺寸為2×2 的最大池化層。上采樣過程使用1 個反卷積層,后面復用2 個3×3 的卷積層和非線性層。在網絡的最后一層添加1 個1×1 的卷積層,將特征向量映射到輸出分割的道路圖像上。DeepLabv3+網絡模型添加了空洞卷積層,卷積核尺寸為3×3,擴張率為2。另外,卷積層后緊 接著添加1 個ReLU 層、1 個BN 層以及1 個1×1 的卷積層,目的是降低道路提取過程中的運算量,提高模型的效率。DANet 網絡模型是將含通道的特征圖與其本身轉置相乘,利用一個softmax 層做歸一化處理,再與原始特征圖的轉置相乘,最終將道路信息映射到原始特征圖上,輸出道路提取后的相關性信息。表2 所示為不同分割網絡經過90 輪訓練迭代的各項評價指標數據對比。
表2 不同道路分割網絡評價指標對比Table 2 Evaluation indexes comparison of different road segmentation networks
當前幾種熱門的經典網絡與本文提出網絡的道路預測圖如圖10 所示。由圖10(c)~到圖10(h)結合表2 可 知,FCN-8s、DeepLabv3+以 及DANet的道路分割效果及評價指標較差,而U-Net 與D-LinkNet 的分割效果較為理想。本文以D-LinkNet為基礎框架,進行一系列的改進措施,增強了網絡道路像素點的識別能力。實驗結果表明,本文提出的改進D-LinkNet 網絡在高分遙感影像道路提取任務中的表現相對于分割網絡更具有優(yōu)勢。
圖10 本文網絡與經典網絡的道路預測圖Fig.10 Road prediction diagram of this paper network and classic network
本文在D-LinkNet 分割網絡的基礎上,針對高分影像道路提取中出現的“虛檢”“漏檢”“誤檢”問題,提出改進的D-LinkNet 網絡模型。在原始分割網絡的基礎上引入channel-spatial 雙注意力機制,同時基于原始的DICE+BCE 損失對其進行改進,構建一種超參數權重損失,并按照先驗比例設定超參數權重,通過實驗得出最佳的超參數權重比。實驗結果表明,本文提出的改進D-LinkNet 網絡模型在Massachusetts Road Datasets 上的表現要優(yōu)于原始DLinkNet 分割網絡。下一步將圍繞模型的優(yōu)化算法對網絡模型的分割性能進行優(yōu)化,嘗試使用當前較主流Adam 等優(yōu)化算法提升網絡的運算效率。另外,對于模型主干架構的輕量化也是今后的研究方向。