吳鋒振,楊德宏,李俊,何萬才,2,3,鄧云龍
(1.昆明理工大學(xué) 國土資源工程學(xué)院,云南 昆明 650093; 2.智慧礦山地理空間信息集成創(chuàng)新重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650093;3.云南省高校自然資源空間信息集成與應(yīng)用科技創(chuàng)新團(tuán)隊(duì),云南 昆明 650211)
隨著遙感技術(shù)的蓬勃發(fā)展,高分辨率遙感影像提供了豐富的紋理和細(xì)節(jié)信息,從高分辨率遙感影像中高效準(zhǔn)確提取特定目標(biāo)地物成為研究熱點(diǎn)。其中,高分辨率遙感影像建筑物的自動檢測和提取對于人口密度估計(jì)、違規(guī)監(jiān)測、城市規(guī)劃以及地形圖的制作和更新具有非常重要的意義。
傳統(tǒng)建筑物提取方法包括基于特征、面向?qū)ο蠛徒Y(jié)合輔助信息三種?;谔卣魈崛》椒ń柚ㄖ锵闰?yàn)知識(形狀、屋頂顏色和成像條件等)進(jìn)行建筑物識別,方法主要包括模板匹配算法[1]、形態(tài)學(xué)算法[2]、圖論[3]、隨機(jī)森林[4]、決策樹[5]和支持向量機(jī)[6]。雖然上述基于先驗(yàn)知識特征提取方法取得一定成果,但手動定義特征的方法普遍存在提取精度低、特征利用不足等缺點(diǎn),此外,所提取建筑物局限于特定形狀區(qū)域,方法泛化能力差。面向?qū)ο蠓诸惙椒ㄊ悄壳案叻直媛蔬b感影像建筑物提取的重要方法[7],其步驟為影像分割與影像分類。賀曉璐等[8]提出一種基于引入紅色邊緣波段規(guī)則與基于樣本的面向?qū)ο蠓诸愊嘟Y(jié)合方法用于城市建筑物提取,與其他機(jī)器學(xué)習(xí)算法相比,識別結(jié)果有一定優(yōu)勢;韓東成等[9]采用基于規(guī)則的面向?qū)ο蠓椒▽?shí)現(xiàn)建筑物單體信息精提取;楊杰等[10]提出一種半自動信息提取構(gòu)建分類規(guī)則方法用于高精建筑物識別,所提取建筑物錯(cuò)分漏分現(xiàn)象得到緩解。面向?qū)ο蠓椒ǔ浞謶?yīng)用高分影像的豐富細(xì)節(jié)與紋理信息,但在確定分割尺度參數(shù)時(shí)需反復(fù)調(diào)試,且難以滿足復(fù)雜場景(建筑物光譜與鄰近地物光譜相似)建筑物提取需求。結(jié)合輔助信息方法主要包括結(jié)合DSM數(shù)據(jù)[11]和LiDAR數(shù)據(jù)[12],本質(zhì)是增加高度信息提升建筑物分割精度?;诮Y(jié)合輔助信息方法雖能提高建筑物分割精度,但數(shù)據(jù)獲取成本高,存在其自身局限性??傮w而言,傳統(tǒng)方法均或多或少存在缺陷,因此急需更高效、自動化的建筑物提取技術(shù)。
近年來,基于計(jì)算機(jī)視覺的深度學(xué)習(xí)方法成為高分影像建筑物提取的主流。深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)廣泛應(yīng)用于文字識別、目標(biāo)檢測和圖像分類領(lǐng)域。與傳統(tǒng)建筑物提取方法比較,卷積神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大特征表示能力而受諸多學(xué)者青睞。目前,經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型有AlexNet[13]、GoogleNet[14]、ResNet[15]。然而,這些CNN模型不能精確提取建筑物輪廓。反之,Long等[16]將CNN末端全連接層改為卷積層,提出FCN模型,首次實(shí)現(xiàn)端到端訓(xùn)練的圖像語義分割,提高模型訓(xùn)練和預(yù)測性能;Badrinarayanan等[17]提出的SegNet模型使用編解碼結(jié)構(gòu)提取特征,反池化還原特征圖尺寸,保證目標(biāo)特征完整;Ronneberger等[18]提出的UNet模型采用編碼器-解碼器結(jié)構(gòu)提取全局與局部特征,通過跳躍連接進(jìn)行特征融合,實(shí)現(xiàn)兼顧細(xì)節(jié)與邊緣信息的目的。鑒于此,編碼器-解碼器結(jié)構(gòu)因其優(yōu)越的性能而被廣泛應(yīng)用。Yu等[19]提出一種新的注意力模塊-AG,并將其嵌入U(xiǎn)Net,實(shí)現(xiàn)高效的建筑物輪廓提取;Wang等[20]結(jié)合UNet、殘差模塊和空洞空間金字塔模塊,提出RU-Net,所提取建筑物邊界平滑;Guo等[21]提出一種基于注意力的多損失神經(jīng)網(wǎng)絡(luò),緩解過分割現(xiàn)象;Deng等[22]提出基于注意力機(jī)制的編碼器-解碼器網(wǎng)絡(luò)用于建筑物自動提取,提升網(wǎng)絡(luò)對與建筑物具有相似光譜特征的背景地物的分割性能;秦夢宇等[23]在UNet網(wǎng)絡(luò)編碼器末端嵌入雙重注意力機(jī)制對其進(jìn)行改進(jìn),使模型魯棒性進(jìn)一步提高;何直蒙等[24]提出E-UNet,優(yōu)化建筑物提取中邊緣模糊、細(xì)節(jié)丟失等問題;張玉鑫等[25]提出MARSU-Net網(wǎng)絡(luò),改善建筑物內(nèi)部空洞現(xiàn)象;張春森等[26]提出多尺度空洞卷積金字塔網(wǎng)絡(luò)用于建筑物提取,該網(wǎng)絡(luò)面對不同尺度建筑物時(shí)有較強(qiáng)適應(yīng)能力;王雪等[27]提出膨脹卷積與金字塔表達(dá)的神經(jīng)網(wǎng)絡(luò)模型用于農(nóng)村建筑物提取,提取邊界完整;盧麟等[7]使用密集連接機(jī)制及空洞空間金字塔池化模塊構(gòu)建多層次感知網(wǎng)絡(luò),性能優(yōu)于傳統(tǒng)方法。上述網(wǎng)絡(luò)雖在建筑物提取方面取得較好的效果,但存在一定問題,即在編碼器-解碼器的特征提取過程中,所提取特征含有無效特征,最終導(dǎo)致預(yù)測結(jié)果出現(xiàn)建筑物邊緣模糊及內(nèi)部空洞等問題。
綜上所述,本文以UNet為基礎(chǔ)網(wǎng)絡(luò)框架,提出一種似空間注意力模塊,并將其嵌入U(xiǎn)Net編碼階段,達(dá)到增強(qiáng)編解碼結(jié)構(gòu)所提取的有效特征的目的,提升網(wǎng)絡(luò)特征提取準(zhǔn)確性。在WHU和AIRS數(shù)據(jù)集上的提取結(jié)果表明,本文方法提取建筑物精度高,邊界準(zhǔn)確,空洞少,有較強(qiáng)泛化能力。
UNet網(wǎng)絡(luò)因其出色的語義分割能力而備受青睞。它是一種典型的編碼器-解碼器結(jié)構(gòu),在其結(jié)構(gòu)中,通過跳躍連接將底層語義信息與高層語義信息進(jìn)行融合,極大提高網(wǎng)絡(luò)分割性能。然而,UNet網(wǎng)絡(luò)在編碼階段通過簡單堆疊卷積和池化層,所提取特征存在一定弊端:存在大量無效特征。針對UNet網(wǎng)絡(luò)在編碼階段特征提取不準(zhǔn)確而導(dǎo)致建筑物分割精度低的現(xiàn)象,本文在每個(gè)編碼塊的第一個(gè)卷積層之后均嵌入一個(gè)似空間注意力模塊與第二個(gè)卷積層并聯(lián),通過將經(jīng)過似空間注意力得到的特征權(quán)重矩陣與第二次卷積得到的特征矩陣相乘的方式實(shí)現(xiàn)對編碼階段所提取特征的重標(biāo)定,達(dá)到增強(qiáng)有效特征、抑制無效特征的目的。結(jié)合似空間注意力模塊的UNet網(wǎng)絡(luò)架構(gòu)如圖1所示。
圖1 結(jié)合似空間注意力模塊UNet網(wǎng)絡(luò)
似空間注意力模塊是對空間注意力模塊的改進(jìn)。似空間注意力模塊將原空間注意力模塊中7×7卷積替換為兩個(gè)3×3卷積的串聯(lián),感受野雖有所減小,但參數(shù)量相對較少,特征提取更精細(xì),對小型建筑物提取更有益(較大卷積核容易忽略微小物體)。具體而言,似空間注意力模塊對輸入特征分別進(jìn)行平均池化和最大池化操作,然后使用兩個(gè)3×3卷積進(jìn)行特征精細(xì)提取,最后將得到的特征圖融合并使用sigmoid函數(shù)激活,生成最終的注意力圖Ms(F)。似空間注意力模塊如圖2所示。
圖2 似空間注意力模塊
其中,sigmoid函數(shù)的功能是將特征矩陣轉(zhuǎn)化為相應(yīng)特征權(quán)重矩陣,數(shù)學(xué)表達(dá)式為:
(1)
注意力圖的計(jì)算公式如下:
(2)
編碼器結(jié)構(gòu)包括如圖3所示的四個(gè)編碼塊結(jié)構(gòu),其作用是使用權(quán)重映射方法,抑制無效特征,增強(qiáng)目標(biāo)特征,對下采樣前的特征進(jìn)行校正,從而使解碼階段得到的特征更精準(zhǔn)。校正后的特征表達(dá)式為:
圖3 編碼塊結(jié)構(gòu)
F=Ms(F)×F2
(3)
式中,Ms(F)表示經(jīng)似空間注意力模塊得到的注意力圖,F2表示編碼塊中經(jīng)第二次卷積后得到的特征圖,F表示校正后特征圖。
解碼階段由四個(gè)解碼塊結(jié)構(gòu)組成,如圖4所示。每個(gè)解碼塊結(jié)構(gòu)包括兩個(gè)3×3大小的卷積層,與UNet的解碼階段完全相同。
圖4 解碼塊結(jié)構(gòu)
實(shí)驗(yàn)使用WHU數(shù)據(jù)集[28]和AIRS數(shù)據(jù)集[29]驗(yàn)證本文方法的有效性。兩個(gè)數(shù)據(jù)集的介紹如下:
(1)WHU建筑物數(shù)據(jù)集由武漢大學(xué)季順平教授及其團(tuán)隊(duì)于2019年創(chuàng)建并實(shí)現(xiàn)開源,該數(shù)據(jù)集包括一個(gè)航空建筑物數(shù)據(jù)集和一個(gè)衛(wèi)星建筑物數(shù)據(jù)集。航空建筑物數(shù)據(jù)集中包含大型、小型建筑物,建筑物風(fēng)格迥異,種類繁多,故本文選擇航空數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并將其裁剪為512×512像素大小的影像,隨機(jī)選取 8 188張影像作為整個(gè)數(shù)據(jù)集,其中訓(xùn)練集、驗(yàn)證集、測試集各4 736、1 036、2 416張,數(shù)據(jù)集樣例如圖5所示。
圖5 WHU數(shù)據(jù)集樣例
(2)AIRS數(shù)據(jù)集是用于建筑物檢測的高分辨率公開數(shù)據(jù)。該數(shù)據(jù)集包含新西蘭南部克賴斯特徹奇整個(gè)城市的正射影像,覆蓋面積達(dá) 457 km2,包括 220 000棟建筑物,空間分辨率為 0.075 m。該數(shù)據(jù)集裁剪大小與WHU建筑物裁剪大小相同,數(shù)據(jù)集劃分方式也一致,訓(xùn)練集、驗(yàn)證集、測試集仍為 4 736、1 036、2 416張,數(shù)據(jù)集樣例如圖6所示。
圖6 AIRS數(shù)據(jù)集樣例
本文實(shí)驗(yàn)的硬件環(huán)境為Intel(R) Xeon(R) Platinum 80255C CPU,39G RAM,GeForce RTX 2080TiGPU,內(nèi)存 11 G,操作系統(tǒng)為Windows 10,所使用的深度學(xué)習(xí)框架為TesorFlow,版本為1.15.0,編程語言為Python,版本為3.6。在訓(xùn)練過程中,網(wǎng)絡(luò)參數(shù)設(shè)置為:批處理大小為2,迭代輪次為80,初始化學(xué)習(xí)率為0.001,損失函數(shù)為交叉熵,使用Adam算法進(jìn)行優(yōu)化。
交叉熵?fù)p失函數(shù)表達(dá)式如下:
式中,y∈{0,1,表示地面真實(shí)標(biāo)簽,建筑物用1表示,背景用0表示;p∈[0,1],表示模型預(yù)測的正類的概率值。
為定量評價(jià)網(wǎng)絡(luò)分割性能,選擇交并比(IoU)、精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1)4個(gè)指標(biāo)評價(jià)分類結(jié)果。交并比是指預(yù)測值與真實(shí)值兩個(gè)集合的交集和并集之比。精確率是指正確預(yù)測為建筑物的像元數(shù)占總預(yù)測為建筑物的像元數(shù)比例。召回率是指正確預(yù)測為建筑物的像元數(shù)占真實(shí)建筑物像元數(shù)比例。F1分?jǐn)?shù)綜合考量精確率與召回率,能夠衡量模型分割性能。4種評價(jià)指標(biāo)計(jì)算公式如下:
式中,TP表示正確分類的建筑物像素?cái)?shù)量,FP表示背景誤分為建筑物像素?cái)?shù)量,TN表示正確分類的背景像素?cái)?shù)量,FN表示建筑物誤分為背景像素?cái)?shù)量。
為驗(yàn)證本文方法的有效性,在WHU數(shù)據(jù)集上與FCN-8S[16]、SegNet[17]和UNet[18]等經(jīng)典建筑物提取網(wǎng)絡(luò)做對比實(shí)驗(yàn)(除可視化實(shí)驗(yàn)與精度對比實(shí)驗(yàn)外,還有模型參數(shù)量與每輪次運(yùn)行時(shí)間對比);另一方面,為驗(yàn)證結(jié)合似空間注意力模塊UNet網(wǎng)絡(luò)的適用性,在 0.075 m的建筑物數(shù)據(jù)集-AIRS上做可視化與精度對比實(shí)驗(yàn),并分析各網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上的分割性能。(在兩個(gè)數(shù)據(jù)集上,每種模型的訓(xùn)練策略與參數(shù)設(shè)置均相同。)
(1)WHU數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
在WHU建筑物數(shù)據(jù)集上,本文方法與其他網(wǎng)絡(luò)的建筑物提取結(jié)果如圖7所示。
圖7 不同網(wǎng)絡(luò)在WHU建筑物數(shù)據(jù)集上的提取結(jié)果(紅框部分表示本文方法的改進(jìn)之處)
模型分割結(jié)果定性分析:第一個(gè)場景用于測試網(wǎng)絡(luò)對中小型建筑物的提取能力。由目視結(jié)果可知,FCN-8S、SegNet與UNet均能檢測到中小型建筑物,然而這三種網(wǎng)絡(luò)提取的建筑物邊界不準(zhǔn)確,小型建筑物存在漏提現(xiàn)象,本文方法提取的中小型建筑物邊界平滑、完整,因?yàn)楸疚姆椒ㄖ邪瓶臻g注意力模塊,提取的淺層特征更準(zhǔn)確,與深層特征融合后,得到的特征也更準(zhǔn)確,提取結(jié)果更好;第二個(gè)場景用于檢驗(yàn)靠近但不粘連建筑物的提取性能。UNet提取的建筑物相互粘連,FCN-8S、SegNet雖能大致識別建筑物輪廓,但與本文方法相比,提取邊界模糊,原因仍是本文結(jié)合似空間注意力模塊,有效排除非建筑物特征干擾,故建筑物縫隙形成的陰影也能很好的去除,使提取建筑物不粘連。第三、四個(gè)場景是不同網(wǎng)絡(luò)大型建筑物提取結(jié)果。與本文方法相比,FCN-8S、SegNet與UNet存在漏提現(xiàn)象,提取的建筑物存在空洞,本文方法識別的大型建筑物邊界相對完整。這是由于似空間注意力模塊的特征校正作用使特征提取更精準(zhǔn)。第五個(gè)場景用于驗(yàn)證具有與建筑物類似光譜特征的背景對象的分割性能。與其他三種網(wǎng)絡(luò)相比,本文方法能更好去除背景信息,保留目標(biāo)信息,其根本原因是似空間注意力模塊通過對特征賦予權(quán)重的方式使特征差異更明顯,從而降低誤分割率。
WHU數(shù)據(jù)集的建筑物提取結(jié)果進(jìn)行定量評價(jià)如表1所示。由表1可知,通過嵌入似通道注意力模塊對UNet模型進(jìn)行改進(jìn),與典型建筑物提取模型FCN-8S、SegNet和UNet相比,本文模型4個(gè)評價(jià)指標(biāo)均為最優(yōu),交并比為91.74%,精確率為94.12%,召回率為94.21%,F1分?jǐn)?shù)為94.17%。相對于FCN-8S、SegNet與UNet模型,結(jié)合似通道注意力模塊UNet模型交并比分別高出4.90%、5.08%和0.47%;精確率分別增加1.85%、1.24%和3.50%;召回率分別提升3.50%、1.38%和0.47%;F1分?jǐn)?shù)分別提高2.69%、1.31%和2.02%。
表1 不同模型在WHU數(shù)據(jù)集上的分割精度對比
為進(jìn)一步驗(yàn)證本文模型的優(yōu)越性,本文還對模型參數(shù)量與訓(xùn)練每輪次運(yùn)行時(shí)間進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表2所示。從表2可以看出,本文方法在參數(shù)量和每輪次運(yùn)行時(shí)間的對比上均處于第二名,且與第一名UNet相差不大,在二者增加的可接受范圍內(nèi)實(shí)現(xiàn)4個(gè)評價(jià)指標(biāo)的提升。
表2 不同模型參數(shù)量及運(yùn)行時(shí)間對比
WHU建筑物數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果無論從定性、定量分析,還是模型參數(shù)量和每輪次運(yùn)行時(shí)間對比均驗(yàn)證本文方法的有效性。這也驗(yàn)證將似空間注意力模塊嵌入U(xiǎn)Net模型,能過濾冗余特征,聚焦目標(biāo)特征,極大優(yōu)化網(wǎng)絡(luò)分割性能。
(2)AIRS數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
為充分驗(yàn)證結(jié)合似空間注意力模塊UNet網(wǎng)絡(luò)的泛化能力,將該網(wǎng)絡(luò)與對比網(wǎng)絡(luò)在空間分辨率為 0.075 m的屋頂分割航空影像數(shù)據(jù)集-AIRS上進(jìn)行實(shí)驗(yàn),以便該網(wǎng)絡(luò)能應(yīng)用到無人機(jī)影像分類任務(wù)中。對比實(shí)驗(yàn)可視化結(jié)果如圖8所示。
圖8 不同網(wǎng)絡(luò)在AIRS數(shù)據(jù)集上的提取結(jié)果(紅框部分表示本文方法的改進(jìn)之處)
模型分割結(jié)果定性分析:由圖8可以看出,在選取的第一個(gè)具有代表性的場景中,由于中間建筑物與周邊道路顏色接近,FCN-8S、UNet未能對其進(jìn)行識別,SegNet識別出的建筑物存在空洞,然而本文方法能完整提取此種場景下的建筑物;在第二個(gè)場景中,三種對比網(wǎng)絡(luò)在提取小型建筑物時(shí),FCN-8S產(chǎn)生誤檢現(xiàn)象,SegNet、UNet出現(xiàn)漏檢現(xiàn)象,本文方法能正確檢測小型建筑物輪廓;在第三個(gè)場景中,由于屋頂光譜特征與周圍樹木、車輛光譜特征相近,FCN-8S產(chǎn)生過分割現(xiàn)象,SegNet、UNet出現(xiàn)欠分割現(xiàn)象,本文方法提取的建筑物邊界平滑、準(zhǔn)確;在最后一個(gè)場景中,在面對內(nèi)部存在背景的復(fù)雜建筑物,FCN-8S、SegNet和UNet均表現(xiàn)較大不適應(yīng)性,但本文方法卻能完整識別出來??傊?產(chǎn)生這樣分割差異的根本原因是將似空間注意力模塊嵌入U(xiǎn)Net網(wǎng)絡(luò)后,提取的全局與局部上下文特征均得到校正,故結(jié)合似空間注意力模塊UNet網(wǎng)絡(luò)在面對各種復(fù)雜場景時(shí)仍表現(xiàn)出很好的魯棒性。
對AIRS數(shù)據(jù)集的建筑物提取結(jié)果進(jìn)行定量評價(jià)如表3所示。由表3可知,在AIRS數(shù)據(jù)集上,本文方法的各項(xiàng)評價(jià)指標(biāo)幾乎為最優(yōu)值。與FCN-8S、SegNet和UNet相比,本文方法的并比分別提高0.47%、6.13%、6.57%;精確率分別增加1.05%、1.60%、0.55%;召回率高出0.06%、15.53%、28.35%;F1分?jǐn)?shù)在對比模型中排名第二,除比FCN-8S略低外,相比SegNet和UNet,有一定程度提升,從定量分析的結(jié)果驗(yàn)證本文方法的適用性和穩(wěn)定性。
表3 不同模型在AIRS數(shù)據(jù)集上的分割精度對比
從AIRS數(shù)據(jù)集的定性和定量評價(jià)可知,將似空間注意力模塊嵌入U(xiǎn)Net網(wǎng)絡(luò),有助于增強(qiáng)有效信息,緩解過分割,從而提高模型預(yù)測能力,證實(shí)本文方法具有較強(qiáng)泛化能力,擁有一定實(shí)際應(yīng)用潛力。
卷積神經(jīng)網(wǎng)絡(luò)在建筑物語義分割方面擁有巨大潛力。本文提出結(jié)合似空間注意力模塊UNet網(wǎng)絡(luò),用于改善建筑物提取中存在的邊緣模糊及內(nèi)部空洞等問題。筆者提出的似空間注意力模塊,用于對UNet編碼階段提取特征進(jìn)行校正,抑制無效特征,增強(qiáng)有效特征。
實(shí)驗(yàn)表明,在WHU建筑物數(shù)據(jù)集上預(yù)測結(jié)果表現(xiàn)良好,所提取大、小型建筑物邊界準(zhǔn)確、平滑,面對與建筑物擁有相似光譜特征背景對象的提取時(shí),誤分割、欠分割現(xiàn)象得到緩解。其次,通過對比實(shí)驗(yàn)可知,本文方法的模型參數(shù)量與每輪次運(yùn)行時(shí)間與UNet相差不大,相比其他對比網(wǎng)絡(luò)而言卻較小,各項(xiàng)評價(jià)指標(biāo)也較優(yōu),從模型性能和效率方面驗(yàn)證本文方法的有效性。將本文模型應(yīng)用到AIRS數(shù)據(jù)集的高分辨率建筑物提取中,面對各種復(fù)雜場景效果提取效果理想,各項(xiàng)指標(biāo)相比對比網(wǎng)絡(luò)也幾乎有所提升,證明本文方法的適用性,具有良好的應(yīng)用前景。后續(xù)計(jì)劃將基于本文方法進(jìn)一步提取建筑物矢量邊界,以提供結(jié)構(gòu)化的單個(gè)建筑物多邊形,供實(shí)際應(yīng)用。