于明洋,張文焯,陳肖嫻,劉耀輝,2
(1.山東建筑大學(xué) 測繪地理信息學(xué)院,濟(jì)南 250101; 2.河北省地震動力學(xué)重點(diǎn)實(shí)驗(yàn)室, 河北 三河 065201)
基于高分辨率遙感影像的建筑物自動提取對災(zāi)害預(yù)警與處理、城市發(fā)展與規(guī)劃、智慧城市建設(shè)等意義重大[1]。近年來,隨著遙感影像分辨率的提高,使得建筑物的光譜特征更加明顯,為提取的信息建筑物提供更加豐富的語義、紋理特征,同時也會導(dǎo)致干擾和冗余信息的增加,建筑物高精度自動提取是一項(xiàng)具有挑戰(zhàn)性的研究。早期的建筑物提取方法大多利用手工提取的特征作為判斷依據(jù),包括基于邊緣檢測的方法[2]和基于影像特征的方法[3]。李巍岳等[4]利用數(shù)學(xué)形態(tài)學(xué)對Sobel算子檢測的輪廓進(jìn)行修正,提高建筑物提取的準(zhǔn)確率。王丹[5]將Canny算子與區(qū)域分割、區(qū)域生長相結(jié)合,有效提取建筑物的邊緣信息。林雨準(zhǔn)等[6]基于影像的光譜、形狀等特征,引入多尺度分割、形態(tài)學(xué)建筑物指數(shù)的思想進(jìn)行建筑物的分級提取。Huang等[7]通過構(gòu)建多尺度城市復(fù)雜指數(shù)整合不同窗口的多尺度信息,進(jìn)行不同場景下的建筑物幾何特征的提取。此外,諸如支持向量機(jī)SVM[8]、boosting[9]、隨機(jī)森林[10]和條件隨機(jī)場(CRF)[11]等優(yōu)秀的機(jī)器學(xué)習(xí)分類器也被用于建筑物的提取。以上方法很大程度上依賴于特征選取和參數(shù)選擇,在實(shí)際應(yīng)用中有一定的局限性。
隨著計(jì)算機(jī)算力的快速發(fā)展及可用數(shù)據(jù)源的增加,深度學(xué)習(xí)技術(shù),特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)已經(jīng)成為自然語言處理、語義分割等領(lǐng)域的強(qiáng)大工具。CNN可以從輸入的圖片信息中自動學(xué)習(xí)語義信息,并通過順序連接的卷積層得到輸出結(jié)果。相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)這種自我特征學(xué)習(xí)能力可以解決更為復(fù)雜的問題。諸多學(xué)者利用VGGNet[12]、GoogleNet[13]、ResNet[14]等CNN模型進(jìn)行相關(guān)研究,效果優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。然而,CNN網(wǎng)絡(luò)的全連接層會將特征圖處理為固定長度的輸出向量,并以數(shù)值描述的形式進(jìn)行結(jié)果輸出[15],所以適合于圖像級的分析和回歸任務(wù),但并不適合于建筑物提取的這類語義分割任務(wù)。
2015年,Long提出全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)進(jìn)行語義級別的分類。FCN在卷積層后連接上采樣層對特征圖進(jìn)行處理,可以在最大程度上保留原始影像的空間信息[16],隨后涌現(xiàn)了一批以FCN為基礎(chǔ)架構(gòu)的語義分割網(wǎng)絡(luò)。Ronneberger等[17]提出具有對稱編碼結(jié)構(gòu)的UNet方法,UNet方法通過跳躍連接的方法來融合圖像的多尺度信息,提高圖像分割精度。Badrinarayanan等[18]提出的SegNet方法設(shè)計(jì)卷積配合池化的編碼器和反卷積加上采樣的解碼器,從而提升邊緣刻畫度并且減少訓(xùn)練的參數(shù)。DeconvNet[19]在每一個卷積和反卷積層后都連接批歸一化層(Batch Normalization, BN),同時在上采樣前采用全連接層(Fully Connected Layers,F(xiàn)C)作為中介,增強(qiáng)了對類別的區(qū)分。Chen等[20-22]提出的DeepLab模型用概率圖模型優(yōu)化分割結(jié)果,同時在卷積操作中設(shè)置擴(kuò)張率擴(kuò)大感受野[23-24]。DeepLabv3+作為該系列模型的最新改進(jìn),使用更深的網(wǎng)絡(luò)。DeepLabv3+設(shè)計(jì)融合層特征和高層特征的編碼-解碼結(jié)構(gòu)(Encoder-Decoder),獲取更加豐富的影像特征圖。同時,在空洞空間金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)中加入了BN層,更高效從多個尺度聚合影像語義信息。此外,DeepLabv3+在ASPP和Decoder中都應(yīng)用深度可分離卷積簡化模型參數(shù)并提高計(jì)算效率[22]。作為Google公司標(biāo)志性的分割模型之一,在Cityscapes等數(shù)據(jù)集上有著良好的分割效果和精度優(yōu)勢,但是較少在影像建筑物分割場景中使用。
文中提出一種遙感圖像建筑物自動提取架構(gòu),以DeepLabv3+為網(wǎng)絡(luò),利用公開建筑物數(shù)據(jù)集(WHU Building Dataset)[25]進(jìn)行建筑物提取研究,并與其他算法包括機(jī)器學(xué)習(xí)方法(SVM、K-Means、KNN、CART)和深度學(xué)習(xí)模型(U-Net、SegNet、PSPNet)進(jìn)行精度對比,為高分辨率遙感影像建筑物高精度的自動提取提供借鑒。
文中研究的建筑物自動提取架構(gòu),主要包括數(shù)據(jù)處理、模型訓(xùn)練和建筑物自動提取3部分,流程圖如圖1所示。
圖1 建筑物自動提取架構(gòu)流程
DeepLabv3+利用DCNN+ASPP進(jìn)行影像特征提取,得到經(jīng)過DCNN的低層特征圖和經(jīng)過ASPP的高層特征圖,搭配連接高-低特征圖的Decoder部分通過concat函數(shù)融合高、低層特征信息,得到特征高級且語義豐富的特征圖,經(jīng)過上采樣恢復(fù)特征圖大小得到建筑物分類結(jié)果。ASPP與Decoder的結(jié)合可以在捕獲多尺度信息的基礎(chǔ)上有效融合低層與高層信息,提高圖像分割精度[26]。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 DeepLabv3+模型結(jié)構(gòu)
Encoder中為了獲得空間分辨率更高的特征圖,選用帶空洞卷積(Atrous Convolution)的DCNN作為特征提取網(wǎng)絡(luò),空洞卷積原理如圖3所示。通過設(shè)置空洞卷積中不同的比率(rate)得到低層特征圖和高層特征圖。其中空洞卷積是在原始卷積模塊基礎(chǔ)上進(jìn)行一定的擴(kuò)展,可以在相同的計(jì)算成本和參數(shù)量的前提下獲得更大的視覺感受野。經(jīng)DCNN得到的低層特征圖直接進(jìn)入Decoder,而高層特征圖通過ASPP進(jìn)行處理。ASPP由4個具有不同比率的空洞卷積以及一個全局池化(Image Pooling)組成,通過融合多尺度信息提高分割精度。
圖3 空洞卷積原理
在Decoder中,高層特征首先經(jīng)過4倍雙線性內(nèi)插上采樣(Upsample by 4)并與經(jīng)過1×1卷積運(yùn)算后的低層特征進(jìn)行融合,然后經(jīng)過一個3×3的卷積和雙線性插值得到預(yù)測結(jié)果。DeepLabv3+中的編碼-解碼結(jié)構(gòu)示意圖如圖4所示。
圖4 編碼-解碼結(jié)構(gòu)示意圖
本研究采用的數(shù)據(jù)集是WHU Building Dataset[25],數(shù)據(jù)采集于新西蘭克賴斯特徹奇。WHU數(shù)據(jù)集空間分辨率為0.3 m,包括8 189幅512像素×512像素的遙感影像,分為訓(xùn)練集、驗(yàn)證集和測試集。WHU數(shù)據(jù)集的原始影像及其對應(yīng)標(biāo)簽如圖5所示。
圖5 原始影像及其對應(yīng)標(biāo)簽
數(shù)據(jù)增強(qiáng)方法通過樣本擴(kuò)充增加訓(xùn)練樣本避免模型出現(xiàn)過擬合現(xiàn)象。本研究對樣本進(jìn)行垂直、水平鏡像翻轉(zhuǎn)以及不同角度的旋轉(zhuǎn),如圖6所示。
圖6 旋轉(zhuǎn)及翻轉(zhuǎn)后圖像
本實(shí)驗(yàn)基于PyTorch開發(fā)框架進(jìn)行,硬件配置為NVIDIA GeForce RTX 3070。為了更好地利用圖形處理器(GPU)的能力,提高計(jì)算效率,將數(shù)據(jù)集中的圖像隨機(jī)裁剪為256像素×256像素。在實(shí)驗(yàn)過程中,通過多次對比試驗(yàn),確定最優(yōu)模型參數(shù):采用Adam優(yōu)化器;基礎(chǔ)學(xué)習(xí)率設(shè)為1E-4;設(shè)置150個epoch;為了克服GPU內(nèi)存的限制,mini-batch size設(shè)為8。DeepLabv3+模型的精度和損失值隨訓(xùn)練次數(shù)的變化如圖7所示。
圖7 精度和損失值隨訓(xùn)練次數(shù)的變化
為了探究文中提出的架構(gòu)在建筑物自動提取方面的精度優(yōu)勢,選用SVM、K-Means、KNN、CART 4種傳統(tǒng)的機(jī)器學(xué)習(xí)方法以及U-Net、SegNet、PSPNet 3種典型的語義分割網(wǎng)絡(luò)與DeepLabv3+網(wǎng)絡(luò)進(jìn)行對比試驗(yàn)。在實(shí)驗(yàn)過程中,通過對比分類結(jié)果,確定了最佳的模型參數(shù)。SVM方法、K-Means方法使用ENVI完成,SVM參數(shù)設(shè)置如下:Gamma值為0.333,懲罰系數(shù)為100,內(nèi)核類型為Radial Basis Function;K-Means參數(shù)設(shè)置包括:分類類別為10,改變閾值為5%,最大迭代為1。KNN方法、CART方法使用eCognition完成,KNN參數(shù)設(shè)置包括:圖像分割方法為Multiresolution Segmentation,分割閾值為20,深度為0,最小樣本數(shù)為0,交叉驗(yàn)證層數(shù)為3;CART參數(shù)設(shè)置與KNN方法保持一致。U-Net、SegNet、PSPNet的訓(xùn)練參數(shù)設(shè)置與DeepLabv3+參數(shù)保持一致。
1)總體精度(Overall Accuracy, OA),影像中預(yù)測正確的建筑物和背景像元占所有像元的比例:
(1)
式中:TP代表提取為建筑物,實(shí)際為建筑物的個數(shù);FP代表提取為建筑物,實(shí)際為背景的個數(shù);TN代表提取為背景,實(shí)際為背景的個數(shù);FN代表提取為背景,實(shí)際為建筑物的個數(shù)。
2)召回率(Recall),影像中預(yù)測正確的建筑物像元占建筑物區(qū)域真值像元的比例:
(2)
3)精確度(Precision),影像中預(yù)測正確的建筑物像元占所有預(yù)測為建筑物像元的比例:
(3)
4)F1得分(F1-score),代表OA和Precision的加權(quán)平均值:
(4)
5)交并比(IoU),代表真實(shí)值和預(yù)測值兩個集合的交集與并集的比值:
(5)
SVM,K-Means和DeepLabv3+各分類方法的結(jié)果如圖8所示。圖8中的白色、黑色分別為建筑物、背景的預(yù)測?;谙袼氐姆诸惙椒?SVM、K-Means)提取結(jié)果中有明顯的椒鹽現(xiàn)象,也有許多其他要素被誤分為建筑物。語義分割網(wǎng)絡(luò)DeepLabv3+建筑物提取效果較好,大部分建筑物的邊緣部分相對清晰,只是在細(xì)節(jié)上有著零星斑點(diǎn)。
圖8 基于像素分類方法結(jié)果對比
SVM,K-Means和DeepLabv3+的精度指標(biāo)如表1所示。SVM方法的各項(xiàng)平均精度指標(biāo)(OA=69.6%;Precision=62.1%;Recall=66.4%;F1 score=63.7%;IoU=45.3%)均高于K-Means方法(OA=57.3%;Precision=34.7%;Recall=48.2%;F1 score=40.2%;IoU=21.6%)。DeepLabv3+精度評價的各項(xiàng)指標(biāo)遠(yuǎn)超于基于像素分類方法的指標(biāo),各評價指標(biāo)均超過89.1%。
表1 基于像素分類方法精度對比
KNN,CART和DeepLabv3+各方法的分類結(jié)果如圖9所示。圖9中的白色、黑色分別為建筑物、背景的預(yù)測。面向?qū)ο蟮姆诸惙椒?KNN、CART)提取建筑物椒鹽問題有所改善,但是建筑物輪廓仍不夠清晰,出現(xiàn)了分類結(jié)果連片的情況,同時有大量的誤分、漏分情況。
圖9 面向?qū)ο蠓诸惙椒ńY(jié)果對比
KNN,CART和DeepLabv3+的精度指標(biāo)如表2所示。KNN方法的各項(xiàng)平均精度指標(biāo)均高于K-Means方法,KNN方法的OA、Precision、Recall、F1 score、IoU分別比K-Means方法提高6.0%,10.2%,22.4%,10.1%,19.0%。DeepLabv3+相對于KNN和CART方法,各評價指標(biāo)平均提高25.1%,表明該方法比面向?qū)ο蠓椒ǜm合于建筑物提取任務(wù)。
表2 面向?qū)ο蠓诸惙椒ň葘Ρ?/p>
續(xù)表2
為了更好地比較UNet、SegNet、PSPNet和DeepLabv3+這4種網(wǎng)絡(luò)模型提取建筑物的效果,將提取的建筑物結(jié)果進(jìn)行更加詳細(xì)的展示,4種網(wǎng)絡(luò)的建筑物提取結(jié)果如圖10所示。圖中綠色代表正確提取的建筑物,藍(lán)色代表漏檢的建筑物,紅色代表誤檢的建筑物,黑色代表背景。
圖10 語義分割網(wǎng)絡(luò)結(jié)果對比
從整體而言,PSPNet的提取結(jié)果中正確提取(綠色)的建筑物最少,漏檢(藍(lán)色)的建筑物最多。UNet和SegNet的提取結(jié)果中,正確提取(綠色)的建筑物和漏檢(藍(lán)色)的建筑物大致相同,但是UNet有更多誤檢(紅色)的建筑物。相比之下,DeepLabv3+的分割結(jié)果中漏檢(藍(lán)色)和誤檢(紅色)的建筑物明顯少于其他網(wǎng)絡(luò)模型,但是由于DeepLabv3+仍選用兩次雙線性插值上采樣來增加特征分辨率以及數(shù)據(jù)集本身的限制,DeepLabv3+對于少部分建筑物的邊緣易誤分。
從單個建筑物來看,如切片1中的紅框內(nèi)提取結(jié)果所示,UNet、SegNet和PSPNet只提取了小部分,有比較明顯的漏檢情況,而DeepLabv3+提取的相對完整,有清晰的建筑物邊界,基本不存在漏檢的建筑物;如切片2中的紅框內(nèi)提取結(jié)果所示,SegNet完全沒有提取到該建筑物,而PSPNet比UNet提取效果好,但只提取了部分輪廓,DeepLabv3+提取效果最好,提取了完整的建筑物輪廓;如切片3中的紅框內(nèi)提取結(jié)果所示,UNet只提取到了該建筑物的很小一部分輪廓,SegNet提取到了該建筑物的上半部分輪廓,PSPNet提取到了建筑物的中部輪廓,而DeepLabv3+提取比較完整,提取到了完整的建筑物輪廓信息;如切片4中的紅框內(nèi)提取結(jié)果所示,UNet、SegNet和PSPNet提取效果相當(dāng),能夠提取大部分建筑物輪廓,而DeepLabv3+效果更好,沒有漏檢和誤檢的情況。
研究不同模型建筑物提取精度定量評定結(jié)果如表3所示。DeepLabv3+的總體精度、召回率、F1得分、交并比值均最高,UNet的準(zhǔn)確度值最高。其中DeepLabv3+的F1得分達(dá)到了93.3%,相對UNet提高3.4%,相對SegNet提高6.9%,相對PSPNet提高11.2%;且交并比相對UNet提高5.7%,相對SegNet提高11.3%,相對PSPNet提高17.8%。
表3 語義分割網(wǎng)絡(luò)精度對比
定性分析和定量評價結(jié)果表明,文中選用的DeepLabv3+模型采用空洞卷積和空間金字塔池化的Encoder-Decoder結(jié)構(gòu),建筑物分割效果較好,提取精度有所提升,具備區(qū)分建筑物和其它地物的能力。
文中提出一種高分辨率遙感影像建筑物自動提取架構(gòu),基于DeepLabv3+網(wǎng)絡(luò),利用WHU數(shù)據(jù)集進(jìn)行提取實(shí)驗(yàn),并與基于像素的分類方法、面向?qū)ο蟮姆诸惙椒ㄒ约捌渌Z義分割模型進(jìn)行結(jié)果與精度的對比分析,結(jié)論如下:
1)基于像素的分類方法(SVM、K-Means)和面向?qū)ο蟮姆诸惙椒?KNN、CART)可以實(shí)現(xiàn)建筑物的提取,但與本架構(gòu)的提取效果相比,建筑物提取結(jié)果中椒鹽效應(yīng)明顯,難以得到清晰的建筑物輪廓。與深度學(xué)習(xí)方法相比,需要大量參數(shù)設(shè)置,效率較低。
2)利用DeepLabv3+進(jìn)行高分辨率遙感影像建筑物提取,總體精度為96.3%、召回率為92.5%、F1得分為93.3%、交并比為87.5%,在幾種網(wǎng)絡(luò)中表現(xiàn)最優(yōu),表明DeepLabv3+在高分辨率遙感影像中的建筑物提取中效果較好,具有較高精度。
今后研究將考慮在模型的解碼器部分增加更多的低層特征來源,并進(jìn)一步與其他算法相結(jié)合,提高建筑物的提取精度,同時選用更多的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析。