張玉鑫,顏青松,鄧 非
武漢大學測繪學院,湖北 武漢 430079
高分辨率遙感影像建筑物提取在數字城市建設、地表動態(tài)變化監(jiān)測及土地利用變更調查等應用中都具有重要的意義。但是高分辨率遙感影像細節(jié)豐富的特點也使得建筑物的尺度多變、結構復雜、外觀各異,如何準確地從高分辨率遙感影像中提取建筑物目前仍是遙感影像處理與應用領域研究的熱點和難點。
傳統建筑物提取的方法主要根據建筑物特有的光譜、紋理、幾何和陰影等特性,人工設計合適的特征去區(qū)分建筑物和非建筑物區(qū)域[1-3]。文獻[4]通過窗口Hough變換提取矩形建筑物的角點特征,實現矩形屋頂的提取,但當建筑物角點被遮擋時,無法精確地提取建筑物。文獻[5]利用了遙感影像中建筑物受光照影響產生的陰影信息對建筑物自動定位,然而排列整齊的樹木陰影可能會對其造成干擾。此外,DSM數據、LiDAR和SAR數據等多源數據可以提供建筑物的高程信息,融合多源數據可以有效提高建筑物提取的精度[6],但獲得滿足精度條件的多源數據需要較高的成本,具有一定的局限性。總體而言,這些人工設計的特征會隨著傳感器質量、光照條件、建筑物風格產生較為明顯的變化,只能處理特定的數據[7]。
近年來,卷積神經網絡良好的特征表示能力,使其受到了廣泛的關注,在自然語言處理、圖像分割、目標檢測等領域都有廣泛應用[8-11]。建筑物提取方法也由人工設計特征的傳統方法轉向學習特征的卷積神經網絡方法。
文獻[12]提出的全卷積神經網絡(fully convolutional network,FCN)將傳統卷積神經網絡中的全連接層轉化為卷積層,首次實現端到端訓練的語義分割網絡。文獻[13]以FCN為基礎,提出UNet,利用跳躍連接來融合深層特征和淺層特征,使得分割邊緣得到提升。FCN是許多語義分割方法的基本框架,基于FCN的方法主要分為兩種改進方向:①從特征圖出發(fā),擴大卷積神經網絡的感受野,獲取多尺度特征。文獻[14]提出金字塔空間池化模塊,融合不同尺度的池化后的特征圖以獲取全局依賴。文獻[15]從原始影像中提取不同尺度的特征,之后在恢復尺度的階段逐步融合粗糙的淺層特征及細粒度的深層特征,從而使得分割精度提升。②從原始影像出發(fā),利用多尺度的原始影像作為輸入,獲取全局信息。文獻[16]提出一種基于多尺度影像的全卷積神經網絡,將原始影像進行不同尺度的下采樣,之后分層地對其進行特征提取和融合。注意力機制[17-18]是近幾年來提出的一種在空間或通道上捕獲遠程依賴的方法,能夠有效地提高分割性能。文獻[19]提出位置注意力模塊和通道注意力模塊去學習特征之間的空間依賴性以及通道間的相關性。位置注意力模塊是對所有位置的特征加權求和,選擇性地聚合各個位置的特征,使得遠距離特征也可以得到關聯。通道注意力模塊整合所有通道之間的相關特征圖,選擇性地強調存在相互依賴的通道圖。將兩個注意力模塊的結果融合可以獲得更精確的分割結果。文獻[20]通過輸入不同尺度的影像,利用分層多尺度注意力機制,學習不同尺寸的物體在相應尺度上的權重,讓網絡自適應地選擇最合適的分辨率來預測物體,但該方法網絡結構較為復雜對硬件要求較高。
與基于FCN的主流語義分割框架不同,文獻[21]提出了一種高分辨率神經網絡(high-resolution network,HRNet),該方法可使特征圖保持高分辨率,在高分辨率特征圖中融入低分辨率特征圖使其包含多尺度信息,為網絡結構設計提供了新的思路。文獻[22]設計了一種雙層嵌套UNet的網絡結構U2Net,能夠捕獲更多的上下文信息,在顯著性檢測任務中表現突出,但其參數量較多,訓練效率較低。
以往研究中,基于全卷積神經網絡的建筑物提取方法基本框架以編碼器-解碼器結構為主[23-24]。但是該框架在編碼器階段的多次池化易丟失空間信息,使得小型建筑物難以檢測;同時在解碼器階段,通過跳躍連接融合淺層特征恢復細節(jié)的效果有限,還會從淺層引入一些粗糙特征,最終進一步加劇建筑物邊界的不準確[25]。除此之外,卷積神經網絡提取的特征往往是局部的,基于FCN的方法缺乏對全局特征的有效利用,導致提取大型建筑物時存在不連續(xù)和空洞等情況,如圖1所示。而過于關注全局特征,忽略局部特征,會導致邊緣信息的缺失。如何高效利用全局特征和局部特征,是優(yōu)化建筑物提取結果的關鍵。因此,受HRNet和U2Net啟發(fā),本文提出一種基于RSU模塊的高分辨率遙感影像建筑物提取方法:MPRSU-Net,能夠在保持高分辨率語義信息的同時,融入全局特征,從而改善大型建筑物存在空洞、邊緣分割不完整的問題。MPRSU-Net通過并行和級聯RSU模塊融合多尺度特征,之后將多個尺度的預測結果融合得到最終提取結果。在WHU和Inria建筑物數據集上的試驗結果表明,本文方法提取建筑物精度高、邊緣清晰、結構完整,相較其他主流方法泛化能力更強,參數較少。
圖1 建筑物提取結果示例Fig.1 The example results of building extraction
本節(jié)首先介紹RSU模塊的結構,然后對本文提出的MPRSU-Net進行詳細說明,最后闡述了本文方法訓練過程中使用的損失函數。
RSU模塊是本文網絡的主要構成部分,由簡化的UNet結構和ResNet的殘差結構[26]組成,能夠捕捉輸入特征圖的多尺度特征和局部特征。RSU模塊的超參數有L、Cin、Cout和Cmid,分別代表編碼器階段的卷積層數、輸入特征圖的通道數、輸出特征圖的通道數和中間層的通道數。本文使用RSU-L(Cin,Cmid,Cout)表示單個RSU模塊,結構如圖2所示。RSU模塊的輸入為通道數Cin的特征圖,首先通過一個3×3的卷積,將輸入映射為通道數為Cout的特征圖,并同時從輸入特征圖中提取局部特征;然后通道數為Cout的特征圖經過一個簡化的編碼器-解碼器結構,其中編碼器提取出多尺度特征,編碼器階段的池化次數為L-2,L越大池化次數越多,感受野范圍越大,多尺度特征便越豐富,解碼器將多尺度特征編碼成高分辨率的多尺度特征圖;最后將第一步獲得的通道數為Cout的特征圖和高分辨率的多尺度特征圖相加得到輸出,使得局部特征和多尺度特征融合,保證特征圖中的細節(jié)信息不被丟失。
圖2 RSU結構Fig.2 RSU architecture
MPRSU-Net的網絡結構如圖3所示,主要包括兩個部分:多路徑特征提取模塊和多尺度特征融合模塊。
1.2.1 多路徑特征提取
基于編碼器-解碼器結構的卷積神經網絡一般過程為:由高分辨率到低分辨率獲取深層特征,再從低到高恢復分辨率得到輸出結果,此過程中極易丟失細節(jié)信息。而HRNet的多路徑結構能夠有效地解決此問題,較好地保持特征圖中的細節(jié)信息;其使用多個并行的子網絡提取不同尺度的特征,然后將多尺度特征在子網絡之間反復交換以充分融合多尺度特征。
基于多路徑結構與RSU模塊,本文提出多路徑特征提取模塊,詳細架構如圖3所示,不僅能提取多尺度特征,還能減少細節(jié)丟失。RSU模塊是多路徑特征提取模塊的主要組成部分,其利用編碼器-解碼器結構從特征圖中提取多尺度特征,再將多尺度特征編碼成高分辨率的特征圖。多路徑結構通過串聯RSU模塊,能夠保持高分辨率的特征表示,減少編碼器下采樣帶來的細節(jié)丟失,保持高層語義信息和精確的空間定位信息,改善建筑物邊界提取模糊及空洞現象。
圖3 MPRSU-Net結構Fig.3 MPRSU-Net architecture
MPRSU-Net的多路徑特征提取模塊由3條并行路徑組成,特征圖的空間分辨率分別為原始影像的1、1/4、和1/16。對于相鄰路徑之間的上、下采樣,本文使用圖4(c)、(f)所示的方法:上采樣先對影像進行雙線性上采樣,再將低分辨率的特征圖的通道壓縮,去除冗余信息;下采樣時首先擴大一倍通道數,以保存高分辨率的信息,再進行池化。除此之外,常用的上、下采樣還有圖4(a)、(d)對應的直接采樣方法,但是這種方式很容易造成信息冗余和細節(jié)信息丟失。圖4(b)、(e)對應的是沒進行通道壓縮和擴增的上、下采樣,但存在一定程度的信息冗余和丟失。
圖4 下采樣和上采樣方法Fig.4 The methods of downsample and upsample
1.2.2 多尺度特征融合
多尺度特征融合模塊如圖3所示,首先,利用1×1卷積和sigmoid函數對多路徑特征提取模塊輸出的多尺度特征進行預測,得到每個尺度的分類結果;然后,將各個尺度上的分類結果上采樣到輸入尺寸后進行拼接;最后,將不同尺度的預測結果融合得到建筑物的最終預測結果。最終的預測結果匯聚了多個尺度的信息,使得反向傳播和權重更新能夠利用多尺度信息。
本文使用二分類交叉熵損失函數[27]來指導網絡學習,如式(1)所示
ln(1-pij)]
(1)
式中,(x,y)為樣本點坐標;(H,W)為影像尺寸;yij表示樣本點的真值;建筑物像素為1;非建筑物像素為0;pij表示模型預測樣本點是建筑物像素的概率。
本節(jié)首先介紹試驗所采用的數據集、結果評價指標及試驗相關設置,之后闡述試驗設計目的、結果及分析。
為證明本文方法的有效性,選取WHU建筑物數據集[7]和Inria建筑物數據集[28]兩個數據集進行綜合性的試驗,數據集的相關描述如下:
(1) WHU建筑物數據集包括航空和衛(wèi)星影像數據集,以及相應的矢量文件和柵格影像,本文選取航空影像數據集進行試驗。航空影像數據集中包含不同尺度、不同風格和顏色的建筑物,如圖5所示,影像空間分辨率為0.3 m,每幅影像的大小為512×512像素,共計8188張,其中訓練集、驗證集、測試集分別為4736、1036和2416張。
圖5 WHU數據集樣例Fig.5 WHU dataset examples
(2) Inria建筑物數據集包含5個地區(qū)(奧斯汀、芝加哥、基特薩普、蒂羅爾西部、維也納)的航空正射彩色影像,每個地區(qū)分別有36張尺寸為5000×5000像素的影像,空間分辨率為0.3 m,數據集示例如圖6所示。數據集中5個地區(qū)的影像季節(jié)不同,照明條件不同,有建筑物密集的城市中心,也有建筑物稀疏的山區(qū),可用于評估模型的泛化能力。試驗前,將每幅影像裁剪為500×500像素的大小,最終獲取18 000張影像,其中隨機抽取10 832張作為訓練集,1805張作為驗證集,5363張作為測試集。
圖6 Inria數據集樣例Fig.6 Inria dataset examples
本文采用精度(Precision)、召回率(Recall)、F1分數、交并比(IoU)4個指標來評價建筑物提取的準確性。精度指預測正確的建筑物像素數量占預測的建筑物像素數量的比例。召回率指預測正確的建筑物像素數量占真實的建筑物像素數量的比例。F1分數綜合考慮了精度和召回率的結果。IoU是目標檢測和語義分割中的常用指標,指預測的建筑物像素數量與真實的建筑物像素的交集和并集的比值。4種指標的計算公式如下
(2)
(3)
(4)
(5)
式中,TP指真實建筑物像素的預測為建筑物像素的數量;TN指背景像素預測為背景像素的數量;FP指背景像素預測為建筑物像素的數量;FN指真實建筑物像素預測為背景像素的數量。
本文試驗的硬件環(huán)境為Intel(R) Core(TM) i7-7700 CPU,64 GB RAM,GPU Nvidia Titan Xp(顯存12 GB),操作系統為Windows10,編程環(huán)境為Python3.6,Pytorch1.2.0。
為保證試驗結果的客觀性,所有試驗網絡均采用小批量梯度下降算法訓練,使用Adam算法進行優(yōu)化,初始學習率設置為0.001,批處理數量為4。訓練過程中,所有試驗網絡從零開始對數據集迭代100次,并對影像進行隨機水平翻轉。
本節(jié)首先分析不同上、下采樣方法對本文方法在WHU數據集上性能的影響;使用WHU和Inria數據集進行對比試驗,比較本文方法和UNet[13]、DANet[19]、HRNetv2[21]、U2Net[22]4種方法提取建筑物的性能,對比方法中,DANet基本框架設置為101層的ResNet,HRNet多路徑通道數設置為48、96、192、384。最后,為驗證本文方法在性能和復雜度上面的平衡,對不同方法的復雜度進行分析。
2.4.1 上下采樣方法對比試驗
為探討不同上、下采樣方法對本文方法在WHU數據集上性能的影響,在MPRSU-Net結構基礎上使用1.2.1節(jié)中3種上、下采樣方法進行試驗,結果見表1。表1中結果顯示,間接上、下采樣方法與直接采樣方法相比,精度和IoU有一定提升,說明連續(xù)采樣之間添加卷積層可以減少信息損失。本文的上、下采樣方法較間接上、下采樣方法各項指標均有提升,表明了上采樣縮減通道數可以去除冗余信息,下采樣擴大通道數可以保存一定的細節(jié)信息,驗證了本文上、下采樣方法的有效性。
表1 不同采樣方法對本文方法的影響Tab.1 Influence of different sampling methods (%)
2.4.2 WHU數據集試驗結果分析
選取UNet、DANet、HRNet、U2Net 4種方法與本文方法進行對比,在WHU建筑物數據集上的可視化試驗結果如圖7所示。卷積神經網絡依靠卷積核提取特征,獲取感受野范圍有限,故提取大型建筑物時,易產生空洞現象。針對該現象,本文方法使用RSU模塊融合局部特征和全局特征,擴大感受野,并在不同尺度的RSU模塊之間增加信息交互,進一步提升特征聚集率。由圖7中可以看出,第1、第5個樣例的影像中,存在顏色相似的地面和建筑物,一些對比方法不能正確地區(qū)分兩者,導致出現將地面錯誤識別成建筑物的現象,而本文方法能夠較為精確地區(qū)分顏色相近的地面及建筑物。此外,對于第1、第4個樣例影像中顏色不一致的建筑物,本文方法可以準確提取,而對比方法錯誤地將其識別為背景,表明本文方法相較于其他方法能夠更加充分地獲取上下文信息。綜上,根據目視評價,可以看出本文方法能夠良好地適應不同場景的建筑物提取,在一定程度上可以改善建筑物邊界不清晰、出現空洞的現象,且對于“同物異譜,異物同譜”現象可以進行較為正確地識別,結果優(yōu)于其他幾種對比方法。
圖7 WHU數據集上各種方法的建筑物提取結果Fig.7 Building extraction results of various methods on WHU dataset
對WHU建筑物數據集的提取結果進行定量評價見表2。由表2可以看出,在WHU建筑物數據集上,與其他方法相比較,本文方法在各項指標上均達到最優(yōu),IoU達91.17%,精度達95.65%,F1分數達到了95.38%,與UNet、DANet、HRNet、U2Net相比IoU分別提高了2.30%、1.96%、1.40%、0.83%,精度分別提高了2.18%、1.44%、0.73%、0.62%。
表2 WHU數據集上各種方法的比較Tab.2 Comparison of various methods on WHU dataset (%)
WHU數據集上的試驗結果從目視和定量評價上均驗證了本文方法的優(yōu)越性,表明了多路徑結構結合編碼器-解碼器結構使得建筑物的局部特征和全局特征更好地聚合,能夠更好地提取建筑物細節(jié)信息和全局特征。
2.4.3 Inria數據集試驗結果分析
Inria數據集包含5個地區(qū)的建筑物影像,分別取其典型區(qū)域,提取結果可視化如圖8所示,從上到下依次是奧斯汀、芝加哥、基特薩普、蒂羅爾西部和維也納典型建筑物的提取結果。5個地區(qū)的建筑物風格不同,且由于成像時間不同,不同地區(qū)的建筑物光譜、陰影特征并不一致。由于樹木遮擋、建筑物結構復雜等情況,Inria數據集的建筑物邊界不易提取。本文方法通過串聯RSU模塊,保持高分辨率的語義表示,減少RSU模塊中編碼器下采樣帶來的細節(jié)丟失,增加高層語義信息和精確的空間定位信息,改善建筑物邊界提取模糊及空洞現象。由圖8可以看出,本文方法對不同場景下的大型建筑物的空洞現象都有所改進,提取的建筑物邊緣較其他方法更為清晰,且能夠更加準確地識別細長型建筑物。對于環(huán)繞型、內部存在不規(guī)則背景的建筑物,本文方法能夠較好地識別被建筑物環(huán)繞的背景。綜合不同地區(qū)的建筑物提取的目視效果上看,本文方法能夠較為良好地適應不同場景的大型建筑物提取,邊緣較為完整,能夠減少建筑物漏檢結果,綜合表現較優(yōu),表明使用多路徑結構保持高分辨率的語義信息的可行性。
圖8 Inria數據集上各種方法的建筑物提取結果Fig.8 Building extraction results of various methods on Inria dataset
對Inria建筑物數據集的提取結果進行定量評價見表3。雖然該數據集較多建筑物被植被遮擋不易識別,但本文方法仍在各項指標上表現較好,IoU達79.31%,召回率達88.29%,F1分數達88.46%,與UNet、DANet、HRNet、U2Net相比IoU分別提高了1.34%、0.93%、0.53%、2.95%,召回率分別提高了1.85%、2.20%、1.06%、1.59%,證明了本文方法的穩(wěn)定性和優(yōu)越性。在該數據集上,本文方法的提取精度稍低,本文分析是由于該數據集小型建筑物較密集,影像尺寸裁剪為500×500像素,本文方法中存在較多的下采樣操作,不能整除,導致部分細節(jié)信息丟失,精度較低,然而本文方法的精度較同樣有多次下采樣操作的U2Net方法提升了2.13%,說明了多路徑特征提取的有效性??梢赃M一步探索RSU模塊合適的下采樣次數,以使提取結果進一步提升。
表3 Inria數據集上各種方法的比較Tab.3 Comparison of various methods on Inria dataset (%)
2.4.4 網絡復雜度分析
本文對5種方法的模型復雜度及效率進行了比較,結果見表4。模型的計算量和參數量使用thop工具包進行統計,模型計算量與輸入尺寸有關,此處輸入尺寸均設置為1×512×512×3。訓練時間為迭代一次WHU訓練數據集所需要的時間,推理時間為在WHU測試數據集上推理所需要的總時間。由表4可以看出,本文方法計算量較少,僅是U2Net的1/3,同時本文方法訓練效率較高,僅需要U2Net的一半訓練時間。綜合不同方法在WHU數據集和Inria數據集上的試驗結果來看,本文方法在精度和效率方面取得了較好的平衡,有較高的應用價值。
表4 各種方法復雜性及效率的比較Tab.4 Complexity and efficiency comparison among various methods
本文提出了MPRSU-Net用于改善高分辨率遙感影像建筑物提取中邊界不準確、大型建筑物提取結果存在空洞等問題。本文方法通過并行和級聯RSU模塊,能夠從淺層和深層交叉學習到更豐富的全局特征和局部特征。在WHU和Inria數據集上的試驗結果表明,本文方法相對其他方法具有更高的IoU和召回率,并在性能和效率上取得了良好的平衡,能夠更好地提取邊界信息,且對于不同場景的建筑物都能得到良好的分割結果,有較強的泛化能力。本文方法是基于像素級別的建筑物提取,結果會存在一些非建筑物斑塊,如何將建筑物實體作為提取對象將是下一步研究方向。