嚴(yán)繼偉, 蘇娟, 李義紅
(火箭軍工程大學(xué) 核工程學(xué)院, 陜西 西安 710025)
合成孔徑雷達(dá)(SAR)作為一種主動(dòng)式微波傳感技術(shù),具有不受光照和天氣條件影響、穿透能力強(qiáng)、能實(shí)現(xiàn)全天時(shí)全天候探測(cè)等特點(diǎn)。隨著SAR成像技術(shù)的發(fā)展,SAR圖像在軍用與民用領(lǐng)域取得了廣泛的應(yīng)用。通過對(duì)SAR圖像建筑物目標(biāo)檢測(cè),可以快速獲取建筑區(qū)域信息,在城市建設(shè)規(guī)劃、軍事偵察、災(zāi)情評(píng)估、目標(biāo)打擊等方面具有重要的研究意義。
隨著合成孔徑雷達(dá)圖像數(shù)據(jù)的激增和計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)被引入來解決SAR圖像中的目標(biāo)檢測(cè)問題。目前,常用的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法主要分為兩階段檢測(cè)算法與單階段檢測(cè)算法。其中,兩階段檢測(cè)算法主要有候選區(qū)域提取和候選區(qū)域定位分類兩個(gè)步驟,因此檢測(cè)速度較慢。最具代表性的兩階段檢測(cè)算法為R-CNN系列等。而單階段檢測(cè)算法直接在圖像中選取目標(biāo)錨框并預(yù)測(cè)位置與類別,是一種兼具精度與速度的目標(biāo)檢測(cè)方法。YOLO系列、SSD、Centernet等都是著名的單階段檢測(cè)算法。
深度卷積神經(jīng)網(wǎng)絡(luò)在SAR建筑物檢測(cè)方面也有廣泛的應(yīng)用。文獻(xiàn)[11]提出借助先驗(yàn)信息(2D建筑物圖像或可見光圖像)對(duì)SAR建筑物圖像展開分析,使用合成孔徑雷達(dá)層析成像技術(shù)區(qū)分出建筑物區(qū)域和非建筑物區(qū)域,并以此制作數(shù)據(jù)集,經(jīng)過模型訓(xùn)練后實(shí)現(xiàn)了對(duì)SAR圖像中柏林城區(qū)的建筑物檢測(cè)。文獻(xiàn)[13]提出一個(gè)多尺度的卷積神經(jīng)網(wǎng)絡(luò)模型,直接從SAR圖像斑塊中提取多尺度特征來檢測(cè)建筑物,并在北京地區(qū)的高分辨率SAR圖像上進(jìn)行實(shí)驗(yàn)驗(yàn)證。文獻(xiàn)[14]分析了SAR圖像中臨近像素之間的相關(guān)性,將結(jié)構(gòu)化預(yù)測(cè)引入網(wǎng)絡(luò)之中,采用多級(jí)特征對(duì)像素進(jìn)行分類,以此實(shí)現(xiàn)了SAR圖像中的建筑物檢測(cè)。
SAR圖像中的建筑物目標(biāo)常以任意方向密集排列,使用傳統(tǒng)的水平矩形框進(jìn)行檢測(cè)容易對(duì)相鄰目標(biāo)產(chǎn)生影響,因此本文提出使用旋轉(zhuǎn)矩形框檢測(cè)SAR圖像中的建筑物目標(biāo)?;谛D(zhuǎn)矩形框的目標(biāo)檢測(cè)算法具有如下優(yōu)勢(shì):1)檢測(cè)時(shí)可以充分考慮建筑物的方向性問題,檢測(cè)結(jié)果表征出目標(biāo)的方向信息;2)密集排列時(shí)分離出單個(gè)建筑物,減少漏檢現(xiàn)象的發(fā)生;3)濾除單個(gè)建筑物周圍存在的背景信息,避免對(duì)檢測(cè)效果造成影響。因此基于旋轉(zhuǎn)框的目標(biāo)檢測(cè)算法在SAR圖像建筑物檢測(cè)中具有重要研究前景?,F(xiàn)階段的基于旋轉(zhuǎn)矩形框的檢測(cè)算法也有兩種,其中,DRbox-v2、SCRDet等都是典型的兩階段檢測(cè)器,R-centernet、R3Det、EAST、FOST等均為單階段檢測(cè)器。
經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò)模型往往伴隨著大量的參數(shù)與計(jì)算量,在訓(xùn)練過程中占用了計(jì)算機(jī)的內(nèi)存,檢測(cè)時(shí)降低效率。因此,輕量的卷積神經(jīng)網(wǎng)絡(luò)具有廣闊的應(yīng)用前景,能夠勝任實(shí)時(shí)性要求高的目標(biāo)檢測(cè)任務(wù)。輕量化的目標(biāo)檢測(cè)算法有MobileNet系列、GhostNet、ShuffleNet等。
本文在基于旋轉(zhuǎn)矩形框的單階段目標(biāo)檢測(cè)算法R-centernet的基礎(chǔ)上,提出了一種更加輕量化的改進(jìn)算法,用于SAR圖像中的建筑物檢測(cè)。首先用Ghost卷積替換原始網(wǎng)絡(luò)中的傳統(tǒng)卷積,搭建Ghost-ResNet網(wǎng)絡(luò)模型,降低參數(shù)量;其次提出融合寬高信息的通道注意力模塊,提高檢測(cè)精度,同時(shí)保證較低的參數(shù)量;然后改進(jìn)上采樣方法,進(jìn)一步減小網(wǎng)絡(luò)的計(jì)算量;最后使用改進(jìn)算法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試,驗(yàn)證改進(jìn)算法在SAR圖像建筑物檢測(cè)應(yīng)用中的性能。
目前常見的目標(biāo)檢測(cè)算法多使用水平矩形框從圖像中窮舉出目標(biāo)錨框,而后進(jìn)行分類與定位,檢測(cè)效率較低,檢測(cè)速度較慢。Centernet則提出一種基于關(guān)鍵點(diǎn)估計(jì)的目標(biāo)檢測(cè)方法,在檢測(cè)過程中尋找關(guān)鍵點(diǎn)來估計(jì)目標(biāo)的中心點(diǎn)位置,而后回歸其他屬性(大小、空間位置、方向、姿態(tài)等)。
R-centernet作為Centernet的改進(jìn)版本,是一種旋轉(zhuǎn)目標(biāo)檢測(cè)算法,在水平框的基礎(chǔ)上引入一個(gè)角度參數(shù)進(jìn)行訓(xùn)練和預(yù)測(cè),最終回歸了目標(biāo)的四個(gè)特征:熱力圖特征、中心點(diǎn)、尺寸和角度,并以此確定目標(biāo)在圖像中的精確位置和方向。其算法結(jié)構(gòu)如圖1所示。
圖1 R-centernet算法結(jié)構(gòu)Fig.1 Structure of the R-centernet algorithm
如圖1所示,圖像輸入進(jìn)R-centernet后首先經(jīng)過主干網(wǎng)絡(luò)ResNet50(Residual Networks 50)進(jìn)行特征提取,而后輸入反卷積(DCN)模塊,該模塊的主要作用是上采樣。最終得到四個(gè)預(yù)測(cè)結(jié)果:熱力圖、中心點(diǎn)坐標(biāo)、寬高和角度。因此,損失函數(shù)由三部分組成:熱力特征損失、位置損失(中心點(diǎn)偏移損失、寬高預(yù)測(cè)損失)、旋轉(zhuǎn)角度損失。計(jì)算公式如下:
=+++
(1)
式中:表示總損失值;表示熱力特征損失;為預(yù)測(cè)框中心點(diǎn)偏移誤差;為預(yù)測(cè)框?qū)捀叩恼`差;為預(yù)測(cè)框的旋轉(zhuǎn)角度誤差;、、為對(duì)應(yīng)權(quán)重。
圖2 改進(jìn)R-centernet算法結(jié)構(gòu)Fig.2 Structure of the improved R-centernet algorithm
在SAR圖像建筑物檢測(cè)過程中,原始R-centernet算法需要大量參數(shù)和浮點(diǎn)運(yùn)算來獲得檢測(cè)精度的收益,隨之帶來的是檢測(cè)速度的下降。本文改進(jìn)了R-centernet算法,在保證檢測(cè)精度的基礎(chǔ)上,降低網(wǎng)絡(luò)參數(shù)的數(shù)量,使SAR圖像中建筑物的檢測(cè)既高效又有效。
改進(jìn)R-centernet算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。圖中使用紅色虛線框標(biāo)出的部分為改進(jìn)部分,主要包括:1)使用Ghost卷積替換傳統(tǒng)卷積,將主干網(wǎng)絡(luò)由ResNet50改進(jìn)為Ghost-ResNet;2)在Ghost-ResNet中添加融合寬高信息的通道注意力機(jī)制,如圖2中WH-ECA部分所示;3)改進(jìn)了原始算法中的DCN模塊,使用更加適用于輕量化網(wǎng)絡(luò)的上采樣方法。
1.2.1 Ghost卷積在殘差網(wǎng)絡(luò)中的應(yīng)用
由于計(jì)算性能和存儲(chǔ)空間的限制以及對(duì)檢測(cè)速度的要求,目標(biāo)檢測(cè)網(wǎng)絡(luò)在保證高精度的基礎(chǔ)上需盡量做到輕量化。本文以單階段檢測(cè)算法R-centernet為基礎(chǔ),以ResNet50為主干網(wǎng)絡(luò),采用Ghost卷積(Ghost Convolution)代替網(wǎng)絡(luò)中的傳統(tǒng)卷積方法,在達(dá)到近似效果的同時(shí),減少了網(wǎng)絡(luò)的參數(shù)量。
傳統(tǒng)卷積過程與Ghost卷積過程如圖3所示。圖3中:、、分別為輸入特征圖尺寸的通道數(shù)、商和寬,′、′、′分別為輸出特征圖尺寸的通道數(shù)、高和寬,采用的卷積核尺寸為×。Ghost卷積主要分為三個(gè)部分:1)輸入特征圖經(jīng)過傳統(tǒng)卷積生成本征特征圖,該特征圖的通道數(shù)小于輸出特征圖的通道數(shù);2)將得到的本征特征圖進(jìn)行Depthwise卷積運(yùn)算得到Ghost特征圖,其中Depthwise卷積在每個(gè)通道上運(yùn)行,卷積核的數(shù)量與上一層的通道數(shù)相同,計(jì)算量遠(yuǎn)小于傳統(tǒng)卷積;3)將本征特征圖與Ghost特征圖拼接得到最終輸出結(jié)果。
圖3 傳統(tǒng)卷積結(jié)構(gòu)和ghost卷積結(jié)構(gòu)Fig.3 Structures of traditional convolution and ghost convolution
Ghost卷積并未完全舍棄傳統(tǒng)卷積部分,而是先采用傳統(tǒng)卷積生成少量通道數(shù)的特征圖,再生成Ghost特征圖。該方法在降低計(jì)算量的同時(shí),保證了對(duì)特征的識(shí)別性能,是一種高效且有效的卷積方式。
當(dāng)輸入特征圖的尺寸為××,采用的卷積核尺寸為×,輸出特征圖尺寸為′×′×′時(shí),傳統(tǒng)卷積與Ghost卷積過程中所需的參數(shù)量分別為(2)式和(3)式所示。
=×′××
(2)
=×××+×××
(3)
式中:為本征特征圖的通道數(shù);為線性運(yùn)算的內(nèi)核個(gè)數(shù),×為線性內(nèi)核的尺寸大小,且×?×。
因此傳統(tǒng)卷積與Ghost卷積的參數(shù)量之比為
(4)
通過理論分析發(fā)現(xiàn),傳統(tǒng)卷積與Ghost卷積得到的參數(shù)量之比為′,且隨著本征特征圖通道數(shù)的減少,Ghost卷積的參數(shù)量相較于傳統(tǒng)卷積更少。當(dāng)跳過傳統(tǒng)卷積的步驟,直接采用線性運(yùn)算生成Ghost特征圖時(shí),參數(shù)量達(dá)到最小。
本文以ResNet50為主干網(wǎng)絡(luò),使用Ghost卷積替換傳統(tǒng)卷積,構(gòu)成了Ghost-ResNet網(wǎng)絡(luò)結(jié)構(gòu)。ResNet50和Ghost-ResNet的組成結(jié)構(gòu)如圖4所示。
圖4 ResNet50和Ghost-ResNet的組成模塊Fig.4 Modules of ResNet50 and Ghost-ResNet
從圖4中可以看出,兩個(gè)模塊的結(jié)構(gòu)相似,Ghost-ResNet將Ghost卷積與深度卷積(DW Conv)有效結(jié)合,在兩個(gè)Ghost卷積之間添加深度卷積,將特征圖的尺寸大小降為輸入特征的1/2,并以此達(dá)到ResNet50組成結(jié)構(gòu)中降采樣的效果。
1.2.2 注意力機(jī)制
由于二面角反射效應(yīng)存在,SAR圖像中建筑物的呈現(xiàn)形式主要為L(zhǎng)型或直線型亮線,與周圍背景有著明顯的區(qū)別。因此,本文在R-centernet中添加注意力機(jī)制,增強(qiáng)網(wǎng)絡(luò)對(duì)圖像中顯著特征較強(qiáng)的建筑物區(qū)域的特征提取能力。
最具代表性的通道注意力模塊仍然是擠壓和激勵(lì)網(wǎng)絡(luò)(SENet),高效通道注意力機(jī)制(ECANet)作為SENet的改進(jìn)算法,在保持網(wǎng)絡(luò)顯著特征提取能力的同時(shí),有效降低計(jì)算量,使之更加適合輕量化網(wǎng)絡(luò)。SENet及ECANet的模型結(jié)構(gòu)如圖5所示。圖5中,為Sigmoid映射,為降維比例。
圖5 SENet和ECANet的結(jié)構(gòu)圖Fig.5 Structures of SENet and ECANet
SENet首先對(duì)輸入圖像進(jìn)行通道上的全局平均池化(GAP),然后使用降維結(jié)構(gòu)的全連接層以及非線性Sigmoid函數(shù)生成通道權(quán)重。ECANet區(qū)別于SENet,采用不降維的近鄰操作代替全連接層來捕獲不同通道之間的關(guān)系,重新生成通道權(quán)重。然而,兩者均僅考慮了通道之間的關(guān)系,重視生成通道權(quán)重而忽視了顯著目標(biāo)位置信息的重要性。
本文在ECANet的基礎(chǔ)上進(jìn)行改進(jìn),借鑒Coordinate Attention(CA)的思想,提出一種融合寬高信息的通道注意力機(jī)制(WH-ECA),其模型結(jié)構(gòu)如圖6所示。
圖6 WH-ECA模型結(jié)構(gòu)Fig.6 Model structure of WH-ECA
如圖6所示,對(duì)于尺寸為××的輸入圖像,(,)為輸入像素值,首先使用尺寸為(,1)和(1,)的池化核分別沿著圖像的寬、高方向?qū)γ總€(gè)通道進(jìn)行平均池化操作,此時(shí)輸出結(jié)果、分別為(5)式和(6)式所示:
(5)
(6)
當(dāng)輸入為××?xí)r,全局池化操作的計(jì)算量為
=××
(7)
而沿著寬高方向分別進(jìn)行池化操作的計(jì)算量為
=××1+×1×
(8)
由(7)式、(8)式可知,兩種方法的計(jì)算量之比為(×)(+),因此本文采用的分方向池化的方法不僅可以實(shí)現(xiàn)從寬高分別對(duì)通道編碼,從而確定顯著區(qū)域的位置信息,而且占用了更少的參數(shù)量。
將上述產(chǎn)生的兩個(gè)特征圖進(jìn)行張量拼接,而后使用ECANet中的近鄰操作捕獲通道關(guān)系,對(duì)各通道重新編碼,公式如下:
=[,]
(9)
式中:表示該部分的輸出結(jié)果;表示近鄰操作。
然后沿著空間維度將上述結(jié)果分解為單獨(dú)張量和,通過Sigmoid函數(shù)分別生成每個(gè)通道在寬高方向上的權(quán)重,如(10)式、(11)式所示:
=()
(10)
=()
(11)
此時(shí)WH-ECA的最終輸出結(jié)果如(12)式所示:
(,)=(,)×()×()
(12)
式中:(,)為輸出的像素值;(,)為輸入的像素值;和分別為每個(gè)通道在寬高方向上的權(quán)重。
本文提取了圖像經(jīng)過兩層網(wǎng)絡(luò)得出的特征圖進(jìn)行對(duì)比分析,如圖7所示。其中圖7(a)為輸入的原始SAR圖像數(shù)據(jù),經(jīng)過原始R-centernet網(wǎng)絡(luò)提取后的L2層熱力圖輸出結(jié)果如圖7(b)所示,在原始網(wǎng)絡(luò)中添加ECANet注意力模塊后得到的熱力特征如圖7(c)所示,圖7(d)為融合WH-ECA注意力模塊后的輸出熱力圖。
圖7 特征提取后的熱力圖Fig.7 Heat map after feature extraction
熱力圖中紅色表示顯著性較高的區(qū)域,經(jīng)過對(duì)比分析發(fā)現(xiàn),L2層熱力圖中目標(biāo)與周圍背景的差異不大,融合ECANet得到的熱力圖雖然呈現(xiàn)出目標(biāo)的顯著性特點(diǎn),但是存在目標(biāo)邊界模糊,不利于精確定位目標(biāo)位置等問題。而融合了WH-ECA注意力模塊得到的熱力圖中背景信息得到抑制,突出了目標(biāo)特征,而且圖中目標(biāo)的邊界清晰,有利于定位中心點(diǎn)坐標(biāo)和回歸準(zhǔn)確的寬高信息。
本文提出的WH-ECA將原始ECANet中的全局池化改進(jìn)為分別在寬高方向上進(jìn)行平均池化,主要具有以下3點(diǎn)優(yōu)勢(shì):1)能夠有效分析各通道之間的關(guān)系,本質(zhì)上起到通道注意的作用;2)利用特征圖的寬高信息準(zhǔn)確定位顯著區(qū)域;3)WH-ECA簡(jiǎn)單高效,保持較少的參數(shù)量,適用于輕量級(jí)網(wǎng)絡(luò)。
1.2.3 上采樣改進(jìn)
R-centernet通過ResNet50對(duì)圖像進(jìn)行特征提取之后,將特征圖像輸入反卷積(DCN)模塊實(shí)現(xiàn)上采樣。反卷積是卷積的逆過程,其對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行學(xué)習(xí)后,在特征圖中插入像素值達(dá)到上采樣的目的。反卷積具有以下缺陷:1)對(duì)于特征圖每個(gè)位置采用相同的上采樣核,不能捕捉到特征圖信息;2)引入大量參數(shù)、計(jì)算量增大。
為了有效解決上述問題,本文采用CARAFE (Contenet-Aware Reassembly of Features)上采樣代替反卷積,其結(jié)構(gòu)如圖8所示。CARAFE上采樣過程主要分為兩個(gè)部分——核預(yù)測(cè)和特征重組。
圖8 CARAFE上采樣結(jié)構(gòu)Fig.8 Up-sampling structure of CARAFE
CARAFE上采樣的算法流程如下:
對(duì)尺寸為××的輸入特征圖進(jìn)行通道壓縮處理,得到尺寸為××的結(jié)果,該步驟降低了后續(xù)的計(jì)算量,為通道壓縮后的通道數(shù)。
利用Softmax函數(shù)進(jìn)行歸一化處理,使得上采樣核的權(quán)重之和為1。
將輸入特征圖與預(yù)測(cè)的上采樣核進(jìn)行卷積運(yùn)算得到最終的上采樣結(jié)果。
CARAFE上采樣過程的參數(shù)量如(13)式所示:
(13)
本文使用的硬件平臺(tái)包括計(jì)算機(jī)中央處理器(CPU):intel?CoreTMi7-6850KCPU@3.60 GHz×12和圖形處理器(GPU):NVIDIA TITAN Xp GPU(12 GB顯存);深度學(xué)習(xí)框架為Pytorch;編程語(yǔ)言為C語(yǔ)言和python語(yǔ)言;操作系統(tǒng)為Ubuntu 16.04 LTS。
預(yù)設(shè)訓(xùn)練參數(shù):動(dòng)量為0.9,初始學(xué)習(xí)率為0.001,權(quán)重衰減系數(shù)為0.000 5,批訓(xùn)練數(shù)設(shè)置為1,為避免訓(xùn)練過程中出現(xiàn)過擬合,設(shè)置迭代次數(shù)為150。本文各檢測(cè)算法的IoU閾值設(shè)置為0.5,置信度閾值為0.45,NMS閾值設(shè)定為0.3。
本文以SBD(SAR Building Dataset)數(shù)據(jù)集為基礎(chǔ),采用旋轉(zhuǎn)矩形框進(jìn)行重新標(biāo)注。經(jīng)過篩選后,數(shù)據(jù)集中包含了416×416像素和512×512像素兩種尺寸的圖像共1 087張,其中建筑物數(shù)量為12 001個(gè);數(shù)據(jù)來源主要包括TerraSAR、高分三號(hào)衛(wèi)星、美國(guó)桑迪亞國(guó)家實(shí)驗(yàn)室等機(jī)載、星載平臺(tái)的合成孔徑雷達(dá)獲取的圖像;信號(hào)波段包括X波段、C波段和Ku波段;圖像分辨率為0.5~5 m;極化方式包含HH、HV、VH、VV。將數(shù)據(jù)集按照8∶2的比例隨機(jī)分配成訓(xùn)練集與測(cè)試集。
本文以R-centernet為基礎(chǔ)算法,使用Ghost卷積、WH-ECA注意力模塊和CARAFE上采樣進(jìn)行改進(jìn),并分別進(jìn)行訓(xùn)練與測(cè)試。本文記錄了各算法在訓(xùn)練過程中的損失函數(shù)值(平均損失),并繪制了如圖9所示的損失函數(shù)變化曲線。由圖9可知,原始算法與三種改進(jìn)算法隨著迭代次數(shù)的增加,損失函數(shù)值均能收斂。其中同時(shí)融合了Ghost卷積、WH-ECA注意力模塊和CARAFE上采樣的算法下降最快且收斂后的損失值最小。
圖9 損失函數(shù)曲線變化圖Fig.9 Loss function curve
為了量化各改進(jìn)算法在SAR圖像建筑物目標(biāo)上的檢測(cè)性能,本文在測(cè)試時(shí)使用準(zhǔn)確率Precision、召回率Recall和F1分?jǐn)?shù)進(jìn)行定量分析,定義如下:
(14)
(15)
(16)
式中:為準(zhǔn)確率;為召回率;表示F1分?jǐn)?shù),F(xiàn)1分?jǐn)?shù)越高,證明準(zhǔn)確率與召回率之間越平衡,檢測(cè)效果越好;為真值框?yàn)檎翌A(yù)測(cè)框?yàn)檎哪繕?biāo)數(shù)量;為真值框?yàn)榉蠢翌A(yù)測(cè)框?yàn)檎哪繕?biāo)數(shù)量;為真值框?yàn)榉蠢翌A(yù)測(cè)框?yàn)榉蠢哪繕?biāo)數(shù)量。同時(shí)引入?yún)?shù)量、浮點(diǎn)數(shù)和檢測(cè)速度來衡量網(wǎng)絡(luò)模型大小。
各檢測(cè)算法的實(shí)驗(yàn)結(jié)果對(duì)比如表1所示,從表中可以看出將主干網(wǎng)絡(luò)替換成Ghost-ResNet時(shí),參數(shù)量和浮點(diǎn)數(shù)降低,然而F1分?jǐn)?shù)也隨之下降,證明Ghost卷積雖然減小了網(wǎng)絡(luò)負(fù)擔(dān),但是影響了算法對(duì)SAR建筑物的檢測(cè)能力;WH-ECA作為輕量化的注意力模塊,給F1分?jǐn)?shù)帶來了3.5%的提升,且?guī)淼膮?shù)量和浮點(diǎn)數(shù)增加幅度很小;使用CARAFE上采樣代替DCN模塊,降低了參數(shù)量的同時(shí),也提高了1.4%的F1分?jǐn)?shù)。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
如表1第四行所示,本文使用單階旋轉(zhuǎn)檢測(cè)器R3Det對(duì)SAR圖像建筑物數(shù)據(jù)集進(jìn)行檢測(cè),以輕量化的MobileNetV2-FPN為主干網(wǎng)絡(luò),測(cè)試結(jié)果準(zhǔn)確率為83.2%,召回率為79.9%,F(xiàn)1分?jǐn)?shù)達(dá)到81.5,檢測(cè)速度為28.5幀/s。由于R3Det在預(yù)測(cè)過程中添加了邊界優(yōu)化模塊,因此檢測(cè)器的網(wǎng)絡(luò)參數(shù)量和浮點(diǎn)數(shù)雖然較少,但是檢測(cè)速度反而更慢。
綜上所述,本文所提出的輕量化的SAR建筑物檢測(cè)算法達(dá)到了89.6%的準(zhǔn)確率和81.8%的召回率,同時(shí)檢測(cè)速度達(dá)到44.2幀/s。相比于原始的R-centernet和R3Det算法,準(zhǔn)確率、召回率和檢測(cè)速度均有明顯提升。
表2為測(cè)試集中部分圖像的檢測(cè)結(jié)果,為體現(xiàn)算法對(duì)不同場(chǎng)景下建筑物目標(biāo)的檢測(cè)性能,本文選取了以下四種排列方式的建筑物展開對(duì)比實(shí)驗(yàn):獨(dú)立建筑物、復(fù)雜場(chǎng)景下建筑物、特殊形狀建筑物和密集排列建筑物。
從表2中的檢測(cè)結(jié)果可以看出,原始算法雖能檢測(cè)出目標(biāo),但是對(duì)目標(biāo)邊界的定位比較模糊,造成矩形框角度偏差大、未能完全包圍目標(biāo)等情況,而本文算法添加了融合寬高信息的通道注意力模塊,分別在圖像的寬高方向上進(jìn)行平均池化,能夠準(zhǔn)確捕捉目標(biāo)的位置信息和邊界信息,在預(yù)測(cè)時(shí)可以準(zhǔn)確回歸目標(biāo)的中心點(diǎn)坐標(biāo)、寬高值和旋轉(zhuǎn)角度,因此檢測(cè)結(jié)果中矩形框準(zhǔn)確包圍目標(biāo);原始算法在檢測(cè)密集排列建筑物圖像時(shí)出現(xiàn)了漏檢與誤檢,原因是原始算法中的DCN模塊在上采樣過程中對(duì)每個(gè)位置使用相同的核,未考慮特征圖內(nèi)的信息,而本文的改進(jìn)算法使用CARAFE上采樣代替DCN模塊,結(jié)合對(duì)不同位置生成不同的上采樣核,充分捕捉到了特征圖信息,在分辨率提高的過程中不會(huì)造成信息的遺漏,很好地降低了誤檢和漏檢。在對(duì)特殊形狀建筑物進(jìn)行檢測(cè)時(shí)發(fā)現(xiàn),本文所提算法能夠檢測(cè)出非規(guī)則形狀的SAR圖像建筑物,并且旋轉(zhuǎn)角度對(duì)比原始算法更加準(zhǔn)確。
表2 SAR圖像建筑物測(cè)試結(jié)果對(duì)比
本文針對(duì)目前卷積神經(jīng)網(wǎng)絡(luò)參數(shù)量大、占用計(jì)算資源多等問題提出了一種輕量化的R-centernet算法,并應(yīng)用于SAR圖像建筑物檢測(cè)領(lǐng)域中。得到以下主要結(jié)論:
1)在主干網(wǎng)絡(luò)中使用Ghost卷積替換傳統(tǒng)卷積組成新的網(wǎng)絡(luò)Ghost-ResNet,極大降低了模型的參數(shù)量,提高了檢測(cè)效率,但是犧牲了檢測(cè)精度。
2)本文所提出的融合寬高信息的通道注意力模塊能夠較好地捕捉顯著區(qū)域在圖像中的空間信息,有利于準(zhǔn)確定位目標(biāo)位置,提高了檢測(cè)精度,同時(shí)只增加了少量的網(wǎng)絡(luò)參數(shù)。
3)使用CARAFE上采樣代替DCN模塊,在上采樣過程中對(duì)不同位置生成不同的上采樣核,充分融合特征圖信息,增強(qiáng)了網(wǎng)絡(luò)的特征提取能力。CARAFE上采樣相比于DCN模塊引入了更加少量的參數(shù),對(duì)網(wǎng)絡(luò)負(fù)擔(dān)更小。
4)在旋轉(zhuǎn)標(biāo)注的SAR圖像建筑物數(shù)據(jù)集中的檢測(cè)結(jié)果表明,相比于原始算法,本文所提的改進(jìn)算法在檢測(cè)精度與檢測(cè)速度上均有提升,證明了輕量化網(wǎng)絡(luò)在SAR圖像建筑物檢測(cè)應(yīng)用方向的可行性。
[1] HU L, ZHANG J, GAO F. A building extraction method using shadow in high resolution multispectral images[C]∥Proceedings of International Geoscience and Remote Sensing Symposium. Vancouver, BC, Canada: IEEE, 2011: 24-29.
[2] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, US:IEEE, 2014: 580-587.
[3] GIRSHICK R. Fast R-CNN[C]∥Proceedings of IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440-1448.
[4] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]∥Proceedings of the 2015 neural information processing systems(NIPS). New York,NY,US: Curran Associates Inc., 2015: 91-99.
[5] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, US:IEEE, 2016: 779-788.
[6] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]∥Proceedingts of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, US: IEEE, 2017: 6517-6525.
[7] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL].[2021-04-05].http:∥arxiv.org/abs/1804.02767.
[8] BOCHKOVSKIY A, WANG C Y, LIAO H. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2021-04-05].http:∥arxiv.org/abs/2004.10934.
[9] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]∥Proceedings of European Conference on Computer Vision. Berlin,Germany: Springer, 2016: 21-37.
[10] ZHOU X Y, WANG D Q, KRHENB?HL P. Objects as points[EB/OL].[2019-04-26].http:∥arxiv.org/abs/1904.07850.
[11] SHAHZAD M, MAURER M, FRAUNDORFER F, et al. Buildings detection in VHR SAR images using fully convolution neural networks [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(2): 1100-1116.
[12] ZHU X X, BAMLER R. Very high resolution space borne SAR tomography in urban environment [J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(12): 4296-4308.
[13] LI J, ZHANG R, LI Y. Multiscale convolutional neural network for the detection of built-up areas in high-resolution SAR images[C]∥Proceedings of 2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Piscataway,NJ,US: IEEE, 2016: 910-913.
[14] WU Y, ZHANG R, LI Y. The detection of built-up areas in high-resolution SAR images based on deep neural networks[C]∥Proceedings of International Conference on Image and Graphics. Berlin,Germany:Springer, 2017: 646-655.
[15] AN Q, PAN Z, LIU L, et al. DRBox-v2: an improved detector with rotatable boxes for target detection in SAR images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(99): 8333-8349.
[16] YANG X, YANG J, YAN J, et al. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects[C]∥Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway,NJ,US: IEEE, 2019: 8231-8240.
[17] YANG X, LIU Q, YAN J, et al. R3Det: refined single-stage detector with feature refinement for rotating object[EB/OL].[2021-04-05].http:∥arxiv.org/abs/1908.05612.
[18] ZHOU X Y, YAO C, WEN H, et al. EAST: an efficient and accurate scene text detector[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI,US:IEEE, 2017: 2642-2651.
[19] LIU X B, LIANG D, YAN S, et al. FOTS: fast oriented text spotting with a unified network[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT,US:IEEE, 2018: 5676-5685.
[20] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL].[2017-05-27].http:∥arxiv.org/abs/1704.04861.
[21] SANDLER M, HOWARD A G, ZHU M L, et al. Inverted residuals and linear bottlenecks: mobile networks for classification, detection and segmentation[EB/OL]. [2018-01-12].http:∥arxiv.org/abs/1801.04381.
[22] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[C]∥Proceedings of IEEE International Conference on Computer Vision. Seoul, South Korea:IEEE, 2019: 1314-1324.
[23] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Seattle, WA,US:IEEE, 2020: 1577-1586.
[24] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT,US:IEEE, 2018: 6848-6856.
[25] LI X, SU J, YANG L. Building detection in SAR images based on bi-dimensional empirical mode decomposition algorithm [J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(4): 641-645.
[26] HU J, SHEN L, ALBANIE S, et al. Squeeze-and- excitation networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[27] WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]∥Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA,US:IEEE, 2020: 11531-11539.
[28] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[EB/OL].[2021-03-15]. https:∥dblp.org/rec/journals/corr/abs-2103-02907.
[29] WANG J Q, CHEN K, XU R, et al. CARAFE: content-aware reassembly of features[C]∥Proceedings of IEEE International Conference on Computer Vision. Seoul, South Korea:IEEE, 2019: 3007-3016.
[30] 李響, 蘇娟, 楊龍. 基于改進(jìn)YOLOV3的合成孔徑雷達(dá)圖像中建筑物檢測(cè)算法[J]. 兵工學(xué)報(bào), 2020, 41(7): 1347-1359.
LI X, SU J, YANG L. A SAR image building detection algorithm based on improved YOLOV3 [J]. Acta Armamentarii, 2020, 41(7): 1347-1359. (in Chinese)