李寶奇 黃海寧 劉紀(jì)元 劉正君 韋琳哲
(中國科學(xué)院聲學(xué)研究所 北京 100190)
(中國科學(xué)院先進(jìn)水下信息技術(shù)重點(diǎn)實(shí)驗(yàn)室 北京 100190)
合成孔徑聲吶 (Synthetic Aperture Sonar,SAS)是一種高分辨率水下成像聲吶,其基本原理是利用小孔徑基陣的移動(dòng)形成虛擬大孔徑,從而獲得方位向的高分辨率。與普通側(cè)掃聲吶相比,SAS 最為顯著的優(yōu)點(diǎn)是方位向分辨率較高,且理論分辨率與目標(biāo)距離以及采用的聲波頻段無關(guān)[1,2]。合成孔徑聲吶圖像目標(biāo)檢測(cè)任務(wù)在水下無人平臺(tái)自主導(dǎo)航和搜索發(fā)揮著重要作用[3,4]??紤]水下目標(biāo)尺寸的多樣性,即合成孔徑聲吶圖像中目標(biāo)的尺度差別較大,這會(huì)進(jìn)一步增加目標(biāo)檢測(cè)的難度。
通過將深度學(xué)習(xí)[5—7]模型卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN)[8—10]嵌入到目標(biāo)檢測(cè)模型之中,目標(biāo)檢測(cè)精度在過去幾年中不斷提高,結(jié)合CNN的目標(biāo)檢測(cè)算法可分為基于候選區(qū)域和基于回歸兩類?;诤蜻x區(qū)域的算法主要有RCNN(Region-based Convolutional Neural Networks)[11],Fast R-CNN[12]和Faster R-CNN[13,14]等,此類算法檢測(cè)速度有待提高。為了提高模型的檢測(cè)速度,一些研究者開展了無區(qū)域建議的目標(biāo)檢測(cè)研究,主要采用回歸的思想。Redmon等人[15]提出了一種無區(qū)域建議的目標(biāo)檢測(cè)模型YOLO (You Only Look Once)。YOLO 通過采用空間限制,大大提高了效率,能夠達(dá)到實(shí)時(shí)的效果。但是YOLO的檢測(cè)精度不如Faster R-CNN。針對(duì)YOLO存在的不足,Liu等人[16]提出SSD (Single Shot Detector)模型。SSD通過融合6個(gè)尺度的特征來提高目標(biāo)檢測(cè)的精度。雖然SSD單幅圖像檢測(cè)精度比YOLO有大幅的提高,不過檢測(cè)速度依然較慢。為了縮短SSD的檢測(cè)時(shí)間,Iandola等人[17]提出了基于FireModule的輕量化SqueezeNet網(wǎng)絡(luò)。FireModule主要是利用1×1的卷積層對(duì)輸入特征降維來降低模型的參數(shù)和計(jì)算量,同時(shí)也利用Inception[18]結(jié)構(gòu)提高FireModule的特征提取能力。Howard等人[19]提出了輕量化的卷積神經(jīng)網(wǎng)絡(luò)MobileNet V1。MobileNet V1用深度可分離卷積 (Depthwise Separable Convolution,DSC)替換標(biāo)準(zhǔn)卷積來減少模型的參數(shù)和計(jì)算量,它在不影響目標(biāo)檢測(cè)精度的條件下能極大地提高SSD的檢測(cè)速度。不過,DSC的輸出很容易變?yōu)?,并且無法恢復(fù)。為此,Sandler等人[20]提出了MobileNet V1的改進(jìn)版本MobileNet V2。MobileNet V2在深度可分離卷積的基礎(chǔ)上引入了ResNet中的shortcut connection結(jié)構(gòu),并設(shè)計(jì)了新的特征提取模塊IRB(Inverted Residual Block)。新模塊將原來的先“壓縮”后“擴(kuò)張”調(diào)整為先“擴(kuò)張”后“壓縮”,同時(shí)為了降低激活函數(shù)在高維信息向低維信息轉(zhuǎn)換時(shí)的丟失和破壞(DSC的輸出很容易變?yōu)?),將最后卷積層的激活層由非線性更改為線性。由于IRB卷積核尺寸單一,同時(shí)無法對(duì)特征進(jìn)行有效區(qū)分,降低了模型對(duì)合成孔徑聲吶圖像水下目標(biāo)的適應(yīng)能力。
在卷積神經(jīng)網(wǎng)絡(luò)卷積核選取和多尺度特征增強(qiáng)方面,Hu等人[21]提出了SE(Squeeze and Excitation)特征提取模塊。SE模塊首先對(duì)卷積得到的特征進(jìn)行Squeeze操作,得到全局特征,然后對(duì)全局特征進(jìn)行Excitation操作,得到不同特征的權(quán)重,最后乘以對(duì)應(yīng)通道的特征得到最終特征。本質(zhì)上,SE模塊是在特征維度上做選擇,這種注意力機(jī)制讓模型可以更加關(guān)注信息量最大的特征,而抑制那些不重要的特征。在此基礎(chǔ)上,Li等人[22]提出了SK(Selective Kernel)模塊可以針對(duì)目標(biāo)物體的大小選擇不同的感受野。輸入特征首先經(jīng)過SK模塊多尺度卷積層(使用分組卷積方式提升計(jì)算效率),然后融合所有尺度的特征圖,并計(jì)算不同尺度不同通道的權(quán)重,最后將多個(gè)尺度的特征融合成一個(gè)與輸入特征通道數(shù)相等的輸出特征,SK模塊提高了網(wǎng)絡(luò)對(duì)圖像目標(biāo)的特征提取能力和適應(yīng)能力。雖然SK模塊多尺度卷積層采用分組卷積降低了模型的參數(shù)和計(jì)算量,但參數(shù)依然較多、計(jì)算量依然較大。為了保證輸出通道與輸入通道一致,SK模塊的多個(gè)尺度的特征相加融合成一個(gè),這必然會(huì)造成多尺度特征無法準(zhǔn)確區(qū)分,進(jìn)而降低SK模塊的特征提取能力。
受深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得突破進(jìn)展的啟發(fā),近年來,國內(nèi)外的研究學(xué)者利用深度學(xué)習(xí)技術(shù)提高SAS圖像水下目標(biāo)識(shí)別的準(zhǔn)確率。Williams[23]利用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)SAS圖像目標(biāo)進(jìn)行分類識(shí)別,提高了SAS圖像目標(biāo)的分類準(zhǔn)確率。McKay等人[24]在深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過遷移學(xué)習(xí)進(jìn)一步提高了SAS圖像水下目標(biāo)的分類準(zhǔn)確率。Williams[25]通過分析深度卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度,選取參數(shù)更少的網(wǎng)絡(luò)來對(duì)水下目標(biāo)進(jìn)行分類識(shí)別。上述3種SAS圖像水下目標(biāo)識(shí)別方法主要是利用CNN對(duì)SAS圖像進(jìn)行分類識(shí)別,因此無法獲取圖像內(nèi)目標(biāo)的位置信息。
針對(duì)上述輕量化目標(biāo)檢測(cè)方法及其改進(jìn)方法對(duì)SAS圖像水下多尺度目標(biāo)檢測(cè)精度低的問題,本文提出了一種可擴(kuò)張、可選擇卷積核模塊 (Expand Selective Kernel,ESK),ESK通過優(yōu)化不同尺度特征層之間的融合方式來提高模塊的特征提取能力和利用深度可分離空洞卷積降低模塊的參數(shù)。接著,利用ESK模塊重新設(shè)計(jì)了SSD的基礎(chǔ)網(wǎng)絡(luò)和附加特征提取網(wǎng)絡(luò),并為其選取了合理的參數(shù)。最后,在SSD框架內(nèi)實(shí)現(xiàn)對(duì)合成孔徑圖像水下多尺度目標(biāo)準(zhǔn)確的檢測(cè)。
本節(jié)首先介紹新特征提取模塊ESK,接著介紹改進(jìn)SSD模型結(jié)構(gòu),最后對(duì)網(wǎng)絡(luò)參數(shù)的選取進(jìn)行了分析。
ESK模塊借鑒IRB模塊的“擴(kuò)張壓縮”殘差結(jié)構(gòu)和SK模塊的動(dòng)態(tài)選擇機(jī)制:“ 擴(kuò)張壓縮”殘差結(jié)構(gòu)能有效增加深層網(wǎng)絡(luò)的梯度傳播,動(dòng)態(tài)選擇機(jī)制允許每個(gè)神經(jīng)元根據(jù)輸入信息的尺度自適應(yīng)地調(diào)整其感受野大小[22],獲取信息量最大的特征,增加對(duì)水下多尺度目標(biāo)的適應(yīng)性。此外,利用深度可分離空洞卷積(Depthwise Separable Dilated Convolution,DSDC)[26]替換分組卷積減少模型的計(jì)算成本,DSDC首先將標(biāo)準(zhǔn)卷積分解成DSC和點(diǎn)卷積,然后在DSC中引入一個(gè)稱作空洞率[27,28]的新參數(shù),并利用擴(kuò)張率控制卷積核處理數(shù)據(jù)時(shí)各值的間距。同時(shí),通過優(yōu)化不同尺度卷積層的輸入特征數(shù)量和融合方式來提高ESK模塊的特征提取能力。IRB模塊、SK模塊、ISK模塊和ESK模塊的結(jié)構(gòu)關(guān)系如圖1所示。
圖1(a)為IRB模塊,模塊采用了反殘差網(wǎng)絡(luò)結(jié)構(gòu),即先對(duì)通道采取先“擴(kuò)張” 后“壓縮”的策略,同時(shí)刪除了最后一個(gè)卷積層的激活函數(shù),保留特征的多樣性。圖1(b)為SK模塊,SK模塊包括分裂層、多尺度分組卷積層、融合層和選擇層4個(gè)部分:分裂層是將輸入特征分別送入多尺度卷積層;多尺度分組卷積層負(fù)責(zé)提取輸入特征的不同尺度特征;融合層是將多尺度卷積層輸出的結(jié)果進(jìn)行疊加融合;選擇層是計(jì)算多尺度多通道特征的權(quán)重系數(shù),與多尺度特征相乘得到輸出特征。圖1(c)為SK模塊的IRB結(jié)構(gòu),記作ISK。ISK模塊由擴(kuò)張層、分裂層、多尺度分組卷積層、融合層、選擇層和壓縮層組成。ISK是利用SK模塊直接替換IRB模塊中的深度可分離卷積。圖1(d)為本文提出的ESK特征提取模塊,ESK模塊由擴(kuò)張層、切割層、多尺度深度可分離空洞卷積層、拼接層、選擇層和壓縮層組成。與ISK的主要區(qū)別為切割層、多尺度深度可分離空洞卷積層和拼接層。切割層負(fù)責(zé)將通道放大后的輸入特征按多尺度卷積核個(gè)數(shù)等分后分別送入不同尺度深度可分離空洞卷積層;多尺度深度可分離空洞卷積層負(fù)責(zé)提取輸入信息不同尺度上的特征信息;拼接層負(fù)責(zé)將多尺度深度可分離卷積層的輸出特征在通道上拼接合并。
圖1 ESK特征提取模塊
對(duì)于一個(gè)任意的輸入特征F∈ΦH×W×M,其中H×W為輸入特征的尺寸,M為輸入特征的通道數(shù)。輸入特征F進(jìn)入ESK模塊的兩個(gè)支路網(wǎng)絡(luò):左側(cè)支路負(fù)責(zé)多尺度特征提取和選擇;右側(cè)支路保持輸入特征F不變,并最后與左側(cè)支路網(wǎng)絡(luò)的輸出特征相加。對(duì)于左側(cè)支路網(wǎng)絡(luò),輸入特征F首先經(jīng)過擴(kuò)張層,其輸出特征的數(shù)學(xué)表達(dá)式為
其中,F(xiàn)為原始輸入特征,U為經(jīng)過擴(kuò)張層后的特征,擴(kuò)張層的卷積核尺寸為1×1,卷積核的數(shù)量為輸入特征通道的k倍,即k×M。
隨后,輸出特征U經(jīng)切割層送入多尺度深度可分離空洞卷積層,其輸出特征的數(shù)學(xué)表達(dá)式為
其中,Vl為深度可分離空洞卷積層輸出的特征圖,特征圖尺寸為H×W,通道數(shù)為k×M/L,L為多尺度實(shí)際空洞濾波器(pRactical Dilated Filter,RDF)的類型數(shù),例如RDF為3,5和7,則L=3。RDF尺寸與空洞率之間的關(guān)系為
其中,Krdf為該層RDF尺寸,κ為該層卷積核尺寸,R為該層空洞率大小。例如,一個(gè)卷積核尺寸為3×3,空洞率R=2的空洞卷積層,RDF的實(shí)際覆蓋范圍為5×5,即Krdf=5。進(jìn)一步增大空洞率R來擴(kuò)大卷積層的感受野。因此,ESK可以用更少的參數(shù)和計(jì)算量實(shí)現(xiàn)與ISK相當(dāng)?shù)奶卣魈崛∧芰Α?/p>
接著,對(duì)L個(gè)多尺度深度可分離空洞卷積層的輸出Vl在通道項(xiàng)進(jìn)行拼接融合,其輸出特征的數(shù)學(xué)表達(dá)式為
其中,V為拼接融合后的輸出特征,輸出特征圖的尺寸H×W,通道數(shù)為k×M與擴(kuò)張后的通道數(shù)相等。
然后,對(duì)拼接融合后的輸出特征V的進(jìn)行通道選擇,多尺度通道選擇系數(shù)的數(shù)學(xué)表達(dá)式為
其中,s為多尺度通道的選擇系數(shù),s∈Φ1×(k×M);Pg()為全局池化函數(shù),輸出特征維度為Φ1×(k×M);fc為第1全連接層,輸出特征維度為Φ1×d,其中d=32;fcs為第2全連接層,輸出特征維度為Φ1×(k×M);softmax()為歸一化指數(shù)函數(shù)。多尺度通道選擇系數(shù)(式(5))與輸出特征相乘得到選擇后的輸出特征,其數(shù)學(xué)表達(dá)式為
其中,V ′為通道選擇后的多尺度通道特征。
接著,對(duì)V ′進(jìn)行通道壓縮,數(shù)學(xué)表達(dá)式為
其中,F(xiàn)′為通道壓縮后的多尺度通道特征。
通過上面的計(jì)算,最后可以得到ESK模塊的輸出特征數(shù)學(xué)表達(dá)式為
其中,G為ESK模塊的輸出特征,G∈ΦH×W×M,特征圖尺寸為H×W,通道數(shù)為M。
基于ESK模塊的SSD水下目標(biāo)檢測(cè)模型結(jié)構(gòu)如圖2所示,記作SSD-MV2ESK,包括基礎(chǔ)網(wǎng)絡(luò)(MobileNet V2ESK)、附加特征提取網(wǎng)絡(luò) (ESKAN)、Default boxes生成和卷積預(yù)測(cè)4個(gè)部分。
圖2 基于ESK模塊的SSD目標(biāo)檢測(cè)模型
基礎(chǔ)網(wǎng)絡(luò)MobileNet V2ESK與MobileNet V2的網(wǎng)絡(luò)結(jié)構(gòu)保持一致,利用ESK模塊替換IRB模塊實(shí)現(xiàn)。SSD-MV2ESK附加特征提取網(wǎng)絡(luò)一共提取6個(gè)尺度的特征,MobileNet V2ESK中的第14層Conv14和第19層Conv19的輸出作為附加特征提取網(wǎng)絡(luò)的第1特征層和第2特征層,特征圖尺寸為19×19和10×10;Conv19_1,Conv19_2,Conv19_3和Conv19_4作為附加特征提取網(wǎng)絡(luò)的第3—第6尺度特征層,4個(gè)特征層的輸出特征圖尺寸為5×5,3×3,2×2和1×1。Default Boxes生成部分根據(jù)預(yù)先定義的scales和aspect ratios從上述6個(gè)尺度的特征層中提取數(shù)量和大小不同的候選框;卷積預(yù)測(cè)部分則是對(duì)候選框內(nèi)目標(biāo)的類型和位置進(jìn)行判斷,并利用非極大值抑制算法對(duì)候選框內(nèi)目標(biāo)進(jìn)行優(yōu)化。SSD-MV2ESK與目標(biāo)檢測(cè)模型SSD的訓(xùn)練過程[16]一樣。
對(duì)于M個(gè)尺寸為DH×DW的輸入特征圖F,經(jīng)尺寸為DK×DK的卷積核操作后,輸出N個(gè)尺寸為DH×DW的特征圖G,其中M是輸入通道數(shù),N是輸出通道數(shù),DH和DW是輸入(出)的特征圖的寬度和高度。為了便于計(jì)算和分析,限定輸入通道數(shù)M等于輸出通道數(shù)N,輸入(出)特征圖尺寸DH等于DW,圖1(a)的DK×DK等 于3×3,圖1(b)、圖1(c)和圖1(d)的多尺度通道數(shù)L=3。同時(shí),省略參數(shù)或計(jì)算量較少的網(wǎng)絡(luò)層,例如shortcut connection層、BN層、分裂層、分割層、融合層和拼接層。
IRB模塊的生成特征圖G的計(jì)算成本為
其中,第1項(xiàng)為擴(kuò)張層的計(jì)算成本,第2項(xiàng)為深度可分離卷積層的計(jì)算成本,第3項(xiàng)為壓縮層的計(jì)算成本。
SK 模塊生成特征圖G的計(jì)算成本為
其中,第1項(xiàng)為多尺度卷積層的計(jì)算成本,第2和第3項(xiàng)為選擇層的計(jì)算成本。
ISK模塊生成特征圖G的計(jì)算成本為
其中,第1項(xiàng)為擴(kuò)張層的計(jì)算成本,第2項(xiàng)為多尺度分組卷積層的計(jì)算成本,第3和第4項(xiàng)為選擇層的計(jì)算成本,第5項(xiàng)為壓縮層的計(jì)算成本。
ESK 模塊生成特征圖G的計(jì)算成本為
其中,第1項(xiàng)為擴(kuò)張層的計(jì)算成本,第2項(xiàng)為多尺度深度可分離卷積層的計(jì)算成本,第3和第4項(xiàng)為選擇層的計(jì)算成本,第5項(xiàng)為壓縮層的計(jì)算成本。
ISK模塊與IRB模塊的計(jì)算成本比值為
當(dāng)多尺度系數(shù)L=3時(shí),對(duì)于式(13),當(dāng)M取值較大時(shí),ISK模塊的計(jì)算成本與IRB的計(jì)算成本比值約等于k+1;對(duì)于式(14),ESK模塊的計(jì)算成本與IRB的計(jì)算成本比值基本相同。
對(duì)于由ESK模塊組成的SSD-MV2ESK網(wǎng)絡(luò),由式(12)可以發(fā)現(xiàn),擴(kuò)張系數(shù)k對(duì)SSD-MV2ESK模塊的計(jì)算成本影響較大,而多尺度系數(shù)L基本上對(duì)SSD-MV2ESK模塊的計(jì)算成本沒有影響。除上述因素外,SK,ISK和ESK在Pytorch深度學(xué)習(xí)框架內(nèi)通過一個(gè)循環(huán)結(jié)構(gòu)實(shí)現(xiàn)多尺度卷積組的設(shè)計(jì),即每次僅進(jìn)行一個(gè)尺度的卷積運(yùn)算,因此,多尺度系數(shù)L會(huì)影響SSD-MV2ESK的計(jì)算時(shí)間。鑒于上述原因,擴(kuò)張系數(shù)k主要影響 SSD-MV2ESK的模型參數(shù),多尺度系數(shù)L主要影響SSD-MV2ESK的計(jì)算時(shí)間。為了平衡SSD-MV2ESK模型檢測(cè)精度、參數(shù)大小和檢測(cè)時(shí)間,基礎(chǔ)網(wǎng)絡(luò)中ESK模塊的擴(kuò)張系數(shù)k=4,多尺度系數(shù)L=4,附加特征提取網(wǎng)絡(luò)中Conv19_1,Conv19_2,Conv19_3和Conv19_4的擴(kuò)張系數(shù)以此為0.2,0.25,0.5和0.25,多尺度系數(shù)依次為4,2,2和1。
為了驗(yàn)證ESK的有效性以及擴(kuò)張系數(shù)和多尺度系數(shù)對(duì)SSD-MV2ESK性能的影響,實(shí)驗(yàn)以mAP、參數(shù)大小和平均檢測(cè)時(shí)間作為模型定量評(píng)價(jià)指標(biāo)。設(shè)計(jì)實(shí)驗(yàn)1,以SSD-MV2(基礎(chǔ)網(wǎng)絡(luò)為MobileNet V2,特征提取網(wǎng)絡(luò)為IRBAN)為參考,比較分析不同輕量化目標(biāo)檢測(cè)模型之間的性能差異??紤]ESK模塊在SSD-MV2ESK基礎(chǔ)網(wǎng)絡(luò)和附加特征提取網(wǎng)絡(luò)中占的比重,實(shí)驗(yàn)僅分析基礎(chǔ)網(wǎng)絡(luò)中擴(kuò)張系數(shù)和多尺度系數(shù)對(duì)SSD-MV2ESK性能的影響。設(shè)計(jì)實(shí)驗(yàn)2,以基礎(chǔ)網(wǎng)絡(luò)MobileNet V2ESK中擴(kuò)張系數(shù)為研究對(duì)象,比較分析不同擴(kuò)張系數(shù)對(duì)SSDMV2ESK性能的影響。設(shè)計(jì)實(shí)驗(yàn)3,以基礎(chǔ)網(wǎng)絡(luò)MobileNet V2ESK中多尺度系數(shù)為研究對(duì)象,比較分析不同多尺度系數(shù)對(duì)SSD-MV2ESK性能的影響。為了進(jìn)一步驗(yàn)證ESK模塊對(duì)水下多尺度目標(biāo)的適用性,設(shè)計(jì)實(shí)驗(yàn)4,以單尺度的MobileNet V2ESK分類結(jié)果為參考,比較分析不同多尺度系數(shù)的MobileNet V2ESK對(duì)水下多尺度目標(biāo)特征提取效果。實(shí)驗(yàn)平臺(tái)基于Dell PowerEdge R730深度學(xué)習(xí)服務(wù)器,操作系統(tǒng)為RedHat Enterprise linux 7.5、環(huán)境管理軟件為Anaconda3、深度學(xué)習(xí)框架為Torch 1.3.1和Torchvision 0.4.2等;CPU處理器為Intel E5-2603 V4、內(nèi)存大小是32 GB、GPU計(jì)算單元為兩個(gè)V100(16 GB)。輸入圖像的尺寸被剪切為300像素×300像素、BatchSize=32、學(xué)習(xí)率=0.001、所有模型均在V100(16 GB)上進(jìn)行訓(xùn)練和測(cè)試。
為了更好地檢驗(yàn)SSD-MV2ESK對(duì)合成孔徑聲吶圖像水下多尺度目標(biāo)的檢測(cè)性能,本文建立了一個(gè)水下多尺度目標(biāo)檢測(cè)數(shù)據(jù)集:SST-DET。SSTDET數(shù)據(jù)集主要為高頻合成孔徑聲吶圖像,采集地點(diǎn)包括千島湖、丹江口等地,包括3種水下目標(biāo):圓柱形目標(biāo)、線纜和疑似物,共計(jì)704幅圖像,其中633幅用于模型訓(xùn)練,71幅圖像用于模型測(cè)試,如表1所示。圓柱體和疑似物目標(biāo)的像素比約為0.05,線纜目標(biāo)在圖像某一個(gè)方向上的像素比大于0.5。從這個(gè)角度認(rèn)定圓柱體和疑似物為小尺寸目標(biāo),線纜屬于大尺寸目標(biāo)。
表1 合成孔徑聲吶水下多尺度目標(biāo)檢測(cè)數(shù)據(jù)集組成
本實(shí)驗(yàn)比較分析SSD-SQ[21],SSD-MV1[19],SSD-MV2[20],SSD-MV2ISK[22]與本文目標(biāo)檢測(cè)方法SSD-MV2ESK在數(shù)據(jù)集SST-DET上的性能差異。SSD-SQ的基礎(chǔ)網(wǎng)絡(luò)為SqueezeNet,特征提取網(wǎng)絡(luò)為OAN;SSD-MV1的基礎(chǔ)網(wǎng)絡(luò)為Mobile-Net V1,特征提取網(wǎng)絡(luò)為OAN;SSD-MV2的基礎(chǔ)網(wǎng)絡(luò)為MobileNet V2,特征提取網(wǎng)絡(luò)為IRBAN;SSD-MV2ISK的基礎(chǔ)網(wǎng)絡(luò)為基于ISK模塊的MobileNet V2ISK網(wǎng)絡(luò),附加特征提取網(wǎng)絡(luò)為基于ISK模塊的ISKAN網(wǎng)絡(luò);SSD-MV2ESK的基礎(chǔ)網(wǎng)絡(luò)為MobileNet-V2ESK,特征提取網(wǎng)絡(luò)為ESKAN。分別記錄檢測(cè)模型在迭代1000次時(shí)對(duì)SST-DET測(cè)試數(shù)據(jù)集的mAP數(shù)值、參數(shù)大小和平均檢測(cè)時(shí)間。
從表2可以發(fā)現(xiàn),SSD-MV2ESK的檢測(cè)精度比SSD-SQ,SSD-MV1,SSD-MV2和SSD-MV2ISK分別高16.18%,7.62%,4.71%和2.21%;模型參數(shù)比SSD-SQ和SSD-MV2分別高6 MB和0.1 MB,比SSD-MV1和SSD-MV2SK分別低15.1 MB和46.8 MB;檢測(cè)時(shí)間比SSD-SQ,SSD-MV1和SSD-MV2分別高35.42 ms,36.2 ms和28.77 ms,比SSD-MV2SK減少32.96 ms。SSD-MV2ESK檢測(cè)精度最高為75.08%,SSD-SQ的檢測(cè)精度最低為58.90%;SSDSK的模型參數(shù)最大為59.4 MB,SSD-SQ的模型參數(shù)最小為7.51 MB;SSD-SK的檢測(cè)時(shí)間最多為79.63 ms,SSD-MV1的檢測(cè)時(shí)間最少為10.47 ms。雖然SSD-MV2ISK比SSD-MV2的檢測(cè)精度提高2.5%,但模型的參數(shù)和檢測(cè)時(shí)間均大幅提升。綜合考慮檢測(cè)精度(mAP)、參數(shù)大小和平均檢測(cè)時(shí)間3個(gè)因素,SSD-MV2ESK優(yōu)于其他檢測(cè)模型,更適合基于合成孔徑聲吶圖像水下多尺度目標(biāo)檢測(cè)任務(wù)。
表2 目標(biāo)檢測(cè)模型性能比較
為了更直觀地說明SSD-MV2ESK對(duì)合成孔徑圖像水下多尺度目標(biāo)的檢測(cè)效果,利用訓(xùn)練20000次的SSD-MV2ESK模型分別對(duì)3種水下目標(biāo)圖像進(jìn)行檢測(cè),檢測(cè)結(jié)果如圖3所示。從圖3可以看出,SSD-MV2ESK模型對(duì)3種水下多尺度目標(biāo)能實(shí)現(xiàn)準(zhǔn)確檢測(cè)。
圖3 SSD-MV2ESK對(duì)合成孔徑聲吶水下多尺度目標(biāo)的檢測(cè)效果圖
本實(shí)驗(yàn)比較基礎(chǔ)網(wǎng)絡(luò)不同擴(kuò)張系數(shù)對(duì)SSDMV2ESK性能的影響?;A(chǔ)網(wǎng)絡(luò)SSD-MV2ESK的多尺度系數(shù)等于1,擴(kuò)張系數(shù)分別為1,5,10,15,20和40。附加特征提取網(wǎng)絡(luò)的擴(kuò)張系數(shù)依次為0.2,0.25,0.5和0.25,多尺度系數(shù)依次為4,2,2和1。記錄模型迭代1000次時(shí)模型對(duì)SST-DET測(cè)試數(shù)據(jù)集的mAP數(shù)值、平均檢測(cè)時(shí)間和參數(shù)大小。
從表3可以看出,SSD-MV2ESK隨基礎(chǔ)網(wǎng)絡(luò)擴(kuò)張系數(shù)的增加檢測(cè)精度逐漸增加,當(dāng)擴(kuò)張系數(shù)等于40時(shí),SSD-MV2ESK的檢測(cè)精度已經(jīng)達(dá)到85.29%。另外,SSD-MV2ESK模型參數(shù)隨基礎(chǔ)網(wǎng)絡(luò)擴(kuò)張系數(shù)增加也不斷增大,當(dāng)擴(kuò)張系數(shù)等于40時(shí),SSDMV2ESK的模型參數(shù)已經(jīng)達(dá)到256 MB,不過SSDMV2ESK的檢測(cè)時(shí)間并沒有隨擴(kuò)張系數(shù)的增加有明顯的變化。擴(kuò)張系數(shù)等于10、多尺度系數(shù)等于1時(shí)SSD-MV2ESK的檢測(cè)精度與擴(kuò)張系數(shù)等于4、多尺度系數(shù)等于4時(shí)SSD-MV2ESK 的檢測(cè)精度基本相同(實(shí)驗(yàn)1),不過模型參數(shù)已經(jīng)達(dá)到30.5 MB,明顯高于擴(kuò)張系數(shù)等于4、多尺度系數(shù)等于4時(shí)SSDMV2ESK模型參數(shù)12.6 MB。換句話說,雖然增大擴(kuò)張系數(shù)能提高SSD-MV2ESK的檢測(cè)精度,但模型參數(shù)的增加也比較明顯,在相同的檢測(cè)精度條件下,僅依靠增加擴(kuò)張系數(shù)的SSD-MV2ESK比擴(kuò)張系數(shù)和多尺度系數(shù)結(jié)合的SSD-MV2ESK要付出更多的存儲(chǔ)空間。
表3 基礎(chǔ)網(wǎng)絡(luò)擴(kuò)張系數(shù)對(duì)SSD-MV2ESK性能的影響
本實(shí)驗(yàn)比較基礎(chǔ)網(wǎng)絡(luò)不同多尺度系數(shù)對(duì)SSDMV2ESK性能的影響?;A(chǔ)網(wǎng)絡(luò)SSD-MV2ESK的擴(kuò)張系數(shù)等于4,多尺度系數(shù)分別為1,2和4(3,5,6沒有數(shù)據(jù),主要是因?yàn)樗鼈儫o法保證每個(gè)多尺度輸入通道數(shù)為整數(shù))。記錄模型迭代1000次時(shí)對(duì)SST-DET測(cè)試數(shù)據(jù)集的mAP數(shù)值、平均檢測(cè)時(shí)間和參數(shù)大小。
從表4可以看出,SSD-MV2ESK隨基礎(chǔ)網(wǎng)絡(luò)多尺度系數(shù)的增加檢測(cè)精度增大,模型參數(shù)基本不變,檢測(cè)時(shí)間存在明顯增加。在深度學(xué)習(xí)Pytorch框架內(nèi),多尺度深度可分離空洞卷積層采用循序并行化結(jié)構(gòu)設(shè)計(jì),但在前向傳播過程中每個(gè)多尺度卷積層是依次進(jìn)行的,導(dǎo)致SSD-MV2ESK運(yùn)算時(shí)間隨多尺度系數(shù)增加。雖然增加多尺度系數(shù)能提高SSDMV2ESK模型的檢測(cè)精度,但模型的運(yùn)算時(shí)間也存在明顯的增加,因此,結(jié)合擴(kuò)張系數(shù)和多尺度系數(shù)對(duì)SSD-MV2ESK是更好的選擇。
表4 基礎(chǔ)網(wǎng)絡(luò)多尺度系數(shù)對(duì)SSD-MV2ESK性能的影響
為了進(jìn)一步說明ESK模塊對(duì)水下多尺度目標(biāo)的適用性,在MobileNet V2的基礎(chǔ)上,利用ESK模塊設(shè)計(jì)3個(gè)輕量化目標(biāo)分類網(wǎng)絡(luò)MobileNet V2_4_1,MobileNet V2_4_2和MobileNet V2_4_4,3個(gè)模型分類網(wǎng)絡(luò)的擴(kuò)張系數(shù)等于4、多尺度系數(shù)分別為1,2和4。用于分類測(cè)試實(shí)驗(yàn)的合成孔徑圖像水下多尺度目標(biāo)分類數(shù)據(jù)集為SAS-DET中的703幅圖像,其中訓(xùn)練樣本集個(gè)數(shù)638幅圖像,測(cè)試樣本集數(shù)量65幅圖像。模型訓(xùn)練Batchsize等于32、學(xué)習(xí)率等于0.01、迭代次數(shù)等于100。記錄3個(gè)模型迭代100次過程中最高的分類準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表5所示。
表5 模型分類準(zhǔn)確率(%)
從表5可以發(fā)現(xiàn),MobileNet V2_4_4的最高分類準(zhǔn)確率比MobileNet V2_4_1和MobileNet V2_4_2分別高6.06%和1.51%。由于3個(gè)網(wǎng)絡(luò)的擴(kuò)張系數(shù)相同,即輸入給多尺度深度可分離卷積組的特征數(shù)量是一樣的,具有更多尺度的MobileNet V2_4_2和MobileNet V2_4_4比單尺度MobileNet V2_4_1的分類準(zhǔn)確率高間接地明ESK模塊對(duì)水下多尺度目標(biāo)具有更好的適應(yīng)性。
實(shí)驗(yàn)從mAP、平均檢測(cè)時(shí)間和參數(shù)大小3個(gè)方面比較了本文合成孔徑聲吶圖像水下多尺度目標(biāo)檢測(cè)方法SSD-MV2ESK與經(jīng)典輕量化目標(biāo)檢測(cè)算法(SSD-SQ和SSD-MV1)和最新算法(SSD-MV2和SSD-MV2ISK)性能上的差異,也進(jìn)一步分析了基礎(chǔ)網(wǎng)絡(luò)的擴(kuò)張系數(shù)和多尺度系數(shù)的選取如何影響SSD-MV2ESK的性能,同時(shí)也間接驗(yàn)證了ESK模塊對(duì)水下多尺度目標(biāo)的適用性。ESK模塊結(jié)合IRB模塊和SK模塊的優(yōu)點(diǎn),并利用深度可分離空洞卷積替換分組卷積和優(yōu)化輸入特征分配和結(jié)合方式改善了模塊的性能。通過原理和計(jì)算成本定量分析發(fā)現(xiàn)擴(kuò)張系數(shù)對(duì)SSD-MV2ESK模型的計(jì)算成本影響較大,多尺度系數(shù)對(duì)模型計(jì)算成本影響較小。不過,由于在深度學(xué)習(xí)框架Pytorch內(nèi)多尺度卷積組采用循序計(jì)算方式,將導(dǎo)致SSD-MV2ESK模塊運(yùn)算時(shí)間隨多尺度系數(shù)增加而增加。雖然單獨(dú)增加擴(kuò)張系數(shù)和多尺度系數(shù)均能提高SSD-MV2ESK對(duì)水下多尺度目標(biāo)的檢測(cè)精度,但為了平衡檢測(cè)精度、模型大小和計(jì)算時(shí)間,SSD-MV2ESK的擴(kuò)張系數(shù)和多尺度系數(shù)均等于4。
SSD-SQ通過通道壓縮來降低模型的計(jì)算量和參數(shù),SSD-MV1通過標(biāo)準(zhǔn)卷積分解來降低模型的計(jì)算量和參數(shù)。通道壓縮會(huì)引起激活函數(shù)在高維信息向低維信息轉(zhuǎn)換時(shí)特征的丟失和破壞,SSD-SQ的較低的檢測(cè)精度(58.90%)也證實(shí)了這一觀點(diǎn)。SSD-MV2利用IRB特征提取模塊重新設(shè)計(jì)了SSDMV1的基礎(chǔ)網(wǎng)絡(luò)和附加特征提取網(wǎng)絡(luò),通過“擴(kuò)張壓縮”來提高深度可分離卷積層的特征提取性能,同時(shí)降低模型的參數(shù)。SSD-MV2比SSD-MV1的模型參數(shù)大幅降低,減少15.2 MB,同時(shí)檢測(cè)精度也有提升,提升2.5%。SSD-MV2ISK則是利用ISK模塊替換SSD-MV2中的IRB模塊,雖然SSD-MV2ISK的檢測(cè)精度比SSD-MV2有所提升,但代價(jià)是成倍的模型參數(shù)和計(jì)算時(shí)間。SSD-MV2ESK通過合理選擇擴(kuò)張系數(shù)和多尺度系數(shù),可以較好地平衡檢測(cè)精度、模型大小和計(jì)算時(shí)間。更重要的是,在相同的擴(kuò)張系數(shù)和多尺度系數(shù)條件下,SSD-MV2ESK比SSD-MV2ISK檢測(cè)精度更高、模型參數(shù)更少、檢測(cè)時(shí)間更短。
對(duì)于合成孔徑圖像水下多尺度目標(biāo)而言,在保持檢測(cè)精度的同時(shí)需兼顧模型參數(shù)大小和檢測(cè)時(shí)間,結(jié)合實(shí)驗(yàn)1、實(shí)驗(yàn)2和實(shí)驗(yàn)3的結(jié)果,顯然結(jié)合擴(kuò)張系數(shù)和多尺度系數(shù)的SSD-MV2ESK更適合合成孔徑聲吶多尺度目標(biāo)的檢測(cè)任務(wù)。實(shí)驗(yàn)4也進(jìn)一步地證明了ESK模塊對(duì)水下多尺度目標(biāo)的適用性。
合成孔徑聲吶圖像水下多尺度目標(biāo)檢測(cè)任務(wù)具有重要的理論研究和實(shí)際應(yīng)用價(jià)值。在SSD檢測(cè)模型框架內(nèi),本文提出了一種多通道、通道可擴(kuò)張且可選擇的卷積模塊ESK,并利用ESK重新設(shè)計(jì)了SSD的基礎(chǔ)網(wǎng)絡(luò)和附加特征提取網(wǎng)絡(luò)。ESK有效提升SSD對(duì)合成孔徑聲吶圖像水下目標(biāo)的檢測(cè)精度,并經(jīng)理論分析和仿真實(shí)驗(yàn)證明了ESK特征提取模塊對(duì)SAS圖像水下多尺度目標(biāo)的有效性。
對(duì)于基于SSD的合成孔徑聲吶圖像水下多尺度目標(biāo)檢測(cè)任務(wù),改進(jìn)Default Boxes生成策略同樣能提升SSD模型的性能。下一步的研究重點(diǎn)包括:(1)研究適合捕獲合成孔徑聲吶圖像水下多尺度目標(biāo)特征的Default Boxes生成策略;(2)研究更加輕量化的合成孔徑聲吶圖像水下多尺度目標(biāo)特征提取模塊。