肖振久,林渤翰,曲海成
遼寧工程技術(shù)大學(xué)軟件學(xué)院,葫蘆島 125105
合成孔徑雷達(dá)(synthetic aperture radar,SAR)是一種流行的遙感技術(shù),具有全天候、全天時(shí)、不受天氣影響等成像特點(diǎn),可提供高分辨率的海面圖像,用于檢測船舶。SAR圖像在航空、海洋、天文等領(lǐng)域有著廣泛的應(yīng)用。然而,在目標(biāo)檢測領(lǐng)域,SAR圖像檢測面臨著較大的挑戰(zhàn),因?yàn)镾AR 圖像中目標(biāo)的形狀和尺寸復(fù)雜多變,同時(shí)受到雜亂的背景、相干斑噪聲、雜波和其他干擾因素的影響(Dalsasso 等,2020)。因此,提高SAR 圖像檢測的精度是當(dāng)前研究的熱點(diǎn)和難點(diǎn)。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要大量的人工設(shè)計(jì)的特征,并且難以捕捉圖像中的高級(jí)特征。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的SAR 圖像目標(biāo)檢測算法得到了廣泛的研究。相比傳統(tǒng)的手動(dòng)設(shè)計(jì)特征的方法,深度學(xué)習(xí)算法利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練,避免了煩瑣的手動(dòng)特征設(shè)計(jì)過程,因此具有更高的準(zhǔn)確性和魯棒性?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法主要分為兩類:雙階段和單階段。
雙階段算法主要是基于Faster R-CNN(faster region-based convolutional neural network)(Ren 等,2017)等框架,通過使用RPN(region proposal net?work)生成候選區(qū)域,再利用CNN(convolutional neu?ral network)分類定位候選區(qū)域。
單階段算法直接將候選區(qū)域分類和定位結(jié)合在一起,簡化了目標(biāo)檢測流程,如SSD(single shot mul?tibox detector)算法(Liu 等,2016)、RetinaNet(Lin 等,2017)、CenterNet(Duan 等,2019)以及YOLO(you only look once)系列算法等(Redmon 等,2016)。其中,YOLO 算法思想是將圖像劃分為多個(gè)網(wǎng)格,每個(gè)網(wǎng)格預(yù)測一個(gè)邊界框和其所包含物體的類別,然后通過非極大值抑制(non-maximum suppression,NMS)算法消除重疊的邊界框。YOLOv2(Redmon 和Farhadi,2017)用Darknet-19 作為基礎(chǔ)網(wǎng)絡(luò)并引入了Anchor 機(jī)制。YOLOv3(Redmon 和Farhadi,2018)在此基礎(chǔ)上,使用Darknet-53 作為主干網(wǎng),加入特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)和空間金字塔池(spatial pyramid pooling,SPP)等模塊增強(qiáng)對(duì)不同尺度和語義信息的提取能力,同時(shí)使用多個(gè)輸出層對(duì)不同尺度的目標(biāo)檢測。YOLOv4(Bochkovskiy等,2020)采用Mish 激活函數(shù),并引入了空間金字塔結(jié)構(gòu)(spatial pyramid pooling,SPP)和特征金字塔結(jié)構(gòu),這些改進(jìn)有效提高了模型的語義信息表達(dá)和特征提取能力。YOLOv7(Wang 等,2022)引進(jìn)多分支堆疊模塊、創(chuàng)新的過渡模塊、重參數(shù)化結(jié)構(gòu)和動(dòng)態(tài)標(biāo)簽匹配策略,加強(qiáng)特征提取和語義信息的表達(dá)能力。
眾多先進(jìn)的目標(biāo)檢測算法相繼提出,檢測精度和效率有了很大提升。阮晨等人(2021)引入權(quán)重機(jī)制,提出了WBAPN(weighted bidirectional attention pyramid network)算法,通過加權(quán)雙向金字塔特征融合,區(qū)分排列緊密的近岸艦船,增強(qiáng)對(duì)目標(biāo)的定位能力,但誤檢率略高。接著,AR-Net 提升了實(shí)時(shí)性檢測需求和模型的魯棒性(郭偉 等,2022)。FENDet(feature extraction network)運(yùn)用三通道混合注意力和含有可變形空洞卷積的骨干網(wǎng),對(duì)目標(biāo)的細(xì)節(jié)特征提取和細(xì)分類不佳情況進(jìn)行了改進(jìn)(龔聲蓉 等,2022)。針對(duì)移動(dòng)設(shè)備部署效率低下的問題,LMSDYOLO(a lightweight YOLO algorithm for multi-scale SAR ship detection )算法用較少的參數(shù)實(shí)現(xiàn)了多尺度特征的自適應(yīng)融合,具有體積小、精度高的優(yōu)點(diǎn),但在大尺度場景下的檢測效果仍不佳(Guo 等,2022)。FIERNet(feature information efficient repre?sentation network)增強(qiáng)了網(wǎng)絡(luò)特征融合,提取特征細(xì)節(jié)好,對(duì)大尺度圖像有較好的處理效果(Yu 等,2022)。ImYOLOv4(improved YOLOv4 based on attention mechanism)引入基于注意力機(jī)制的動(dòng)態(tài)特征去噪模塊,構(gòu)建一種新的FPN結(jié)構(gòu),從而增強(qiáng)網(wǎng)絡(luò)的表征能力,提升算法精度(Gao 等,2022),但在復(fù)雜背景下,仍然存在高漏檢率和誤檢率的問題。這是由于使用CNN 對(duì)近岸艦船目標(biāo)進(jìn)行檢測時(shí)容易受到海岸背景雜波的影響。此外,CNN 只能提取規(guī)則目標(biāo)區(qū)域的特征,對(duì)于近岸停靠的艦船目標(biāo),邊界框包含了很多海岸背景信息,影響網(wǎng)絡(luò)特征提取。
基于上述問題,本文將多重機(jī)制融入到Y(jié)OLOv7中。首先,在預(yù)處理部分設(shè)計(jì)U-Net Denoising 模塊,抑制噪聲對(duì)SAR 圖像的影響。其次,在網(wǎng)絡(luò)主干特征提取部分構(gòu)建MLAN_SC(maxpooling layer aggre?gation network that incorporate select kernel and con?texual Transformer)結(jié)構(gòu)。在MP(multi-processing)下采樣階段,引入SK(selective kernel)通道注意力機(jī)制來增強(qiáng)輸入特征圖的通道特征。通過信息通道的提取,使網(wǎng)絡(luò)專注于更多的有效信息,并增強(qiáng)了關(guān)鍵信息的判別能力。這使得本文模型更加關(guān)注待檢測目標(biāo),并進(jìn)一步提高了其檢測精度。為解決下采樣結(jié)構(gòu)中上下分支特征不平衡的問題,引入上下文信息提取模塊(contextual Transformer block,COT)。該模塊利用卷積來提取上下文信息,并將局部信息和全局信息融合,以更有效地提取圖像特征。最后,在檢測頭,將SPD 卷積(space-to-depth convolution,SPDConv)融入方法中,并替換損失函數(shù)為WIoU(wise intersection over union),增強(qiáng)對(duì)小目標(biāo)的檢測能力。
YOLOv7 網(wǎng)絡(luò)由輸入(input)、主干網(wǎng)絡(luò)(backbone)、頸部(neck)、檢測頭(head)4 個(gè)主要模塊組成。在輸入端預(yù)處理階段,通過Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖像縮放等操作,將圖像縮放至640 × 640像素,使圖像符合主干網(wǎng)輸入要求。
主干網(wǎng)絡(luò)由CBS(Conv+BN+SiLU )卷積層、ELAN(efficient aggregation network)模塊和MPConv(maxpooling convolution)卷積層組成,其中,CBS 層是由Conv2D、BN(batch normalization )和SiLU(sig?moid linear unit)激活函數(shù)組成,ELAN 模塊為多分支堆疊模塊,由多個(gè)CBS 層構(gòu)成,而MPConv 卷積層代替了原來的下采樣層,MP1 塊在CBS 層的基礎(chǔ)上增加了MaxPool 層構(gòu)成兩個(gè)分支,上分支使用MaxPool將圖像的長度和寬度減半,使用具有128 個(gè)輸出通道的CBS 將圖像通道減半。下分支通過核為1 × 1、stride 為2 × 2 的CBS 將圖像通道減半,圖像的長度和寬度被核為3 × 3、stride 為2 × 2 的CBS 減半,最后使用concat 操作對(duì)兩分支提取到的特征進(jìn)行融合,加強(qiáng)了網(wǎng)絡(luò)的特征提取能力。最大池化操作擴(kuò)展了當(dāng)前特征層的感受野,并將其與普通卷積處理后的特征信息融合,提升了網(wǎng)絡(luò)的泛化性。
頸部特征融合部分采用傳統(tǒng)的 PAFPN(path aggregation feature pyramid networks)結(jié)構(gòu),包括CBS塊、SPPCSPC(spatial pyramid pooling and cross stage partial)結(jié)構(gòu)、擴(kuò)展高效層聚合網(wǎng)絡(luò)(efficient layer aggregation network,ELAN)和MaxPool。SPPCSPC 結(jié)構(gòu)通過在空間金字塔池(SPP)結(jié)構(gòu)中引入卷積空間金字塔(cross stage partial,CSP)結(jié)構(gòu)來改善網(wǎng)絡(luò)的感受野,同時(shí)利用大的殘差邊來輔助優(yōu)化和特征提取。SPPCSPC 模塊在一串卷積中并行添加了多個(gè)MaxPool 操作,以避免圖像處理操作所造成的圖像失真等問題。ELAN-1 層是基于ELAN 的多個(gè)特征層的融合,進(jìn)一步增強(qiáng)了特征提取
檢測頭部分仍使用anchor-based 結(jié)構(gòu),輸出3 層不同大小的特征圖,通過重參數(shù)化結(jié)構(gòu)(reparameter?ized convolution,RepConv)調(diào)整不同尺度特征的通道數(shù)。再通過CIOU Loss(complete intersection over union loss)和非極大值抑制(NMS)等處理,得到最終的預(yù)測結(jié)果。
本文提出一種綜合多重機(jī)制優(yōu)化的SAR 艦船檢測方法。該方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。紅色框線內(nèi)表示該模塊的細(xì)節(jié)組成結(jié)構(gòu)。
圖1 網(wǎng)絡(luò)整體結(jié)構(gòu)圖Fig.1 Diagram of network structure
在將圖像輸入到主干網(wǎng)絡(luò)之前,首先進(jìn)行U-Net Denoising 和 Mosaic 數(shù)據(jù)增強(qiáng)等預(yù)處理。主干網(wǎng)絡(luò)由 CBS、ELAN_COT 和MLAN_SC 組成,提取3 層特征輸出到頸部網(wǎng)絡(luò)。通過 SPPCSPC、上采樣和ELAN對(duì)特征進(jìn)行融合,輸出3層不同大小的特征圖。在檢測頭部分,使用SPD-Conv和RepConv block進(jìn)行圖像預(yù)測,并輸出最終結(jié)果。
由于SAR 成像具有相干性,在復(fù)雜背景下可能會(huì)出現(xiàn)相干斑噪聲,這對(duì)于艦船目標(biāo)檢測來說是一個(gè)挑戰(zhàn)。為了解決這個(gè)問題,本文提出了一種名為U-Net Denoising 的圖像去噪模塊。該模塊采用編碼器—解碼器結(jié)構(gòu),通過殘差塊和上下采樣操作實(shí)現(xiàn)信息傳遞和尺度變換,運(yùn)用分層特征映射和跳躍連接的方法,對(duì)圖像進(jìn)行重構(gòu),獲得更清晰的目標(biāo)。如圖2 所示,該模塊能夠有效地解決復(fù)雜場景下由相干斑噪聲導(dǎo)致的目標(biāo)邊緣模糊和小目標(biāo)漏檢等問題,從而提高目標(biāo)檢測的準(zhǔn)確性。
圖2 U-Net Denoising模塊結(jié)構(gòu)圖Fig.2 U-Net Denoising module structure
乘性噪聲模型可以用于描述各種隨機(jī)噪聲,包括SAR 圖像中的相干斑噪聲。為了更好地減輕相干斑噪聲的干擾,本文使用乘性噪聲表達(dá)式來進(jìn)行建模,進(jìn)行圖像去噪處理。乘性噪聲表達(dá)式為
式中,Y為噪聲圖像;Ν為噪聲分量,遵循具有單位均值和1/L方差的gamma分布;X為無噪聲圖像。
式中,P(N)為噪聲的概率密度函數(shù),Γ(?)為伽馬函數(shù),L為參數(shù),影響噪聲的方差,即噪聲的嚴(yán)重程度。L越大,方差越小,噪聲程度越弱。常將L設(shè)置為1,但如果本來SAR 圖像噪聲不嚴(yán)重,L為1 導(dǎo)致會(huì)去噪過重,去掉一些圖像細(xì)節(jié),所以為了更好地適應(yīng)各種程度的噪聲,本文提出將參數(shù)設(shè)置成1~10比較合適,在訓(xùn)練和測試的時(shí)候不用規(guī)定L必須是多少,可以稱這個(gè)過程為盲去噪。
為了進(jìn)一步驗(yàn)證U-Net Denoising 模塊的有效性和普適性,本文對(duì)艦船圖像數(shù)據(jù)集進(jìn)行人工添加噪聲處理。圖3 展示了去噪效果,圖3(a)為數(shù)據(jù)集內(nèi)的艦船圖像,圖3(b)為添加噪聲后的圖像,圖3(c)為去噪后圖像??梢钥闯觯?jīng)U-Net Denoising 模塊的去噪處理后,艦船目標(biāo)與復(fù)雜背景被更清晰地區(qū)分。
圖3 去噪效果圖Fig.3 Removal of noise effects((a)dataset ship image;(b)image after adding noise;(c)image after removing noise)
SAR 艦船檢測數(shù)據(jù)集包含許多小而密集的目標(biāo),不易識(shí)別。因此,構(gòu)建一個(gè)MLAN_SC 模塊來增強(qiáng)對(duì)目標(biāo)的上下文信息提取和特征融合能力。MLAN_SC 模塊的前半部分是融入注意力機(jī)制的下采樣結(jié)構(gòu),后半部分是上下文關(guān)鍵信息提取和融合結(jié)構(gòu)。圖4表示MLAN_SC模塊結(jié)構(gòu)。
圖4 MLAN_SC模塊結(jié)構(gòu)圖Fig.4 MLAN_SC block structure
2.2.1 特征捕捉采樣
由于在下采樣過程中,特征圖尺寸縮小,會(huì)導(dǎo)致一些關(guān)鍵特征丟失。這對(duì)小目標(biāo)檢測的定位十分不利。所以嘗試在MPConv 結(jié)構(gòu)中加入注意力機(jī)制SK進(jìn)行下采樣。對(duì)輸入特征圖中的不同大小物體,自適應(yīng)選擇對(duì)應(yīng)的卷積核來提取特征,生成通道注意力信息,使網(wǎng)絡(luò)能夠自行關(guān)注更重要的目標(biāo),增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別小目標(biāo)艦船的能力。
相比于SE(squeeze-and-excitation )注意力(Hu等,2018)只是在通道上施加MLP(multi-layer per?ceptron)學(xué)習(xí)權(quán)重,SK 注意力可以通過網(wǎng)絡(luò)自己學(xué)習(xí)來選擇融合不同感受野的特征圖信息。SK 注意力機(jī)制是一種軟注意力機(jī)制(Li等,2019),其能在通道維度上對(duì)輸入特征圖進(jìn)行特征加強(qiáng),同時(shí)保持輸出與輸入特征圖大小的一致性。SK 結(jié)構(gòu)如圖5 所示,由3部分組成:Split、Fuse和Select。
圖5 SK注意力機(jī)制結(jié)構(gòu)Fig.5 Selective kernel attention mechanism structure
1)Split 部分。分別對(duì)輸入圖像用內(nèi)核大小為3 × 3 且膨脹大小為2 的膨脹卷積(dilated convolu?tion)和內(nèi)核大小為5 × 5的常規(guī)卷積進(jìn)行卷積操作,得到U′和U″兩個(gè)特征圖。將二者的特征圖進(jìn)行整合,按對(duì)應(yīng)的元素進(jìn)行相加求和,使融合后的特征圖在空間維度上進(jìn)行一個(gè)全局平均池化操作(global average pooling,GAP),得到一個(gè)C× 1 × 1 的一維向量SC,將全局信息嵌入到向量A中。通過兩層全連接層,提取通道注意力信息,將原來的C維信息降維成更小尺度的d維信息,降低尺寸,提高效率,實(shí)現(xiàn)精確控制和自適應(yīng)選擇,完成信息通道維度的提取。具體過程計(jì)算為
式中,δ是ReLU激活函數(shù),β是BN批歸一化。C是輸入特征圖的channel,Ws是H×C維的矩陣;r是超參數(shù)縮減比,常取16;L為dmin,也是超參數(shù),通常為32。
2)Select 部分。分別對(duì)卷積核Α1和Α2與前面的特征圖進(jìn)行卷積操作,從d維升維成原來的C維,運(yùn)用softmax 函數(shù)進(jìn)行歸一化處理,得到每個(gè)卷積核對(duì)應(yīng)的通道注意力信息a1、a2,并將其逐通道相乘,與特征圖U′和U″結(jié)合,得到兩個(gè)新的特征圖Y′、Y″,最后,將Y′和Y″進(jìn)行信息融合,得到最終的輸出圖像Y。該過程計(jì)算為
式中,σ為經(jīng)過softmax函數(shù)歸一化處理??梢钥闯?,輸出圖像對(duì)比于輸入圖像,經(jīng)過信息通道的提煉,融合了更多的關(guān)鍵信息,增強(qiáng)了對(duì)圖像關(guān)鍵信息的提取,使網(wǎng)絡(luò)更加關(guān)注待檢測目標(biāo)。
2.2.2 多分支上下文聚合
為了豐富語義信息并保留更多關(guān)鍵的上下文特征信息,同時(shí)緩解下采樣分支和注意力分支獲取的特征差異,本文提出了一種高效的多分支上下文聚合模塊ELAN_COT(efficient layer aggregation net?work and contextual Transformer ),它是基于COT 與ELAN 的融合設(shè)計(jì)而成。該模塊能夠有效地處理多分支上下文信息,從而提高模型的性能和精度,改善誤檢情況。ELAN_COT結(jié)構(gòu)如圖6所示。
圖6 ELAN_COT模塊結(jié)構(gòu)圖Fig.6 ELAN_COT block structure
為了更好地提取上下文關(guān)鍵信息,采用性能更優(yōu)的COT 模塊替換原有的卷積(CBS)模塊。COT 模塊所捕獲的特征優(yōu)于CBS 模塊,它能夠利用相鄰輸入鍵之間的上下文信息來指導(dǎo)自注意力學(xué)習(xí),COT模塊首先捕獲相鄰鍵之間的靜態(tài)上下文,進(jìn)一步利用它來觸發(fā)挖掘動(dòng)態(tài)上下文的自我注意。這種方式將上下文挖掘和自注意力學(xué)習(xí)統(tǒng)一到單一架構(gòu)中,從而增強(qiáng)了ELAN模塊視覺表達(dá)能力。
COT 是一種Transformer 風(fēng)格的結(jié) 構(gòu)(Li 等,2023),是一個(gè)統(tǒng)一的self-attention 模塊。它利用卷積提取輸入特征的上下文信息來增強(qiáng)自注意力機(jī)制的學(xué)習(xí),將Transformer 捕捉全局信息的能力與CNN捕捉臨近局部信息能力相結(jié)合(Liu 等,2021),從而提高網(wǎng)絡(luò)模型的特征表達(dá)能力。COT 塊結(jié)構(gòu)如圖7所示。通過k×k卷積對(duì)輸入K進(jìn)行上下文編碼,得到K1。K1∈RH×W×C作為輸入X的靜態(tài)上下文表示,自然地反映近鄰間的上下文信息。
圖7 COT塊結(jié)構(gòu)圖Fig.7 Contextual Transformer block structure
將K1與Q拼接并通過兩個(gè)1×1卷積計(jì)算多頭注意力矩陣A,將得到的注意力矩陣A與V相乘得到特征輸出K2,稱為動(dòng)態(tài)上下文表示。
COT 塊最終輸出為靜態(tài)上下文特征映射K1和動(dòng)態(tài)上下文特征映射K2的融合。多頭注意力矩陣的計(jì)算式為
式中,Wθ和Wδ是學(xué)習(xí)參數(shù)。A是通過Query 矩陣與提取了上下文信息的學(xué)習(xí)K1得到的,并不是僅通過獨(dú)立的Query-Key對(duì)得到的,通過引入靜態(tài)上下文表示增強(qiáng)了自注意力機(jī)制。
2.3.1 SPD卷積
SPD-Conv 是一個(gè)新的CNN 模塊,替代了每個(gè)步長卷積和池化層,具有向下采樣特征圖的優(yōu)點(diǎn),不丟失可學(xué)習(xí)信息(Sunkara 和Luo,2022)。SPD-Conv 由空間到深度(space-to-depth)層和非跨步卷積(nonstrided convolution)層組成,結(jié)構(gòu)如圖8所示。
圖8 SPD-Conv結(jié)構(gòu)圖Fig.8 The structure of SPD-Conv
在SPD 特征變換層部分,定義特征圖X大小為S×S×C1,對(duì)特征圖X切出一系列子特征圖,具體為
式中,f0,0,f0,1,f1,0,fscale-1,0,f0,scale-1,fscale-1,scale-1均為特征圖X所切出的子特征圖。子特征圖fx,y由i+x和i+y按比例整除的所有條目x(i+y)形成。因此,每個(gè)子圖按比例因子對(duì)特征圖X進(jìn)行下采樣。當(dāng)scale=2 時(shí),得到4 個(gè)子圖f0,0,f0,1,f1,0和f1,1,每個(gè)子圖都具有形狀S/2 ×S/2 ×C1并將下采樣2 倍;接著,沿通道維度連接這些子圖獲得X1,這樣就在空間維度減少了一個(gè)比例因子,而在通道維度增加了比例因子的平 方,即X1的大小為S/scale×S/scale×scale2C1。
由于奇數(shù)和偶數(shù)行/列的下采樣時(shí)間不同會(huì)發(fā)生不對(duì)稱采樣,步長大于1 會(huì)導(dǎo)致信息的非歧視性丟失,所以在SPD特征變換層之后,添加一個(gè)帶有C2濾波器的非跨步卷積層(stride=1),獲得X2,大小為S/scale×S/scale×C2,其中C2<scale2C1。
SPD 層采樣過程保留了通道維度中的所有信息,非跨步卷積層盡可能保留所有的判別特征信息,因此信息未丟失。SPD-Conv 的引入使得小目標(biāo)艦船和復(fù)雜背景圖像模糊情況下的檢測有所改善。
2.3.2 WIoU動(dòng)態(tài)聚焦損失函數(shù)
YOLOv7 算法的損失函數(shù)分別由目標(biāo)置信度損失、分類損失和坐標(biāo)損失三者組成,前兩者均采用帶log 的二值交叉熵?fù)p失函數(shù)進(jìn)行計(jì)算,后者采用的是CIoU 來進(jìn)行計(jì)算。YOLOv7 采用CIoU_Loss 作為邊框損失函數(shù),計(jì)算式為
式中,A為真實(shí)框,B為預(yù)測框,ρ為預(yù)測目標(biāo)框中心點(diǎn)與真實(shí)目標(biāo)框中心點(diǎn)之間的歐氏距離,bgt和b分別為真實(shí)目標(biāo)框的中心點(diǎn)和預(yù)測目標(biāo)框的中心點(diǎn),C為能夠同時(shí)包含預(yù)測目標(biāo)框和真實(shí)目標(biāo)框的最小閉包區(qū)域?qū)蔷€距離;wgt和hgt分別表示真實(shí)目標(biāo)框的長和寬;w和h分別為預(yù)測目標(biāo)框的長和寬,a為權(quán)重函數(shù),用于平衡參數(shù);v則是用來度量長寬比的相似性。
從式(22)可以看出,當(dāng)預(yù)測框與真實(shí)框的長寬比一樣大時(shí),v取0,此時(shí)長寬比的懲罰項(xiàng)并沒有起到作用,CIoU_Loss 得不到穩(wěn)定表達(dá)。因此,針對(duì)SAR 圖像中大多為較小艦船且呈密集狀態(tài)分布,本文使用WIoU_Loss 替換原CIoU_Loss(Tong 等,2023)。
RWIoU∈ [1,e)將顯著放大普通質(zhì)量錨框的LIoU。LIoU∈[0,1]將顯著降低高質(zhì)量錨框的RWIoU,并在錨框與目標(biāo)框重合較好的情況下顯著降低其對(duì)中心點(diǎn)間距離的關(guān)注。構(gòu)造距離注意,得到具有兩層注意力機(jī)制的WIoU?,具體為
式中,Wg和Hg分別表示最小包圍框的寬和高。為了防止RWIoU產(chǎn)生阻礙收斂的梯度,?表示將Wg和Hg從計(jì)算圖中分離出來的操作,它有效地消除了阻礙收斂的因素。為了使模型更好地關(guān)注復(fù)雜圖像,構(gòu)造動(dòng)態(tài)非單調(diào)注意機(jī)制WIoU'',具體為
式中,β為離群度,描述錨框質(zhì)量;為動(dòng)量m的滑動(dòng)平均值;r為非單調(diào)聚焦系數(shù);α,δ為超參數(shù),控制β和r的映射。
離群度小意味著錨框質(zhì)量高,在訓(xùn)練早期階段,當(dāng)錨框的離群度β為定值時(shí),錨框?qū)@得最高的梯度增益。由于LIoU是動(dòng)態(tài)的,所以錨框的質(zhì)量劃分標(biāo)準(zhǔn)也是動(dòng)態(tài)的,這使WIoU 可以隨時(shí)做出最符合當(dāng)前情況的梯度增益分配策略。在訓(xùn)練的中后期,分配小的梯度增益給低質(zhì)量錨框以減少有害梯度,同時(shí)WIoU''會(huì)聚焦普通質(zhì)量,提高模型定位性能。
實(shí)驗(yàn)環(huán)境為Windows11 操作系統(tǒng),CPU 為i7-12700H,顯卡為NVIDIA GeForce RTX 3060,顯存為6 GB,在PyTorch1.12.1框架下運(yùn)行,CUDA 11.6.134。
本文實(shí)驗(yàn)數(shù)據(jù)選自SSDD(SAR ship detection dataset)(Zhang 等,2021)數(shù)據(jù)集和HRSID(high reso?lution SAR images dataset)數(shù)據(jù)集(Wei 等,2020)。SSDD 是國內(nèi)外公開的一個(gè)專門用于SAR 圖像中艦船目標(biāo)檢測的公開數(shù)據(jù)集,該數(shù)據(jù)集包含了1 160幅SAR圖像,包含2 456個(gè)目標(biāo)。SSDD數(shù)據(jù)集的數(shù)據(jù)主要來源于傳感器RadarSat-2、Sentinel-1、TerraSAR-X,分辨率為1 m~15 m,采用HH(水平)、VV(垂直)、HV 和VH 共4 種極化方式,將目標(biāo)區(qū)域裁剪成大小為500 × 500 像素左右,并采用PASCAL VOC(pat?tern analysis,statistical modeling and computational learning visual object classes)格式,人工標(biāo)注艦船目標(biāo)位置。該數(shù)據(jù)集中多數(shù)為小目標(biāo),擁有豐富的近海岸、遠(yuǎn)海、小尺度和大尺度的特征信息,能有效驗(yàn)證模型的魯棒性。
HRSID 數(shù)據(jù)集是電子科技大學(xué)在2020 年發(fā)布的船舶檢測數(shù)據(jù)集。該數(shù)據(jù)集中的數(shù)據(jù)提取自TerraSAR-X、Sentinel-1B 和TanDEM-X 衛(wèi)星傳感器。其中共包含5 604 幅高分辨率SAR 圖像和16 951 個(gè)船舶實(shí)例。HRSID 數(shù)據(jù)集包含分辨率為0.5 m、1 m、3 m,圖像大小為800 × 800像素的SAR 圖像,采用horizontal bounding boxes(HBB)標(biāo)注格式,涵蓋不同場景和多種極化生成的圖像。
本實(shí)驗(yàn)以8∶2 的比例將數(shù)據(jù)集隨機(jī)分成訓(xùn)練集和測試集。通過使用ImageNet(a large-scale hierar?chical image database)數(shù)據(jù)集來預(yù)訓(xùn)練YOLOv7的權(quán)重,并采用SGD(stochastic gradient descent)優(yōu)化器對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新。動(dòng)量參數(shù)設(shè)為0.93,初始學(xué)習(xí)率設(shè)為0.001,批處理大小設(shè)為8,訓(xùn)練150個(gè)epoch,采用余弦退火方式進(jìn)行學(xué)習(xí)率衰減和Warm-Up方法預(yù)熱學(xué)習(xí)率。
用精度(precision,P)、召回率(recall,R)、平均精確度(average precision,AP)及加權(quán)調(diào)和平均F1作為綜合評(píng)價(jià)指標(biāo),來表示艦船檢測的效果。
為了驗(yàn)證本文改進(jìn)各模塊的有效性,以原始的YOLOv7 網(wǎng)絡(luò)為基準(zhǔn),在SSDD 數(shù)據(jù)集上進(jìn)行多組實(shí)驗(yàn),對(duì)比各個(gè)機(jī)制對(duì)檢測精度的影響,結(jié)果如表1所示。
表1 各模塊機(jī)制的檢測精度對(duì)比Table 1 Comparison of detection accuracy of each module mechanism
由表1 可見,注意力機(jī)制對(duì)SAR 圖像目標(biāo)檢測的影響比較顯著,通過增強(qiáng)深層特征學(xué)習(xí)表達(dá)和關(guān)鍵信息提取,使得誤檢率降低。U-Net Denoising 的加入使得模型對(duì)復(fù)雜背景下目標(biāo)的提取更加明確。這是因?yàn)樵椒ǖ奶卣魈崛〔粔蚯逦?,受到陸地干擾,將多個(gè)密集的目標(biāo)識(shí)別成一個(gè)目標(biāo),導(dǎo)致漏檢。SPD-Conv 的加入,提升了模型對(duì)密集小目標(biāo)的檢測能力。WIoU 使網(wǎng)絡(luò)更好地關(guān)注復(fù)雜場景圖像下的目標(biāo),定位性能有所提升,使得最終的檢測精度更高。
不同模塊融入方法的檢測效果如圖9 所示。近岸復(fù)雜背景圖像下,YOLOv7_2 和YOLOv7_5 存在誤檢,YOLOv7_3 和YOLOv7_4 則漏檢率很高,本文算法幾乎不存在漏檢和誤檢的情況,并且在密集小目標(biāo)圖像檢測中的檢測精度高于其他算法。
PR 曲線表示精度和召回率之間的關(guān)系,PR 曲線與坐標(biāo)軸所圍成的面積即為模型的AP 值?;趫D10 的對(duì)比分析,可以看出,相較于基線YOLOv7,本文方法對(duì)應(yīng)的PR曲線呈現(xiàn)出相對(duì)平穩(wěn)的特征,且表現(xiàn)出較為卓越的檢測性能。
圖10 改進(jìn)前后PR曲線對(duì)比Fig.10 Comparison of PR curves before and after improvement
為了進(jìn)一步驗(yàn)證方法的檢測效果,將改進(jìn)方法與先進(jìn)的目標(biāo)檢測算法SSD、Faster R-CNN、Reti?naNet、CenterNet、YOLOv4-Tiny 以及較新的FENDet、Tan(譚顯東和彭輝,2022)方法在準(zhǔn)確率、召回率、精度等方面進(jìn)行比較,精度對(duì)比如圖11 所示,可直觀地看出,本文算法在訓(xùn)練150 epoch達(dá)到收斂且AP@0.5最高。
圖11 各方法精度對(duì)比Fig.11 Comparison of average precision of each method
在SSDD 數(shù)據(jù)集上的檢測結(jié)果如表2所示,對(duì)比各算法可以看出,本文方法取得了較好的檢測精度,在SSDD 數(shù)據(jù)集上取得了最佳AP@0.5(99.25%)和AP@0.5∶0.95(71.21%),分別比基線YOLOv7 高4.38% 和9.19%;召回率為94.79%,比Faster RCNN 高16.18%;準(zhǔn)確率為98.41%,比RetinaNet 高14.45%;本文方法的每秒浮點(diǎn)運(yùn)算次數(shù)(floating point operation per second,F(xiàn)LOPs)為99.1 G,較基線低4.4 G,雖然Tan 方法召回率高于本文方法,但在其他指標(biāo)上仍劣于本文方法,證明了本文方法的有效性。
表2 不同檢測算法在SSDD數(shù)據(jù)集上對(duì)比Table 2 Comparison of different detection algorithms on the SSDD dataset
為了進(jìn)一步驗(yàn)證本文方法的有效性及泛化性,在HRSID 數(shù)據(jù)集上對(duì)比各算法的檢測效果,如表3所示。可以看出,本文方法取得了最佳的AP(89.73%),比YOLOv7 高2.57%;準(zhǔn)確率達(dá)到了93.24%;召回率為81.83%;F1為0.872。雖然Tan方法準(zhǔn)確率略高于本文方法,但實(shí)驗(yàn)結(jié)果表明,本文方法的精度和運(yùn)算量均優(yōu)于Tan 方法,綜合多種評(píng)價(jià)指標(biāo),本文方法效果最佳。
表3 不同檢測算法在HRSID數(shù)據(jù)集上對(duì)比Table 3 Comparison of different detection algorithms on the HRSID dataset
為了更加直觀地對(duì)比上述8 種方法,圖12 展示了它們在SSDD 數(shù)據(jù)集上的檢測效果圖。其中,黃色框標(biāo)識(shí)漏檢艦船,誤檢艦船用綠色框標(biāo)識(shí)。盡管各種方法都能有效地檢測艦船目標(biāo),但RetinaNet、CenterNet、Faster R-CNN、SSD 所采用的主干網(wǎng)絡(luò)泛化能力較差,提取出的目標(biāo)特征不夠完善,特別是在處理密集小目標(biāo)艦船時(shí),容易出現(xiàn)大量漏檢現(xiàn)象。而本文方法通過在檢測頭處采用SPD 卷積,顯著提高了小目標(biāo)檢測的準(zhǔn)確率。
圖12 不同方法檢測效果對(duì)比Fig.12 Comparison of detection effects of different methods((a)ground truth;(b)CenterNet;(c)RetinaNet;(d)Faster R-CNN;(e)SSD;(f)FENDet;(g)YOLOv4-Tiny;(h)Tan;(i)YOLOv7;(j)ours)
YOLOv4-Tiny 和FENDet 在檢測小目標(biāo)艦船方面表現(xiàn)良好,但在復(fù)雜背景干擾下,對(duì)于密集排列且有遮擋的目標(biāo)定位精度較低,導(dǎo)致漏檢率、誤檢率升高。相較于這些方法,本文通過構(gòu)建MLAN_SC模塊和融入WIoU 損失函數(shù),使網(wǎng)絡(luò)對(duì)艦船目標(biāo)的特征提取更為充分,定位更加準(zhǔn)確,能有效區(qū)分重疊目標(biāo),從而提高了艦船目標(biāo)的檢測精度。
YOLOv7在模糊背景下的艦船檢測中,受到海洋雜波的嚴(yán)重干擾,將復(fù)雜的近岸背景檢測成艦船,誤檢嚴(yán)重。可以看出,本文構(gòu)建的U-Net Denoising模塊有效地抑制了復(fù)雜背景中噪聲的干擾,基本沒有產(chǎn)生誤檢。與此同時(shí),Tan 方法通過改進(jìn)網(wǎng)絡(luò),降低了漏檢、誤檢情況,但無論在近岸復(fù)雜背景下還是在密集小目標(biāo)艦船的檢測中,本文方法融合多重機(jī)制,使得艦船目標(biāo)的檢測精度明顯高于其他方法。
實(shí)驗(yàn)結(jié)果表明,本文方法在數(shù)據(jù)集的檢測效果圖上基本沒有誤檢和漏檢情況,在相對(duì)復(fù)雜的環(huán)境下,該方法能夠降低誤檢和漏檢概率,同時(shí)保持較高的檢測精度。因此,本文方法的性能優(yōu)于對(duì)比網(wǎng)絡(luò)。
為解決SAR 圖像檢測中精度低、漏檢誤檢頻繁的問題,本文提出了融合多重機(jī)制的SAR 圖像艦船檢測方法。該方法針對(duì)SAR 圖像中艦船目標(biāo)近岸復(fù)雜背景遮擋和密集小目標(biāo)的分布特點(diǎn),在YOLOv7 基礎(chǔ)上融入了多重機(jī)制。首先,利用U-Net Denoising 模塊抑制背景干擾。引入注意力機(jī)制和自注意力塊構(gòu)建MLAN_SC結(jié)構(gòu),加強(qiáng)特征提取和深層特征判別能力,有效地消除虛假目標(biāo)的影響,減少誤檢和漏檢情況。通過融合SPD 卷積和WIoU 損失函數(shù)以增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的敏感度。在SSDD 數(shù)據(jù)集與HRSID 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),改進(jìn)后的模型AP達(dá)到99.25%和89.73%,較對(duì)比方法具有更高的檢測精度,對(duì)于近岸復(fù)雜背景和密集小目標(biāo)艦船的檢測效果較好。然而,本文方法在計(jì)算資源占用情況上也具有一定的局限性。未來研究可以考慮在提高檢測精度的基礎(chǔ)上使模型更加輕量化;探索將深度學(xué)習(xí)技術(shù)與傳統(tǒng)圖像處理方法相結(jié)合,進(jìn)一步提高模型的可解釋性和實(shí)際應(yīng)用價(jià)值。