湯寓麟, 李厚樸,*, 張衛(wèi)東, 邊少鋒, 翟國君, 劉 敏, 張曉平
(1. 海軍工程大學(xué)電氣工程學(xué)院, 湖北 武漢 430033; 2. 軍委聯(lián)合參謀部戰(zhàn)場環(huán)境體系論證中心,北京 100088; 3. 海軍海洋測繪研究所, 天津 300061; 4. 中國人民解放軍91001部隊, 北京 100841;5. 中國地質(zhì)大學(xué)(北京)信息網(wǎng)絡(luò)中心, 北京 100083)
隨著側(cè)掃聲納探測技術(shù)的不斷進(jìn)步,使用側(cè)掃聲納搜索失事沉船成為海道測量障礙物核查和海上搜救的重要內(nèi)容。目前,隨著計算機視覺技術(shù)的不斷發(fā)展與疊代,基于深度學(xué)習(xí)的側(cè)掃聲納影像自動識別和目標(biāo)自動檢測是海道測量領(lǐng)域發(fā)展的前沿方向,國內(nèi)外學(xué)者開展了廣泛的研究。文獻(xiàn)[17]在與經(jīng)典機器學(xué)習(xí)SVM算法對比后提出以改進(jìn)的VGG-16為框架的卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)識別方法,完成了側(cè)掃聲納海底沉船的影像自動識別并取得明顯優(yōu)于傳統(tǒng)方式的精度和效率。目標(biāo)檢測是在圖像識別的基礎(chǔ)上實現(xiàn)目標(biāo)的定位,文獻(xiàn)[18]使用Faster R-CNN模型實現(xiàn)了側(cè)掃聲納海底沉船目標(biāo)的自動檢測,但是針對該模型存在結(jié)構(gòu)復(fù)雜、訓(xùn)練和檢測效率低等問題。文獻(xiàn)[19]提出了基于遷移學(xué)習(xí)的改進(jìn)YOLOv3模型的側(cè)掃聲納沉船目標(biāo)檢測方法,雖然在一定程度上提高了訓(xùn)練和檢測效率,但是仍存在小目標(biāo)漏警率高,檢測速度無法滿足實時性要求等問題。文獻(xiàn)[20]針對YOLOv3存在的問題以及面向工程應(yīng)用的現(xiàn)實需求,通過對比8種不同深度和寬度的結(jié)構(gòu)后,提出了改進(jìn)的YOLOv5a模型,該模型雖然在小尺度目標(biāo)的檢測精度和整體檢測效率上取得了很大的提升,但是在重疊目標(biāo)以及復(fù)雜海況下的檢測性能有待進(jìn)一步加強。
近年來,隨著Transformer在機器翻譯、NLP(natural language processing)領(lǐng)域取得令人矚目的成績,越來越多的研究者開展Transformer相關(guān)研究。Transformer是一種主要基于自注意機制的深度神經(jīng)網(wǎng)絡(luò),最初應(yīng)用于自然語言處理領(lǐng)域,之后逐漸被應(yīng)用到更多的計算機視覺領(lǐng)域。文獻(xiàn)[27-28]提出了基于Transformer的像素自回歸預(yù)測模型,并在圖像分類任務(wù)上取得不錯的成績。文獻(xiàn)[29]提出基于ViT的Transformer模型,利用純Transformer進(jìn)行圖像塊序列預(yù)測,并在多個圖像識別基準(zhǔn)數(shù)據(jù)集上獲得SOTA性能。在目標(biāo)檢測領(lǐng)域,Facebook AI于2020年利用Transformer中能夠有效建模圖像中的長程關(guān)系的attention機制,簡化目標(biāo)檢測的pipeline,構(gòu)建端到端的目標(biāo)檢測器DETR(Detection Transformer),并取得了優(yōu)異的檢測性能,該模型雖然擁有高效的檢測效率,但是需要大量的數(shù)據(jù)作為樣本支撐才能達(dá)到滿意的檢測精度。
針對因海洋環(huán)境復(fù)雜,聲納影像存在大量的噪聲而造成的目標(biāo)信息混淆、特征細(xì)節(jié)模糊以及重疊目標(biāo)漏警與虛警率高的問題,結(jié)合Transformer和YOLOv5模型在目標(biāo)檢測任務(wù)中的特點,本文嘗試將Transformer與YOLOv5模型結(jié)合,擬構(gòu)建基于DETR-YOLO的側(cè)掃聲納沉船自動檢測模型,通過加入多尺度特征復(fù)融合模塊,減少特征信息的丟失,提高小目標(biāo)檢測能力。融入注意力機制SENet,強化模型對重要特征通道的敏感性,提取更強有力的特征。采用加權(quán)融合框(weighted boxes fusion, WBF)加權(quán)融合框,提升檢測框的定位精度和置信度,降低檢測的漏警率和虛警率,以期在獲得復(fù)雜海況下優(yōu)異檢測性能的同時滿足輕量化工程部署需求。
DETR-YOLO模型結(jié)構(gòu)由輸入、Backbone、Neck和輸出4部分組成,具體如圖1所示。
圖1 DETR-YOLO模型結(jié)構(gòu)Fig.1 DETR-YOLO model structure
為使模型達(dá)到更好的檢測效果的同時實現(xiàn)模型的輕量化目標(biāo),本文創(chuàng)新融合了DETR結(jié)構(gòu)。DETR結(jié)構(gòu)由Encoder、Decoder和Prediction 3部分組成,具體如圖2所示。在Backbone部分,使用常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)學(xué)習(xí)輸入圖像的特征并送入Encoder進(jìn)行位置編碼;在Encoder部分,首先將Backbone輸出的特征圖進(jìn)行維度壓縮,即通過1×1卷積核對××維的特征圖進(jìn)行卷積操作,將通道數(shù)壓縮為得到××維特征圖。其次,對特征圖進(jìn)行序列轉(zhuǎn)換,即將空間維度×壓縮到得到×的2維特征圖,最后將2維特征圖加上positional encoding進(jìn)行位置編碼。Encoder部分共包含6層,每層均包含8個自注意力模塊和FFN(feed forward network);Decoder部分同樣包含6層,每層包含8個自注意力模塊、8個共同注意力模塊和FFN。Decoder對Encoder輸出的特征圖進(jìn)行特征提取,Decoder將少量固定數(shù)量的位置嵌入Object Queries,作為輸入并參與輸出。最后將Decoder的輸出傳遞給FFN,進(jìn)行網(wǎng)絡(luò)檢測類別(class)和位置(box)或無目標(biāo)類。
圖2 DETR結(jié)構(gòu)Fig.2 DETR structure
DETR注意力模塊的引入使模型有選擇的聚焦輸入有效部分,提升模型目標(biāo)特征學(xué)習(xí)的針對性,同時與傳統(tǒng)Transformer不同的是,DETR在特征圖處理的過程中一次性處理全部的Object Queries,即一次性輸出所有的預(yù)測結(jié)果,而不是從左至右逐一的輸出,大大的節(jié)省了模型訓(xùn)練的效率,利于模型的輕量化目標(biāo)。
YOLOv5模型包含8×8,16×16,32×32大小感受野的目標(biāo)檢測,但是針對更小尺度目標(biāo)存在特征學(xué)習(xí)不充分進(jìn)而導(dǎo)致最終漏檢的情況,本文首先增加檢測層,通過3×3卷積核經(jīng)步長為2的降采樣得到152×152大小的特征圖,以獲得4×4的特征感受野,從而更好的對小尺度目標(biāo)進(jìn)行檢測。檢測層的增加雖然提升了小尺度目標(biāo)特征提取和特征融合的能力,但是一定程度上導(dǎo)致模型的復(fù)雜程度加深,因此帶來的計算量的增加和冗余計算不利于模型的輕量化。為此,在原有模型的基礎(chǔ)上采用CSP(cross stage paritial)模型結(jié)構(gòu),如圖1所示,通過殘差結(jié)構(gòu)的堆疊和卷積的同步操作完成跨階段結(jié)構(gòu)下結(jié)果的合并,實現(xiàn)梯度變化在特征圖上的集成,在增強模型學(xué)習(xí)能力的基礎(chǔ)上降低計算瓶頸和內(nèi)存成本,解決網(wǎng)絡(luò)優(yōu)化中梯度重復(fù)的問題,更好的達(dá)到模型輕量化的目的。
隨著降采樣的不斷加深,模型不斷的從淺層特征學(xué)習(xí)到深層的語義特征學(xué)習(xí)。針對深層的語義特征學(xué)習(xí)雖然擁有更大的感受野,但是較大的降采樣因子會帶來位置信息的損失,同時深層的語義特征與淺層特征之間相對獨立,因缺少信息的融合造成特征信息的利用率不高,不利于模型訓(xùn)練的問題,本文采用了多尺度特征復(fù)融合結(jié)構(gòu),具體如圖3所示。首先,通過上采樣將強語義特征向上傳遞,與淺層特征進(jìn)行融合,增加多尺度的語義表達(dá)。隨后,通過下采樣將強定位特征與深層的語義特征融合,增強多尺度的定位能力,從而全面提升模型的特征學(xué)習(xí)能力。另外,本文將多尺度的特征進(jìn)行交叉復(fù)融合,加強融合特征之間的再融合,從而實現(xiàn)多層的參數(shù)聚合,進(jìn)一步提升抽象特征和位置信息的學(xué)習(xí)。
圖3 多尺度特征復(fù)融合示意圖Fig.3 Schematic diagram of multi-scale feature fusion
針對傳統(tǒng)的卷積操作是在局部感受野上將空間信息和特征維度信息進(jìn)行聚合以獲取全局信息,往往忽略了特征通道之間的相互關(guān)系,遺失細(xì)節(jié)特征,并且沒有針對性的進(jìn)行有效特征學(xué)習(xí)的問題,本文采用了SENet注意力機制結(jié)構(gòu)進(jìn)行優(yōu)化,讓模型以全局信息為基礎(chǔ),通過學(xué)習(xí)的方式自動獲取每個特征通道的重要程度并賦予相應(yīng)的權(quán)重,在增強有益特征學(xué)習(xí)的同時抑制冗余特征的學(xué)習(xí),以加強特征學(xué)習(xí)的針對性,提高模型的檢測性能。具體結(jié)構(gòu)如圖4所示。
圖4 SENet結(jié)構(gòu)圖Fig.4 SENet structure
SENet分為Squeeze和Excitation兩部分,其中Squeeze部分通過全局平均池化(Global pooling)對相應(yīng)的特征圖進(jìn)行一維壓縮,即將××的特征圖壓縮成1×1×:
(1)
式中:×表示特征圖的寬高;為通道數(shù);(,)表示第個通道位置為(,)的元素,∈。
在Squeeze操作獲得全局特征后通過Excitation操作提取各通道之間的關(guān)系:
Ex=((,))=((,))
(2)
Excitation操作采用Sigmoid中的gating機制,通過引入全連接層FC,以參數(shù)將通道降低為原來的1,經(jīng)ReLU函數(shù)()激活后通過全連接層FC,以參數(shù)將通道恢復(fù)原來通道數(shù),最后經(jīng)Sigmoid函數(shù)()生成各通道權(quán)重。本文采用的降維比例為=16。
最后,將生成的權(quán)重值經(jīng)過Scale操作加權(quán)到對應(yīng)的特征通道中,得到最終的輸出:
=()=·
(3)
SENet以輕量級的結(jié)構(gòu)在增加少量計算量的同時提升模型對通道特征的敏感性,帶來模型性能的提升。
常規(guī)的目標(biāo)檢測任務(wù)在篩選預(yù)測框時采用非極大值抑制(non-maximum suppression, NMS),NMS雖然可以有效去除單一目標(biāo)的冗余預(yù)測框,但是針對重疊目標(biāo),NMS由于僅從交并比(intersection over union, IoU)單一角度考慮,所以存在漏檢的問題。因此,本文采用WBF,具體如圖5所示。
圖5 WBF示意圖Fig.5 WBF schematic
WBF考慮了每個預(yù)測框在檢測框生成中的作用,即根據(jù)置信度分?jǐn)?shù)賦予每個預(yù)測框權(quán)重,并生成加權(quán)融合框的坐標(biāo),融合框的置信度由所有預(yù)測框的平均置信度,具體如下:
(4)
(5)
式中:(1,1),(2,2)為生成融合框的左上角和右下角坐標(biāo);(1,1),(2,2)為第個預(yù)測框的左上角和右下角坐標(biāo);和分別為生成融合框和每個預(yù)測框的置信度分?jǐn)?shù)。
NMS和WBF生成的最終檢測框如圖6所示,相較于NMS策略生成的檢測框?qū)蓚€相近重疊目標(biāo)誤檢成單一目標(biāo),WBF策略生成的檢測框正確地檢測出兩個目標(biāo),在一定程度上有效的降低了相近目標(biāo)漏警的概率,同時擁有更高的定位精度和置信度,證明WBF策略在本數(shù)據(jù)集中的有效性。
圖6 檢測框?qū)Ρ葓DFig.6 Anchor frame comparison chart
本文的實驗數(shù)據(jù)延用文獻(xiàn)[20],主要由國內(nèi)外各涉海部門以及國內(nèi)生產(chǎn)廠家提供,使用包括Klein3000、EdgeTech4200、Yellowfin和海卓系列等主流側(cè)掃聲納設(shè)備在我國東海、南海、黃渤海以及內(nèi)陸湖泊實測得到,同時使用爬蟲程序在網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)的搜集,共1 200張。
圖7 沉船目標(biāo)分布和尺寸情況Fig.7 Distribution and size of shipwreck targets
從圖7中可以看出,沉船目標(biāo)主要集中在圖片的中央位置,且大多為小尺寸的目標(biāo)。為了進(jìn)一步豐富樣本數(shù)據(jù),同時彌補沉船目標(biāo)的尺寸和分布局限性,讓模型獲得更好的訓(xùn)練效果,本文首先對數(shù)據(jù)集進(jìn)行歸一化處理,并采用Moscia、圖像旋轉(zhuǎn)、多尺度剪裁放大、圖像平移、圖像鏡像、圖像加噪等數(shù)據(jù)增強操作。Mosaic數(shù)據(jù)增強方法豐富了目標(biāo)的位置分布情況且在一定程度上放大了小尺寸目標(biāo),從而在提高模型訓(xùn)練效率的同時提高模型的泛化能力。
實驗均基于Pytorch框架用Python語言實現(xiàn),實驗環(huán)境:Windows10操作系統(tǒng);CPU為Intel(R) Core(TM) i9-10900X@3.70 GHz; GPU為2塊NVIDIA GeForce RTX 3090,并行內(nèi)存48GB。
為在保證模型訓(xùn)練效果的同時提升訓(xùn)練效率,將數(shù)據(jù)集設(shè)定為8∶2,其中訓(xùn)練集的5%設(shè)定為驗證集,并采用五折交叉運算策略進(jìn)行模型訓(xùn)練;訓(xùn)練的初始學(xué)習(xí)率設(shè)置為0.000 1,并在開始訓(xùn)練前進(jìn)行步長為5的warm-up訓(xùn)練,同時采用一維線性插值調(diào)整學(xué)習(xí)率,并在訓(xùn)練過程中采用余弦退火算法實現(xiàn)學(xué)習(xí)率的實時調(diào)整;訓(xùn)練步數(shù)設(shè)置為1 200步,并根據(jù)計算機配置設(shè)置batch size為32。
基于以上數(shù)據(jù)集和實驗配置,本實驗對比了YOLOv5a、Transformer和本文提出的DETR-YOLO3種模型。圖8為3種模型的訓(xùn)練情況。
圖8 3種模型訓(xùn)練過程對比Fig.8 Comparison of training process of three models
從圖8(a)和圖8(b)可以看出,3種模型的位置和置信度損失值均隨著訓(xùn)練步數(shù)的增加而不斷減小并最終趨于穩(wěn)定,達(dá)到擬合狀態(tài)。其中,本文模型由于使用了多尺度特征復(fù)融合策略以及SENet注意力機制,所以能夠獲得更加全面、細(xì)節(jié)的特征,因此置信度損失值最低。在位置損失值上,本文模型由于融合了DETR模塊,所以在初始階段需要進(jìn)行位置信息編碼,造成初始損失值較高,但是隨著訓(xùn)練步數(shù)的不斷增加,DETR全局感知和并行信息處理的優(yōu)勢逐漸發(fā)揮。同時,WBF策略充分考慮各個預(yù)測框的權(quán)重比例,避免有效預(yù)測框的信息丟失,使位置損失值迅速下降并趨于收斂,并在1 200步時和YOLOv5a幾乎一樣。
從圖8(c)和圖8(d)可以看出,本文模型雖然融合了DETR,在結(jié)構(gòu)明顯復(fù)雜于YOLOv5a模型的情況下訓(xùn)練時間僅延長了10 min,并且無論是在CPU線程使用數(shù)量還是GPU內(nèi)存使用上均低于YOLOv5a。
3種模型在驗證集上的平均精度AP值如圖9所示。從圖9(a)可以看出在IoU設(shè)置為0.5時,3種模型均在訓(xùn)練600步后AP值達(dá)到1。為更好的對訓(xùn)練模型性能進(jìn)行比較,本實驗比較了IoU閾值為0.5至0.95,步長為0.05情況下3種模型的AP值,具體如圖9(b)所示。由圖9可知,本實驗?zāi)P虯P值最終達(dá)到0.691,在訓(xùn)練過程中整體高于YOLOv5a和Transformer模型,并在訓(xùn)練700步后模型趨于穩(wěn)定,在訓(xùn)練速度和效率上同樣優(yōu)于其他兩個模型。
圖9 3種模型AP值對比Fig.9 Comparison of AP values of three models
綜上,本文模型以少量訓(xùn)練時間增加為代價取得最低的訓(xùn)練損失值以得到檢測性能最佳的模型,同時以更低的硬件要求滿足工程化部署需求。
為評估訓(xùn)練完成后模型的檢測性能,將YOLOv5a、Transformer和本文模型在測試集上進(jìn)行檢測,并以AP值和每秒檢測幀數(shù)(frames per second, FPS)作為量化指標(biāo),評估模型檢測精度和效率;以生成模型的權(quán)重大小作為輕量化以及工程化的評估依據(jù),3種模型具體的檢測量化結(jié)果如表1所示。
表1 3種模型在測試集檢測結(jié)果對比
從表1可知,本文模型在AP值上明顯高于其他兩個模型,AP_0.5達(dá)到84.5%,較其他兩個模型分別提高了2.7%和7.2%,AP_0.5~0.95達(dá)到57.7%,較其他兩個模型分別提高了6.1%和13.8%,說明本文提出的模型具有最佳的檢測精度;模型結(jié)構(gòu)的復(fù)雜勢必會帶來檢測速度的降低和權(quán)重的增加。因此,雖然在FPS和權(quán)重上DETR-YOLO模型較其他兩個模型略有遜色,但是減少的少量FPS和增加的少量權(quán)重對模型輕量化和工程部署不會帶來實質(zhì)性影響。同時,以少量的檢測速度和模型權(quán)重增加為代價換來的檢測精度的大幅度提高是極具性價比的。
為驗證多尺度特征復(fù)融合和SENet等策略的有效性,同樣以AP值和FPS為評估指標(biāo),采用控制變量法對比分析各個策略對模型檢測性能的影響,實驗結(jié)果如表2所示。
表2 不同策略的檢測效果對比
對比組別1與YOLOv5模型可知,DETR模塊的融入使AP_0.5提升了1.36%,并且FPS提升了11幀,證明DETR模塊無論是在檢測精度還是檢測效率上都有顯著的提升。對比組別1和組別2可知,多尺度特征復(fù)融合的融入使AP_0.5提升了0.85%,代表了檢測精度的提高,證明了該策略可有效的實現(xiàn)特征參數(shù)的聚合,強化語義特征和定位特征的學(xué)習(xí),降低信息損失帶來的影響。但FPS下降了12幀,代表了新增的結(jié)構(gòu)和參數(shù)帶來了計算量的增加,一定程度上降低了檢測的效率。對比組別1和組別3可知,SENet模塊的融合使AP_0.5提升了0.41%,證明注意力機制的引入在增強有益特征學(xué)習(xí)的同時抑制了冗余特征的學(xué)習(xí),加強了特征學(xué)習(xí)的針對性。在結(jié)合多尺度特征復(fù)融合和SENet策略后,通過對比組別1和組別4可知,兩種策略的結(jié)合使AP_0.5提升了1.36%,同時也帶來了FPS上14幀的損失。對比組別4和組別2,3可知,兩種策略的結(jié)合要優(yōu)于單一策略的使用。綜上,模型模塊的增加勢必會帶來結(jié)構(gòu)的復(fù)雜和計算量的增加并導(dǎo)致檢測效率的降低。但是,本文模型在如何以盡可能少的效率損失換來檢測精度的大幅提升上取得了較好的成績。
圖10為3種模型的部分沉船目標(biāo)檢測效果對比圖,從左至右分別為原圖、標(biāo)注圖、Transformer、YOLOv5a以及DETR-YOLO模型檢測效果圖。
圖10 3種模型檢測結(jié)果對比圖Fig.10 Comparison of detection results of three models
由圖10可知,Transformer模型僅能滿足檢測出沉船目標(biāo)的要求,但是在定位精度和置信度上都沒有出色的檢測表現(xiàn);YOLOv5a模型較Transformer模型在檢測性能上有較大的提升,但是在重疊目標(biāo)上存在漏警的問題;而本文提出的DETR-YOLO模型無論是在定位精度、置信度還是重疊目標(biāo)的檢測上都有顯著的性能提升,尤其是第一組的重疊沉船目標(biāo)檢測上,在對細(xì)節(jié)準(zhǔn)確區(qū)分的同時依舊保持較高的定位精度和置信度。
由于水聲信號具有時變性和空變形,海水中存在各種環(huán)境噪聲影響,且不同的海況以及海洋環(huán)境會對聲納影像造成不同程度的干擾,其中斑點噪聲是影響側(cè)掃聲納影像質(zhì)量的主要因素。因此,為了更好的模擬不同海洋環(huán)境下的實際情況,從上至下分別對影像添加期望為0,標(biāo)準(zhǔn)差為20、60、100的瑞利噪聲。3種模型的檢測效果對比圖如圖11所示,從左至右分別為Transformer、YOLOv5a和DETR-YOLO。從圖11(a)看出,對于添加了標(biāo)準(zhǔn)差為20、60和80的瑞利噪聲后的影像,Transformer模型能夠識別出右下角的大尺度目標(biāo),但是置信度和定位精度都大幅度下降,而對于左上角的目標(biāo)全部漏檢。從圖11(b)看出,YOLOv5a對于添加標(biāo)準(zhǔn)差為20的瑞利噪聲后的影像能夠檢測出所有沉船目標(biāo),但是卻虛警了中間和左下角的非沉船目標(biāo)。從圖11(c)看出,DETR-YOLO模型對于添加標(biāo)準(zhǔn)差20、60和100瑞利噪聲的影像均檢測出所有目標(biāo),且無論是在檢測的置信度還是定位精度上,都明顯優(yōu)于其他兩個模型。雖然在標(biāo)準(zhǔn)差為60和100的瑞利噪聲影響下分別虛警了右上角和左下角的目標(biāo),但是在真實的實際搜救任務(wù)中,虛警的價值要遠(yuǎn)遠(yuǎn)高于漏警的價值,這在一定程度上反應(yīng)了本文提出的DETR-YOLO模型能夠更好適應(yīng)海洋的復(fù)雜環(huán)境,具有更優(yōu)異的檢測性能和泛化能力,魯棒性強,具有更強的實用性與指導(dǎo)意義。
針對如何在復(fù)雜海洋噪聲背景下進(jìn)一步提高小尺度海底沉船目標(biāo)檢測的準(zhǔn)確性、降低重疊目標(biāo)的漏警率和虛警率的同時實現(xiàn)模型輕量化的現(xiàn)實需求,提出了基于DETR-YOLO模型的側(cè)掃聲納沉船目標(biāo)檢測模型,通過融合DETR與YOLOv5結(jié)構(gòu),加入多尺度特征復(fù)融合模塊,融入注意力機制SENet,采用WBF加權(quán)融合框策略,提升模型的整體檢測性能。實驗結(jié)果表明,DETR-YOLO模型在測試集中AP_0.5和AP_0.5∶0.95值分別達(dá)到84.5%和57.7%,較Transfermer和YOLOv5a模型大幅度提高;DETR-YOLO模型在檢測精度和檢測效率以及模型權(quán)重和模型結(jié)構(gòu)上取得了較好的平衡,滿足工程部署對模型輕量化的要求,對復(fù)雜海況下沉船搜救具有重要現(xiàn)實價值。