馬如鉞,王晨光,曹慧亮,申 沖,唐 軍,劉 俊
(1.中北大學(xué) 信息與通信工程學(xué)院,太原 030051;2.中北大學(xué) 儀器與電子學(xué)院,太原 030051)
偏振是光的重要物理特性,它可以表征場景中任何物體反射的光波,即使在弱光照或強(qiáng)反射的情況下,偏振也能夠描述物體的重要物理特性,包括其表面幾何結(jié)構(gòu)、材料性質(zhì)及其粗糙度。反射光的偏振態(tài)與物體的強(qiáng)度、形狀和反射特性等物理特性高度相關(guān)[1]。偏振成像技術(shù)是通過獲取線偏振度(DoLP,degree of linear polarization)圖像和偏振角(AoP,angle of linear polarization)圖像來獲得目標(biāo)的內(nèi)在屬性,作為一種先進(jìn)的技術(shù),它不僅能獲得目標(biāo)的偏振信息,還能提供二維空間的光強(qiáng)分布特征,在許多領(lǐng)域都有廣泛的潛在應(yīng)用,包括目標(biāo)探測[2-3]、通信[4]、水下探測[5]和醫(yī)療成像[6]等領(lǐng)域。
然而光的偏振特性容易受到環(huán)境(如霧霾、陰雨、弱光)的影響,使得偏振圖像質(zhì)量難以達(dá)到適用水平。由于可見光圖像和偏振圖像往往具有互補(bǔ)特性,研究人員通常采用將DoLP圖像與 AOP 圖像融合或?qū)oLP圖像與可見光圖像融合等方法來增加圖像信息,從而提高單幅偏振圖像的多維細(xì)節(jié)信息。偏振圖像融合方法主要分為傳統(tǒng)融合方法和神經(jīng)網(wǎng)絡(luò)融合方法兩類,目前較為常見且應(yīng)用廣泛的為神經(jīng)網(wǎng)絡(luò)融合方法。2021年,文獻(xiàn)[7]提出了一種新型的自學(xué)習(xí)策略深度神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)驗(yàn)證該方法在視覺質(zhì)量和定量測量方面均優(yōu)于幾種最先進(jìn)的方法;2022年,文獻(xiàn)[8]利用改進(jìn)的小波模式最大值算法提取光強(qiáng)圖像和偏振度圖像的邊緣,然后對兩個(gè)邊緣進(jìn)行細(xì)化和融合得到最終的邊緣信息,最終可獲得邊緣更清晰的融合圖像;文獻(xiàn)[9]提出了一種基于 Transformer 的深度神經(jīng)網(wǎng)絡(luò),對紅外偏振圖像的長程特征進(jìn)行編碼,利用自注意機(jī)制獲取全局上下文信息,以提高紅外偏振圖像融合的性能;文獻(xiàn)[10]通過像素信息引導(dǎo)和注意力機(jī)制提出了一種新型無監(jiān)督偏振和可見光圖像融合網(wǎng)絡(luò),設(shè)計(jì)了損失函數(shù)來執(zhí)行融合圖像與源圖像之間的像素分布約束,展現(xiàn)出更豐富的偏振信息和更優(yōu)良的亮度。這些融合方法都為后期偏振成像在目標(biāo)檢測等領(lǐng)域打下堅(jiān)實(shí)的基礎(chǔ)。
目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域內(nèi)的熱門研究課題,其目的是在圖像中定位出目標(biāo)的位置并識(shí)別出目標(biāo)物的類別,近年來深度學(xué)習(xí)算法在目標(biāo)檢測中的廣泛應(yīng)用足以證明其優(yōu)越性,不僅可以高精度檢測物體,還在處理速率上達(dá)到質(zhì)的飛躍。目前基于深度學(xué)習(xí)網(wǎng)絡(luò)的目標(biāo)檢測算法主要分為兩類:第一類是兩階段目標(biāo)檢測算法,例如Fast R-CNN(Region-convolutional Neural Network)[11]、Faster R-CNN[12]、Mask R-CNN[13]等,這類算法將檢測任務(wù)分為兩步,相比傳統(tǒng)目標(biāo)檢測算法能夠提取到更加豐富、深層的圖像特征信息,同時(shí)檢測精度和檢測速度都得到了大幅的提升,但兩階段算法仍然難以滿足實(shí)時(shí)目標(biāo)檢測的要求;因此第二類單階段目標(biāo)檢測算法應(yīng)運(yùn)而生,例如SSD(Single Shot MultiboxDetector)[14]、YOLO(You Only Look Once)系列算法[15-18]等,此類算法直接將圖像輸入檢測網(wǎng)絡(luò),能夠達(dá)到實(shí)時(shí)檢測的要求,因此單階段算法成為目前熱門的研究方向,應(yīng)用領(lǐng)域也更加廣泛。文獻(xiàn)[19]針對小目標(biāo)物體提出了一種特征金字塔結(jié)構(gòu)RetinaNet,有效提升了小目標(biāo)的檢測精度;文獻(xiàn)[20]提出了基于中心點(diǎn)的方法CenterNet,使用關(guān)鍵點(diǎn)估算來尋找中心點(diǎn),并對所有其他物體屬性進(jìn)行回歸,如大小、三維位置、方向甚至姿態(tài)等;文獻(xiàn)[21]使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)將物體邊界框檢測為一對關(guān)鍵點(diǎn),將目標(biāo)檢測分為圖像分類和目標(biāo)定位兩個(gè)子任務(wù),并且引用了新型池化層,解決遮擋和多目標(biāo)問題。文獻(xiàn)[22]將卷積模塊替換為基于自注意力機(jī)制的swinblock結(jié)構(gòu),將注意力機(jī)制計(jì)算限制在非重疊的局部窗口,同時(shí)允許跨窗口連接,獲得較好的檢測效果。
盡管目前的圖像融合算法和目標(biāo)檢測算法已經(jīng)取得了較好的性能,但針對偏振目標(biāo)的檢測,尤其是極端天氣下的目標(biāo)檢測研究還不夠充分,同時(shí)目前也沒有公開使用的偏振數(shù)據(jù)集,這對偏振成像下的目標(biāo)檢測的研究有一定阻礙。為研究暗光條件下的目標(biāo)檢測,提高基于偏振成像的目標(biāo)檢測精度,本文首先構(gòu)建了暗光場景下的偏振數(shù)據(jù)集,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的可見光圖像與偏振圖像融合網(wǎng)絡(luò),對損失函數(shù)進(jìn)行了優(yōu)化,以更大程度地還原偏振圖像細(xì)節(jié)信息。還引入了一種基于拉普拉斯算子的圖像增強(qiáng)方法,利用待測目標(biāo)灰度與偏振圖像中背景噪聲灰度之間的差值來提高偏振圖像的質(zhì)量,最終得到同時(shí)具有偏振信息和可見光信息的待測目標(biāo)。在偏振圖像增強(qiáng)的基礎(chǔ)上,基于YOLOv5s提出了一種輕量化自注意力機(jī)制的目標(biāo)檢測模型。通過引入CA(Coordinate Attention)注意力機(jī)制,不僅同時(shí)引入空間注意力和通道注意力,還考慮到長程依賴的問題,有效實(shí)現(xiàn)了檢測精度的提升。最后,我們使用主觀和客觀的評估標(biāo)準(zhǔn)對融合算法以及目標(biāo)檢測算法進(jìn)行評估,并將提出的目標(biāo)檢測算法與幾種經(jīng)典目標(biāo)檢測算法進(jìn)行比較,使用多個(gè)評價(jià)指標(biāo)來評估所提出的網(wǎng)絡(luò)的可靠性和可用性。
本文所提出的圖像融合網(wǎng)絡(luò)總體架構(gòu)如圖1所示,旨在實(shí)現(xiàn)更好的圖像融合效果。該模型基于卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network),主要由3部分組成:編碼器、融合模塊和解碼器。首先,將可見光圖像S0和偏振度圖像DoLP同時(shí)輸入編碼器,分別提取其圖像特征,然后由圖像融合模塊進(jìn)行融合,最后,融合后的特征圖進(jìn)入解碼器,以便解碼器重建最終的融合圖像。在該網(wǎng)絡(luò)結(jié)構(gòu)中,濾波器和步長分別為 3×3 和 1。在整個(gè)過程中,圖像大小不會(huì)改變,并使用零填充操作來確保圖像大小的一致性。表1為具體的網(wǎng)絡(luò)配置參數(shù)表。接下來將詳細(xì)介紹這3部分的結(jié)構(gòu)與作用。
表1 網(wǎng)絡(luò)配置參數(shù)
圖1 本文提出的圖像融合網(wǎng)絡(luò)架構(gòu)
圖2 Dense Block網(wǎng)絡(luò)架構(gòu)
融合網(wǎng)絡(luò)部分:將兩個(gè)特征圖進(jìn)行物理拼接,得到一個(gè)包含128個(gè)通道的融合特征圖,然后將其作為解碼器的輸入。其中活動(dòng)水平測量和融合規(guī)則在隨后的卷積層中自主學(xué)習(xí),無需人工設(shè)計(jì)。
在數(shù)字圖像處理領(lǐng)域,拉普拉斯算子[26]常用于圖像增強(qiáng)、邊緣檢測和模糊判定等任務(wù)。它也是工程數(shù)學(xué)中常見的積分變換,具有旋轉(zhuǎn)不變性,即無論圖像如何旋轉(zhuǎn),得到的響應(yīng)都是不變的。當(dāng)圖像灰度發(fā)生劇烈變化時(shí),對其進(jìn)行一階微分會(huì)形成局部極值,而對其進(jìn)行二階微分則會(huì)形成過零點(diǎn),這個(gè)零點(diǎn)的一邊會(huì)產(chǎn)生波峰,另一邊會(huì)產(chǎn)生波谷,因此可以設(shè)置一個(gè)閾值來檢測這個(gè)過零點(diǎn)。函數(shù)的一階微分和二階微分如圖3所示。
圖3 函數(shù)的一階微分和二階微分表示
二維圖像的拉普拉斯變換是每個(gè)同相項(xiàng)的二階導(dǎo)數(shù),其定義如下:
(1)
在數(shù)字圖像處理中,平面圖像可以看作是像素點(diǎn)在x和y兩個(gè)方向上的集合排列,在分布上是離散的,因此拉普拉斯算子一般使用微分近似,如下式所示:
▽2(f)=f(x+1,y)+f(x-1,y)+
f(x,y+1)+f(x,y-1)-4f(x,y)
(2)
拉普拉斯算子對原始圖像進(jìn)行變換時(shí),保留了圖像的高頻成分,抑制了圖像的低頻成分,從而增強(qiáng)了圖像灰度跳變處的對比度,增強(qiáng)了圖像的細(xì)小細(xì)節(jié)部分,保留了圖像的背景色調(diào),使圖像的細(xì)節(jié)比原始圖像更加清晰。
損失函數(shù)用于評估模型預(yù)測值與真實(shí)值之間的差異程度[27],差異值越小則表明模型的效果越好,因此損失函數(shù)的選擇在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中非常重要。結(jié)構(gòu)相似度(SSIM,structure similarity)的概念于2004年提出[28],它從圖像中提取3個(gè)主要特征:結(jié)構(gòu)、亮度和對比度,然后根據(jù)這3個(gè)特征比較兩幅圖像的相似度,其定義為:
(3)
(4)
(5)
∑w(βw·SSIM(IS0,IF;w)+(1-βw)·SSIM(IDOP,IF;w))
(6)
其中:w∈{3,5,7,9,11}表示不同的窗口,同時(shí)用不同的窗口提取不同尺度的特征信息,SSIM(x,y;w)表示窗口w下兩幅圖像的結(jié)構(gòu)相似度,βw為權(quán)重系數(shù),計(jì)算公式如下:
(7)
LossMWSSIM主要從3個(gè)方面比較源圖像和融合圖像的結(jié)構(gòu)相似性,但忽略了一些細(xì)節(jié)信息,如像素信息、邊緣信息等。然而,細(xì)節(jié)信息在圖像應(yīng)用中至關(guān)重要。為了更好地訓(xùn)練模型,減少源圖像和融合圖像之間的細(xì)節(jié)信息差異,我們在圖像邊緣損失函數(shù)中引入了多尺度加權(quán)融合質(zhì)量指標(biāo)QW[29],定義如下:
QO{(x,f;w)+[[1-λ(w)]·QO(y,f;w)]}
(8)
(9)
(10)
(11)
其中:s(x;w)反映了窗口w中圖像x的局部相關(guān)性,它一般取決于對比度、清晰度或熵等因素。由于本算法中的圖像增強(qiáng)更側(cè)重于圖像邊緣,因此我們選擇對比度來表示圖像特征。λ(w)表示圖像x相對于圖像y的相對重要性,其取值介于0和1之間。給相對于輸入圖像具有較高顯著性的窗口分配更多權(quán)重,如公式 (9) 所示,c(w)為窗口的總體顯著性權(quán)重。此外,QO(x,y;w)是窗口w中x和y的相似度度量,取值在-1和1之間,當(dāng)圖像x和y相等時(shí),最大值為 1。
最終的損失函數(shù)表示如下:
Loss=LossMWSSIM+αLossQW
(12)
其中:α是平衡參數(shù),用于平衡損失函數(shù)的數(shù)量級,在實(shí)驗(yàn)中設(shè)定為α=0.1。
YOLO算法最初是由Redmon等人[15]提出的一種目標(biāo)檢測算法,區(qū)別于傳統(tǒng)目標(biāo)檢測算法,該框架直接根據(jù)檢測性能進(jìn)行端到端的優(yōu)化,并且達(dá)到了實(shí)時(shí)處理圖像的要求,優(yōu)于領(lǐng)域內(nèi)其他檢測方法。隨著研究人員的深入研究拓展,YOLO系列算法已經(jīng)發(fā)展到v8模型。YOLOv5在YOLO系列中是當(dāng)前使用最廣泛也是效果最好的目標(biāo)檢測模型之一,本文通過對其改進(jìn)以實(shí)現(xiàn)對暗光條件下偏振成像的目標(biāo)檢測。
如圖4所示,YOLOv5主要由4個(gè)部分構(gòu)成:Input(輸入端)、Backbone(主干網(wǎng))、Neck(頸部)和Head(頭部)。輸入端采用了Mosaic數(shù)據(jù)增強(qiáng),一般使用4張圖片按照一定比例進(jìn)行拼接,從而縮小目標(biāo)識(shí)別范圍;采用自適應(yīng)錨框計(jì)算,不同于前YOLO系列的模型使用單獨(dú)腳本進(jìn)行錨框計(jì)算,YOLOv5在訓(xùn)練前會(huì)根據(jù)不同數(shù)據(jù)集來自適應(yīng)地計(jì)算錨框;采用自適應(yīng)圖片縮放,自動(dòng)計(jì)算圖片縮放比例并縮短黑邊以提高檢測速度。Backbone模塊采用Focus結(jié)構(gòu)和CSP結(jié)構(gòu)提高了計(jì)算力,且不會(huì)丟失有用信息。Neck模塊中采用了CSPNet設(shè)計(jì)的CSP2結(jié)構(gòu),加強(qiáng)網(wǎng)絡(luò)的圖像特征融合能力。最后在Head結(jié)構(gòu)中采用了Boundingbox損失函數(shù)和NMS非極大值抑制,NMS主要用來消除檢測時(shí)冗余的框,提高檢測效率。YOLOv5算法通過靈活的參數(shù)配置和超參優(yōu)化策略,達(dá)到優(yōu)異性能的同時(shí)體量相比后YOLO系列算法更小,適合應(yīng)用于實(shí)時(shí)偏振目標(biāo)檢測場景。
圖4 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
一般的注意力機(jī)制在求取通道注意力的時(shí)候,通道的處理一般是采用全局最大池化或者平均池化,而這樣會(huì)損失掉物體的空間信息,因此引用CA(Coordinate Attention)注意力機(jī)制[30],CA通過獲取精確的位置信息對通道關(guān)系和長期依賴性進(jìn)行編碼,將位置信息嵌入到了通道注意力中,也就是引入了空間注意力機(jī)制。CA注意力機(jī)制的算法流程圖5所示,具體操作主要為Coordinate信息嵌入和Coordinate Attention生成。
圖5 CA注意力機(jī)制流程圖
1)首先對全局平均池化進(jìn)行分解,獲取具有精準(zhǔn)位置信息的遠(yuǎn)程空間交互信息。Input為輸入的特征圖像,尺寸為C×H×W,然后對Input分別進(jìn)行X方向與Y方向的池化操作,從而生成尺寸為C×H×1和C×1×W的特征圖,通過這種方法產(chǎn)生的特征圖可以使CA注意力在一個(gè)通道內(nèi)捕獲長距離的依賴關(guān)系,并且有助于保留精確的位置信息,從而使網(wǎng)絡(luò)能夠更加準(zhǔn)確地定位對象,圖6展示了特征圖的平均池化過程。
圖6 特征圖的平均池化過程
2)將生成的尺寸為C×1×W的特征圖zh和zw進(jìn)行Concat操作,即按空間維度進(jìn)行拼接:
(13)
(14)
f=δ{F1[(zh,zw)]}
(15)
拼接后得到特征圖f∈RC/r×(H+W)×1,其中r用于控制塊的減小率。再將特征圖經(jīng)過F1卷積變換函數(shù)(1×1卷積)和非線性激活函數(shù)產(chǎn)生中間特征圖f。
3)基于空間維度,將中間特征圖f進(jìn)行split操作拆分成兩個(gè)張量,分別表示為fh∈RC/r×H×1和fw∈RC/r×1×W,然后利用Fh和Fw卷積變換函數(shù)(1×1卷積)升維度,再結(jié)合sigmoid激活函數(shù)得到最終的坐標(biāo)注意力向量gh∈RC×H×1和gw∈RC×1×W:
gh=σ[Fh(fh)]
(16)
gw=σ[Fw(fw)]
(17)
4)將gh∈RC×H×1和gw∈RC×1×W與源輸入相乘,即CA注意力機(jī)制的輸出公式為:
(18)
CA不僅同時(shí)引入空間注意力和通道注意力,解算二者之間的關(guān)系,還考慮到長程依賴的問題,有效實(shí)現(xiàn)了檢測精度的提升;同時(shí)其參數(shù)量、計(jì)算量相比其他注意力機(jī)制也較少,這種足夠輕量與靈活的特點(diǎn)使其能夠更便捷地插入到輕量級網(wǎng)絡(luò)的模塊中。
由于沒有足夠成熟且龐大的公開偏振圖像數(shù)據(jù)集,本文自制了偏振數(shù)據(jù)集用于訓(xùn)練與測試網(wǎng)絡(luò)。數(shù)據(jù)集來自 Lucid 的 Phoenix PHX050S-PC 偏振相機(jī),Phoenix 相機(jī)傳感器芯片集成了4個(gè)方向的納米級陣列偏振片,可以同時(shí)獲取4個(gè)方向的偏振圖像。共獲取了500 幅大小為 1 224×1 024 的偏振圖像,主要場景包括陰天暗光環(huán)境下建筑物、汽車、行人與單車等,圖7展示了數(shù)據(jù)集中的一些代表性圖像。偏振圖像按照相鄰的4個(gè)像素進(jìn)行分解,得到 0、45、90和135°共4個(gè)不同偏振方向的圖像,分解后的圖像大小為 612×512,同時(shí)進(jìn)行歸一化處理,以便統(tǒng)一像素范圍。用于訓(xùn)練和測試的計(jì)算機(jī)配置為Intel(R) Core(TM) i5-7300HQ CPU @2.50 GHz和(NVIDIA)GeForce GTX 1050。
圖7 部分?jǐn)?shù)據(jù)集中的圖像
對于圖像融合網(wǎng)絡(luò):在網(wǎng)絡(luò)模型的訓(xùn)練階段,選取了200對圖像作為融合網(wǎng)絡(luò)數(shù)據(jù)集,其中150對圖像用于訓(xùn)練圖像融合網(wǎng)絡(luò),40對圖像用于檢驗(yàn)網(wǎng)絡(luò),剩余的圖像則用于測試網(wǎng)絡(luò)性能,在訓(xùn)練之前先對可將光圖像與偏振度圖像的像素范圍規(guī)范在[1,0]內(nèi)以便模型處理。在訓(xùn)練、驗(yàn)證和測試過程中均不對源圖像進(jìn)行任何變動(dòng),直接輸入模型。在參數(shù)設(shè)置方面,學(xué)習(xí)率設(shè)為 0.000 1,訓(xùn)練輪數(shù)設(shè)為 30,批次大小設(shè)為 128,并在 TensorFlow 平臺(tái)上實(shí)現(xiàn)網(wǎng)絡(luò)模型,使用Adam優(yōu)化器訓(xùn)練模型。
對于目標(biāo)檢測網(wǎng)絡(luò):由于數(shù)據(jù)集的數(shù)量相對較少,不足以充分訓(xùn)練改進(jìn)的YOLOv5模型,本文對數(shù)據(jù)集進(jìn)行增強(qiáng)處理,通過水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、裁剪拼接、改變亮度等方式將原有的500幅圖像增強(qiáng)到3 273張,達(dá)到了充足訓(xùn)練網(wǎng)絡(luò)的水平。在訓(xùn)練前先將數(shù)據(jù)集以7∶2∶1的比例分成3部分,分別作為訓(xùn)練集、測試集和驗(yàn)證集用于模型中,選取汽車、行人與單車3個(gè)標(biāo)簽作為目標(biāo)檢測類別。權(quán)重衰減率為0.000 5,初始學(xué)習(xí)率設(shè)為 0.01,訓(xùn)練輪數(shù)設(shè)為100,批次大小為16,動(dòng)量因子設(shè)置為0.937,在Pytorch平臺(tái)上實(shí)現(xiàn)網(wǎng)絡(luò)模型。
首先使用主觀方法對圖像融合網(wǎng)絡(luò)的效果進(jìn)行評估,圖8展示了兩個(gè)場景下的圖像融合結(jié)果,其中S0為可見光圖像,DolP為偏振度圖像,AoP為偏振角圖像,Ave為S0和DolP的平均圖像,Our則為S0和DolP的平均圖像。從主觀上來看,本文所提出的圖像融合方法可以將可見光圖像的目標(biāo)信息與偏振度圖像的偏振細(xì)節(jié)信息有效融合,并且融合后的圖像呈現(xiàn)出較好的視覺效果,對比度增強(qiáng)且邊緣清晰,融合后的圖像可以應(yīng)用到目標(biāo)檢測場景中。
圖8 圖像融合網(wǎng)絡(luò)效果圖
使用主觀方法對圖像融合網(wǎng)絡(luò)的效果進(jìn)行評估,本文建立了不同的驗(yàn)證集:可見光圖像驗(yàn)證集、偏振度圖像驗(yàn)證集和融合圖像驗(yàn)證集,使用改進(jìn)的YOLOv5目標(biāo)檢測算法在不同驗(yàn)證集下的檢測結(jié)果對比如圖9所示。第一組圖像為室內(nèi)光照不足條件下的人像圖,由于圖像融合后獲得清晰的邊緣信息,因此對人像的檢測有一定提升效果;第二組圖像中,由于左下角車輛玻璃的材質(zhì)以及反光影響,產(chǎn)生一定的偏振噪聲,導(dǎo)致融合后的精度降低,但其他目標(biāo)的精度均有提升,尤其是對于小弱目標(biāo)的檢測精度;第三組圖像中最左側(cè)的車輛在可見光圖像下未識(shí)別出,待測目標(biāo)有一定遮擋且尺度較小,肉眼也很難觀測到,而融合后的圖像具有更多特征信息,能夠被有效檢測;在第四組圖像中,拍攝場景在多云陰天,有較多環(huán)境干擾信息,經(jīng)過圖像融合后有效抑制了環(huán)境造成的冗余特征,將關(guān)注點(diǎn)更多地放在有用區(qū)域。
圖9 不同驗(yàn)證集下的檢測結(jié)果對比圖
接下來對改進(jìn)的YOLOv5模型進(jìn)行可行性分析,改進(jìn)模型的損失函數(shù)曲線如圖10所示,其中box_loss為目標(biāo)錨框的定位面向暗光場景的目標(biāo)偏振可見光融合檢測方法損失,obj_loss是置信度損失,loss為總損失。觀察圖中曲線可看出3種損失均在訓(xùn)練過程中逐漸收斂,最終達(dá)到一個(gè)穩(wěn)定值,總損失loss在前15輪迅速下降到0.03以下,在之后的輪次也逐漸趨于穩(wěn)定,最終達(dá)到0.000 5左右,說明了模型的穩(wěn)定性與有效性。
圖10 損失函數(shù)曲線
為更好地驗(yàn)證本文改進(jìn)的YOLOv5模型的優(yōu)勢,選取幾種目前主流的目標(biāo)檢測算法:Faster-R-CNN[11]、YOLOv4[18]、YOLOv5s、YOLOv5m和YOLOv5l,在相同數(shù)據(jù)集下進(jìn)行對比實(shí)驗(yàn),并且使用針對目標(biāo)檢測的評價(jià)標(biāo)準(zhǔn)進(jìn)行客觀性評價(jià),評價(jià)標(biāo)準(zhǔn)主要有以下幾個(gè):召回率μR,表示模型預(yù)測的正樣本數(shù)占實(shí)際正樣本數(shù)的比例,也稱為查全率;精確率μP,表示預(yù)測正確樣本數(shù)占所有識(shí)別為正樣本的樣本比例;均值平均精度mAP@0.5,代表模型在IOU閾值為0.5時(shí)的平均精度,其中IOU是交并比,表示模型預(yù)測的目標(biāo)框和人工標(biāo)定目標(biāo)框的交并集之間的比例;均值平均精度mAP@0.5∶0.95,代表IOU閾值從0.5~0.95,步長為0.05時(shí)的平均精度;推理時(shí)間t,表示模型檢測一張圖像所需要的時(shí)間;平均精度AP,指P-R曲線的面積,代表平均精度,計(jì)算公式如下:
(19)
(20)
(21)
其中:P(R)表示P-R曲線;FN表示樣本的真實(shí)類別是正樣本,但是模型將其預(yù)測為負(fù)樣本;TP表示樣本的真實(shí)類別是正樣本,模型將其預(yù)測的結(jié)果也是正樣本;FP表示樣本的真實(shí)類別是負(fù)樣本,但是模型將其預(yù)測為正樣本。
不同算法的性能指標(biāo)對比結(jié)果如表2所示,可以看出本文算法與其他經(jīng)典算法相比,精確率和召回率都更高,分別為89.3%和82.5%;mAP@0.5只有本文算法和YOLOv5s達(dá)到了90%以上,但本文算法效果更好,相比YOLOv5s提高了2.6%;mAP@0.5∶0.95達(dá)到70%的有4種算法,本文算法略高與其他3種,相比于第二優(yōu)秀的YOLOv5s提高了1.8%;在檢測速率方面YOLOv5s算法的速度最快,由于本文算法引入了CA注意力機(jī)制,使檢測速率平均慢了2.9 ms,但在幾種算法中仍然具有一定優(yōu)勢,能夠滿足實(shí)時(shí)監(jiān)測的要求。整體來看,本文改進(jìn)的YOLOv5算法兼顧了實(shí)時(shí)性與檢測精度,通過引入注意力機(jī)制,有效抑制了陰天暗光等環(huán)境因素對目標(biāo)檢測的影響,將更多的注意力集中在待測目標(biāo)上,從而提升微小目標(biāo)的檢測精度與準(zhǔn)確度。
表2 不同算法的性能指標(biāo)對比結(jié)果
為了提高陰天暗光場景下的偏振目標(biāo)檢測效果,首先從改善可見光和偏振圖像的融合效果入手,提出了一種基于 CNN 的有效融合網(wǎng)絡(luò),該網(wǎng)絡(luò)以無監(jiān)督的方式進(jìn)行訓(xùn)練,無需手動(dòng)設(shè)計(jì)復(fù)雜的融合規(guī)則和活動(dòng)水平指標(biāo),而是可以在卷積層中自主學(xué)習(xí)。還引入了DenseBlock來充分提取圖像特征,設(shè)計(jì)了一個(gè)新的損失函數(shù)來確保網(wǎng)絡(luò)的融合性能,在更大程度上縮小了融合圖像與源圖像之間的差距,引入拉普拉斯算子來增強(qiáng)融合圖像的對比度和邊緣強(qiáng)度,最終得到同時(shí)具有偏振信息與可見光信息的待測目標(biāo)。然后提出了一種基于改進(jìn)的YOLOv5s模型,通過添加CA注意力機(jī)制將空間注意力機(jī)制與通道注意力機(jī)制相結(jié)合,使網(wǎng)絡(luò)更容易捕捉到待檢測目標(biāo)物,提升模型檢測精度,并且該模型足夠輕量,實(shí)時(shí)性高,全局感知能力強(qiáng)。
為驗(yàn)證所提算法的有效性,從主觀和客觀兩個(gè)方面評估了融合算法的有效性,通過與5種經(jīng)典目標(biāo)檢測算法進(jìn)行對比實(shí)驗(yàn),使用5種評估指標(biāo)對目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行評估。實(shí)驗(yàn)結(jié)果表明,本文所提出的偏振目標(biāo)檢測網(wǎng)絡(luò)相比最優(yōu)的YOLOv5s模型,精確率和召回率分別達(dá)到了89.3%和82.5%,mAP@0.5和mAP@0.5∶0.95分別提高了2.6%和1.8%,因此本文提出的圖像融合算法與目標(biāo)檢測算法解決了暗光條件下目標(biāo)信息缺失難以被檢測到的問題,先通過融合網(wǎng)絡(luò)將目標(biāo)的偏振信息與可見光信息相融合,構(gòu)成信息豐富的融合圖像,然后通過改進(jìn)的目標(biāo)檢測網(wǎng)絡(luò)將注意力集中在目標(biāo)物區(qū)域,從而提升目標(biāo)檢測的準(zhǔn)度與速度。相比于YOLOv5和其他主流目標(biāo)檢測模型在檢測精度、檢測時(shí)間等方面有較大提升,適合一些極端條件下的目標(biāo)檢測場景。本文在檢測速率以及模型輕量化方面仍有繼續(xù)提升的空間,也缺少對更多極端場景下的目標(biāo)檢測研究,這也是后續(xù)算法的進(jìn)一步優(yōu)化方向。