国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于邊緣增強(qiáng)和特征融合的偽裝目標(biāo)分割

2024-01-31 06:13李明巖吳川朱明
液晶與顯示 2024年1期
關(guān)鍵詞:尺度邊緣損失

李明巖, 吳川*, 朱明

(1.中國科學(xué)院 長春光學(xué)精密機(jī)械與物理研究所, 吉林 長春 130033;2.中國科學(xué)院大學(xué), 北京 100049)

1 引言

偽裝原本是指動(dòng)物用來隱藏自己或欺騙其他動(dòng)物的一種方法,而偽裝能力通常會影響這些動(dòng)物的生存概率。隨著仿生學(xué)技術(shù)的發(fā)展,偽裝技術(shù)也常被人類應(yīng)用于某些場合,例如現(xiàn)代軍隊(duì)所使用的迷彩。與顯著目標(biāo)檢測(Salient Object Detection, SOD)相比,偽裝目標(biāo)通常與背景具有高度相似性,因此偽裝目標(biāo)檢測(Camouflage Object Detection, COD)更加具有難度。

傳統(tǒng)的方法主要關(guān)注圖像的底層特征(如顏色、紋理、梯度等)來評估物體與背景的差異,基于三維凸度[1]、灰度共生矩陣[2]、Canny邊緣檢測器[3]、光流[4]等方法進(jìn)行偽裝目標(biāo)檢測。這些方法往往只考慮圖像的一部分特征,難以適用于所有場景。近年來,深度學(xué)習(xí)的方法在許多領(lǐng)域展現(xiàn)出優(yōu)異的性能,為一些傳統(tǒng)方法難以處理的問題提供了新的解決方案[5]。在圖像領(lǐng)域,通過卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)提取出的深度特征的表示能力要遠(yuǎn)強(qiáng)于圖像的底層特征,因此,研究人員開始嘗試用深度學(xué)習(xí)的方法來解決偽裝目標(biāo)分割的問題。Le等人建立了一個(gè)新的偽裝圖像數(shù)據(jù)集用于基準(zhǔn)測試,并提出了一個(gè)端到端網(wǎng)絡(luò),其中包括一個(gè)分割分支和另一個(gè)分類分支。分類分支用于預(yù)測圖像包含偽裝對象的概率,隨后用于增強(qiáng)分割分支中的分割性能[6]。Fan等人提出了SINet模型,該模型包含兩個(gè)模塊:搜索模塊定位偽裝目標(biāo),識別模塊精確檢測偽裝目標(biāo),同時(shí)建立了首個(gè)大規(guī)模偽裝目標(biāo)數(shù)據(jù)集[7]。Mei等人在偽裝目標(biāo)分割任務(wù)中引入了干擾的概念,開發(fā)了一種新的干擾識別和去除的干擾挖掘方法,幫助對偽裝目標(biāo)的準(zhǔn)確檢測[8]。Zhai等人將特征映射解耦為兩個(gè)特定的任務(wù):一個(gè)用于粗略地定位對象,另一個(gè)用于準(zhǔn)確地預(yù)測邊緣細(xì)節(jié),并通過圖迭代推理它們的高階關(guān)系[9]。Li等人提出聯(lián)合訓(xùn)練SOD和COD任務(wù),利用相互矛盾的信息同時(shí)提高兩個(gè)任務(wù)的表現(xiàn)[10]。

以上模型在多個(gè)偽裝目標(biāo)數(shù)據(jù)集上已經(jīng)取得了較好的效果,但仍存在一些問題:模型的全局建模能力不足,在存在多個(gè)偽裝目標(biāo)且與背景高度相似時(shí),模型容易出現(xiàn)漏檢和誤檢的問題。其次,這些模型舍棄了較低層次的特征,而較深層次的特征在進(jìn)行數(shù)次下采樣后分辨率迅速下降,雖然減少了計(jì)算量,但同時(shí)也丟失了大量的邊緣等細(xì)節(jié)信息,這也導(dǎo)致了模型的精度下降。最后,這些模型大多使用了極其復(fù)雜的特征融合策略,大幅提高了模型的復(fù)雜度與推理時(shí)間。

針對以上問題,本文提出了一種基于邊緣增強(qiáng)和多級特征融合的偽裝目標(biāo)分割模型。首先,選擇ResNet-50作為骨干網(wǎng)絡(luò),提取多級深度特征。其次,設(shè)計(jì)了一個(gè)邊緣提取模塊,選擇融合細(xì)節(jié)信息豐富的兩個(gè)較低層級特征,通過網(wǎng)絡(luò)的不斷學(xué)習(xí),得到精確的邊緣先驗(yàn)。同時(shí),通過引入多尺度特征增強(qiáng)模塊和跨層級特征聚合模塊,分別在層內(nèi)和層間增強(qiáng)特征表示,彌補(bǔ)多尺度表征能力不足的問題。之后,設(shè)計(jì)了一種簡單但有效的層間注意力模塊,利用相鄰層的差異性,有選擇地篩選出各層級間有用的信息,在保持層內(nèi)語義完整的同時(shí)濾除背景噪聲,再與邊緣先驗(yàn)引導(dǎo)結(jié)合,輸出精確的預(yù)測圖。最后,為了增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,本文采用加權(quán)二元交叉熵?fù)p失與加權(quán)IOU(Intersection-Over-Union)損失兩部分作為損失函數(shù),對3個(gè)不同尺度的輸出預(yù)測同時(shí)進(jìn)行深度監(jiān)督;采用單獨(dú)的加權(quán)二元交叉熵?fù)p失對邊緣預(yù)測圖進(jìn)行監(jiān)督,邊緣的真值可以使用Canny邊緣檢測方法從標(biāo)注圖中得到。本文方法在4個(gè)偽裝目標(biāo)公開數(shù)據(jù)集CHAMELEON[11]、CAMO[6]、COD10K[7]、NC4K[12]上與先進(jìn)的方法進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文方法在所有數(shù)據(jù)集的4個(gè)常用的評價(jià)指標(biāo)上均優(yōu)于其他方法,同時(shí)能夠滿足實(shí)時(shí)性的需要,表明本文方法在偽裝目標(biāo)分割任務(wù)上具有優(yōu)異的性能。

2 本文方法

如圖1所示。對于一幅輸入圖像I∈RH×W×3(其中H為圖像高,W為圖像寬,通道數(shù)為3),采用ResNet-50作為特征提取網(wǎng)絡(luò)[13],獲得不同尺度的特征fi,i∈{1,2,3,4,5}。首先,使用一個(gè)邊緣提取模塊來顯式地建模邊緣特征,以此指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)并提升檢測性能。然后,將獲得的多級特征通過多尺度特征增強(qiáng)模塊(Multi-scale Feature Enhanced Module, MFEM)篩選出更具辨識度的特征。增強(qiáng)后的特征圖每3個(gè)層級為1組,同時(shí)輸入到跨層級特征聚合模塊(Cross-level Fusion Module, CFM),有選擇地結(jié)合不同尺度下的有效特征。通過注意力模塊給有價(jià)值的信息以更高的權(quán)重。最后與邊緣信息加以結(jié)合,得到最終的偽裝目標(biāo)分割預(yù)測圖。

圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram

2.1 邊緣提取模塊

早期的一些相關(guān)工作[14-15]已經(jīng)證實(shí)了邊緣信息有助于提升計(jì)算機(jī)視覺任務(wù)的性能。在偽裝目標(biāo)分割任務(wù)中,由于目標(biāo)與背景的高度相似性,難以清晰地辨別偽裝對象與周圍環(huán)境之間的邊界?,F(xiàn)有的研究表明[16],通常只有低級特征保留了大量的邊緣細(xì)節(jié)信息,而在經(jīng)過多個(gè)下采樣操作后,細(xì)節(jié)信息會丟失。因此,本文設(shè)計(jì)了一個(gè)邊緣提取模塊,如圖1所示。自ResNet-50中提取出最低兩層的特征分別經(jīng)過兩個(gè)包含3×3卷積、批歸一化(Batch Normalization, BN)及ReLU激活函數(shù)的卷積組,用來保證兩組特征的通道數(shù)一致。然后通過逐元素相乘的方式得到融合的特征表示。將融合后的特征分別與卷積后的特征相加,用來抑制背景噪聲和增強(qiáng)感興趣區(qū)域。增強(qiáng)后的特征再次分別輸入兩個(gè)卷積組,通過拼接和一組1×1卷積進(jìn)行降維,得到全局邊緣引導(dǎo)特征圖fe。最后,將邊緣特征圖通過雙線性上采樣的方式恢復(fù)到與原圖相同的尺寸,用來監(jiān)督學(xué)習(xí)邊緣表示。目標(biāo)邊緣的真值圖可以通過對二值標(biāo)注圖進(jìn)行Canny邊緣檢測得到。

2.2 多尺度特征增強(qiáng)模塊

偽裝目標(biāo)通常具有較大的尺度范圍。每個(gè)單獨(dú)的卷積層只能處理一種特定的尺度,為了從單個(gè)層級獲取多尺度信息以表征尺度的變化,受Inception-V3[17]啟發(fā),設(shè)計(jì)了一個(gè)多尺度特征融合模塊(MFEM),如圖2所示。對于每個(gè)輸入的特征fi,每個(gè)MFEM包含4個(gè)并聯(lián)的殘差支路和一個(gè)主路。在每個(gè)殘差支路中,首先使用一個(gè)1×1卷積將特征的通道數(shù)降為64。接下來的兩層分別為(2i-1)×1和1×(2i-1)大小的卷積核,i∈{1,2,3,4}。這兩層卷積的串聯(lián)等效于兩個(gè)(2i-1)×(2i-1)大小的卷積核的串聯(lián),在不影響模塊表征能力的同時(shí)能夠減少計(jì)算的損耗。在支路的最后是一個(gè)膨脹率為(2i-1),i∈{2,3,4}的3×3卷積層,增大感受野以捕捉細(xì)粒度特征。最后,將4個(gè)支路的特征拼接在一起并通過卷積來保證通道數(shù)一致,拼接后的特征與主路相加后,通過ReLU函數(shù)來獲得輸出特征

圖2 多尺度特征增強(qiáng)模塊Fig.2 Multi-scale feature enhanced module

2.3 跨層級特征聚合模塊

在跨層級特征融合的過程中,如何有效地保持層內(nèi)語義的一致性及利用層間的相關(guān)性是構(gòu)建偽裝目標(biāo)分割網(wǎng)絡(luò)的關(guān)鍵。為此,本文提出了一個(gè)跨層級特征聚合模塊(CFM),如圖3所示。給定一組特征fi-1,fi,fi+1,i∈{2,3,4},首先將較高層的特征fi+1與中間層特征fi分別經(jīng)過一個(gè)卷積組后進(jìn)行逐元素相乘,其中fi+1在卷積前進(jìn)行一次雙線性上采樣操作以保證維度大小相同。將聚合后的特征再次進(jìn)行上采樣與卷積操作并與較低層特征相乘,得到i∈{2,3,4}。之后,將初步融合后的特征由較高層到較低層逐級進(jìn)行拼接操作。最后,將拼接后的特征矩陣分別經(jīng)過一個(gè)3×3大小的卷積組和一個(gè)1×1大小的卷積核,將通道數(shù)減少為原始通道數(shù),得到最后的輸出特征ffusei,i∈{2,3,4}。整個(gè)過程定義如式(1)~式(5)所示:

圖3 跨層級特征聚合模塊Fig.3 Cross-level fusion module

其中:Conv↑(· )表示一個(gè)2倍的雙線性上采樣接一個(gè)包含3×3卷積、批歸一化和ReLU函數(shù)的卷積組,Cat(· )表示對括號內(nèi)的兩個(gè)元素進(jìn)行拼接操作,Conv1(· )是一個(gè)單獨(dú)的1×1卷積核。接著,將輸出特征傳入注意力模塊進(jìn)行篩選。

2.4 注意力模塊

通過簡單的拼接或相加的方式融合的特征往往是復(fù)雜且低效的,大量的噪聲及低置信度的信息混雜在一起會對網(wǎng)絡(luò)的學(xué)習(xí)造成巨大的困難。為此,設(shè)計(jì)了一個(gè)簡單的注意力模塊,對CFM融合后的特征進(jìn)一步結(jié)合并篩選,模塊結(jié)構(gòu)圖見圖4。首先將兩組相鄰層級的特征fi,fi+1,i∈{2,3}進(jìn)行卷積處理,再分別通過一個(gè)1×1卷積將通道維度由C降為1。即:

圖4 層間注意力模塊Fig.4 Cross-layer attention module

其中:h、w分別表示特征的高度、寬度兩個(gè)維度的大小,c為通道數(shù)。將處理后的矩陣拼接并在通道維度上進(jìn)行Softmax函數(shù)計(jì)算,可以得到兩個(gè)不同的權(quán)重矩陣將兩個(gè)權(quán)重矩陣分別與對應(yīng)的特征圖相乘,可以得到:

f(x,y)表示該特征矩陣上對應(yīng)于(x,y)位置的元素。其中,ω值越大,表示該位置的信息越應(yīng)該被保留,反之則被舍去。最后,將兩個(gè)特征相加,并經(jīng)過卷積平滑操作,得到最終的輸出結(jié)果:

采用這種注意力機(jī)制可以有效地篩選出各級特征中更有效的信息,抑制噪聲,增強(qiáng)不同尺度特征的表示能力。需要注意的是,由于f4是由較高3個(gè)層的特征聚合得到,在卷積的過程中已經(jīng)被過濾掉了大量的細(xì)節(jié)和噪聲信息,因此將f4不經(jīng)過注意力機(jī)制篩選而直接輸出,即:

最后,將p2、p3、p4分別與全局邊緣引導(dǎo)fe拼接,經(jīng)過1×1卷積降維后,上采樣回原圖尺寸,得到最終的預(yù)測圖P2、P3、P4。其中P2作為最終的預(yù)測結(jié)果用來評估網(wǎng)絡(luò)性能。

2.5 損失函數(shù)

在偽裝目標(biāo)分割過程中,使用了加權(quán)二元交叉熵?fù)p失[18](weighted binary cross entropy loss,wBCE)及加權(quán)交并比損失[18](weighted intersection-over-union loss, wIOU)兩部分作為損失函數(shù)。加權(quán)二元交叉熵函數(shù)的公式如式(11)所示:

其中:yi是二元標(biāo)簽0或1,zi為輸出屬于yi標(biāo)簽的概率,wi為權(quán)重向量。加權(quán)交并比損失的公式如式(12)所示:

其中:P為預(yù)測值,G為真實(shí)標(biāo)注值。兩種損失函數(shù)分別計(jì)算全局損失和像素級損失。與標(biāo)準(zhǔn)的損失函數(shù)不同,加權(quán)損失更側(cè)重于給較難的像素更大的權(quán)重,而不是給每個(gè)像素相同的權(quán)重。

基于上述分析,使用聯(lián)合損失函數(shù)對P2、P3、P43個(gè)預(yù)測圖及邊緣預(yù)測圖fe進(jìn)行深度監(jiān)督。整體的損失函數(shù)可以表示為:

其中:Eg表示邊緣標(biāo)注值,可以通過對二元標(biāo)注圖進(jìn)行Canny邊緣檢測得到。pg表示二元標(biāo)注圖。沒有對邊緣使用LwIOU損失函數(shù)監(jiān)督是因?yàn)檫吘夘A(yù)測圖的前景區(qū)域與背景區(qū)域差別過大,可能導(dǎo)致?lián)p失函數(shù)下降不穩(wěn)定。λ1和λ2用來平衡兩個(gè)不同損失函數(shù)對整體損失的貢獻(xiàn),其中λ1設(shè)置為5,λ2設(shè)置為1。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集

我們在4個(gè)通用的偽裝目標(biāo)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):CHAMELEON[11]是一個(gè)小樣本的偽裝目標(biāo)數(shù)據(jù)集,其中包含76張圖像,每張圖像至少有一個(gè)偽裝目標(biāo);CAMO[6]包含1 000張用于訓(xùn)練的圖像和250張用于測試的圖像,數(shù)據(jù)集涵蓋了大量自然及人工場景下的偽裝目標(biāo);COD10K[7]是迄今為止最大的基準(zhǔn)數(shù)據(jù)集,它包含5個(gè)大類和69個(gè)子類,共有3 040張訓(xùn)練圖像和2 026張測試圖像;NC4K[12]是規(guī)模最大的偽裝目標(biāo)測試數(shù)據(jù)集,包含4 121張圖像,可用來評估模型的泛化能力。仿照之前的工作[7],本文將CAMO的訓(xùn)練集和COD10K的訓(xùn)練集結(jié)合,作為完整的訓(xùn)練數(shù)據(jù)集(其中包含4 040張圖片),并在余下的數(shù)據(jù)集上測試模型的性能。

3.2 評價(jià)指標(biāo)

本文使用了4個(gè)廣泛使用的評價(jià)指標(biāo):結(jié)構(gòu)性度量(Sα)[19]、E指標(biāo)(E?)[20]、帶權(quán)重的F指標(biāo)[21]及平均絕對誤差(MAE)[22]。

結(jié)構(gòu)性度量(Sα)評估預(yù)測結(jié)果及標(biāo)注圖像之間的區(qū)域級和對象級結(jié)構(gòu)相似性,如式(16)所示:

其中,So和Sr分別表示對象級和區(qū)域級的結(jié)構(gòu)相似性。根據(jù)其他研究中的經(jīng)驗(yàn)[19],這里的α設(shè)置為0.5。

E指標(biāo)(E?)使用一個(gè)矩陣(?FM)聯(lián)合計(jì)算圖像級的統(tǒng)計(jì)信息和像素級的匹配信息,可以同時(shí)衡量預(yù)測的整體完整性和局部精確性,如式(17)所示:

其中:w表示圖像寬度,h表示圖像寬。

帶權(quán)重的F指標(biāo)定義一個(gè)加權(quán)精度(Pw)和加權(quán)召回率(Rw)來衡量預(yù)測的準(zhǔn)確性和完整性:

其中,β2是一個(gè)平衡系數(shù),根據(jù)其他研究中的經(jīng)驗(yàn)[21],β2設(shè)置為0.3。

平均絕對誤差(MAE)用來衡量預(yù)測結(jié)果與標(biāo)注圖像之間的像素級差異,其被廣泛應(yīng)用于各類分割任務(wù):

為了進(jìn)行公平的對比,我們使用相同的代碼,對不同數(shù)據(jù)集的4種評價(jià)指標(biāo)進(jìn)行計(jì)算。

3.3 實(shí)驗(yàn)細(xì)節(jié)

本文模型基于Pytorch框架構(gòu)建,在NVIDIA GeForce RTX 2080TiGPU上進(jìn)行所有實(shí)驗(yàn)。使用在ImageNet上預(yù)訓(xùn)練的權(quán)重文件初始化ResNet-50骨干網(wǎng)絡(luò)的參數(shù),其他參數(shù)由網(wǎng)絡(luò)默認(rèn)生成。在訓(xùn)練之前,所有訓(xùn)練圖像及標(biāo)注圖像均被調(diào)整為352×352大小,并且不使用任何數(shù)據(jù)增強(qiáng)策略。批量大小設(shè)置為8并在訓(xùn)練過程中使用了Adam優(yōu)化器,初始的學(xué)習(xí)率設(shè)置為1e-4,并且每30次迭代后,學(xué)習(xí)率除以10,網(wǎng)絡(luò)共訓(xùn)練60輪,大約需要5.5 h。在測試過程中,測試圖像同樣被調(diào)整為352×352大小,隨后輸入網(wǎng)絡(luò)。預(yù)測圖通過雙線性上采樣操作縮放到原始大小以評估結(jié)果。

3.4 實(shí)驗(yàn)結(jié)果及對比

將本文方法與現(xiàn)有的11種COD方法進(jìn)行比較,包括BASNet[23]、EGNet[24]、CPD[16]、F3Net[18]、PraNet[25]、SINet[7]、PFNet[8]、C2FNet[26]、SINetV2[27]、LSR[12]、UGTR[28]。為了公平比較,我們直接使用作者在網(wǎng)絡(luò)上開源的預(yù)測圖,用相同的公式進(jìn)行評估。如果缺少預(yù)測圖,則使用作者提供的預(yù)訓(xùn)練完成的模型生成預(yù)測圖。本文總結(jié)了在4個(gè)數(shù)據(jù)集上不同基線模型的定量結(jié)果。從表1可以看出,本文方法在不同的數(shù)據(jù)集上都優(yōu)于其他模型。

表1 不同模型在4個(gè)數(shù)據(jù)集(CHAMELEON,CAMO-test,COD10k-test,NC4K)上對4種評價(jià)指標(biāo)的定量結(jié)果Tab.1 Quantitative results of different models for four evaluation metrics on four dataset(CHAMELEON,CAMO-test,COD10k-test,NC4K)

為了進(jìn)行更廣泛的對比,本文使用在目標(biāo)檢測領(lǐng)域的YOLOv5模型進(jìn)行分割對比實(shí)驗(yàn)。在訓(xùn)練開始前,所有圖片參照官方代碼庫(https://github.com/ultralytics/yolov5)的設(shè)置被重新調(diào)整為640×640大小,其他參數(shù)使用默認(rèn)設(shè)置。實(shí)驗(yàn)選取與本文方法參數(shù)量相近的YOLOv5m-seg模型(22.67M)與性能最優(yōu)的YOLOv5x-seg模型,結(jié)果見表1。本文方法在模型大小相近的情況下性能遠(yuǎn)遠(yuǎn)領(lǐng)先YOLOv5m-seg模型,與YOLOv5x-seg模型相比有著巨大的優(yōu)勢。

圖5展示了本文方法與其他模型的視覺對比結(jié)果??梢钥闯觯诓煌木哂刑魬?zhàn)性的場景下(第1~2行大尺寸偽裝目標(biāo),第3~4行小偽裝目標(biāo),第5~6行模糊邊緣),本文方法都能產(chǎn)生優(yōu)于其他模型的預(yù)測圖。在目標(biāo)被部分遮擋的情況下(第7行),該方法也能準(zhǔn)確定位目標(biāo)區(qū)域并產(chǎn)生精確的邊緣細(xì)節(jié)。因此,本文方法相比于其他方法在偽裝目標(biāo)分割任務(wù)中具有更優(yōu)秀的性能。另外,本文提供了本文方法與其他11種模型的P-R曲線和F曲線,如圖6所示。

圖5 本文方法與其他方法的視覺對比Fig.5 Vision comparison of our method with other methods

圖6 10種不同方法在4個(gè)基準(zhǔn)數(shù)據(jù)集上的P-R曲線和F曲線,本文方法為紅色實(shí)線。P-R曲線越接近右上角,F(xiàn)曲線越接近坐標(biāo)系上部,表示模型的性能越好。Fig.6 P-R curves and F-measure curves of 10 different methods on four benchmark datasets. Our method is shown with a solid red line. The closer the P-R curve is to the upper right corner and the higher the F-measure curve is, the better the performance of the model is.

本文方法與其他方法在模型復(fù)雜度、參數(shù)量和實(shí)時(shí)性上也進(jìn)行了對比。所有算法在相同的硬件環(huán)境下(RTX2080Ti顯卡)進(jìn)行實(shí)驗(yàn)。其中浮點(diǎn)運(yùn)算次數(shù)(Floating Point Operations,F(xiàn)LOPs)可用來衡量算法復(fù)雜度,為21.26G;模型參數(shù)量(Parameters,Params)為29.47M;FPS(Frame Per Second)為44.2。為了公平比較,所有模型均使用352×352的圖片計(jì)算。如表2所示,本文方法在提升準(zhǔn)確性的同時(shí)也保證了實(shí)時(shí)性能。

表2 不同模型的速度和模型復(fù)雜度分析Tab.2 Speed and model complexity analysis on multiple models

3.5 消融實(shí)驗(yàn)

為了驗(yàn)證每個(gè)模塊的有效性,本文設(shè)計(jì)了一系列消融實(shí)驗(yàn),對邊緣提取模塊、多級特征增強(qiáng)模塊(MFEM)、跨層級特征聚合模塊(CFM)、注意力模塊等逐步解耦,以驗(yàn)證其有效性,實(shí)驗(yàn)結(jié)果見表3。為了驗(yàn)證損失函數(shù)及對應(yīng)的超參數(shù)對網(wǎng)絡(luò)性能的影響,本文對一系列不同的超參數(shù)設(shè)置進(jìn)行了定量評價(jià)。

表3 不同模塊的有效性分析Tab.3 Effectiveness analysis of different modules

基線模型選擇一個(gè)類似U-net[29]結(jié)構(gòu)的分割網(wǎng)絡(luò),編碼器部分為ResNet-50網(wǎng)絡(luò),解碼器逐級上采樣并與較淺層特征結(jié)合,逐漸恢復(fù)到原尺寸。從表3可以看出,不同的模塊對模型的性能提升都有貢獻(xiàn):在U-net架構(gòu)基礎(chǔ)上加入多尺度特征增強(qiáng)模塊和跨層級特征聚合模塊后,模型的4個(gè)評價(jià)指標(biāo)、MAE分別提升了4.8%、3.5%、15.7%、11.1%,證明模型的層內(nèi)和層間多尺度特征表達(dá)能力有了一定加強(qiáng);在此基礎(chǔ)上加入邊緣提取模塊,4個(gè)指標(biāo)進(jìn)一步提升了1.6%、1.8%、4.2%、10%,說明邊緣先驗(yàn)信息在該分割任務(wù)中做出了重要的貢獻(xiàn);在加入注意力模塊后分別提升了0.006、0.018、0.007,MAE指標(biāo)則下降了0.002。

圖7為逐步解耦各個(gè)子模塊后的可視化效果對比。從圖7(d)可以看出,在去除了邊緣提取模塊后,預(yù)測結(jié)果的邊界存在大量的冗余,一些較復(fù)雜的邊緣結(jié)構(gòu)難以被清晰地分割,說明邊緣提取模塊對目標(biāo)邊界像素的提純至關(guān)重要。多尺度的特征更有利于定位復(fù)雜場景下的偽裝物體,在分別去掉多尺度特征增強(qiáng)模塊(圖7(e))和跨層級特征聚合模塊(圖7(f))后,模型不能準(zhǔn)確地找到目標(biāo)所在的位置,出現(xiàn)了目標(biāo)區(qū)域模糊不清、目標(biāo)結(jié)構(gòu)被錯(cuò)判和偽裝區(qū)域連通性的問題。從圖7(c)和圖7(g)可以看出,注意力模塊對融合后的特征進(jìn)一步去噪,使網(wǎng)絡(luò)更關(guān)注于預(yù)測目標(biāo)區(qū)域,對背景區(qū)域進(jìn)行抑制,目標(biāo)細(xì)節(jié)更明顯,置信度較低的噪聲干擾被去除。

圖7 去除不同模塊的視覺比較Fig.7 Vision comparison of removed different modules

為了分析聯(lián)合損失函數(shù)各參數(shù)對網(wǎng)絡(luò)的影響,按照不同的比例設(shè)置兩部分損失函數(shù)的超參數(shù)(其中λ1為邊緣損失Ledge的比重,λ2為預(yù)測損失Lpred的比重),進(jìn)行對比實(shí)驗(yàn)。根據(jù)表4,模型在給邊緣損失較大權(quán)重時(shí)表現(xiàn)更好,在λ1=5、λ2=1時(shí)效果最好。這表明在網(wǎng)絡(luò)不變的情況下,準(zhǔn)確的邊緣先驗(yàn)?zāi)軌驑O大地提升網(wǎng)絡(luò)的有效性。

表4 兩種損失函數(shù)的比重對網(wǎng)絡(luò)性能的影響Tab.4 Effect of the proportion of the two loss functions on network performance

4 結(jié)論

本文提出了一種基于邊緣增強(qiáng)和特征融合的偽裝目標(biāo)分割網(wǎng)絡(luò)。首先設(shè)計(jì)了一種邊緣提取模塊,有效利用低級特征,產(chǎn)生精確的邊緣先驗(yàn)。其次,采用多尺度特征增強(qiáng)模塊和跨層級特征融合模塊,分別提取層內(nèi)和層間的有效多尺度信息。之后,設(shè)計(jì)了一種簡單有效的層間注意力模塊,對充分融合的特征進(jìn)行再次篩選,去除冗余的背景噪聲干擾。最后,將各層預(yù)測與邊緣先驗(yàn)結(jié)合,生成最后的預(yù)測圖,并采用聯(lián)合損失函數(shù)對不同尺度的預(yù)測圖進(jìn)行聯(lián)合監(jiān)督。本文方法在4個(gè)偽裝目標(biāo)基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在4種不同的評價(jià)指標(biāo)上都優(yōu)于其他方法。在視覺對比中,本文方法分割出的預(yù)測圖能夠更好地識別復(fù)雜場景下的偽裝物體,更好地保留了目標(biāo)輪廓,細(xì)節(jié)信息更清晰。因此,本文方法對偽裝目標(biāo)分割有更好的效果。

猜你喜歡
尺度邊緣損失
胖胖損失了多少元
財(cái)產(chǎn)的五大尺度和五重應(yīng)對
玉米抽穗前倒伏怎么辦?怎么減少損失?
一張圖看懂邊緣計(jì)算
宇宙的尺度
一般自由碰撞的最大動(dòng)能損失
損失
9
室外雕塑的尺度
在邊緣尋找自我