童旭巍 張光建
偽裝目標是指那些與背景高度相似,或被背景遮擋的對象.它們通常會與環(huán)境巧妙融合,讓自身的顏色、姿態(tài)等與環(huán)境高度相似,從而偽裝自身,難以被發(fā)現(xiàn).例如,生活在沙漠中的蜥蜴、冰層上的北極熊及穿迷彩服的士兵等,都被稱為偽裝目標.
偽裝目標檢測(Camouflaged Object Detection,COD)旨在檢測視覺場景中的偽裝目標,并與背景分割.COD比顯著目標檢測更具有挑戰(zhàn)性.
近年來,COD漸漸引起研究者的興趣,除了本身具有的科學研究價值以外,還可應用于計算機視覺(如搜救工作、珍稀動物的發(fā)現(xiàn)),醫(yī)學圖像分割(如息肉分割[1]、肺部感染分割[2]、視網(wǎng)膜圖像分割),農(nóng)業(yè)檢測(災害檢測[3]、蝗蟲檢測[4]),藝術處理(逼真混合、娛樂藝術)等領域.但是,由于偽裝目標與背景之間的高度相似性,想要消除視覺上的歧義,突出偽裝目標與背景之間的關系,并徹底分割是一件具有挑戰(zhàn)性的事情.
早期的COD工作主要還是依賴于手工制作的紋理[5]、凸度[6]、顏色、邊界等底層特征以區(qū)分前景和背景,受到很多限制,在偽裝目標與環(huán)境融合較深、前景與背景高度相似的復雜場景下,基于手工提取特征的方法往往會失效.
近年來,隨著深度學習的蓬勃發(fā)展,研究者們提出許多有效的COD方法,并取得良好效果.Yan等[7]觀察到翻轉的圖像能幫助檢測偽裝目標,提出MirrorNet,將原始圖像和翻轉后的圖像作為輸入數(shù)據(jù).Fan等[1]提出PraNet(Parallel Reverse Attention Network),先預測粗略區(qū)域,再細化邊界.Li 等[8]提出聯(lián)合SOD(Salient Object Detection)和COD的對抗性網(wǎng)絡,利用矛盾信息增強SOD和COD.Yang等[9]提出UGTR(Uncertainty-Guided Transformer Rea-soning),首先學習骨干輸出的條件分布,獲得初始估計和相關的不確定性,然后通過注意力機制對這些不確定性區(qū)域進行推理,產(chǎn)生最終預測.Ji等[10]提出ERRNet(Edge-Based Reversible Re-calibration Network),設計SEA(Selective Edge Aggregation)和RRU(Reversible Re-calibration Unit)兩個模塊,模擬視覺感知行為,實現(xiàn)對偽裝區(qū)域與背景之間的邊緣識別.Mei等[11]提出分心挖掘策略,并用此策略構建PFNet(Positioning and Focus Network).Fan等[12]提出SINet(Search Identification Network),模仿獵人狩獵的過程,使用搜索模塊與識別模塊定位和識別偽裝目標,并收集第1個用于偽裝目標檢測的大規(guī)模數(shù)據(jù)集COD10K.COD10K數(shù)據(jù)集包含真實自然環(huán)境下的各種偽裝屬性.Sun等[13]提出C2F-Net(Context-Aware Cross-Level Fusion Network),設計兩個跨級融合模塊,融合不同尺度的特征.同樣地,Guo等[14]提出DADNet(Dilated-Attention-Defor-mable ConvNet),有效學習多尺度特征的視覺上下文線索,利用不同擴張率的尺度感知的注意力融合,捕獲有效信息.Li等[15]將時間序列進行多尺度提取,逐步補充時間上下文以獲得查詢活動的位置,展現(xiàn)多尺度融合網(wǎng)絡的有效性.
盡管上述方法在COD上取得良好效果,但大多數(shù)方法在面對一些具有挑戰(zhàn)性的場景時,檢測性能會下降.由于在多尺度融合網(wǎng)絡中,高層的特征圖提取網(wǎng)絡的層數(shù)過深,以及卷積層和池化層的使用,會讓特征圖損失部分高層次語義信息,導致檢測結果不理想.高層次語義信息在向淺層網(wǎng)絡傳遞,自頂向下進行多尺度融合時,較深層次獲取的位置信息也會被逐漸稀釋,淺層網(wǎng)絡獲取的高層次語義信息不足,從而導致網(wǎng)絡的檢測能力下降.并且偽裝目標特征信息中存在大量噪聲,如何精細化特征信息也成為一個問題.因此,研究者們在COD上還有較大的探索與改進空間.
為此,本文以Sun等[13]的工作為基礎,設計全局增強融合模塊與定位與捕獲機制,提出基于全局多尺度特征融合的偽裝目標檢測網(wǎng)絡(COD Net-work Based on Global Multi-scale Feature Fusion,GMF2Net).首先使用多層次骨干網(wǎng)絡提取多尺度特征,將最高層次特征通過全局增強融合模塊(Global Enhanced Fusion Module,GEFM),用于捕捉不同尺度的高層次全局語義信息,再將捕捉的高層次語義信息送至淺層網(wǎng)絡,與注意誘導跨層融合模塊(Attention-Induced Cross-Level Fusion Module,ACFM)輸出的特征進行融合,融合后的特征通過雙分支全局上下文模塊(Dual-Branch Global Context Module,DGCM)挖掘豐富的全局上下文信息,細化偽裝目標.并且,本文在高層網(wǎng)絡中利用定位模塊(Posi-tioning Module,PM)與聚焦模塊(Focus Module,FM)設計定位與捕獲機制,對偽裝目標進行定位與細化,為后續(xù)的融合提供有效的先驗信息.在淺層網(wǎng)絡中對較高分辨率圖像進行特征提取與融合,提取高分辨率特征細節(jié),減小細節(jié)的退化而導致的圖像模糊問題.在3個廣泛使用的基準數(shù)據(jù)集上的實驗證實GMF2Net的性能較優(yōu).
本文提出基于全局多尺度特征融合的偽裝目標檢測網(wǎng)絡(GMF2Net),網(wǎng)絡整體架構圖如圖1所示.首先采用Res2Net-50[16]在5個不同尺度層提取特征,特征圖分別表示為Fi∈RH×W×C,i=1,2,…,5表示不同尺度層的層數(shù),H表示高度,W表示寬度,C表示通道數(shù),5個尺度層的通道數(shù)分別為64,256,512,1 024,2 048.將最高層次提取的特征F5送入金字塔池化模塊(Pyramid Pooling Module,PPM)[17],提取不同尺度上下文信息,并將通道縮減為64.將特征F2~F5依次輸入RFB模塊(Receptive Field Block)[18],通過擴大感受野,獲取特定層中更豐富的特征,通道縮減為64.經(jīng)過RFB模塊后的特征再經(jīng)過定位模塊(PM)與注意誘導跨層融合模塊(ACFM)自頂向下進行特征融合,并且在通過雙分支全局上下文模塊(DGCM)之前,將PPM模塊捕獲的高層次語義信息通過3個不同的特征增強分支與ACFM輸出的特征進行融合,在進行3次迭代后,輸出預測圖.RFB、ACFM、DGCM具體參數(shù)設置與文獻[14]保持一致.
圖1 GMF2Net架構圖Fig.1 Structure of GMF2Net
Res2Net-50提供一個自底向上提取多層次不同尺度特征的主干網(wǎng)絡.然而,在特征自頂向下進行傳遞時,高層次語義信息會逐步稀釋,特別是在深層次的網(wǎng)絡中,多層次卷積的使用到最終圖像的恢復,高層次語義信息會越來越少,難以捕捉圖像的全局信息.而高層次語義信息往往包含潛在的偽裝目標的位置信息.因此,本文設計全局增強融合模塊(GEFM),用于增強淺層網(wǎng)絡中的高層次語義信息,減少在多尺度特征融合時特征信息的損失.
具體地,GEFM模塊主要包括3部分:PPM模塊,特征增強分支部分,相加融合部分.
PPM模塊可進行不同尺度不同接收場的特征提取,增強偽裝目標具有的全局上下文語義信息.PPM模塊結構如圖2所示,采用的PPM參數(shù)設置與PSPNet(Pyramid Scene Parsing Network)[17]保持一致.
圖2 金字塔池化模塊結構圖Fig.2 PPM structure
PPM模塊包含1個主分支和4個自適應池化分支,用于處理5個尺度的特征Pi∈RH×W×C,i=1,2,…,5.主分支P1為恒等映射,4個副分支P2~P5進行自適應池化,尺寸分別為1×1,2×2,3×3,6×6,輸出的特征圖Fpi都進行1×1的卷積以減少通道數(shù).然后通過雙線性差值進行上采樣.此過程可描述如下.
Fp1=Conv1×1(F5),
Fp2=Up(Conv1×1(AvgPool1×1(F5))),
Fp3=Up(Conv1×1(AvgPool2×2(F5))),
Fp4=Up(Conv1×1(AvgPool3×3(F5))),
Fp5=Up(Conv1×1(AvgPool6×6(F5))),
其中,Up(·)為雙線性差值上采樣操作,Conv1×1(·)為1×1的卷積操作,AvgPooli×i(·)為尺度為i×i的自適應池化操作.最后將Fp1~Fp5進行拼接,輸出通道為64,得到最后的特征圖:
Fp=Cat(Fp1,Fp2,Fp3,Fp4,Fp5),
其中Cat(·)為通道間的級聯(lián)操作.
與PSPNet中的PPM模塊不同,本文的PPM模塊放置在最高層特征輸出F5上,作為主干網(wǎng)絡中額外的特征提取模塊,擴大最高層次的感受野,捕捉不同尺度豐富的全局上下文信息.
特征增強分支部分將PPM模塊捕獲的高層次語義信息通過不同上采樣尺度的特征增強分支進行組合連接,并直接通過圖2中的3個分支將高層次語義信息依次送入淺層網(wǎng)絡中,與淺層網(wǎng)絡中特征圖進行相加融合,得到特征圖:
上述方式可增強多尺度特征融合過程中包含的全局語義信息,提高偽裝目標分割的精度.
動物在捕捉獵物時,首先會通過觀察定位清楚獵物所在的位置,再出擊進行捕獲.通過模仿動物捕獵或人眼定位偽裝物體的過程,對偽裝目標進行位置信息的提取與目標的細化工作,為后續(xù)的融合提供有效的先驗信息.受到文獻[12]的啟發(fā),本文在高層網(wǎng)絡中利用定位模塊(PM)與聚焦模塊(FM)設計定位與捕獲機制.
PM模塊通過通道注意力機制與空間注意力機制,捕獲通道和空間位置方面的長期依賴關系,獲取語義增強的高級特征,并進一步生成初始分割圖,此處PM模塊采用與文獻[11]相同的設置,放置在第5尺度層,接收來自RFB處理后的最高層特征.
FM模塊放置在PM的下一層,目的是發(fā)現(xiàn)并消除錯誤預測(假陽性與假陰性的預測).FM模塊將輸入特征、上級特征和預測結果作為輸入,輸出細化后的特征和更準確的預測結果.
本文改進FM模塊,為了增強融合后的語義信息與保證融合后特征的平滑,本文加入上級融合后的特征,并進行一個3×3的卷積后再輸出.
FM模塊的結構圖如圖3所示.FM模塊首先對上層的預測圖進行上采樣,并歸一化.然后,分別生成前景關注特征和背景關注特征.最后,將這兩種類型的特征輸入兩個平行的上下文語義探索模塊(Context Exploration Block,CE Block)中進行推理,分別發(fā)現(xiàn)假陽性和假陰性.CE Block由4個上下文探索分支組成,每個分支包括3×3卷積、Ki×Ki卷積及擴張率為Ri的擴張卷積,其中K=1,3,5,7,R=1,2,4,8,i=1,2,3,4.然后經(jīng)過逐元素減法消除假陽性(歧義背景),通過歸一化和ReLU函數(shù)激活后再進行逐元素的加法補充假陰性(缺失的背景),α、β為可學習的比例參數(shù).最后再通過一次歸一化與ReLU激活,加入上級融合的特征后進行一次3×3的卷積操作后輸出特征.CE Block可描述如下:
FCE1=CE(1-Up(FP)),
FCE2=CE(FRFB?Up(FP)),
Fout=Conv3×3(BR(βFCE1⊕
BR(CBR(FDGCM)-αFCE2))⊕Ff),
其中,?為相乘,Conv3×3(·)為3×3的卷積操作.
圖3 聚焦模塊結構圖Fig.3 FM structure
如圖1所示,提取的特征F4、F5通過RFB提取更豐富的特征,然后F4通過ACFM模塊,F(xiàn)5通過PM模塊.ACFM模塊對來自RFB模塊與PM模塊的特征有效融合跨級別特征,可利用多尺度信息緩解尺度變化,獲得基于信息注意的融合特征,再與來自GEFM模塊的特征融合,送入DGCM模塊,挖掘更豐富的上下文信息,增強融合后的特征,最后送入FM模塊進行細化與融合.同樣,通過PM模塊獲得的特征與預測圖會傳輸?shù)降?尺度層的FM模塊進行融合.具體過程可描述如下:
其中Ff為第4尺度層全局增強模塊融合后的特征.
從而網(wǎng)絡最終輸出的損失為
Ltotal=LPM+Lout.
實驗平臺的操作系統(tǒng)為Ubuntu 16.04.7 LTS,配置Python 3.8環(huán)境.基于PyTorch框架實現(xiàn)網(wǎng)絡模型,計算機顯卡型號為NVIDIATeslaT4 16GB.采用Res2Net-50在ImageNet上的預訓練模型作為主干網(wǎng)絡,初始學習率為1e-4.訓練過程中采用“Poly”學習率衰減策略,在迭代30次后衰減為初始的0.1.使用AdaX[20]作為優(yōu)化器,迭代次數(shù)設置為40,批量化大小設置為16,聚焦模塊中參數(shù)α與β初始值設置為1.
本文在3個公共數(shù)據(jù)集上評估網(wǎng)絡性能.由于偽裝目標檢測數(shù)據(jù)集較少,這也是COD領域目前使用最廣泛的3個基準數(shù)據(jù)集.
1)CAMO數(shù)據(jù)集[21].包含1 250幅圖像(訓練集1 000幅,測試集250幅),8個類別.
2)CHAMELEON數(shù)據(jù)集(https://www.polsl.pl/rau6/chameleon-database-animal-camouflage-analysis).包含76幅圖像,是一個小數(shù)據(jù)集,通過谷歌搜索收集,全用于訓練與測試.
3)COD10K數(shù)據(jù)集[12].包含5 066幅偽裝圖像(訓練集3 040幅,測試集2 026幅),分為5個大類和69個子類,是目前最大的COD數(shù)據(jù)集.
為了進行較好的全面綜合對比,采用目前COD使用最廣泛的4個指標對網(wǎng)絡進行評估分析,具體如下.
1)E-measure[22].增強的對齊度量,結合局部像素與圖像級平均值,可同時考慮局部信息和全局信息.具體表示為
其中,φs為增強的校準矩陣,反映預測圖S和真實標簽G減去其全局平均值后的相關性,W為寬度,H為高度.
2)S-measure[23].基于結構的度量,考慮對象感知(So)和區(qū)域感知(Sr)結構的相似性.具體表示為
S=αSo+(1-α)Sr,
其中α根據(jù)經(jīng)驗設置為0.5.
3)Weighted F-measure[24].綜合考慮加權精度和加權召回的整體性能度量.具體表示為
其中,
TP為真正例,TN為真反例,F(xiàn)P為假正例,F(xiàn)N為假反例,β2為一個權衡參數(shù),設置為0.3.
4)平均絕對誤差(Mean Absolute Error,MAE)[25].評估歸一化預測和真實標簽值之間的平均像素級相對誤差.具體表示為
其中,G為真實標簽,S為預測圖,W為寬度,H為高度.
下面將GMF2Net預測圖像進行可視化,與C2F-Net[13]進行定性對比,結果如圖4所示,由圖可看出,GMF2Net的檢測結果和真實標注之間具有更高的視覺一致性,在融合高層次特征之后,加強圖像特征中的上下文聯(lián)系,預測區(qū)域比C2F-Net更準確、廣泛,并且對于邊緣及一些圖像細節(jié)的預測也更精細.但對于一些極其有挑戰(zhàn)性的圖像,如遮擋、邊緣對比度模糊的圖像,也存在邊緣部分預測不完全及預測失敗的情況.
(a)原始圖像 (b)真實標簽 (c)GMF2Net (d)C2F-Net(a)Original images (b)Ground truth圖4 GMF2Net和C2F-Net的定性對比Fig.4 Qualitative comparison between GMF2Net and C2F-Net
為了驗證GMF2Net性能,選擇如下對比網(wǎng)絡:PraNet[1],MirrorNet[7],PFNet[11],SINet[12],PSPNet[17],F3Net(Fusion,Feedback and Focus for Salient Object Detection)[19],PiCANet(Pixel-Wise Contex-tual Attention Network)[26],PoolNet[27],BASNet(Boundary-Aware Network)[28],EGNet(Edge Gui-dance Network)[29],MGL(Mutual Graph Learning Model)[30],文獻[31]網(wǎng)絡.各網(wǎng)絡在3個數(shù)據(jù)集上的指標值對比如表1所示,表中黑體數(shù)字表示最優(yōu)值.由表可看出,GMF2Net優(yōu)于其它網(wǎng)絡.在CHAMELEON數(shù)據(jù)集上的E-measure值達到0.954,并且在3個數(shù)據(jù)集上都能取得較優(yōu)效果.
表1 各網(wǎng)絡在3個數(shù)據(jù)集上的指標值對比Table 1 Index value comparison of different networks on 3 datasets
本節(jié)首先對主干網(wǎng)絡層數(shù)進行消融實驗,采用Res2Net-50與Res2Net-101兩個骨干網(wǎng)絡,在3個數(shù)據(jù)集上進行實驗,對比結果如表2所示,表中黑體數(shù)字表示最優(yōu)值,由表可看出,主干網(wǎng)絡為Res2Net-101的網(wǎng)絡在場景最復雜且種類較多的COD10K數(shù)據(jù)集上的表現(xiàn)優(yōu)于主干網(wǎng)絡為Res2Net-50的網(wǎng)絡,在更復雜、種類更多的數(shù)據(jù)集上,增加網(wǎng)絡的卷積層數(shù),能捕獲更深層次的上下文信息.但是對于場景種類較簡單的CHAMELEON、CAMO數(shù)據(jù)集,太多層的卷積會產(chǎn)生過擬合現(xiàn)象,產(chǎn)生更多參數(shù),造成信息冗余,導致性能差于主干網(wǎng)絡為Res2Net-50的網(wǎng)絡.所以從評價指標、網(wǎng)絡參數(shù)、運行效率綜合考慮,最終采用Res2Net-50作為主干網(wǎng)絡.
表2 主干網(wǎng)絡不同時的指標值對比Table 2 Index value comparison of different backbone networks
下面討論改變FM模塊與PM模塊的位置對網(wǎng)絡性能的影響.在實驗中,將之前放置在第5尺度層的PM模塊放置在第4尺度層的RFB模塊與ACFM模塊之間,將FM模塊放置在第3尺度層,其它各模塊的輸入輸出與原位置保持一致.
各模塊訓練得到的結果如表3所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,放置在第3尺度層的FM模塊與第4尺度層的PM模塊(PM4,FM3)雖然能實現(xiàn)大部分指標的提升,但是與GMF2Net的性能仍有一定差距.在較低層次的語義信息通道數(shù)較少,主要側重于圖像細節(jié),而更高層次的特征信息卻包含輪廓、紋理及潛在的位置信息等,因此放置在最高層次的PM模塊更能捕獲偽裝目標的位置信息,達到更優(yōu)效果.
表3 PM模塊和FM模塊位置不同時的指標值對比Table 3 Index value comparison of PM module and FM module at different positions
最后,為了驗證本文設計的模塊與機制的有效性,探究高低層特征信息與特征提取細化方式的影響,對各模塊進行消融實驗,結果如表3所示,表中黑體數(shù)字表示最優(yōu)值.
由表3可見,在baseline基礎上,在最高層次中添加PM模塊,通道注意力機制與空間注意力機制對深層次位置信息的獲取有利于網(wǎng)絡性能提升.在PM模塊的基礎上,加入與之相配的FM模塊,絕大部分指標都有所提升,這表明FM模塊的有效性.雖然在極個別指標出現(xiàn)下降,但移除假陽性的本身方法是合理有效的,這是由于加入未細化處理的RFB模塊輸入特征以挖掘假陽性,在極其復雜的場景下,一定程度上增大假陽性發(fā)現(xiàn)的難度.當保留所有的模塊(本文完整網(wǎng)絡)時,在加入GEFM模塊后,各項指標幾乎都有提升,這也證實全局信息對于網(wǎng)絡性能提升的有效性.相比baseline,在融入高層次信息與改變特征提取細化的方式之后,各項指標均有較好提升.
表4 各模塊的消融實驗結果Table 4 Ablation experiment results of different modules
本文提出基于全局多尺度特征融合的偽裝目標檢測網(wǎng)絡(GMF2Net).本文設計的全局增強融合模塊,可捕獲豐富全局信息并傳送到淺層網(wǎng)絡進行融合,減少高層次信息損失.通過設計的定位捕獲機制,捕捉偽裝目標的位置信息和進一步的特征細化.在3個基準數(shù)據(jù)集上的實驗表明,本文網(wǎng)絡性能較優(yōu).今后將進一步研究COD特征融合方法與特征提取方法,以及邊緣特征用于COD方法性能的提升.