楊子軒,肖 嵩,2,董文倩,曲家慧
(1.西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710071;2.北京電子科技學(xué)院 電子與通信工程系,北京 100070)
紅外目標(biāo)檢測(cè)作為目標(biāo)檢測(cè)的子領(lǐng)域,由于其獨(dú)特的成像方法,在夜間[1],醫(yī)學(xué)掃描[2],電力監(jiān)控[3]等特定場(chǎng)景有非常好的應(yīng)用效果。區(qū)別于可見(jiàn)光檢測(cè),紅外圖像有紋理信息更少,以及分辨率差、對(duì)比度低、信噪比低、視覺(jué)效果模糊、灰度分布與目標(biāo)反射特征無(wú)線性關(guān)系等特點(diǎn),導(dǎo)致紅外目標(biāo)檢測(cè)的方法性能較差。
近些年實(shí)現(xiàn)的一些紅外目標(biāo)檢測(cè)算法,如基于小波的方法[4],基于導(dǎo)數(shù)熵的方法[5],基于導(dǎo)數(shù)差異度量的方法[6],基于多尺度灰度差的特定數(shù)理統(tǒng)計(jì)的方式[7]去獲取更好的檢測(cè)效果,搭配如模態(tài)閾值降噪的方式[8],雙樹(shù)小波去噪的方法[9],自動(dòng)編碼器[10]的方式以改善輸入圖片質(zhì)量獲取更好的檢測(cè)性能。對(duì)于通常的目標(biāo)檢測(cè)方法來(lái)說(shuō),基于學(xué)習(xí)的檢測(cè)算法主要分為單階段和雙階段的方法,單階段如基于回歸的方法,yolo系列[11],基于關(guān)鍵點(diǎn)檢測(cè)等方法[12],兩階段如基于RCNN的檢測(cè)算法等[13]。在融合其他信息的紅外檢測(cè)任務(wù)上,可以通過(guò)可見(jiàn)光和紅外圖像做特征融合的方式進(jìn)行檢測(cè)[14],通過(guò)多模態(tài)的方法補(bǔ)充紅外圖像紋理細(xì)節(jié)缺失的問(wèn)題[15],或者通過(guò)可見(jiàn)光訓(xùn)練,紅外圖像微調(diào)網(wǎng)絡(luò)的方式,補(bǔ)充紅外檢測(cè)的紋理細(xì)節(jié),但由于紅外數(shù)據(jù)集較少,近些年相比于可見(jiàn)光檢測(cè)算法,基于深度學(xué)習(xí)的紅外檢測(cè)算法研究較少。
紅外圖像由于其紋理細(xì)節(jié)弱的特點(diǎn),筆者考慮使用注意力機(jī)制以增強(qiáng)紅外的圖像表征能力。注意力機(jī)制由于其易于嵌入已有網(wǎng)絡(luò)的特點(diǎn),近年來(lái)在分類(lèi),檢測(cè),分割等視覺(jué)任務(wù)上收到廣泛的應(yīng)用,作為一種即插即用提升模型表征能力的方法,可以緩解由于紅外成像方法導(dǎo)致的空間信息含量較少的情況,可起到增強(qiáng)紅外圖像特征表達(dá),同時(shí)起到過(guò)濾紅外成像噪聲的作用[16]。在注意力機(jī)制的設(shè)計(jì)上,通常設(shè)計(jì)思路分為通道注意力機(jī)制和空間注意力機(jī)制。通道注意力機(jī)制通常使用全局池化或卷積等方式將信息歸納到通道數(shù)目大小上,再通過(guò)全連接層捕捉通道的高階非線性關(guān)系,如SENet[17],SKNet[18]引入縮減和擴(kuò)張的方式,通過(guò)縮減方式降低參數(shù)量,提升泛化能力以提升網(wǎng)絡(luò)性能,如ECANet[19],通過(guò)全連接分組正則的方式提升模型表現(xiàn),這種思路通常從全局或局部的通道關(guān)系獲取每個(gè)通道的注意力權(quán)重??臻g注意力機(jī)制通過(guò)通道含有的空間信息進(jìn)行權(quán)重抽取,通常會(huì)與通道注意力機(jī)制相結(jié)合,如NL-Net[20]通過(guò)通道間像素的關(guān)系獲取重要性差異,再通過(guò)Softmax將對(duì)應(yīng)通道的權(quán)重乘在原圖上,GCNet[21]將獲取通道長(zhǎng)依賴(lài)的信息與通道注意力方法相結(jié)合,CBAM[22]使用多種全局池化方式進(jìn)行特征融合,并在串行解耦結(jié)構(gòu)上將通道和空間維度的注意力機(jī)制結(jié)合在一起,Dual Attention Network[23]使用并行方式分別計(jì)算通道注意力和空間注意力的相關(guān)關(guān)系來(lái)捕捉對(duì)應(yīng)的權(quán)重參數(shù),Double Attention Network[24]先獲取一部分的重要特征信息,再將這些特征表達(dá)做外積建模高階的通道關(guān)系,TripleNet[25]將通道,高度,寬度的注意力機(jī)制解耦開(kāi)來(lái),并基于全局池化的方式進(jìn)行優(yōu)化,在輕量化的設(shè)計(jì)上有較好的性能提升。還有一些特定方式的注意力機(jī)制設(shè)計(jì)方法,如FCANet[26]是基于頻率的注意力機(jī)制設(shè)計(jì),從離散余弦變換的角度對(duì)SENet進(jìn)行了信息補(bǔ)充等??梢钥吹?,注意力機(jī)制的演變方式是由簡(jiǎn)單的通道注意力,直到對(duì)空間注意力的細(xì)致建模,再到將具體模塊解耦的方式進(jìn)行演變的。
筆者提出在紅外檢測(cè)場(chǎng)景下基于注意力機(jī)制的Cascade-RCNN算法。其主要貢獻(xiàn)如下:提出顯隱性通道交互的注意力機(jī)制,從顯性和隱性?xún)蓚€(gè)角度進(jìn)行通道關(guān)系的建模,用因子分解機(jī)[27]補(bǔ)充全連接層引出的隱性建模方式;同時(shí)提出一種局部池化方式,替換常用的全局池化方式,以獲取更多的紅外空間信息;在空間維度使用多尺度的卷積方式,提取不同感受野的目標(biāo)信息;由于空間注意力方式是在局部注意力機(jī)制后進(jìn)行的,因此整個(gè)注意力機(jī)制是輕量化的設(shè)計(jì)。相比于常見(jiàn)的注意力機(jī)制方法,在不引入過(guò)多參數(shù)量的同時(shí),使得整個(gè)網(wǎng)絡(luò)的檢測(cè)性能有一定性能的提升。
筆者提出的引入注意力機(jī)制的檢測(cè)算法是在Cascade RCNN的骨干網(wǎng)絡(luò)上添加注意力機(jī)制的方法,其整體框架如圖1所示。檢測(cè)方法沿用兩階段方法,首先使用骨干網(wǎng)絡(luò)抽取高階特征,區(qū)域建議網(wǎng)絡(luò)召回可能存在目標(biāo)的位置,再經(jīng)過(guò)頭部網(wǎng)絡(luò)將邊框和類(lèi)別預(yù)測(cè)頭分開(kāi),同時(shí)使用不同的IOU超參數(shù),用逐層提高IOU閾值進(jìn)行預(yù)測(cè)計(jì)算損失,改善預(yù)測(cè)邊框的質(zhì)量,紅外場(chǎng)景的小目標(biāo)通常較多。因此,筆者選擇了Cascade-RCNN檢測(cè)算法作為基準(zhǔn)算法,并引入注意力機(jī)制提升網(wǎng)絡(luò)檢測(cè)性能。
圖1 Cascade-RCNN算法框架圖
筆者設(shè)計(jì)了一種顯隱性通道交互的解耦注意力機(jī)制(Factor Decoupled Attention,F(xiàn)DA),其結(jié)構(gòu)分為全局通道注意力,局部通道注意力和空間注意力。在全局通道注意力上引入因子分解機(jī)的方法補(bǔ)充通道的顯性建模信息;在局部通道注意力上,提出了一種局部池化方法;對(duì)于空間注意力,引入多尺度卷積的方法,通過(guò)不同感受野以增進(jìn)對(duì)不同大小目標(biāo)的特征提取能力;在整理結(jié)構(gòu)上采用串行解耦的結(jié)構(gòu),將通道注意力和空間注意力分解,并從寬度和高度分解,將多種池化方式融合,從更細(xì)粒度的建模方式上獲取高質(zhì)量的信息表達(dá)。
圖2 顯隱性通道交互的解耦注意力機(jī)制結(jié)構(gòu)圖
在機(jī)器學(xué)習(xí)領(lǐng)域,特征二階非線性特征是一種非常重要的交叉特征,可以直接反饋特征間的緊密程度;在通道注意力機(jī)制上,通道二階關(guān)系,即表征特征二階關(guān)系;文中通過(guò)因子分解機(jī)引入一種顯性建模通道關(guān)系的方法補(bǔ)充全連接層隱性建模不充分的問(wèn)題。
因子分解機(jī)(Factor Machine,F(xiàn)M)是一種數(shù)學(xué)關(guān)系提取顯性二階特征交叉的方法,用于建模通道間的二階顯性建模,在顯隱性的特征建模方式下,當(dāng)輸入為x,下層單節(jié)點(diǎn)為y時(shí),有以下的關(guān)系:
(1)
其中,xi表示輸入對(duì)應(yīng)的通道,n表示輸入通道的數(shù)目,wixi可以簡(jiǎn)單表示全連接層的隱性通道交互方式,wijxixj表示顯性通道交互方式。對(duì)顯性建模通道關(guān)系進(jìn)行建模時(shí),空間復(fù)雜度至少需要O(n2)個(gè)數(shù)目的權(quán)重參數(shù),而當(dāng)使用單權(quán)重向量時(shí),可將空間復(fù)雜度降低至O(n)。因子分解機(jī)常會(huì)將特征表示為k維的空間表示,進(jìn)行向量級(jí)別的特征交互;而在通道關(guān)系計(jì)算中如果將二階顯性交叉的結(jié)果通過(guò)相加統(tǒng)一到一個(gè)維度,容易出現(xiàn)特征表達(dá)不充分的問(wèn)題,因此將因子分解機(jī)遷移到注意力機(jī)制建模中時(shí),引入超參數(shù)k,用以控制顯性交叉特征維度的充分表達(dá),使用權(quán)重向量vi替換wi。二階建模結(jié)點(diǎn)信息表示如下:
(2)
對(duì)于FM中獨(dú)立節(jié)點(diǎn),若按xi與xj的逐個(gè)計(jì)算,從時(shí)間復(fù)雜度上是O(n2),會(huì)造成比較大的計(jì)算負(fù)擔(dān),因此將FM獨(dú)立項(xiàng)計(jì)算如下:
(3)
將FM中關(guān)于xixj的結(jié)構(gòu)分解表示如下:
(4)
在式(4)中,分解后發(fā)現(xiàn)xi、xj的權(quán)重項(xiàng)是等價(jià)的,整理后公式如下:
(5)
通過(guò)上述的等價(jià)計(jì)算公式,將空間復(fù)雜度和時(shí)間復(fù)雜度從O(n2)均降低到了O(n)的程度,使得顯性通道特征交叉在理論上產(chǎn)生了可能。
在通道的隱性特征交互方法中,筆者在測(cè)試SENet,ECANet等方法的過(guò)程中,發(fā)現(xiàn)縮減,擴(kuò)張以及組正則化的方法會(huì)使得指標(biāo)不穩(wěn)定甚至下降,因此文中采用SAM注意力機(jī)制方法作為隱性特征交互的基本方法。其結(jié)構(gòu)如圖3(a)所示,即在縮減,擴(kuò)張的卷積方式中加入了一層強(qiáng)化抽取特征的卷積層,基本卷積結(jié)構(gòu)組成為卷積層、批量正則化層和激活函數(shù);由于SENet縮減過(guò)程的存在,引入較少參數(shù)量的同時(shí),提升了注意力機(jī)制的泛化效果。
(a) SAM結(jié)構(gòu)圖
在顯隱性通道交互方式上,文中進(jìn)行了多種實(shí)驗(yàn),將原始輸入通道信息與其他通道的交互信息按照每個(gè)通道的交互特征加到單個(gè)通道上,也嘗試將因子分解機(jī)的結(jié)果直接引入到輸出部分進(jìn)行相加融合。經(jīng)過(guò)多次實(shí)驗(yàn),文中發(fā)現(xiàn)先用因子分解機(jī)先顯性抽取一部分的通道關(guān)系表征,再將顯性特征與經(jīng)過(guò)全連接層的隱性特征結(jié)合在一起,將信息歸納到同一空間維度下的方式實(shí)驗(yàn)效果較好。單獨(dú)使用顯性特征的以及采用顯隱性交互方式的網(wǎng)絡(luò)結(jié)構(gòu)如圖3(b)和圖3(c)所示。
為建??臻g注意力機(jī)制且輕量化建模,同時(shí)提取更多紅外圖像信息,文中在空間注意力機(jī)制前引入局部通道注意力機(jī)制(Local Channel-wise Attention,LCA)以緩解全局池化帶來(lái)的信息量極度下降的情況,同時(shí)將寬度和高度進(jìn)行解耦,單獨(dú)從寬高兩個(gè)維度進(jìn)行更細(xì)粒度的通道建模方式,公式如下:
pi=fpermute(x,n,m,l) ,
(6)
fLCA=fconv([favg(fsplit(pi)),fmax(fsplit(pi))]) ,
(7)
其中,pi表示解耦方式后的特征矩陣,n,m,l表示置換的維度,具體解耦方式將C(通道維度),H(高),W(寬)置換為H,C,W和W,H,C,并在后兩個(gè)維度進(jìn)行局部池化計(jì)算。計(jì)算過(guò)程中,首先將輸入特征分解為s個(gè)子矩陣,在每個(gè)子矩陣上進(jìn)行全局池化;這時(shí)矩陣寬高維度為s,再引入一層卷積核大小為s的卷積層,將整體維度統(tǒng)一到1的維度上。計(jì)算過(guò)程如圖4所示。
(a) 全局池化方法
空間注意力機(jī)制使用卷積層以抽取矩陣像素的非線性關(guān)系,通過(guò)引入不同步長(zhǎng),補(bǔ)零或空洞方式等獲取與輸入矩陣相同大小的權(quán)重矩陣,表示在空間信息上的不同像素重要程度。在紅外目標(biāo)檢測(cè)任務(wù)中,由于其特定應(yīng)用場(chǎng)景,目標(biāo)的尺度分布差異性更大,因此在這里引用多尺度卷積的方式進(jìn)行優(yōu)化。conui表示不同卷積核的卷積計(jì)算,公式如下:
(8)
筆者采用的數(shù)據(jù)集是公開(kāi)的紅外FLIR數(shù)據(jù)集[28],同時(shí)包括熱圖像和無(wú)注釋的RGB圖像。為了適配紅外場(chǎng)景的注意力機(jī)制效果,實(shí)驗(yàn)只使用紅外圖像,共14 452幀,119 491個(gè)目標(biāo),有60%的日間場(chǎng)景和40%的夜間場(chǎng)景,包括晴到多云等多種天氣的情形,且包括人、汽車(chē)等多種檢測(cè)目標(biāo);評(píng)估算法的方式以COCO的評(píng)價(jià)指標(biāo)為標(biāo)準(zhǔn)評(píng)估算法性能,在FLIR數(shù)據(jù)集,小目標(biāo)約占據(jù)了58.3%,中目標(biāo)約占據(jù)了35.7%,中小目標(biāo)數(shù)目約占有數(shù)據(jù)集整體的94%。筆者使用平均精確率(mean Average Precision,mAP)作為主要的評(píng)價(jià)指標(biāo),并在骨干網(wǎng)絡(luò)使用ILSVRC進(jìn)行預(yù)訓(xùn)練以緩解檢測(cè)網(wǎng)絡(luò)過(guò)擬合的問(wèn)題。
實(shí)驗(yàn)過(guò)程共包含注意力機(jī)制空間復(fù)雜度,注意力機(jī)制對(duì)比實(shí)驗(yàn),不同骨干網(wǎng)的對(duì)比實(shí)驗(yàn),不同超參數(shù)的對(duì)比實(shí)驗(yàn),共4個(gè)部分;從多個(gè)角度驗(yàn)證提出方法在紅外檢測(cè)任務(wù)上的有效性。
筆者在理論上分析了算法的空間復(fù)雜度,其中FDA-light表示只使用局部通道和空間注意力,F(xiàn)DA-SAM,F(xiàn)DA-FM,F(xiàn)DA-SFAM表示在局部通道和空間注意力使用全局的方式下,對(duì)比FM的融合實(shí)驗(yàn)的對(duì)照,F(xiàn)DA表示使用所用模塊的結(jié)構(gòu)。C表示通道數(shù)目,γ表示縮減系數(shù),k表示空間注意力機(jī)制的卷積核大小,g表示ECANet中分組維度,l表示因子分解機(jī)中的維度,s表示局部通道注意力機(jī)制的分割維度,其中k,g,l,s,γ遠(yuǎn)遠(yuǎn)小于C,在表1中,對(duì)于FDA-light,空間復(fù)雜度遠(yuǎn)遠(yuǎn)小于SENet的,F(xiàn)DA與SAM參數(shù)量基本相同,同時(shí)添加的FM時(shí)間空間復(fù)雜度都為O(n),模型的FPS基本不變。
表1 注意力機(jī)制空間復(fù)雜度表
在驗(yàn)證算法設(shè)計(jì)有效性的過(guò)程中,在resnet50的骨干網(wǎng)上測(cè)試多種注意力機(jī)制在Cascade RCNN上的表現(xiàn),如表2所示。對(duì)SENet進(jìn)行了多種縮減系數(shù)調(diào)參實(shí)驗(yàn)。對(duì)于紅外目標(biāo)檢測(cè)任務(wù),ECANet表明通道注意力機(jī)制效果較差,甚至由于表征能力不夠準(zhǔn)確而起到反向的作用;GCNet表明通道注意力和空間注意力機(jī)制相結(jié)合的方法的有效性;CBAM表明解耦的串行結(jié)構(gòu)對(duì)特征提取起到輔助作用。
表2 注意力機(jī)制對(duì)比實(shí)驗(yàn)表
圖5 夜間道路紅外目標(biāo)識(shí)別結(jié)果對(duì)比圖
FDA-light表示只使用局部通道注意力和空間注意力機(jī)制的版本,在只引入0.01 M參數(shù)的情況下,相比于Cascade-RCNN提升了約1.6%的性能。為了獲得更高的性能,F(xiàn)DA在FDA-light的基礎(chǔ)上添加了SEFM模塊,相比Cascade-RCNN提升了約1.9%。筆者也同時(shí)嘗試了全連接層和FM的效果對(duì)比,在FDA-SFAM中發(fā)現(xiàn),F(xiàn)M和全連接層確實(shí)提供了不同維度的信息,彌補(bǔ)了獨(dú)立隱性通道交互方法的信息單一性。
為了消除設(shè)計(jì)注意力機(jī)制在縱向?qū)Ρ葘?shí)驗(yàn)中的偶然性,筆者在resnet34和resnet101上進(jìn)行了補(bǔ)充實(shí)驗(yàn)。對(duì)照組為Cascade-RCNN和GCNet,實(shí)驗(yàn)組為FDA和FDA-light;在不同的骨干網(wǎng)絡(luò)上,Cascade-RCNN的指標(biāo)浮動(dòng)比較大,滿足在不同性能下驗(yàn)證所提出方法的有效性假設(shè)。在表3中,F(xiàn)DA-light在resnet34上相比于Cascade-RCNN有輕微的指標(biāo)浮動(dòng),在resnet101上FDA-light在各個(gè)指標(biāo)上有約0.8%的提升,F(xiàn)DA在resnet34和resnet101都有約1.8%的提升,從多方面說(shuō)明了FDA在紅外圖像檢測(cè)任務(wù)上的有效性。
表3 不同骨干網(wǎng)絡(luò)檢測(cè)性能表
在表4中,筆者在所設(shè)計(jì)的SFAM模塊上進(jìn)行了超參數(shù)的測(cè)試實(shí)驗(yàn)。在FM的設(shè)計(jì)過(guò)程中,表征維度過(guò)低會(huì)導(dǎo)致性能退化現(xiàn)象,而過(guò)高則會(huì)引起表征冗余問(wèn)題,都會(huì)導(dǎo)致性能變差;合適值不但可以同時(shí)引入顯性的通道交互信息,同時(shí)可以給予模塊設(shè)計(jì)正則化的效果,提升此部分對(duì)于模型擬合的泛化能力。在表4中給出了1,8,16,32,64共5種超參數(shù),并在骨干網(wǎng)絡(luò)為resnet50的Cascade-RCNN中驗(yàn)證,當(dāng)特征維度為8時(shí)性能最佳。
表4 不同超參數(shù)檢測(cè)性能表
4 結(jié)束語(yǔ)
筆者對(duì)比了多種注意力機(jī)制在Cascade-RCNN框架上的性能,如SENet,ECANet等方法,發(fā)現(xiàn)通道注意力機(jī)制在紅外檢測(cè)任務(wù)上較弱的性能表現(xiàn),同時(shí)發(fā)現(xiàn)解耦結(jié)構(gòu)和空間注意力對(duì)于任務(wù)優(yōu)化的重要性?;谝陨峡紤],筆者提出的FDA方法在FLIR紅外數(shù)據(jù)集上的不同骨干網(wǎng)絡(luò)上,相比于Cascade-RCNN有約2%的精確率的提升;同時(shí)在理論和實(shí)際參數(shù)上進(jìn)行實(shí)驗(yàn)比較,從各個(gè)方面充分說(shuō)明了設(shè)計(jì)方法的有效性。在紅外目標(biāo)檢測(cè)的任務(wù)上,相比可見(jiàn)光的應(yīng)用場(chǎng)景,仍有許多挑戰(zhàn)需要解決,如針對(duì)紅外小目標(biāo)檢測(cè),可見(jiàn)光紅外圖像多模態(tài)融合方法的研究等。經(jīng)過(guò)實(shí)驗(yàn)研究,發(fā)現(xiàn)對(duì)于紅外檢測(cè)任務(wù),針對(duì)紅外圖像進(jìn)行細(xì)粒度的注意力機(jī)制設(shè)計(jì)顯得尤為重要。