王強(qiáng),吳樂天,王勇,王歡,楊萬扣,
1.東南大學(xué) 自動化學(xué)院,南京 210096
2.江蘇自動化研究所,連云港 222061
3.西北工業(yè)大學(xué) 無人系統(tǒng)技術(shù)研究院,西安 710072
4.南京理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,南京 210094
軍事安全在國家安全中具有非常重要的地位,對敵方的飛機(jī)、坦克等目標(biāo)的全天候檢測跟蹤具有很強(qiáng)的現(xiàn)實意義。作為一種新型技術(shù),紅外圖像中的弱小目標(biāo)檢測技術(shù)由于紅外成像只對溫度和材料特性敏感,可以彌補(bǔ)可見光圖像受光強(qiáng)等環(huán)境因素影響較大的缺點,成為傳統(tǒng)可見光檢測系統(tǒng)的有效補(bǔ)充。
紅外弱小目標(biāo)檢測技術(shù)在軍事上廣泛應(yīng)用于海上監(jiān)視[1]、預(yù)警系統(tǒng)[2]、精確制導(dǎo)[3]等領(lǐng)域。因此紅外弱小目標(biāo)檢測的精度與魯棒性顯得十分重要。但與一般的目標(biāo)檢測相比,紅外弱小目標(biāo)檢測有以下幾個特點[4]:
1) 目標(biāo)尺寸小。由于成像距離遠(yuǎn),目標(biāo)尺寸一般在3×3~9×9像素大小之間。
2) 目標(biāo)信號弱。圖像的背景信息嘈雜,目標(biāo)的信噪比較低,目標(biāo)容易混入背景中。
3) 目標(biāo)結(jié)構(gòu)性特征不明顯。目標(biāo)不具備明顯的紋理特征,目標(biāo)的形狀隨目標(biāo)不同而有很大差異。
由于紅外弱小目標(biāo)檢測的巨大應(yīng)用前景,關(guān)于紅外弱小目標(biāo)檢測的方法很早就有學(xué)者研究。趙坤和孔祥維于2004年就提出了一種利用灰度差異的空域濾波器方法[5],Hou和Zhang于2007年提出了一種基于頻譜殘差的檢測方法[6],龍云利等于2011年提出了一種基于時空域融合自適應(yīng)紅外背景雜波抑制算法[7],澳門大學(xué)Chen等于2014年提出了一種利用局部對比度差異的檢測方法[8]。但這些基于手工設(shè)計的方法或多或少都存在著檢測率低、虛警率高、魯棒性差等缺點。
深度學(xué)習(xí)顯著地推動了計算機(jī)視覺的發(fā)展,隨著深度學(xué)習(xí)在目標(biāo)檢測、語義分割等領(lǐng)域的成功應(yīng)用,越來越多的人嘗試將深度學(xué)習(xí)的方法應(yīng)用于紅外弱小目標(biāo)檢測領(lǐng)域。Liu等提出了第一個基于卷積神經(jīng)網(wǎng)絡(luò)的紅外弱小目標(biāo)檢測方法[9]。張凱等也提出了一種基于卷積網(wǎng)絡(luò)的空中紅外目標(biāo)抗干擾識別算法[10]。目前,主流的檢測方法是使用基于語義分割的方法,即通過分割輸出目標(biāo)。由于紅外弱小目標(biāo)數(shù)據(jù)集保密性強(qiáng)、公開數(shù)據(jù)集較少和本身目標(biāo)尺寸小、信號弱等固有特點,把常規(guī)的基于深度學(xué)習(xí)的語義分割方法直接應(yīng)用于該領(lǐng)域效果不理想[11]。專門為紅外小目標(biāo)檢測設(shè)計的分割網(wǎng)絡(luò)往往雖精度較高但結(jié)構(gòu)復(fù)雜,如Li等提出的使用稠密連接的檢測網(wǎng)絡(luò)(DNANet)[12],Liu等提出的基于Transformer的紅外弱小目標(biāo)檢測網(wǎng)絡(luò)[13],這些網(wǎng)絡(luò)往往無法滿足輕量性與實時性要求,同時,基于語義分割的檢測算法容易出現(xiàn)“過分割”和“欠分割”現(xiàn)象,從而影響檢測結(jié)果。
在實際的應(yīng)用中,紅外弱小目標(biāo)檢測更加關(guān)注目標(biāo)物體整體的檢測率與虛警率。由于紅外弱小目標(biāo)相對于整張紅外圖像來說很小,受關(guān)鍵點檢測在人體姿態(tài)估計等領(lǐng)域的成功應(yīng)用的啟發(fā),嘗試著把目標(biāo)當(dāng)作一個“點”,通過關(guān)鍵點檢測的方法來進(jìn)行定位研究,這是因為,基于語義分割的紅外弱小目標(biāo)檢測方法,可以認(rèn)為是“兩階段”的,即先獲得目標(biāo)分割輪廓,再根據(jù)目標(biāo)分割輪廓計算目標(biāo)中心點,繼而計算目標(biāo)檢測率與虛警率。上述方法存在以下2點問題:① 該兩階段檢測方法的檢測精度受限于分割輪廓的精度,分割階段的“過擬合”和“欠擬合”都會對后續(xù)判斷目標(biāo)中心點坐標(biāo)造成影響;② 該兩階段檢測方法的優(yōu)化目標(biāo)是使圖像中每一個像素點的分類(背景或目標(biāo))損失之和最小,把原本屬于同一個目標(biāo)的像素塊切分成了單獨的像素點來優(yōu)化網(wǎng)絡(luò),與實際情況存在一定的差異。由于紅外圖像中的弱小目標(biāo)較小,用關(guān)鍵點表示簡單便捷且符合實際,同時,在優(yōu)化方法上,關(guān)鍵點檢測把目標(biāo)當(dāng)作了一個“整體”,直接優(yōu)化目標(biāo)中心點坐標(biāo),與評估指標(biāo)更加切合,避免了兩階段檢測方法的劣勢。本文后續(xù)的大量實驗證明了基于關(guān)鍵點檢測方法的有效性?;诖?,提出了一種基于關(guān)鍵點檢測的紅外弱小目標(biāo)檢測方法(Keypoint-Net)。KeypointNet通過熱力圖(Heatmap)回歸來優(yōu)化目標(biāo)中心點(關(guān)鍵點)坐標(biāo),不僅網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,而且也保證了檢測結(jié)果具有較高的檢測率與較低的虛警率。
圖像語義分割任務(wù)是對于一個單通道或多通道圖像輸入,輸出與源圖像相同分辨率的圖像,該圖像中的每個像素點都有一個分類標(biāo)簽[14]。2015年,Long等在經(jīng)典分類網(wǎng)絡(luò)的基礎(chǔ)上首次提出全卷積網(wǎng)絡(luò)(Fully Convolution Network,F(xiàn)CN)[15],采用編碼器-解碼器結(jié)構(gòu)。該模型直接丟棄了最后用于分類的全連接層,轉(zhuǎn)而用卷積層替代。同時添加反卷積層進(jìn)行上采樣,從而使輸出恢復(fù)成原圖分辨率,并對輸出的特征圖進(jìn)行像素級別的分類。FCN可以進(jìn)行密集學(xué)習(xí)并推理出每個像素點的類別,從而實現(xiàn)了端到端的分割輸出。經(jīng)典的分類網(wǎng)絡(luò)結(jié)構(gòu)與FCN結(jié)構(gòu)如圖1和圖2所示。
圖1 分類網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of classification network
圖2 全卷積結(jié)構(gòu)Fig.2 Structure of fully convolution network
隨著FCN在語義分割中的應(yīng)用,語義分割有了突破性發(fā)展。隨后有研究者基于此提出了Unet[16]、Segnet[17]、Deeplab[18]等結(jié)構(gòu),這些網(wǎng)絡(luò)進(jìn)一步研究了諸如如何充分利用上下文信息、如何進(jìn)行特征融合等問題,使得分割的精度得到了顯著提高。
關(guān)鍵點檢測廣泛應(yīng)用于人體姿態(tài)估計、人臉關(guān)鍵點檢測等任務(wù)。人體姿態(tài)估計是為了檢測出人體的骨骼框架點(一般為17個),描繪出人體大致的骨骼框架。人臉關(guān)鍵點檢測是人臉檢測的重要組成部分,包括人臉部分五官區(qū)域的檢測,并將人臉的輪廓描繪出來。關(guān)于關(guān)鍵點坐標(biāo)的學(xué)習(xí)方式主要有以下2種:
1) 坐標(biāo)直接回歸法[19]。這是關(guān)鍵點檢測領(lǐng)域初期使用的方法,直接回歸關(guān)鍵點坐標(biāo),方式簡單,但存在收斂速度慢、泛化能力差等問題。
2) 熱力圖回歸法[20]。該方法是使用熱力圖作為關(guān)鍵點坐標(biāo)的中間態(tài),訓(xùn)練過程中以目標(biāo)點坐標(biāo)為中心生成熱力圖,讓目標(biāo)相似的位置輸出高響應(yīng)值。推理過程中對推理出的熱力圖結(jié)果直接提取其峰值坐標(biāo)就可獲得中心點坐標(biāo)。該方法通過熱力圖作為中間態(tài),提高了模型的泛化能力,減少了噪聲的影響,魯棒性更強(qiáng)。與“坐標(biāo)直接回歸法”相比也不需要再設(shè)置全連接層,減少了網(wǎng)絡(luò)的參數(shù)。
針對基于語義分割網(wǎng)絡(luò)來進(jìn)行紅外弱小目標(biāo)檢測中出現(xiàn)的精度與網(wǎng)絡(luò)復(fù)雜度不可兼得等問題,受FCN及CenterNet[21]的啟發(fā),提出了一種通過熱力圖回歸來直接定位目標(biāo)中心點(關(guān)鍵點)坐標(biāo)的網(wǎng)絡(luò)KeypointNet,與CenterNet相比:① KeypointNet輸入的是紅外圖像,針對紅外弱小目標(biāo)的固有特點,設(shè)計了特有的信息融合模塊BST;② 通過編碼器-解碼器結(jié)構(gòu),KeypointNet最終預(yù)測的中心點的熱力圖與原圖尺寸保持一致,不需要再將預(yù)測的偏移量轉(zhuǎn)換回原始圖像上的坐標(biāo)。與PointNet相比,KeypointNet的輸入是2D的紅外圖像,而非點云數(shù)據(jù),因此,本文方法也沒有諸如PointNet中根據(jù)點云特點設(shè)計的模塊。KeypointNet通過熱力圖直接學(xué)習(xí)目標(biāo)中心點的坐標(biāo),避免了語義分割網(wǎng)絡(luò)的“欠分割”與“過分割”對檢測結(jié)果造成的影響,從而保證了檢測速度與檢測精度。
紅外弱小目標(biāo)檢測的重點是保證較高的目標(biāo)檢測率與較低的目標(biāo)虛警率,而一般用于紅外弱小目標(biāo)檢測的語義分割網(wǎng)絡(luò),均是通過間接方法,即先訓(xùn)練出目標(biāo)的輪廓再求中心點進(jìn)而判斷上述指標(biāo),由于語義分割網(wǎng)絡(luò)對于小目標(biāo)和邊界處的分割效果并不理想,容易造成目標(biāo)“欠分割”和背景“過分割”,可能導(dǎo)致目標(biāo)輪廓誤差較大,進(jìn)而影響后續(xù)目標(biāo)中心點的坐標(biāo)計算,檢測效果較差。與語義分割網(wǎng)絡(luò)的思路不同,關(guān)鍵點檢測法直接獲得目標(biāo)中心的坐標(biāo),與評估指標(biāo)更加匹配,避免了因語義分割方法分割不準(zhǔn)對檢測造成的影響,從而保證了檢測精度。同時考慮到熱力圖回歸比直接坐標(biāo)點回歸學(xué)習(xí)方式更加簡單、魯棒性更強(qiáng),因此將利用編碼器-解碼器結(jié)構(gòu)[15]來構(gòu)建通過熱力圖回歸的方式優(yōu)化目標(biāo)中心點坐標(biāo)的網(wǎng)絡(luò)。檢測網(wǎng)絡(luò)的主要步驟如下:
1) 輸入一張圖片,設(shè)計編碼器進(jìn)行特征提取得到中間特征圖。
2) 設(shè)計編碼器對中間特征圖進(jìn)行特征融合,輸出最終的熱力圖。
3) 通過熱力圖的峰值來確定目標(biāo)中心點坐標(biāo)。
KeypointNet的整體結(jié)構(gòu)設(shè)計如圖3所示。網(wǎng)絡(luò)的設(shè)計思想包含3點:
圖3 KeypointNet結(jié)構(gòu)Fig.3 Structure of KeypointNet
1) 依據(jù)經(jīng)典的編碼器-解碼器結(jié)構(gòu)[15],設(shè)計了一種由低層級顯著特征與高層級特征相融合的模塊(Bottom Salient to Top,BST),有效獲取了多尺度信息,低層級的較精確的位置信息與高層級的高語義信息相融合,有效增強(qiáng)了特征提取與表達(dá)能力。
2) 編碼器與解碼器之間使用了金字塔池化模塊(Pyramid Pooling Module, PPM)[22],提取了不同感受野下的全局特征,有效融合了上下文全局信息,增強(qiáng)了特征的表征能力。
3) 網(wǎng)絡(luò)的標(biāo)簽是以目標(biāo)中心點的坐標(biāo)為中心,根據(jù)高斯分布計算而來的目標(biāo)點熱力圖,同時使用熱力圖回歸而不是坐標(biāo)點回歸來優(yōu)化目標(biāo)中心點坐標(biāo),泛化能力更強(qiáng)。
網(wǎng)絡(luò)的模塊如下:
1) BST模塊??紤]到目標(biāo)總體尺寸較小,而低層級的目標(biāo)位置信息較為精確,受注意力機(jī)制[23-24]的啟發(fā),設(shè)計了從低層級到高層級的特征融合模塊BST,如圖4所示。
圖4 BST模塊結(jié)構(gòu)Fig.4 Structure of BST module
首先使用不同尺寸的池化層對低層級的信息進(jìn)行提取與融合,獲得低層級的區(qū)域響應(yīng)值最高的多尺度的顯著信息,降低了因目標(biāo)尺寸大小不同造成的影響,用提取后的信息對具有高語義信息的高層級進(jìn)行注意力加權(quán),使得高層級具備高語義信息的同時也擁有了較為精確的位置信息。
2) PPM模塊[22]。如圖5所示,采用4種不同的池化尺寸,將特征圖池化到指定大小,再通過1×1卷積來降低特征圖通道數(shù)并上采樣到原特征圖尺寸,最后將所有的特征圖與原特征圖按通道連接。PPM模塊在池化過程中將特征圖池化到了不同大小,從而獲取了不同尺度下的全局信息。
圖5 PPM模塊結(jié)構(gòu)Fig.5 Structure of PPM module
輸入圖像標(biāo)記為I,輸出結(jié)果標(biāo)記為S,輸入圖像到輸出圖像之間的變換記為
網(wǎng)絡(luò)的損失函數(shù)采用了SmoothL1Loss[25],網(wǎng)絡(luò)的損失函數(shù)為
式中:S和G分別代表KeypointNet的熱力圖預(yù)測結(jié)果和熱力圖真值。
目前,公開的紅外弱小目標(biāo)檢測數(shù)據(jù)集較少,主要有以下2個:
1) NJUST-SIRST數(shù)據(jù)集[26]。本數(shù)據(jù)包含1×104個訓(xùn)練樣本與100個測試樣本。本數(shù)據(jù)集中的紅外弱小目標(biāo)圖像樣本是用實際的或仿真的弱小目標(biāo)與實際的天空、海面、建筑物背景圖像隨機(jī)組合的,用于訓(xùn)練的部分紅外圖像樣本及真實標(biāo)簽圖如圖6所示。
圖6 訓(xùn)練集樣本及真實標(biāo)簽圖Fig.6 Samples of training set and ground truth
2) NUAA-SIRST數(shù)據(jù)集[12]。本數(shù)據(jù)集包含256個訓(xùn)練集樣本、85個驗證集樣本和86個測試集樣本。本數(shù)據(jù)集中的紅外弱小目標(biāo)圖像樣本由真實的紅外相機(jī)采集而來并加以人工標(biāo)注,用于訓(xùn)練的部分紅外圖像樣本及真實標(biāo)簽圖如圖7所示。
圖7 訓(xùn)練集樣本及真實標(biāo)簽圖Fig.7 Samples of training set and ground truth
考慮到紅外弱小目標(biāo)檢測技術(shù)在實際中的應(yīng)用特性,評價標(biāo)準(zhǔn)不宜采用關(guān)鍵點檢測方法中的諸如對象關(guān)鍵點相似性(Object Keypoint Similarity, OKS)[27]等評價指標(biāo),而采用紅外弱小目標(biāo)檢測技術(shù)領(lǐng)域常用的目標(biāo)檢測率與目標(biāo)虛警率。
1) 檢測率。檢測率(Pd)是目標(biāo)級別的評估指標(biāo),是檢測正確的目標(biāo)數(shù)量與所有目標(biāo)數(shù)量的比值,計算公式為
式中:Tcorrect和Tall分別表示檢測正確的目標(biāo)數(shù)量與所有的目標(biāo)數(shù)量。判斷目標(biāo)點是否檢測正確的方法如下:如果預(yù)測的目標(biāo)中心點坐標(biāo)與實際的目標(biāo)中心點坐標(biāo)之間的像素偏差小于閾值,則認(rèn)為該目標(biāo)預(yù)測正確。
2) 虛警率。虛警率(Fa)是另一個目標(biāo)級別的評估指標(biāo),僅僅追求檢測率是不夠的,檢測率的提升難免會增加誤檢測的概率,因此用虛警率來對誤檢進(jìn)行衡量。虛警率是指預(yù)測錯誤的目標(biāo)數(shù)量與預(yù)測的所有目標(biāo)數(shù)量的比值,計算公式為
式中:Pfalse是預(yù)測錯誤的目標(biāo)數(shù)量;Pall是預(yù)測的所有目標(biāo)數(shù)量,當(dāng)預(yù)測的目標(biāo)中心點坐標(biāo)與實際的目標(biāo)中心點坐標(biāo)之間的像素偏差大于閾值,則認(rèn)為該目標(biāo)預(yù)測錯誤。
4.3.1 數(shù)據(jù)標(biāo)簽的獲取與處理
網(wǎng)絡(luò)的輸出是以弱小目標(biāo)中心點為中心的熱力圖,而數(shù)據(jù)集中的標(biāo)簽是二值化圖像,因此首先需要計算目標(biāo)中心點坐標(biāo),并選擇合適的高斯半徑對中心點坐標(biāo)按照高斯分布計算標(biāo)簽圖,經(jīng)處理后的目標(biāo)標(biāo)簽可視化熱力圖如圖8所示。
圖8 可視化熱力圖Fig.8 Samples of visual heatmap
4.3.2 實驗環(huán)境與參數(shù)
本實驗中采用2.6 GHz inter CPUE5-2650處理器,TITAN XP GPU,12 GB RAM硬件環(huán)境;Ubuntu16.04系統(tǒng)、Python、Pytorch軟件框架。判斷目標(biāo)是否檢測正確的閾值設(shè)置為3個像素,用于計算高斯分布的高斯半徑為5,初始學(xué)習(xí)率為3×10-4,每經(jīng)過10個訓(xùn)練周期學(xué)習(xí)率降為10%,訓(xùn)練的樣本批量大小為64,一共訓(xùn)練100個周期。針對NJUST-SIRST數(shù)據(jù)集,將圖片的分辨率統(tǒng)一為128×128輸入網(wǎng)絡(luò)。針對NUAA-SIRST數(shù)據(jù)集,將圖片的分辨率統(tǒng)一為256×256輸入網(wǎng)絡(luò)。
對比了紅外弱小目標(biāo)領(lǐng)域的主流算法,包括傳統(tǒng)的算法GST[28]、ILCM[29]、LIG[30]、NRAM[31]、PSTNN[32]、TLLCM[33],基于深度學(xué)習(xí)的算法DNANet[12]、MDvsFA[26]。不同算法的結(jié)果如表1所示。表1顯示了在不同數(shù)據(jù)集上不同算法的Pd與Fa指標(biāo)的大小,Pd指標(biāo)越大越好,F(xiàn)a指標(biāo)越小越好。根據(jù)表1,KeypointNet檢測效果明顯優(yōu)于傳統(tǒng)算法,雖然KeypointNet在2個數(shù)據(jù)集上檢測率分別比MDvsFA和DNANet差一些,但虛警率比它們低得多,綜合來看,基于關(guān)鍵點檢測的KeypointNet在目標(biāo)級別的檢測具有最優(yōu)的效果。
表1 不同算法的結(jié)果對比Table 1 Experimental results by different algorithms
同時,測試了3種基于深度學(xué)習(xí)的算法在GPU上每100張圖片(分辨率128×128)推理所需要的時間(表2)。根據(jù)表2,KeypointNet算法比DNANet和MDvsFA快的多,滿足實時性要求。綜合表1和表2,所提算法在檢測率、虛警率和實時性上取得了最佳的平衡。
表2 不同算法的推理時間對比Table 2 Inference time by different algorithms
圖9顯示了KeypointNet網(wǎng)絡(luò)的輸出效果,從左到右依次是輸入圖像、二值化標(biāo)簽圖、編碼器的輸出結(jié)果、網(wǎng)絡(luò)輸出可視化熱力圖、熱力圖的峰值、熱力圖峰值與二值化標(biāo)簽圖(即定位結(jié)果,包括目標(biāo)中心點坐標(biāo))的疊加圖,可以看出,編碼器初步關(guān)注了目標(biāo)點的位置(第3列),再經(jīng)過設(shè)計的解碼器和特征融合模塊后,得到的熱力圖輸出(第4列)已經(jīng)較為準(zhǔn)確地關(guān)注到了目標(biāo)區(qū)域,最終通過提取峰值(第5列)篩選掉了誤檢的目標(biāo),并在定位結(jié)果(第6列)中展示了預(yù)測的目標(biāo)中心點的坐標(biāo)數(shù)值。
圖9 KeypointNet的輸出結(jié)果Fig.9 Output results of KeypointNet
為了證明基于關(guān)鍵點檢測算法的有效性,將本文算法中采用關(guān)鍵點檢測的部分替換為采用一般語義分割的算法進(jìn)行性能對比實驗,即將關(guān)鍵點檢測頭替換為分割頭,其余部分均保持不變,從而驗證基于關(guān)鍵點算法的有效性,如表3所示。從表3可以看出,雖然基于語義分割的算法檢測率有一定的提升,但虛警率卻無法保持較低水平,相反,基于關(guān)鍵點的檢測算法既能保證較高的檢測率,也能保證較低的虛警率,例如NJUST-SIRST上,雖然基于語義分割的方法比基于關(guān)鍵點的方法檢測率高了0.7%,但虛警率足足提高了2倍多,基于關(guān)鍵點的方法能夠在檢測率與虛警率上獲得最佳的平衡。
表3 不同檢測算法實驗結(jié)果Table 3 Experimental results by different algorithms
本實驗分析了獲取熱力圖標(biāo)簽時高斯半徑的影響,如表4所示,包括高斯半徑r=3,r=5,r=10與r=15。根據(jù)實驗結(jié)果,高斯半徑較小時檢測率較低,容易漏檢,高斯半徑較大時虛警率較高,容易造成誤檢。綜合檢測率與虛警率2個方面來看,高斯半徑r=5處于中間值,根據(jù)此半徑進(jìn)行高斯分布計算效果最好。
表4 不同高斯半徑的KeypointNet效果Table 4 Influence of different Gaussian radius on KeypointNet
實驗分析了網(wǎng)絡(luò)中的模塊(BST模塊與PPM模塊)對實驗結(jié)果的影響。為了具體分析這2個模塊作用,以不使用BST模塊和PPM模塊的網(wǎng)絡(luò)為基本網(wǎng)絡(luò)(Baseline),融合方式分別選取直接通道合并和使用BST模塊,編碼器與解碼器部分連接方式分別選取直接連接和使用PPM模塊,實驗結(jié)果如表5所示。
表5 模塊的KeypointNet影響Table 5 Influence of modules on KeypointNet
從表5可以看出,把目標(biāo)看成點進(jìn)行訓(xùn)練,在不增加其他模塊時也具有相對較好的效果,這充分說明了基于關(guān)鍵點方法的紅外弱小目標(biāo)檢測的可靠性。加入PPM與BST模塊后,網(wǎng)絡(luò)擁有了更高的檢測率和更低的虛警率,這驗證了相關(guān)模塊的合理性。
同時,分析了不同的損失函數(shù)對實驗結(jié)果的影響,選擇了回歸常用的MSE Loss,SmoothLl Loss[25]與人臉關(guān)鍵點檢測中常用的Wing Loss[34]進(jìn)行對比分析,計算方式分別為
式中:x=|pred-target|;C=ω-ωln(1+ω/ε);pred為預(yù)測值;target 為標(biāo)簽值。ω和ε是Wing Loss中可調(diào)節(jié)的超參數(shù),本文嘗試了ω=10,ε=2(Wing Loss 1)與ω=5,ε=2(Wing Loss 2)2種形式。各個損失函數(shù)的結(jié)果如表6所示。
表6 不同損失函數(shù)的KeypointNet效果Table 6 Influence of different loss functions on KeypointNet
從表6可以看出,Wing Loss在本網(wǎng)絡(luò)中效果較差,在訓(xùn)練過程中收斂也很慢,這說明Wing Loss并不適合本網(wǎng)絡(luò)。根據(jù)表中數(shù)據(jù),最終選取了回歸中廣泛使用的SmoothL1 Loss作為損失函數(shù)。
本文是對紅外弱小目標(biāo)檢測領(lǐng)域的一種嘗試,嘗試將廣泛運用于姿態(tài)估計領(lǐng)域的關(guān)鍵點檢測技術(shù)運用于弱小目標(biāo)檢測領(lǐng)域,把目標(biāo)當(dāng)作“點”,預(yù)測“點”的坐標(biāo)。依據(jù)編碼器-解碼器結(jié)構(gòu)及注意力機(jī)制的思想,實驗設(shè)計了Keypoint-Net網(wǎng)絡(luò),通過該網(wǎng)絡(luò)提取特征并預(yù)測出熱力圖,根據(jù)熱力圖來獲取目標(biāo)的中心點坐標(biāo)。與通過分割來預(yù)測弱小目標(biāo)的做法相比,本網(wǎng)絡(luò)把目標(biāo)看作點,不僅減少了分割網(wǎng)絡(luò)中“欠分割”與“過分割”對最后結(jié)果的影響,也加快了檢測速度。
根據(jù)表1和表2中數(shù)據(jù),部分傳統(tǒng)算法誤檢率非常高,本網(wǎng)絡(luò)的效果要明顯優(yōu)于傳統(tǒng)算法;與深度學(xué)習(xí)算法相比,本網(wǎng)絡(luò)也具有很好的效果,同時推理速度也快很多。表3顯示了與基于語義分割算法對比,基于關(guān)鍵點的算法具有更好的效果。表4顯示了高斯半徑對網(wǎng)絡(luò)效果的影響,本網(wǎng)絡(luò)最重要的是通過預(yù)測熱力圖來獲取目標(biāo)點的中心坐標(biāo),在訓(xùn)練網(wǎng)絡(luò)的過程中需要構(gòu)建標(biāo)簽熱力圖,根據(jù)高斯分布來計算以目標(biāo)點為中心的熱力圖,因此高斯半徑的選擇非常重要。表5顯示了BST模塊和PPM模塊對網(wǎng)絡(luò)效果的影響,驗證了本文設(shè)計模塊的有效性。表6顯示了不同損失函數(shù)對實驗效果的影響,人臉關(guān)鍵點檢測領(lǐng)域的Wing Loss損失函數(shù)在本網(wǎng)絡(luò)上效果不佳,經(jīng)比較最終選取了回歸中廣泛使用的損失函數(shù)SmoothL1 Loss。
圖10顯示了傳統(tǒng)方法中的NRAM、PSTNN、深度學(xué)習(xí)中的MDvsFA和本文所提出的KeypointNet算法的輸出結(jié)果的比較,其中KeypointNet中左側(cè)的圖像為KeypointNet網(wǎng)絡(luò)的可視化熱力圖,右側(cè)的圖像為熱力圖與真實標(biāo)簽圖的疊加圖。從圖10可以看出,在背景較為復(fù)雜時,傳統(tǒng)算法檢測效果不理想,容易漏檢,而基于語義分割的算法(MDvsFA)易出現(xiàn)“過分割”現(xiàn)象,導(dǎo)致虛警率偏高。相比于其他算法,本文所提出的算法有著更低的虛警率,有著更好的檢測效果。
圖10 不同算法的輸出結(jié)果Fig.10 Results of different algorithms
圖11顯示了部分預(yù)測失敗的案例,第1行中,小目標(biāo)與海面過于相似,KeypointNet出現(xiàn)了漏檢;第2行中,KeypointNet誤把塔吊的吊鉤當(dāng)成了小目標(biāo),出現(xiàn)了誤檢,這也是后期工作需要進(jìn)一步研究的地方。
圖11 部分預(yù)測失敗的案例Fig.11 Samples of failed predictions
針對紅外弱小目標(biāo)檢測,提出了一種基于關(guān)鍵點檢測弱小目標(biāo)檢測算法,在軍事方面具有重要應(yīng)用價值,同時,航空遙感目標(biāo)檢測也是一個研究熱點,研究人員針對高分辨率的遙感圖像,提出了很多檢測精度高、魯棒性強(qiáng)的算法,如DEA-Net[35]和CG-Net[36]等。這些算法在高分辨率的遙感圖像上檢測效果較好,但是對于小目標(biāo)(目標(biāo)大小只有幾個像素)的遙感圖像檢測效果仍有提升空間。未來,打算在已有基礎(chǔ)上,進(jìn)一步探究適合航空遙感中的小目標(biāo)檢測算法。
1) 本文從關(guān)鍵點檢測的角度來解決紅外弱小目標(biāo)檢測問題,直接優(yōu)化目標(biāo)中心點坐標(biāo),確保了檢測速度,有效地保證了目標(biāo)的檢測率與虛警率。
2) 本文提出了基于關(guān)鍵點檢測的紅外弱小目標(biāo)檢測網(wǎng)絡(luò)KeypointNet,避免了語義分割網(wǎng)絡(luò)中“欠分割”與“過分割”對檢測結(jié)果造成的影響,保證了檢測速度與檢測精度,設(shè)計了一種特征融合模塊,有效提取了目標(biāo)的多尺度信息,提高了檢測效果。
3) 在紅外弱小目標(biāo)檢測領(lǐng)域中廣泛使用的NJUST-SIRST數(shù)據(jù)集和NUAA-SIRST數(shù)據(jù)集上的實驗表明,KeypointNet網(wǎng)絡(luò)能夠有效地平衡紅外弱小目標(biāo)的漏檢率和虛警率,同時也具備較快的檢測速度,證明了算法的有效性,這也說明了關(guān)鍵點檢測思想在多領(lǐng)域有著一定的可拓展性。