史文旭,鮑佳慧,姚 宇*
(1.中國(guó)科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,成都 610081;2.中國(guó)科學(xué)院大學(xué),北京 100049;3.電子科技大學(xué)格拉斯哥學(xué)院,成都 611731)
(?通信作者電子郵箱yaoyu@casit.com.cn)
近年來(lái),隨著遙感、航天等相關(guān)技術(shù)的發(fā)展,遙感圖像的應(yīng)用場(chǎng)景越發(fā)廣泛,這也為遙感目標(biāo)檢測(cè)與識(shí)別研究人員提供了可靠的數(shù)據(jù)來(lái)源[1]。通過(guò)目標(biāo)識(shí)別技術(shù)獲取遙感圖像中的特定目標(biāo)的類別和位置,能夠在智能交通、公共安全、國(guó)防建設(shè)等領(lǐng)域發(fā)揮重要的作用,因此實(shí)現(xiàn)對(duì)遙感目標(biāo)的檢測(cè)和識(shí)別具有重要的研究?jī)r(jià)值[2-3]。
隨著Krizhevsky 等[4]在2012 年設(shè)計(jì)的AlexNet 網(wǎng)絡(luò)在ImageNet 圖像[5]分類比賽中取得巨大的成功,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)逐漸取代了傳統(tǒng)的目標(biāo)檢測(cè)算法。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)憑借其泛化能力以及共享參數(shù)的優(yōu)勢(shì),已被廣泛地應(yīng)用于各種目標(biāo)檢測(cè)與識(shí)別的任務(wù)中[6-7]。基于CNN 的目標(biāo)檢測(cè)算法主要分為兩類:一類是將整個(gè)算法流程分為目標(biāo)特征提取和目標(biāo)位置定位兩部分的雙階段目標(biāo)檢測(cè)算法,如Fast R-CNN(Fast region-CNN)[8]、Faster R-CNN[9]、基于區(qū)域的全卷積網(wǎng)絡(luò)(Region-based Fully Convolutional Network,R-FCN)[10]等;另一類是將目標(biāo)特征提取和位置定位一體化處理的單階段目標(biāo)檢測(cè)算法,如統(tǒng)一實(shí)時(shí)目標(biāo)檢測(cè)算法(You Only Look Once,YOLO)[11]、多尺度單發(fā)射擊(Single Shot multibox Detector,SSD)[12]、反卷積SSD(Deconvolutional SSD,DSSD)網(wǎng)絡(luò)[13]等。單階段算法具備較高的檢測(cè)效率且檢測(cè)精度與雙階段算法相比并無(wú)明顯劣勢(shì),因此應(yīng)用得更為廣泛。文獻(xiàn)[14]基于SSD 算法,提出一種端到端的多尺度特征融合飛機(jī)目標(biāo)檢測(cè)框架MultDet,試圖提高對(duì)遙感圖像中飛機(jī)目標(biāo)檢測(cè)的精度;但該算法增加了網(wǎng)絡(luò)的計(jì)算成本,導(dǎo)致檢測(cè)效率較低,同時(shí)該方法對(duì)小目標(biāo)的檢測(cè)精度較差。文獻(xiàn)[15]在SSD 算法的基礎(chǔ)之上,結(jié)合特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)結(jié)構(gòu)[16]的優(yōu)勢(shì),提出一種綜合候選框方式和一體化檢測(cè)方式的遙感圖像檢測(cè)算法,該算法提高了目標(biāo)檢測(cè)的精度;但該算法基于FPN 逐級(jí)特征融合的方式使得檢測(cè)速度大幅度下降,難以滿足實(shí)時(shí)監(jiān)測(cè)的需求。文獻(xiàn)[17]基于SSD 算法,提出了基于特征重用和語(yǔ)義聚合的圖像艦船目標(biāo)檢測(cè)算法,提高了艦船目標(biāo)的檢測(cè)精度;但該算法檢測(cè)效率下降明顯。上述基于CNN 的遙感圖像目標(biāo)檢測(cè)算法雖然提高了遙感圖像目標(biāo)的檢測(cè)精度,但仍然存在小尺度目標(biāo)檢測(cè)精度較低、網(wǎng)絡(luò)性能較差的問(wèn)題,主要由于以下兩個(gè)原因:一是遙感圖像目標(biāo)尺寸變化多樣,目前用于檢測(cè)遙感圖像的深度學(xué)習(xí)算法難以適應(yīng)目標(biāo)的多尺度性,尤其是對(duì)較小尺度目標(biāo)物體的檢測(cè)效果不佳;二是在模型訓(xùn)練過(guò)程中正樣本與負(fù)樣本分布不平衡,易造成簡(jiǎn)單易分類樣本主導(dǎo)網(wǎng)絡(luò)訓(xùn)練,制約網(wǎng)絡(luò)性能。
為解決上述問(wèn)題,提高對(duì)遙感圖像中不同尺度目標(biāo)物體的檢測(cè)精度,提高算法檢測(cè)效率,本文對(duì)SSD 算法進(jìn)行改進(jìn),提出了一種特征聚合SSD(Feature aggregation SSD,F(xiàn)aSSD)算法。本文的主要工作如下:1)采集一個(gè)含有不同尺度大小的遙感圖像數(shù)據(jù)集用于模型的訓(xùn)練和測(cè)試。2)改進(jìn)SSD算法在網(wǎng)絡(luò)結(jié)構(gòu)上的缺陷。設(shè)計(jì)淺層特征融合模塊和淺層特征增強(qiáng)模塊,彌補(bǔ)SSD算法對(duì)小目標(biāo)物體的特征提取能力差的問(wèn)題;設(shè)計(jì)深層特征融合模塊,增強(qiáng)多尺度單發(fā)射擊網(wǎng)絡(luò)算法深層網(wǎng)絡(luò)之間的關(guān)聯(lián)度,降低重復(fù)檢測(cè)的發(fā)生。3)改善SSD 算法中正負(fù)樣本特征分布不平衡的問(wèn)題。使用新的訓(xùn)練策略,在損失函數(shù)中引入聚焦分類損失代替原有的分類損失,平衡正負(fù)樣本分布的損失函數(shù)。
由于網(wǎng)絡(luò)上公開(kāi)的光學(xué)遙感圖像數(shù)據(jù)集并不能完全符合本文的應(yīng)用研究,因此本文自采集一定規(guī)模的遙感圖像數(shù)據(jù),具體類別為飛機(jī)、油罐、艦船、立交橋、操場(chǎng)共5 類。采集遙感圖像幅面約為500 像素×375 像素,共計(jì)1 554 張,通過(guò)主流的開(kāi)源工具對(duì)其進(jìn)行數(shù)據(jù)標(biāo)注樣本目標(biāo)7 969個(gè),各類別樣本數(shù)據(jù)信息如表1所示,樣本示例如圖1所示。
表1 數(shù)據(jù)集的樣本數(shù)統(tǒng)計(jì)Tab.1 Statistics of number of samples in dataset
圖1 遙感圖像數(shù)據(jù)集樣本示例Fig.1 Samples of remote sensing image dataset
SSD網(wǎng)絡(luò)是由Liu等[12]提出的一種快速高效的檢測(cè)算法,其框架結(jié)構(gòu)如圖2所示。
圖2 SSD算法框架Fig.2 SSD algorithm framework
如圖2 所示,SSD 算法以VGG16 網(wǎng)絡(luò)[18]作為特征提取的骨干網(wǎng)絡(luò),在此基礎(chǔ)上添加輔助卷積和池化層等網(wǎng)絡(luò)結(jié)構(gòu),得到由Conv4_3、FC7、Conv8_2、Conv9_2、Conv10_2、Conv11_2 構(gòu)成的多尺度特征層組。在多尺度特征層組結(jié)構(gòu)中,每層特征之間通過(guò)1×1 卷積和3×3 卷積進(jìn)行連接,最后進(jìn)行非極大值抑制(Non-Maximum Suppression,NMS)操作,得到最終的預(yù)測(cè)結(jié)果。
SSD 算法雖然采用多尺度特征組對(duì)目標(biāo)圖像進(jìn)行分類和定位,但由于較淺層網(wǎng)絡(luò)提取特征表達(dá)能力差且多尺度特征組中各層特征相互獨(dú)立,造成圖像中出現(xiàn)小目標(biāo)物體漏檢和出現(xiàn)重復(fù)檢測(cè)的問(wèn)題。
為解決這些問(wèn)題,本文在原SSD 算法的基礎(chǔ)之上進(jìn)行改進(jìn)提出了用于遙感圖像多尺度目標(biāo)檢測(cè)的FaSSD 算法,其在結(jié)構(gòu)上主要對(duì)現(xiàn)有的SSD 算法做以下兩方面的改進(jìn):一是基于多尺度特征融合[16]和多分支卷積操作[19]的思想,對(duì)Conv4_3、FC7 層設(shè)計(jì)淺層特征融合(Shallow Feature Fusion,SFF)模塊和淺層特征增強(qiáng)(Shallow Feature Enhancement,SFE)模塊;二是基于反卷積特征融合[20]操作和殘差融合[21]操作的思想,在Conv8_2、Conv9_2、Conv10_2、Conv11_2 層后增加深層特征增強(qiáng)(Deep Feature Enhancement,DFE)模塊,F(xiàn)aSSD 算法的框架及輔助模塊如圖3 所示,圖中每個(gè)Conv 都表示Conv+BN+ReLU 操作。
如圖3 所示,F(xiàn)aSSD 算法的網(wǎng)絡(luò)結(jié)構(gòu)由2 個(gè)SFF 模塊、2 個(gè)SFE模塊以及4個(gè)DFE模塊組成。如圖3(a)所示,F(xiàn)aSSD算法首先利用SFF 模塊將Conv4_3 和FC7、FC7 和Conv8_2 進(jìn)行特征融合,將融合后的特征輸入至SFE 模塊中進(jìn)行特征增強(qiáng)操作,并將輸出的特征作為新的Conv4_3和FC7層的輸出。SFE模塊借鑒文獻(xiàn)[16]和文獻(xiàn)[19]的思想,將多尺度特征融合和多分支卷積操作進(jìn)行結(jié)合,在進(jìn)行1×1維度變換后,利用可分離卷積思想將k×k卷積分解為k×1 和1×k,在保證感受野大小不變的同時(shí)可以提取到更多的特征信息,最后將得到的特征進(jìn)行特征連接[22],具體結(jié)構(gòu)如圖3(c)所示。對(duì)SSD 算法中的Conv4_3、FC7層進(jìn)行特征增強(qiáng)的操作過(guò)程可表示為:
其中:xi代表原SSD 算法的第i層的輸出;Xi為本文FaSSD 算法在第i層的輸出;Hi(?)和Ci(?)分別對(duì)應(yīng)圖3(b)中的SFF 模塊和圖3(c)SFE 模塊的操作。圖3中的Conv操作表示卷積操作和整流線性單元(Rectified Linear Unit,ReLU)非線性操作和歸一化(Batch Normalization,BN)[23]操作集合。
圖3 FaSSD算法及其輔助模塊框架Fig.3 Framework of FaSSD algorithm and its auxiliary modules
此外,為增強(qiáng)多尺度特征層的后四個(gè)特征之間的關(guān)聯(lián),基于反卷積特征融合[20]操作和殘差融合[21]操作的思想,設(shè)計(jì)DFE模塊,其結(jié)構(gòu)如圖3(d)所示,F(xiàn)aSSD算法利用DFE模塊將相鄰特征進(jìn)行融合,生成新的多尺度特征層的后四個(gè)特征圖Conv8_2、Conv9_2、Conv10_2、Conv11_2,具體可表示為:
其中:b1(?)、b2(?)、b3(?)分別代表圖3(d)中banch1、banch2、banch3 對(duì)應(yīng)的卷積組合;Concat[?]為對(duì)得到的特征進(jìn)行特征連接操作,將具備較大感受野的深層特征的信息與較淺層的網(wǎng)絡(luò)特征進(jìn)行融合,使對(duì)目標(biāo)物體時(shí)進(jìn)行檢測(cè)時(shí)可以利用其周圍特征的信息,特征之間不再相互獨(dú)立,增強(qiáng)特征提取網(wǎng)絡(luò)之間的關(guān)聯(lián)度。
原SSD 檢測(cè)算法用位置損失誤差(localization loss,loc)與分類損失誤差(confidence loss,conf)的加權(quán)和作為其損失函數(shù),具體可以定義為:
其中:N表示與真實(shí)框相匹配的候選框的個(gè)數(shù);x為輸入圖像;c為目標(biāo)類別;l為候選框,g為真實(shí)的標(biāo)簽框,a為兩者的權(quán)重。
但神經(jīng)網(wǎng)絡(luò)在對(duì)遙感圖像數(shù)據(jù)進(jìn)行特征提取時(shí),正負(fù)樣本特征的不平衡,往往造成簡(jiǎn)單的負(fù)樣本主導(dǎo)網(wǎng)絡(luò)的訓(xùn)練并導(dǎo)致模型的退化,這嚴(yán)重制約了檢測(cè)網(wǎng)絡(luò)的性能。為解決此問(wèn)題,本文引入聚焦分類損失(focal classification loss)[24]進(jìn)行聯(lián)合監(jiān)督訓(xùn)練,具體可以表示為:
其中:Lloc(b*,b)為FaSSD 算法的定位損失函數(shù),b為預(yù)測(cè)目標(biāo)坐標(biāo),b?為真實(shí)的標(biāo)簽框位置坐標(biāo)。Lloc(b*,b)借鑒Faster R-CNN的位置回歸函數(shù),可表示為:
Lclass_fl(t*,t)為FaSSD 算法的分類損失函數(shù),t為預(yù)測(cè)目標(biāo)類別,t?為真實(shí)的目標(biāo)類別。Lclass_fl(t*,t)采用交叉熵計(jì)算損失,可表示為:
其中:ti,c表示正確且預(yù)測(cè)為前景預(yù)測(cè)框的概率;表示正確且預(yù)測(cè)為背景預(yù)測(cè)框的概率;at和r為超參數(shù),且at∈[0,1],r∈[0,5]。
1)識(shí)別精度。
平均精度均值(mean Average Precision,mAP)已被廣泛地應(yīng)用于多種不同場(chǎng)景下的目標(biāo)檢測(cè)任務(wù)中[8-16],是指多個(gè)類別檢測(cè)精度的平均值。每個(gè)類別都可以根據(jù)準(zhǔn)確率(precision)和召回率(recall)繪制一條曲線,具體可表示為
其中:TP代表真正例即True Positive;FN代表假反例即False Negative;FP代表假正例即False Positive。
2)識(shí)別速度。
本文選用該領(lǐng)域常用幀率來(lái)表示目標(biāo)檢測(cè)與識(shí)別的速度,單位為frame/s,即每秒鐘識(shí)別圖像的數(shù)量大小,該數(shù)值越大則表明算法越高效,反之則證明算法識(shí)別速度較慢。
本文所提FaSSD 算法的訓(xùn)練和驗(yàn)證都是基于開(kāi)源深度學(xué)習(xí)框架,訓(xùn)練階段首先利用ImageNet 數(shù)據(jù)集對(duì)骨干網(wǎng)絡(luò)VGG16 進(jìn)行預(yù)訓(xùn)練操作,然后參照文獻(xiàn)[12]的實(shí)驗(yàn)設(shè)置以及鑒于本文實(shí)驗(yàn)設(shè)備的顯存限制,整個(gè)算法迭代次數(shù)為1.2×105。初始學(xué)習(xí)率設(shè)置為0.000 1,在迭代次數(shù)為80 000 和100 000 次時(shí)對(duì)學(xué)習(xí)率進(jìn)行調(diào)整,分別使其縮小為原來(lái)的1/10,最終學(xué)習(xí)率為0.000 001,動(dòng)量因子設(shè)置為0.9,權(quán)重衰減系數(shù)為0.000 5,采用隨機(jī)梯度下降優(yōu)化(Stochastic Gradient Descent,SGD)[25]方式對(duì)損失函數(shù)即式(4)進(jìn)行優(yōu)化,其中訓(xùn)練批量的大小batchsize設(shè)置為8。
為驗(yàn)證本文所提FaSSD 算法對(duì)遙感圖像目標(biāo)檢測(cè)的有效性,除了與SSD 算法[12]進(jìn)行對(duì)比之外,還與已有的SSD 算法的改進(jìn)算法進(jìn)行對(duì)比,并在驗(yàn)證集上進(jìn)行精度驗(yàn)證。統(tǒng)計(jì)對(duì)比各算法對(duì)遙感目標(biāo)的檢測(cè)精度、平均精度均值以及檢測(cè)速度,結(jié)果如表2所示。從表2可以看出,本文所提的FaSSD 算法對(duì)遙感圖像目標(biāo)進(jìn)行檢測(cè)的mAP 值為77.95%,明顯優(yōu)于其他算法。特別是對(duì)飛機(jī)、油罐、艦船三類目標(biāo)進(jìn)行檢測(cè)時(shí),F(xiàn)aSSD 算法的檢測(cè)精度分別為79.06%、76.35%、71.43%,較SSD 算法分別提高了9.15 個(gè)百分點(diǎn)、5.62 個(gè)百分點(diǎn)、5.04 個(gè)百分點(diǎn),與DSSD算法相比分別高了3.31個(gè)百分點(diǎn)、3.24個(gè)百分點(diǎn)、1.11個(gè)百分點(diǎn)。從檢測(cè)速度上看,F(xiàn)aSSD 算法的檢測(cè)速度為33.8 frame/s,由于FaSSD 算法相較于SSD 算法在網(wǎng)絡(luò)上添加了三個(gè)相關(guān)模塊,導(dǎo)致檢測(cè)效率有所降低,但FaSSD 算法與Faster R-CNN[9]、DSSD[14]、增強(qiáng)SSD(Enhanced SSD,ESSD)[26]等算法相比,在檢測(cè)效率上仍具備一定的優(yōu)勢(shì)。
圖4 為不同場(chǎng)景下使用FaSSD 算法對(duì)光學(xué)遙感圖像的檢測(cè)結(jié)果示例,在不同光照、不同背景、不同目標(biāo)尺度等多種檢測(cè)環(huán)境情況下,該算法均能較為精確地檢測(cè)到遙感圖像中的目標(biāo)物體。
表2 不同算法在測(cè)試集上的檢測(cè)結(jié)果對(duì)比Tab.2 Comparison of detection results of different algorithms on test set
圖4 FaSSD算法對(duì)光學(xué)遙感圖像檢測(cè)示例Fig.4 Detection examples of FaSSD algorithm for optical remote sensing images
由于遙感圖像容易受到云層、霧霾、光照強(qiáng)度、背景對(duì)比度等因素的影響,導(dǎo)致存在一定數(shù)量的模糊圖像,本節(jié)將直接利用上述訓(xùn)練的FaSSD 算法和SSD 算法分別在這些圖像上進(jìn)行遙感目標(biāo)的檢測(cè),相應(yīng)的檢測(cè)結(jié)果如圖5所示。
圖5 FaSSD算法與SSD算法對(duì)模糊目標(biāo)的檢測(cè)結(jié)果示例Fig.5 Examples of fuzzy target detection results by FaSSD algorithm and SSD algorithm
通過(guò)直觀的對(duì)比可以看出,本文所提的FaSSD 算法對(duì)因云層遮擋、強(qiáng)光照等因素造成的模糊目標(biāo)的檢測(cè)效果明顯優(yōu)于傳統(tǒng)的SSD 算法。這是因?yàn)镕aSSD 算法中增加了淺層特征融合模塊、淺層特征增強(qiáng)模塊、深層特征融合模塊,不同特征層的特征進(jìn)行融合使得提取的特征更為豐富,在一定程度上增強(qiáng)了對(duì)模糊目標(biāo)的特征響應(yīng),進(jìn)而提高了FaSSD 算法的檢測(cè)性能。
為進(jìn)一步提高對(duì)遙感圖像目標(biāo)檢測(cè)的精度,實(shí)現(xiàn)對(duì)遙感圖像目標(biāo)檢測(cè)精度與檢測(cè)速度的良好權(quán)衡,本文基于SSD 算法,結(jié)合特征聚合的思想,提出了FaSSD 算法。實(shí)驗(yàn)結(jié)果表明,在網(wǎng)絡(luò)結(jié)構(gòu)上增加淺層特征融合模塊、淺層特征增強(qiáng)模塊、深層特征融合模塊,以及引入聚焦分類損失對(duì)損失函數(shù)進(jìn)行聯(lián)合監(jiān)督,對(duì)SSD 算法中的金字塔結(jié)構(gòu)中的特征進(jìn)行特征聚合操作,可以有效地增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度遙感圖像的適應(yīng)能力,提高遙感圖像目標(biāo)的檢測(cè)精度,緩解正負(fù)樣本分布不平衡導(dǎo)致的模型衰退問(wèn)題,提高對(duì)模糊目標(biāo)的檢測(cè)效果。
本文所提的特征提取模塊以及改進(jìn)算法是否可以用于其他小尺度目標(biāo)樣本的檢測(cè)與識(shí)別任務(wù)還有待考證,如何在保證提高算法檢測(cè)精度的前提下不損失檢測(cè)效率以及采用非標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練和檢測(cè)是接下來(lái)的研究方向。