呂向東,彭超亮,陳治國,孫鵬飛,趙曉楠,徐 旸
(1.山東港口青島港集團(tuán)有限公司,山東青島 266001;2.中車長(zhǎng)江運(yùn)輸設(shè)備集團(tuán)有限公司,湖北武漢 430065)
遙感圖像擁有廣闊的視野和豐富的信息,廣泛應(yīng)用于偵查監(jiān)視、資源勘探、災(zāi)害監(jiān)測(cè)、軍事作戰(zhàn)等領(lǐng)域[1]。遙感圖像目標(biāo)檢測(cè)是遙感圖像解譯的重要分支之一,對(duì)于挖掘圖像的感興趣區(qū)域信息至關(guān)重要。傳統(tǒng)的目標(biāo)檢測(cè)方法有基于統(tǒng)計(jì)的目標(biāo)檢測(cè)、基于知識(shí)的目標(biāo)檢測(cè)以及基于模型的目標(biāo)檢測(cè)[2]等,這些方法由于需要人工設(shè)定先驗(yàn)條件,穩(wěn)健性差、智能程度低,難以用于檢測(cè)背景信息復(fù)雜的遙感影像目標(biāo)。隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,遙感圖像的目標(biāo)檢測(cè)技術(shù)實(shí)現(xiàn)了重大突破,并已成為當(dāng)前的研究熱點(diǎn)。然而,遙感圖像存在背景復(fù)雜、目標(biāo)空間占用比小等特點(diǎn),對(duì)遙感圖像目標(biāo)檢測(cè)帶來了極大挑戰(zhàn)[3]。
2012 年,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在ImageNet[4]圖像分類比賽中取得巨大成功,推動(dòng)了深度學(xué)習(xí)在圖像目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用,并逐步取代傳統(tǒng)的目標(biāo)檢測(cè)方法。目前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法大致分為兩類:一類是基于區(qū)域的目標(biāo)識(shí)別方法,如Faster R-CNN[5]、R-FCN[6],這些算法將目標(biāo)檢測(cè)分為兩個(gè)階段,先使用區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network, RPN)提取候選目標(biāo)信息,再利用檢測(cè)網(wǎng)絡(luò)預(yù)測(cè)和識(shí)別候選目標(biāo)的位置和類別,稱為雙步目標(biāo)檢測(cè)算法;另一類是基于回歸的目標(biāo)識(shí)別方法,如SSD(Signal Shot MultiBox Detector)[7]、YOLO(You Only Look Once)[8]等,此類算法直接通過網(wǎng)絡(luò)產(chǎn)生目標(biāo)的位置和類別信息,稱為單步目標(biāo)檢測(cè)算法。文獻(xiàn)[9]利用Microsoft COCO[10]數(shù)據(jù)集對(duì)比分析了Faster R-CNN、R-FCN 及SSD三種檢測(cè)算法的性能,結(jié)果表明Faster R-CNN 算法精度最高,SSD 算法速度最快。文獻(xiàn)[11]采用多層特征融合的方法改善SSD 算法在小目標(biāo)檢測(cè)上的缺陷,提出了RSSD 算法,但該算法對(duì)淺層特征信息均進(jìn)行特征增強(qiáng),產(chǎn)生過多的特征圖,在提高檢測(cè)精度的同時(shí)降低了檢測(cè)效率。文獻(xiàn)[12]提出FPN(Feature Pyramid Network)方法,通過多尺度特征預(yù)測(cè)和特征融合提高檢測(cè)性能,但FPN 方法由于直接利用深一層的卷積特征增強(qiáng)反向特征,無法充分利用高層語義信息[13]。文獻(xiàn)[14]提出了一種利用ResNet101 改進(jìn)SSD 的檢測(cè)算法,但其網(wǎng)絡(luò)層數(shù)太深,網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,會(huì)導(dǎo)致檢測(cè)速度大幅度降低。
為提高SSD 算法對(duì)遙感影像數(shù)據(jù)集中小目標(biāo)特征的提取精度,提出基于RSSD 的遙感圖像目標(biāo)檢測(cè)算法。該算法在SSD 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,將基準(zhǔn)網(wǎng)絡(luò)模型VGG 替換為殘差網(wǎng)絡(luò)模型ResNet-50,在網(wǎng)絡(luò)框架中引入注意力模塊,使得感受野更關(guān)注目標(biāo)特征,增強(qiáng)低層網(wǎng)絡(luò)的信息表征能力,采用特征金字塔融合方法,融合網(wǎng)絡(luò)結(jié)構(gòu)中的高層語義特征和低層視覺特征,將網(wǎng)絡(luò)的高層特征通過上采樣與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合,增強(qiáng)檢測(cè)目標(biāo)的定位能力,提高小目標(biāo)檢測(cè)的精度。
SSD 是Liu W 等在2016 年ECCV 上提出的一種目標(biāo)檢測(cè)算法,是目前主要的目標(biāo)檢測(cè)框架之一。SSD 算法同時(shí)具有Faster R-CNN 和YOLO 的優(yōu)點(diǎn),既可以提高檢測(cè)準(zhǔn)確率又可以兼顧檢測(cè)速度。SSD 算法主要由兩部分組成:一是采用VGG-16 的前端基礎(chǔ)網(wǎng)絡(luò)提取圖像目標(biāo)的初級(jí)特征;二是采用級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)提取圖像目標(biāo)的高級(jí)特征。SSD 算法采用特征金字塔網(wǎng)絡(luò)的檢測(cè)方式在特征圖上進(jìn)行不同尺度的Softmax 分類和位置回歸。
SSD 算法用于檢測(cè)遙感圖像小目標(biāo)時(shí),網(wǎng)絡(luò)結(jié)構(gòu)的基準(zhǔn)網(wǎng)絡(luò)VGG 與預(yù)測(cè)小目標(biāo)的卷積層Conv4_3 進(jìn)行特征融合,將會(huì)出現(xiàn)在低級(jí)卷積特征層中語義信息不夠的問題,使得隨著遙感影像小目標(biāo)數(shù)據(jù)集中圖片和網(wǎng)絡(luò)層數(shù)的增加,SSD 算法提取的特征信息不足,造成識(shí)別小目標(biāo)的精度較低。為提高SSD 算法對(duì)遙感影像數(shù)據(jù)集中小目標(biāo)特征的提取精度,提出基于RSSD 的遙感圖像目標(biāo)檢測(cè)算法。RSSD 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 RSSD 網(wǎng)絡(luò)結(jié)構(gòu)
RSSD 算法在SSD 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,首先,將基準(zhǔn)網(wǎng)絡(luò)模型VGG 替換為殘差網(wǎng)絡(luò)模型ResNet-50,通過增加網(wǎng)絡(luò)深度充分提取遙感圖像小目標(biāo)數(shù)據(jù)集的底層特征。相比于VGG-16,ResNet-50 網(wǎng)絡(luò)層數(shù)更深,能夠更充分提取圖像的特征信息,且能有效避免梯度彌散和退化現(xiàn)象;相比于ResNet-101,ResNet-50 網(wǎng)絡(luò)層數(shù)較淺,適合訓(xùn)練樣本數(shù)量較少的遙感影像數(shù)據(jù)集。其次,在網(wǎng)絡(luò)框架中引入注意力模塊,使得感受野更關(guān)注目標(biāo)特征,增強(qiáng)低層網(wǎng)絡(luò)的信息表征能力。最后,采用特征金字塔融合方式,將網(wǎng)絡(luò)的高層特征通過上采樣與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合,增強(qiáng)檢測(cè)目標(biāo)的定位能力,提高小目標(biāo)的檢測(cè)精度。
特征金字塔網(wǎng)絡(luò)是表達(dá)輸出CNN 網(wǎng)絡(luò)得到圖片信息的一種有效方法,在目標(biāo)檢測(cè)中得到廣泛應(yīng)用,并取得了顯著效果[15]。特征金字塔網(wǎng)絡(luò)通過對(duì)不同層的特征圖進(jìn)行特征融合,預(yù)測(cè)多尺度的特征圖[16]。
SSD 算法引入ResNet-50 網(wǎng)絡(luò)后,為避免SSD 目標(biāo)檢測(cè)算法中低層網(wǎng)絡(luò)語義信息不足導(dǎo)致特征提取不充分,造成檢測(cè)小目標(biāo)效果較差的問題,利用圖像特征金字塔融合的方式搭建檢測(cè)模型,將上采樣的高層特征與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合。圖像特征金字塔預(yù)測(cè)流程如圖2 所示。
圖2 特征金字塔網(wǎng)絡(luò)預(yù)測(cè)流程圖
注意力機(jī)制的提出來源于人類視覺系統(tǒng)(Human Visual System, HVS)。為了合理利用有限的視覺信息處理資源,人類需要選擇并集中關(guān)注視覺區(qū)域中的特定部分,稱為注意力機(jī)制。圖像的局部特征提取可以看作一種注意力機(jī)制。注意力機(jī)制通常作為神經(jīng)網(wǎng)絡(luò)的一個(gè)附加神經(jīng)網(wǎng)絡(luò),能夠?qū)δ承┹斎氲牟糠钟残赃x擇,或者將不同的權(quán)重分配給不同的輸入部分。
在ResNet-50 殘差網(wǎng)絡(luò)模型中引入注意力模塊,增強(qiáng)RSSD 網(wǎng)絡(luò)對(duì)遙感圖像中小目標(biāo)特征信息的提取能力,提高檢測(cè)精度。注意力模塊主要由兩部分組成:一部分是通道注意力模塊(Channel Attention Module);另一部分是空間注意力模塊(Spatial Attention Module)。注意力模塊結(jié)構(gòu)如圖3 所示。
圖3 注意力模塊結(jié)構(gòu)
輸入的特征圖F經(jīng)過通道注意力模塊時(shí),空間維度被壓縮,經(jīng)過共享全連接層MLP 生成通道注意力特征圖Mc。通道注意力模塊不僅考慮Average pooling,還引入Max pooling,計(jì)算公式如下:
式中:Fcavg和Fcmax分別表示在通道注意力模塊中經(jīng)過Average pooling 和Max pooling 的特征圖;W0和W1表示多層感知機(jī)模型中的兩層參數(shù);σ為sigmoid 函數(shù)。
通道注意力特征圖Mc通過第二部分空間注意力模塊的空間關(guān)系生成空間注意力特征圖Ms,空間注意力特征圖更加關(guān)注目標(biāo)所在位置的特征信息,是對(duì)通道注意力部分的補(bǔ)充??臻g注意力模塊對(duì)注意力特征圖進(jìn)行通道層面上的壓縮后,再對(duì)其通道維度上分別做Average pooling和Max pooling,得到的特征圖通道數(shù)為2,計(jì)算公式如下:
式中:F′表示經(jīng)過通道注意力模塊計(jì)算之后的特征圖;和分別表示在空間注意力模塊中經(jīng)過Average pooling和Maxpooling的特征圖;f7×7表示卷積核大小為7×7 的卷積運(yùn)算;“?”表示元素乘法,在乘法過程中注意特征值被相應(yīng)地傳播;F″為最終確定的輸出。最后,使用一個(gè)卷積核為1 的隱藏層進(jìn)行卷積操作,生成最終的二維空間注意力圖。
為驗(yàn)證RSSD 算法對(duì)遙感圖像目標(biāo)的檢測(cè)效果,采用VEDAI 航拍遙感影像數(shù)據(jù)集進(jìn)行測(cè)試分析。VEDAI是航空影像中車輛檢測(cè)的數(shù)據(jù)集,是一種在不受限制的環(huán)境中對(duì)目標(biāo)檢測(cè)算法進(jìn)行基準(zhǔn)測(cè)試的工具。原始的大視場(chǎng)圖像被分割成1 024×1 024 像素并包含不同種類車輛以及其他混淆對(duì)象。VEDAI 數(shù)據(jù)集的圖像分為單通道紅外圖像和RGB 三通道彩色圖像,所有圖像都在與地面相同距離處拍攝,每張圖像平均包含約5.4 個(gè)車輛目標(biāo),占整個(gè)圖像總像素的0.07%,是典型的遙感影像小目標(biāo)數(shù)據(jù)集。實(shí)驗(yàn)硬件采用NVIDAI RTX2080Ti GPU,PC 機(jī)操作系統(tǒng)為Ubuntu 18.04,在Python 中基于Pytorch 深度學(xué)習(xí)框架構(gòu)建算法模型。為了更好地適應(yīng)GPU 顯存性能,選擇數(shù)據(jù)集中圖像大小為512×512 且RGB 三通道彩色圖像子集進(jìn)行實(shí)驗(yàn)[17]。VEDAI 數(shù)據(jù)集中包括9 類目標(biāo),分別為Boat、Camping、Car、Others、Pick_up、Tractors、Trucks、Vans 以及Plane。9 類目標(biāo)數(shù)量如表1 所示。
表1 VEDAI 數(shù)據(jù)集中9 類目標(biāo)數(shù)量
實(shí)驗(yàn)中初始學(xué)習(xí)率為1.1×10-3,迭代30 000 次后學(xué)習(xí)率調(diào)整為1.1×10-4,迭代60 000 次后終止訓(xùn)練,動(dòng)量參數(shù)為0.9,權(quán)重衰退率為0.000 5,batch size 設(shè)置為8。
平均準(zhǔn)確率均值(mean Average Precision, mAP)和每秒幀率(Frame Per Second, FPS)是目標(biāo)檢測(cè)領(lǐng)域最常用的評(píng)價(jià)指標(biāo)。mAP 定義為所有對(duì)象類別平均精度(Average Precision, AP)的平均值,AP可用積分計(jì)算表示:
采用SSD 算法和RSSD 算法分別訓(xùn)練VEDAI遙感影像數(shù)據(jù)集的訓(xùn)練集,并檢測(cè)測(cè)試集中的小目標(biāo)。SSD 算法和RSSD算法的小目標(biāo)檢測(cè)精度變化趨勢(shì)如圖4所示。
圖4 檢測(cè)精度變化趨勢(shì)圖
由圖4 可以看出,隨著迭代次數(shù)的增加,約在10 000 次迭代后,小目標(biāo)檢測(cè)精度值保持平穩(wěn)上升。經(jīng)過大約40 000 次迭代后,SSD 算法的小目標(biāo)檢測(cè)精度穩(wěn)定在0.55 左右,而RSSD 算法的檢測(cè)精度穩(wěn)定在0.60 左右,說明RSSD 算法較為明顯地提升了小目標(biāo)的檢測(cè)精度。
為驗(yàn)證RSSD 算法的性能,同時(shí)利用訓(xùn)練集訓(xùn)練SSD 算法和RSSD 算法在測(cè)試集上對(duì)9 類小目標(biāo)進(jìn)行檢測(cè),各類目標(biāo)檢測(cè)結(jié)果如表2 所示。
表2 各類目標(biāo)檢測(cè)結(jié)果對(duì)比
實(shí)驗(yàn)結(jié)果表明,相比于SSD 算法,本文提出的RSSD算法的目標(biāo)檢測(cè)平均精準(zhǔn)度由56.47%提高到63.26%,平均檢測(cè)精度得到顯著提升。特征金字塔融合有效地利用淺層特征層中豐富的局部細(xì)節(jié)信息和深層特征層的高層語義信息,提升了算法的泛化能力。RSSD 算法通過替換基準(zhǔn)網(wǎng)絡(luò),加深了原有網(wǎng)絡(luò)的層數(shù),增加了提取特征信息的計(jì)算量,由于引入注意力機(jī)制也影響了算法的檢測(cè)速度,但是檢測(cè)效果有明顯提升。SSD 算法和RSSD 算法檢測(cè)VEDAI 數(shù)據(jù)集的部分目標(biāo)檢測(cè)結(jié)果如圖5 所示。
圖5 VEDAI 數(shù)據(jù)集的部分目標(biāo)檢測(cè)效果
由圖5 可知:SSD 算法對(duì)遙感圖像目標(biāo)檢測(cè)存在明顯的漏檢、錯(cuò)檢和準(zhǔn)確率低的問題;RSSD 算法可以避免漏檢、錯(cuò)檢目標(biāo),提升較小目標(biāo)的檢測(cè)準(zhǔn)確率。
為提高遙感圖像小目標(biāo)的檢測(cè)效果,本文提出基于RSSD 的遙感圖像目標(biāo)檢測(cè)算法。該算法采用殘差網(wǎng)絡(luò)模型ResNet-50 作為SSD 網(wǎng)絡(luò)的基準(zhǔn)網(wǎng)絡(luò)模型,能夠提取更深層次的特征信息,且有效地避免梯度彌散和退化現(xiàn)象;引入注意力模塊,增強(qiáng)低層網(wǎng)絡(luò)的信息表征能力;通過圖像特征金字塔融合的方式對(duì)小目標(biāo)進(jìn)行位置回歸,提升了目標(biāo)檢測(cè)效果。該算法增強(qiáng)了復(fù)雜背景的干擾抑制性,提高了較小目標(biāo)的檢測(cè)精度,比SSD 算法的mAP 提升6.79%。
注:本文通訊作者為彭超亮。