劉高天, 段 錦,2, 范 祺, 吳 杰, 趙 言
(1. 長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院, 長(zhǎng)春 130022;2. 長(zhǎng)春理工大學(xué) 空間光電技術(shù)研究所基礎(chǔ)技術(shù)實(shí)驗(yàn)室, 長(zhǎng)春 130022)
遙感圖像目標(biāo)檢測(cè)在軍事、 民事等領(lǐng)域應(yīng)用廣泛, 已成為遙感圖像領(lǐng)域的重要研究方向之一. 傳統(tǒng)遙感圖像目標(biāo)檢測(cè)方法通常是基于數(shù)字圖像處理的方法, 即先進(jìn)行閾值分割、 紋理/幾何特征提取, 然后使用模板匹配、 背景建模以及淺層學(xué)習(xí)等方法對(duì)目標(biāo)進(jìn)行檢測(cè)判別[1]. 但這類方法對(duì)遙感圖像泛化能力較差, 檢測(cè)效果不佳.
隨著深度學(xué)習(xí)的快速發(fā)展, 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法, 如SSD[2],YOLO[3],Faster-RCNN[4]等算法已廣泛應(yīng)用于自然圖像目標(biāo)檢測(cè)領(lǐng)域, 但相比于自然圖像, 遙感圖像因包含的目標(biāo)信息過于豐富, 導(dǎo)致在對(duì)其進(jìn)行目標(biāo)檢測(cè)任務(wù)時(shí), 易受信息過多、 目標(biāo)類別分布不平衡等因素影響. 因此, 適用于自然圖像的深度學(xué)習(xí)目標(biāo)檢測(cè)方法在面對(duì)遙感圖像時(shí)存在局限, 尤其在面對(duì)遙感圖像中如飛機(jī)、 車輛、 艦船這類小目標(biāo)時(shí), 由于這類目標(biāo)的外觀信息少、 像素面積占比小、 易受復(fù)雜背景干擾, 使得檢測(cè)效果較差. 目前, 針對(duì)上述問題已有許多改進(jìn)算法, 如辛鵬等[5]和Yuan等[6]提出了將Faster R-CNN引入到遙感圖像目標(biāo)檢測(cè)中, 相比于傳統(tǒng)算法較好地提高了目標(biāo)檢測(cè)的精度, 但并未充分利用卷積層的信息, 缺乏對(duì)多尺度信息的考量; 姚群力等[7]提出了一種基于SSD檢測(cè)器的MultDet模型, 采用輕量級(jí)卷積網(wǎng)絡(luò)提取多尺度特征信息, 并設(shè)計(jì)了反卷積特征融合模塊, 但該模型目標(biāo)單一, 缺乏對(duì)其他遙感目標(biāo)的檢測(cè)分析; Etten[8]針對(duì)小目標(biāo)檢測(cè)問題在YOLO的基礎(chǔ)上提出了YOLT算法, 該方法在一定程度上提升了小目標(biāo)檢測(cè)效果, 但增加了網(wǎng)絡(luò)的計(jì)算開銷; Ren等[9]提出了通過采用自上而下和跳躍鏈接的方式利用上下文信息, 提高遙感圖像中的小目標(biāo)檢測(cè)能力, 但該方法只針對(duì)飛機(jī)與艦船兩類目標(biāo)進(jìn)行實(shí)驗(yàn), 缺乏可靠性研究; Dong等[10]提出了在Faster R-CNN的基礎(chǔ)上用Sig-NMS代替?zhèn)鹘y(tǒng)的NMS(non-maximum suppression)方法, 但由于進(jìn)行了額外計(jì)算, 增加了檢測(cè)時(shí)間; Wang等[11]針對(duì)遙感圖像背景雜亂的問題提出了一種基于多尺度注意力網(wǎng)絡(luò)的遙感目標(biāo)檢測(cè)模型, 提高了檢測(cè)精度, 但缺乏對(duì)小尺度目標(biāo)特性的考慮; Jiang等[12]提出了一種深度神經(jīng)網(wǎng)絡(luò)優(yōu)化模型, 該模型從目標(biāo)在圖像中的特征表現(xiàn)考慮并結(jié)合對(duì)原始輸入數(shù)據(jù)構(gòu)建的重新思考, 在一定程度上改善了小尺度矩形目標(biāo)的檢測(cè)效果; 張?jiān)5萚13]以YOLOv3為基礎(chǔ)結(jié)合多尺度特征稠密連接方式, 設(shè)計(jì)了遙感目標(biāo)檢測(cè)模型YOLO-RS, 提高了各檢測(cè)特征層之間的信息傳遞程度, 使不同尺度的特征能更好地融合, 在一定程度上提高了小目標(biāo)檢測(cè)精度; Li等[14]提出了基于雙通道特征融合的遙感目標(biāo)檢測(cè)模型RICAOD, 將局部上下文信息融入?yún)^(qū)域候選網(wǎng)絡(luò), 提高了對(duì)候選框的篩選能力, 進(jìn)而有效改善了對(duì)遙感目標(biāo)的檢測(cè)效果.
上述算法均在一定程度上改善了遙感圖像中目標(biāo)檢測(cè)的效果, 但在面對(duì)小目標(biāo)檢測(cè)問題時(shí)仍存在局限. 首先, 上述算法并未考慮到隨著卷積網(wǎng)絡(luò)的加深, 感受野呈現(xiàn)緩慢的線性增長(zhǎng), 有限的感受野無法與小目標(biāo)的特征尺度相匹配, 導(dǎo)致難以有效提取小目標(biāo)特征; 其次, 忽視了加強(qiáng)層級(jí)聯(lián)系對(duì)于豐富輸出特征以及提升分類精度的作用. 針對(duì)上述問題, 為提升遙感圖像中小目標(biāo)的檢測(cè)能力, 本文提出一種基于RFBNet[15]的改進(jìn)算法. 該算法首先利用自校準(zhǔn)卷積方式擴(kuò)大了主干網(wǎng)絡(luò)中輸出層的感受野, 強(qiáng)化了對(duì)弱特征的提取能力; 其次通過多尺度特征融合, 增強(qiáng)了算法在淺層輸出中對(duì)多尺度信息的利用; 最后結(jié)合稠密預(yù)測(cè)思想, 以較低的計(jì)算開銷加強(qiáng)了輸出層之間的聯(lián)系, 豐富了輸出特征中的多尺度上下文信息, 進(jìn)而提高了算法對(duì)遙感圖像目標(biāo)的檢測(cè)能力.
為提升one-stage目標(biāo)檢測(cè)算法性能, 且不增加計(jì)算開銷, Liu等[15]提出了RFBNet目標(biāo)檢測(cè)算法. RFBNet模型結(jié)構(gòu)如圖1所示. 該算法沿用了SSD檢測(cè)模型作為基礎(chǔ)模型, 提出感受野模塊(receptive fields block, RFB)并集成到SSD模型上. 模型的輸入尺寸固定在300×300, 主干特征提取網(wǎng)絡(luò)采用VGG16網(wǎng)絡(luò)[16], 但模型將VGG16網(wǎng)絡(luò)中最后兩個(gè)全連接層變?yōu)閮蓚€(gè)卷積層. 在目標(biāo)檢測(cè)階段, 被提取的主干特征經(jīng)過RFB模塊擴(kuò)大感受野以及多次下采樣操作生成多個(gè)不同尺度的特征圖, 用于后續(xù)進(jìn)行多尺度預(yù)測(cè).
圖1 RFBNet模型結(jié)構(gòu)Fig.1 RFBNet model structure
該算法雖然通過RFB模塊有效提升了目標(biāo)檢測(cè)的精度, 但仍延續(xù)了SSD模型的結(jié)構(gòu), 各特征圖間相互獨(dú)立缺乏聯(lián)系, 沒有較好地利用淺層特征圖空間信息豐富以及深層特征圖語義信息豐富的特點(diǎn), 且不同尺度之間的非連續(xù)性表達(dá)忽視了上下文聯(lián)系.
感受野模塊基于人類視覺的RFs(receptive fields)結(jié)構(gòu), 將RFs的尺度、 離心率加入考慮范圍, 即使通過輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu), 也能提取到高判別性的特征. 該模塊是一個(gè)多分支卷積結(jié)構(gòu), 內(nèi)部結(jié)構(gòu)包含兩部分: 1) 用不同卷積核尺度的多分支卷積塊模擬多尺度的pRFs; 2) 采用空洞卷積操作, 用于模擬人類視覺感知中pRF尺度與離心率間的關(guān)系. 該結(jié)構(gòu)的核心是在保持相同參數(shù)量的同時(shí), 生成更大分辨率的特征圖, 增加各層感受野以獲取更多的上下文信息.
圖2 常規(guī)卷積(A)和空洞卷積(B)操作示意圖Fig.2 Operation diagrams of conventional convolution (A) and atrous convolution (B)
空洞卷積(atrous convolution)也稱為擴(kuò)張卷積, 由于其在小目標(biāo)特征信息的處理上具有優(yōu)勢(shì), 因此廣泛應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域. 相比常規(guī)卷積層增加了一個(gè)擴(kuò)張率的參數(shù), 該參數(shù)定義了卷積核處理數(shù)據(jù)時(shí)各值間的距離. 圖2為常規(guī)卷積與空洞卷積操作示意圖.
由圖2可見, 在特征圖(如7×7)相同的情形下, 常規(guī)卷積經(jīng)過3×3卷積核處理只能獲得5×5的感受野, 而經(jīng)過空洞率為2的3×3卷積核處理則能獲得7×7的感受野, 表明空洞卷積可獲得更大的感受野, 比常規(guī)卷積能更好地保留圖像的空間特征, 且不會(huì)損失圖像信息. 在卷積神經(jīng)網(wǎng)絡(luò)中感受野的大小對(duì)于小尺度目標(biāo)特征學(xué)習(xí)有較大影響, 較大感受野可獲得更密集的上下文信息, 有利于后續(xù)對(duì)圖像的分類識(shí)別.
RFBNet算法是對(duì)SSD算法的延續(xù), 其優(yōu)勢(shì)在于繼承SSD算法優(yōu)點(diǎn)的同時(shí), 通過RFB模塊擴(kuò)大了主干網(wǎng)輸出特征的感受野, 從而有效提升了目標(biāo)檢測(cè)的精度. 但其主干網(wǎng)采用VGG16進(jìn)行特征提取, 在特征提取時(shí)感受野隨著層級(jí)加深增長(zhǎng)緩慢, 無法適應(yīng)小目標(biāo)特征. 且由于繼承了SSD的模型結(jié)構(gòu), 因此忽視了層級(jí)聯(lián)系, 導(dǎo)致用于后續(xù)預(yù)測(cè)分類階段的輸出特征圖之間相對(duì)獨(dú)立, 不利于提高檢測(cè)的精度. 基于此, 本文對(duì)于遙感圖像目標(biāo)檢測(cè)提出一種基于RFBNet的改進(jìn)算法, 算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.
圖3 本文算法網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of proposed algorithm
由圖3可見, 本文算法主要包括特征提取(features extractor)模塊、 特征融合(features fusion)模塊和稠密預(yù)測(cè)(dense prediction)模塊三部分. 首先利用以SC-VGG16全卷積網(wǎng)絡(luò)為主體的特征提取模塊進(jìn)行主干特征提取, 然后將提取出的主干特征圖通過特征融合模塊進(jìn)行維度調(diào)整、 上采樣、 堆疊融合以及批歸一化處理, 得到一個(gè)輸出特征豐富的融合特征圖, 并將其作為后續(xù)過程的輸入. 在稠密預(yù)測(cè)模塊中, 融合特征圖先經(jīng)過3個(gè)分支分別生成6個(gè)不同尺度的稠密特征圖, 然后經(jīng)過多尺度檢測(cè)和非極大值抑制(NMS)處理生成最終的預(yù)測(cè)結(jié)果.
針對(duì)原RFBNet算法存在的問題, 本文算法對(duì)3個(gè)模塊分別進(jìn)行改進(jìn).
1) 特征提取模塊: 原RFBNet算法主干特征提取網(wǎng)絡(luò)采用由VGG16構(gòu)成的全卷積網(wǎng)絡(luò), 本文算法在此基礎(chǔ)上引用自校準(zhǔn)卷積層代替VGG16中的標(biāo)準(zhǔn)卷積層, 并在最后新增一層卷積層用以生成多尺度特征. 該模塊擴(kuò)大了主干網(wǎng)中輸出卷積層的感受野, 因此增強(qiáng)了主干網(wǎng)對(duì)小目標(biāo)特征的提取能力, 豐富了輸出特征.
2) 特征融合模塊: 本文在RFBNet結(jié)構(gòu)的基礎(chǔ)上, 引入特征融合思想設(shè)計(jì)特征融合模塊. 結(jié)合FSSD[17]的特征融合思想, 將Conv4-3和Conv7-fc以及新增的Conv8三層卷積輸出的3個(gè)特征圖進(jìn)行融合, 通過BN(batch normalization)層批歸一化處理后作為淺層輸出特征用于后續(xù)過程. 該部分加強(qiáng)了主干輸出特征之間的聯(lián)系, 使最終的淺層輸出包含了豐富的多尺度上下文信息, 從而有利于提高預(yù)測(cè)的準(zhǔn)確性.
3) 稠密預(yù)測(cè)模塊: 本文在原RFBNet算法的多尺度預(yù)測(cè)結(jié)構(gòu)中, 借鑒了DSOD算法[18]的稠密預(yù)測(cè)思想, 設(shè)計(jì)稠密預(yù)測(cè)模塊. 提前在較淺位置上進(jìn)行信息整合, 而非在最后輸出層進(jìn)行所有信息的整合, 改變了原來各層輸出特征間相對(duì)獨(dú)立的關(guān)系, 使它們之間的聯(lián)系更緊密.
本文算法共有6層特征圖被提取, 用于預(yù)測(cè)分類. 淺層特征圖感受野小但包含了豐富的位置信息, 其對(duì)應(yīng)產(chǎn)生的默認(rèn)邊界框大小更適合小目標(biāo)檢測(cè), 但其缺乏目標(biāo)分類重要的語義信息. 深層特征圖雖然包含了豐富的語義信息, 但對(duì)小目標(biāo)的定位不精確. 因此本文保留了RFBNet的輸出特征選取方式, 對(duì)應(yīng)參數(shù)列于表1.
表1 特征層及其結(jié)構(gòu)參數(shù)
小目標(biāo)由于攜帶信息少導(dǎo)致特征表達(dá)能力較弱, 經(jīng)過多層次的卷積操作后能提取到的特征較少, 因此檢測(cè)困難. 而在遙感圖像目標(biāo)檢測(cè)任務(wù)中該特點(diǎn)尤為突出, 因此需強(qiáng)化特征提取能力. SSD和RFBNet算法的特征提取網(wǎng)絡(luò)均為使用卷積層取代最后兩個(gè)全連接層的VGG16全卷積網(wǎng)絡(luò). 該類特征提取網(wǎng)絡(luò)存在理論感受野小于實(shí)際感受野的缺陷, 且隨著網(wǎng)絡(luò)層次的加深感受野呈緩慢的線性增長(zhǎng), 從而導(dǎo)致感受野無法較好地與目標(biāo)特征匹配, 使網(wǎng)絡(luò)的特征提取能力不足. 因此, 本文算法通過引入自校準(zhǔn)卷積替換標(biāo)準(zhǔn)卷積擴(kuò)展每個(gè)卷積層的感受野, 豐富輸出特征, 強(qiáng)化特征提取能力, 進(jìn)而更好地提取小目標(biāo)特征. 考慮到Conv4層前的卷積層生成的特征圖分辨率高、 空間信息豐富但語義信息少, 不利于弱特征的提取分類, 將這些層替換為新卷積層會(huì)突出較強(qiáng)特征, 加重過擬合現(xiàn)象. 因此需要替換的位置選擇在進(jìn)行特征提取的Conv4層和Conv5層, 其各自包含3個(gè)卷積層. 同時(shí)為減小過擬合, 還在特征提取網(wǎng)絡(luò)中加入了BN層進(jìn)行處理. 本文算法引用的自校準(zhǔn)卷積[19]結(jié)構(gòu)如圖4所示.
圖4 自校準(zhǔn)卷積結(jié)構(gòu)Fig.4 Self-calibration convolution structure
假設(shè)輸入特征為X={x1,x2,…,xci}, 輸出特征為Y={y1,y2,…,yco}, 則傳統(tǒng)的2D卷積可由K={k1,k2,…,kco}一組濾波器集合組成, 卷積式為
(1)
受限于該計(jì)算方式, 輸出的卷積特征感受野有限, 且特征的學(xué)習(xí)模式具有相似性, 從而導(dǎo)致學(xué)習(xí)到的特征圖可辨別程度較低.
圖5 特征融合結(jié)構(gòu)Fig.5 Feature fusion structure
淺層特征圖分辨率大、 感受野小, 包含豐富的位置信息, 因此適合進(jìn)行小目標(biāo)檢測(cè), 但淺層特征圖缺少有利于分類的抽象細(xì)節(jié)信息. 而深層特征圖尺度雖小, 但其中涵蓋了豐富且有利于分類的細(xì)節(jié)信息. 為加強(qiáng)對(duì)小目標(biāo)的檢測(cè), 本文算法基于FSSD(feature fusion single shot multibox detector)特征融合思想設(shè)計(jì)一個(gè)多尺度特征融合模塊, 如圖5所示. 該模塊將深層特征圖通過上采樣融合操作與淺層特征圖融合, 以增加淺層輸出特征中的語義細(xì)節(jié).
融合過程: 在圖3所示的本文算法結(jié)構(gòu)中, 特征提取部分增加了一個(gè)Conv8層, 用以提取10×10尺度的特征圖. 本文算法先將Conv4-3,Conv7-fc和Conv8三層輸出分別作為圖4中的3個(gè)特征用于輸入, 通過堆疊融合再通過BN層規(guī)范化處理最終得到首個(gè)輸出特征圖Feature4. 不同尺度的特征圖相融合, 在進(jìn)一步擴(kuò)大感受野的同時(shí), 也融合了多個(gè)尺度的特征, 使相互獨(dú)立的特征圖之間不僅產(chǎn)生了相關(guān)性, 還使大尺度特征圖也獲得了豐富的抽象細(xì)節(jié)信息.
為使分類預(yù)測(cè)更準(zhǔn)確, 輸出特征圖需含有豐富的語義信息. 在RFBNet模型結(jié)構(gòu)中, 每個(gè)輸出特征圖擁有的語義信息都是通過對(duì)其前相鄰層輸出的全部維度特征學(xué)習(xí)得到, 導(dǎo)致計(jì)算量增大, 同時(shí)也使后續(xù)輸出特征圖只含有本層次的語義信息, 不利于后續(xù)的分類預(yù)測(cè). 因此, 本文借鑒DSOD算法[18]的思想設(shè)計(jì)了稠密預(yù)測(cè)結(jié)構(gòu)(dense prediction structure), 如圖6所示, 其中H,W,C分別表示特征圖的寬、 高和通道數(shù).
圖6 稠密預(yù)測(cè)結(jié)構(gòu)Fig.6 Dense prediction structure
由圖6可見, 在該結(jié)構(gòu)中, 輸入特征(Feature4)為融合模塊輸出的首個(gè)38×38尺度特征圖, 結(jié)構(gòu)中除首個(gè)尺度外, 其他尺度所對(duì)應(yīng)的特征圖通道數(shù)只有50%是通過前面的較淺層學(xué)習(xí)所得, 另外50%是直接通過上一尺度特征圖進(jìn)行下采樣后得到, 實(shí)現(xiàn)該過程的結(jié)構(gòu)如稠密連接部分所示. 下采樣模塊由1個(gè)池化層和1個(gè)卷積層構(gòu)成, 輸入特征圖通過池化、 卷積操作降低分辨率并將通道數(shù)減半. 本文算法從RFB1輸出的19×19尺度特征圖起, 開始僅學(xué)習(xí)半數(shù)的特征圖, 并復(fù)用前一層特征圖作另一半. 相比于RFBNet算法全維度學(xué)習(xí)方式, 本文算法不僅減少了模型的參數(shù)量、 降低了計(jì)算開銷, 還使最后的每層輸出特征圖都包含了豐富的多尺度語義信息.
實(shí)驗(yàn)采用數(shù)據(jù)集UCAS_AOD和NWPU VHR-10. 數(shù)據(jù)集UCAS_AOD除去無目標(biāo)圖, 共包含1 510張圖像, 其中1 000張飛機(jī)和510張車輛圖像. 飛機(jī)樣本共7 482個(gè), 車輛樣本共7 114個(gè). 數(shù)據(jù)集NWPU VHR-10包含目標(biāo)圖像650張, 共含10類目標(biāo), 所標(biāo)注實(shí)例數(shù)量為757架飛機(jī)、 302艘船、 655個(gè)油罐、 390個(gè)棒球場(chǎng)、 524個(gè)網(wǎng)球場(chǎng)、 159個(gè)籃球場(chǎng)、 163個(gè)田徑場(chǎng)、 224個(gè)港口、 124座橋梁和477輛車. 本文分別在上述兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn), 按4∶1分配訓(xùn)練集和測(cè)試集, 由于數(shù)據(jù)集NWPU VHR-10原始數(shù)據(jù)量較少, 因此通過調(diào)節(jié)亮度、 對(duì)比度、 飽和度及去霧等圖像增強(qiáng)方法對(duì)其進(jìn)行數(shù)據(jù)擴(kuò)增, 共擴(kuò)增了650張圖像.
HE Jing-wen, WEI Yan-yan, SU Tong, PAN Xiao, CUI Yi, LI Zi-qiang, TANG Yun-xiang
實(shí)驗(yàn)設(shè)備為64位Win10系統(tǒng)計(jì)算機(jī)和Ubuntu18.04系統(tǒng)計(jì)算機(jī), 實(shí)驗(yàn)平臺(tái)為Google的Colaboratory平臺(tái)(GPU型號(hào)為Tesla P100)和Ubuntu系統(tǒng)平臺(tái)(GPU型號(hào)為RTX2060S), 運(yùn)行環(huán)境為Pytorch1.4.0, CUDA版本為10.1.
本文采用平均準(zhǔn)確率均值(mean average precision, MAP)、 平均準(zhǔn)確率(average precision, AP)、 精確率(Precison)和召回率(Recall)作為目標(biāo)檢測(cè)中的評(píng)價(jià)指標(biāo). 精確率表示預(yù)測(cè)為正的樣本中真正正樣本所占的比例, 召回率表示樣本中的正樣本被預(yù)測(cè)正確的比例. 召回率和精確率的計(jì)算公式分別為
Recall=TP/(TP+FN),
(5)
Precison=TP/(TP+FP),
(6)
其中TP(true positives)表示被正確分類的正樣本數(shù)量, TN(true negatives)表示被正確分類的負(fù)樣本數(shù)量, FP(false positives)表示被錯(cuò)誤分類為正樣本的負(fù)樣本數(shù)量, FN(false negatives)表示被錯(cuò)誤分類為負(fù)樣本的正樣本數(shù)量. 精確率隨召回率的變化過程構(gòu)成了PR曲線, 平均準(zhǔn)確率均值MAP即為該曲線與坐標(biāo)圍成的面積, 計(jì)算公式為
(7)
3.4.1 數(shù)據(jù)集UCAS_AOD
用本文算法在數(shù)據(jù)集UCAS_AOD上進(jìn)行實(shí)驗(yàn), 并與SSD,RFBNet_E,RFBNet算法進(jìn)行對(duì)比, 實(shí)驗(yàn)結(jié)果列于表2. RFBNet算法是對(duì)SSD算法的改進(jìn), 基于SSD的結(jié)構(gòu)設(shè)計(jì)了RFB模塊擴(kuò)大感受野, RFBNet_E算法是在RFBNet的基礎(chǔ)上通過引入雙層特征融合構(gòu)成首層輸出特征圖.
表2 不同算法在數(shù)據(jù)集UCAS_AOD上的評(píng)估結(jié)果
由表2可見, RFBNet算法的檢測(cè)精度明顯優(yōu)于SSD算法, 驗(yàn)證了擴(kuò)大感受野能有效提高檢測(cè)精度; RFBNet_E算法精度高于RFBNet算法, 尤其在車輛目標(biāo)的檢測(cè)上提升明顯, 驗(yàn)證了多層特征融合對(duì)于提升小目標(biāo)的檢測(cè)精度有效; 本文算法是在RFBNet算法的基礎(chǔ)上進(jìn)行改進(jìn), 檢測(cè)精度達(dá)83.4%, 在飛機(jī)目標(biāo)的檢測(cè)精度上略高于基準(zhǔn)算法, 但在車輛目標(biāo)上相比基準(zhǔn)算法RFBNet提高了7.3%, 表明本文算法相比于原基準(zhǔn)算法在遙感目標(biāo)檢測(cè)上有明顯改善. 在檢測(cè)效率上, RFBNet比SSD算法推理時(shí)間縮短了0.029 s, RFBNet_E比RFBNet算法推理時(shí)間延長(zhǎng)了0.013 s, 而本文算法相比于RFBNet算法時(shí)間縮短了0.011 s. 推理時(shí)間表示單幅圖像的處理時(shí)間, 推理時(shí)間越短檢測(cè)效率越高. 實(shí)驗(yàn)結(jié)果表明, 本文算法相比于基準(zhǔn)算法RFBNet檢測(cè)效率更高.
圖7 不同算法的PR曲線對(duì)比Fig.7 Comparison of PR curves of different algorithms
圖8 不同算法的檢測(cè)結(jié)果對(duì)比Fig.8 Comparison of detection results of different algorithms
圖8為本文算法與SSD,RFBNet,RFBNet_E算法在數(shù)據(jù)集UCAS_AOD上對(duì)部分?jǐn)?shù)據(jù)的檢測(cè)結(jié)果. 由圖8可見: 4種算法在飛機(jī)目標(biāo)上的檢測(cè)效果差異較小, 無錯(cuò)檢和漏檢現(xiàn)象, 但從圖中對(duì)應(yīng)位置上目標(biāo)的檢測(cè)置信度上看, 本文算法的檢測(cè)置信度更高; 在車輛目標(biāo)上, SSD算法漏檢現(xiàn)象最嚴(yán)重, 效果最差, 而本文算法相比于其他算法在漏檢問題上有顯著改善. 兩類目標(biāo)的檢測(cè)效果差異較大是由于飛機(jī)和車輛之間的形狀特征差異較大, 整體呈現(xiàn)矩形形狀的車輛目標(biāo)容易受背景區(qū)域中相似物體的干擾, 因此兩類目標(biāo)的檢測(cè)效果有差異. 但綜合對(duì)比可見, 本文算法在檢測(cè)精度及漏檢率上相比于其他算法均有明顯改善. 因此, 本文算法比基準(zhǔn)算法在飛機(jī)和車輛兩類遙感目標(biāo)的檢測(cè)上更具優(yōu)勢(shì).
為進(jìn)一步分析本文算法的性能, 驗(yàn)證本文改進(jìn)算法相對(duì)于基準(zhǔn)算法的有效性, 在數(shù)據(jù)集UCAS_AOD上進(jìn)行了消融實(shí)驗(yàn), 結(jié)果列于表3, 其中R,S,F,D分別表示基準(zhǔn)算法RFBNet和本文算法的改進(jìn)措施. 由表3可見: 通過對(duì)比實(shí)驗(yàn)1,2和3,5表明, 引入本文算法提出的特征融合方式進(jìn)行改進(jìn)后的算法, 相對(duì)于原算法檢測(cè)精度分別提升了2.1%和1.4%, 驗(yàn)證了本文提出的特征融合方式的有效性; 通過對(duì)比實(shí)驗(yàn)1,3和2,5表明, 引入稠密預(yù)測(cè)結(jié)構(gòu)的改進(jìn)算法相比于改進(jìn)前的算法, 檢測(cè)精度分別提高了1.4%和0.7%, 驗(yàn)證了稠密預(yù)測(cè)結(jié)構(gòu)針對(duì)于原預(yù)測(cè)結(jié)構(gòu)對(duì)層級(jí)聯(lián)系的加強(qiáng)是有效的; 通過對(duì)比實(shí)驗(yàn)1,4和5,6表明, 引入自校準(zhǔn)卷積方式改進(jìn)算法后相比改進(jìn)前的算法, 檢測(cè)精度分別提升了1.0%和1.2%, 表明主干特征提取網(wǎng)絡(luò)在引入自校準(zhǔn)卷積替代標(biāo)準(zhǔn)卷積后, 有效強(qiáng)化了網(wǎng)絡(luò)的特征提取能力. 綜合可見, 本文改進(jìn)算法相比于基準(zhǔn)算法更有效.
表3 不同改進(jìn)算法的消融實(shí)驗(yàn)結(jié)果
3.4.2 數(shù)據(jù)集NWPU VHR-10
數(shù)據(jù)集UCAS_AOD中只含有兩類目標(biāo), 缺乏目標(biāo)多樣性, 因此為驗(yàn)證本文算法在遙感圖像目標(biāo)檢測(cè)中的可靠性, 下面在數(shù)據(jù)集NWPU VHR-10上將本文算法與其他算法進(jìn)行對(duì)比實(shí)驗(yàn). 相比于數(shù)據(jù)集UCAS_AOD, 數(shù)據(jù)集NWPU VHR-10包含的目標(biāo)類別更廣, 且不同目標(biāo)類別之間, 如田徑場(chǎng)、 籃球場(chǎng)與艦船、 飛機(jī)等目標(biāo)相對(duì)比, 特征差異大且尺度變化更明顯, 因此在數(shù)據(jù)集NWPU VHR-10上的檢測(cè)難度相對(duì)更高. 考慮到數(shù)據(jù)集NWPU VHR-10的目標(biāo)尺度特性, 在進(jìn)行實(shí)驗(yàn)前本文先對(duì)其進(jìn)行k-means聚類分析, 重新設(shè)定先驗(yàn)框信息. 在數(shù)據(jù)集NWPU VHR-10上, 不同算法的評(píng)估對(duì)比結(jié)果列于表4.
表4 不同算法在數(shù)據(jù)集NWPU VHR-10上的評(píng)估結(jié)果
由表4可見: 在數(shù)據(jù)集NWPU VHR-10上, 本文算法對(duì)10類目標(biāo)的平均檢測(cè)精度達(dá)94.8%. 在其中9類目標(biāo)上的檢測(cè)效果優(yōu)于基準(zhǔn)算法, 驗(yàn)證了本文算法相比于基準(zhǔn)算法在遙感圖像目標(biāo)檢測(cè)中更有優(yōu)勢(shì); 相比于Faster-RCNN[4],Mask RCNN[20],YOLOv4[21]等目標(biāo)檢測(cè)算法, 本文算法在多類目標(biāo)的檢測(cè)中效果最佳, 平均檢測(cè)精度分別高出Faster-RCNN[4],Mask RCNN[20],YOLOv4[21]算法的18.4%,10.8%,8.1%. 相比于其他面向遙感目標(biāo)檢測(cè)的算法, 如YOLO-RS[13],Sig-NMS[10],RICAOD[14]算法, 本文算法在多類目標(biāo)的檢測(cè)上均有明顯優(yōu)勢(shì), 且平均檢測(cè)精度分別提高了8.7%,11.9%,7.7%.
下面進(jìn)一步分析本文算法在數(shù)據(jù)集NWPU VHR-10上對(duì)小目標(biāo)的檢測(cè)性能, 該數(shù)據(jù)集中小目標(biāo)通常指飛機(jī)、 車輛、 艦船這3類目標(biāo). 本文將這3類目標(biāo)平均檢測(cè)精度的均值作為小目標(biāo)的檢測(cè)精度. 由表4可見: 本文算法在小目標(biāo)上的平均檢測(cè)精度達(dá)92.2%, 遠(yuǎn)高于其他目標(biāo)檢測(cè)算法; 相對(duì)于Sig-NMS和YOLO-RS及文獻(xiàn)[12]算法, 針對(duì)小目標(biāo)檢測(cè)設(shè)計(jì)的本文算法精度分別提高了9.1%,1.4%,4.9%, 優(yōu)勢(shì)明顯; 雖然相比于RICAOD算法本文算法平均精度略有不足, 但在這3類小目標(biāo)檢測(cè)上較接近. 因此實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法對(duì)小目標(biāo)檢測(cè)的有效性.
圖9為本文算法對(duì)數(shù)據(jù)集NWPU VHR-10中部分?jǐn)?shù)據(jù)的測(cè)試結(jié)果. 由圖9可見, 本文算法雖然在車輛目標(biāo)中存在輕微漏檢現(xiàn)象, 但整體檢測(cè)效果表明了本文算法對(duì)于遙感圖像目標(biāo)檢測(cè)的可靠性.
圖9 本文算法在數(shù)據(jù)集NWPU VHR-10上的測(cè)試結(jié)果Fig.9 Test results of proposed algorithm on NWPU VHR-10 dataset
綜上所述, 本文基于RFBNet算法從三方面進(jìn)行了改進(jìn), 改進(jìn)算法提高了遙感圖像中各類目標(biāo)的檢測(cè)精度, 強(qiáng)化了對(duì)遙感圖像中小目標(biāo)的檢測(cè)能力. 用本文算法分別在數(shù)據(jù)集UCAS_AOD和NWPU_VHR-10上進(jìn)行實(shí)驗(yàn), 得到平均檢測(cè)精度分別為83.4%和94.8%, 相比于基準(zhǔn)算法檢測(cè)效果明顯提高, 相比于其他遙感目標(biāo)檢測(cè)算法精度優(yōu)勢(shì)明顯, 證明了本文算法在遙感圖像目標(biāo)檢測(cè)中的有效性和可靠性.