基于RSSD 的遙感圖像目標(biāo)檢測(cè)算法

2024-04-02 03:42呂向東彭超亮陳治國孫鵬飛趙曉楠

現(xiàn)代電子技術(shù) 2024年7期

呂向東，彭超亮，陳治國，孫鵬飛，趙曉楠，徐旸

（1.山東港口青島港集團(tuán)有限公司，山東青島 266001；2.中車長(zhǎng)江運(yùn)輸設(shè)備集團(tuán)有限公司，湖北武漢 430065）

0 引言

遙感圖像擁有廣闊的視野和豐富的信息，廣泛應(yīng)用于偵查監(jiān)視、資源勘探、災(zāi)害監(jiān)測(cè)、軍事作戰(zhàn)等領(lǐng)域[1]。遙感圖像目標(biāo)檢測(cè)是遙感圖像解譯的重要分支之一，對(duì)于挖掘圖像的感興趣區(qū)域信息至關(guān)重要。傳統(tǒng)的目標(biāo)檢測(cè)方法有基于統(tǒng)計(jì)的目標(biāo)檢測(cè)、基于知識(shí)的目標(biāo)檢測(cè)以及基于模型的目標(biāo)檢測(cè)[2]等，這些方法由于需要人工設(shè)定先驗(yàn)條件，穩(wěn)健性差、智能程度低，難以用于檢測(cè)背景信息復(fù)雜的遙感影像目標(biāo)。隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展，遙感圖像的目標(biāo)檢測(cè)技術(shù)實(shí)現(xiàn)了重大突破，并已成為當(dāng)前的研究熱點(diǎn)。然而，遙感圖像存在背景復(fù)雜、目標(biāo)空間占用比小等特點(diǎn)，對(duì)遙感圖像目標(biāo)檢測(cè)帶來了極大挑戰(zhàn)[3]。

2012 年，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）在ImageNet[4]圖像分類比賽中取得巨大成功，推動(dòng)了深度學(xué)習(xí)在圖像目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用，并逐步取代傳統(tǒng)的目標(biāo)檢測(cè)方法。目前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法大致分為兩類：一類是基于區(qū)域的目標(biāo)識(shí)別方法，如Faster R-CNN[5]、R-FCN[6]，這些算法將目標(biāo)檢測(cè)分為兩個(gè)階段，先使用區(qū)域候選網(wǎng)絡(luò)（Region Proposal Network, RPN）提取候選目標(biāo)信息，再利用檢測(cè)網(wǎng)絡(luò)預(yù)測(cè)和識(shí)別候選目標(biāo)的位置和類別，稱為雙步目標(biāo)檢測(cè)算法；另一類是基于回歸的目標(biāo)識(shí)別方法，如SSD（Signal Shot MultiBox Detector）[7]、YOLO（You Only Look Once）[8]等，此類算法直接通過網(wǎng)絡(luò)產(chǎn)生目標(biāo)的位置和類別信息，稱為單步目標(biāo)檢測(cè)算法。文獻(xiàn)[9]利用Microsoft COCO[10]數(shù)據(jù)集對(duì)比分析了Faster R-CNN、R-FCN 及SSD三種檢測(cè)算法的性能，結(jié)果表明Faster R-CNN 算法精度最高，SSD 算法速度最快。文獻(xiàn)[11]采用多層特征融合的方法改善SSD 算法在小目標(biāo)檢測(cè)上的缺陷，提出了RSSD 算法，但該算法對(duì)淺層特征信息均進(jìn)行特征增強(qiáng)，產(chǎn)生過多的特征圖，在提高檢測(cè)精度的同時(shí)降低了檢測(cè)效率。文獻(xiàn)[12]提出FPN（Feature Pyramid Network）方法，通過多尺度特征預(yù)測(cè)和特征融合提高檢測(cè)性能，但FPN 方法由于直接利用深一層的卷積特征增強(qiáng)反向特征，無法充分利用高層語義信息[13]。文獻(xiàn)[14]提出了一種利用ResNet101 改進(jìn)SSD 的檢測(cè)算法，但其網(wǎng)絡(luò)層數(shù)太深，網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜，會(huì)導(dǎo)致檢測(cè)速度大幅度降低。

為提高SSD 算法對(duì)遙感影像數(shù)據(jù)集中小目標(biāo)特征的提取精度，提出基于RSSD 的遙感圖像目標(biāo)檢測(cè)算法。該算法在SSD 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上，將基準(zhǔn)網(wǎng)絡(luò)模型VGG 替換為殘差網(wǎng)絡(luò)模型ResNet-50，在網(wǎng)絡(luò)框架中引入注意力模塊，使得感受野更關(guān)注目標(biāo)特征，增強(qiáng)低層網(wǎng)絡(luò)的信息表征能力，采用特征金字塔融合方法，融合網(wǎng)絡(luò)結(jié)構(gòu)中的高層語義特征和低層視覺特征，將網(wǎng)絡(luò)的高層特征通過上采樣與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合，增強(qiáng)檢測(cè)目標(biāo)的定位能力，提高小目標(biāo)檢測(cè)的精度。

1 基于RSSD 的目標(biāo)檢測(cè)算法

SSD 是Liu W 等在2016 年ECCV 上提出的一種目標(biāo)檢測(cè)算法，是目前主要的目標(biāo)檢測(cè)框架之一。SSD 算法同時(shí)具有Faster R-CNN 和YOLO 的優(yōu)點(diǎn)，既可以提高檢測(cè)準(zhǔn)確率又可以兼顧檢測(cè)速度。SSD 算法主要由兩部分組成：一是采用VGG-16 的前端基礎(chǔ)網(wǎng)絡(luò)提取圖像目標(biāo)的初級(jí)特征；二是采用級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)提取圖像目標(biāo)的高級(jí)特征。SSD 算法采用特征金字塔網(wǎng)絡(luò)的檢測(cè)方式在特征圖上進(jìn)行不同尺度的Softmax 分類和位置回歸。

SSD 算法用于檢測(cè)遙感圖像小目標(biāo)時(shí)，網(wǎng)絡(luò)結(jié)構(gòu)的基準(zhǔn)網(wǎng)絡(luò)VGG 與預(yù)測(cè)小目標(biāo)的卷積層Conv4_3 進(jìn)行特征融合，將會(huì)出現(xiàn)在低級(jí)卷積特征層中語義信息不夠的問題，使得隨著遙感影像小目標(biāo)數(shù)據(jù)集中圖片和網(wǎng)絡(luò)層數(shù)的增加，SSD 算法提取的特征信息不足，造成識(shí)別小目標(biāo)的精度較低。為提高SSD 算法對(duì)遙感影像數(shù)據(jù)集中小目標(biāo)特征的提取精度，提出基于RSSD 的遙感圖像目標(biāo)檢測(cè)算法。RSSD 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

圖1 RSSD 網(wǎng)絡(luò)結(jié)構(gòu)

RSSD 算法在SSD 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上，首先，將基準(zhǔn)網(wǎng)絡(luò)模型VGG 替換為殘差網(wǎng)絡(luò)模型ResNet-50，通過增加網(wǎng)絡(luò)深度充分提取遙感圖像小目標(biāo)數(shù)據(jù)集的底層特征。相比于VGG-16，ResNet-50 網(wǎng)絡(luò)層數(shù)更深，能夠更充分提取圖像的特征信息，且能有效避免梯度彌散和退化現(xiàn)象；相比于ResNet-101，ResNet-50 網(wǎng)絡(luò)層數(shù)較淺，適合訓(xùn)練樣本數(shù)量較少的遙感影像數(shù)據(jù)集。其次，在網(wǎng)絡(luò)框架中引入注意力模塊，使得感受野更關(guān)注目標(biāo)特征，增強(qiáng)低層網(wǎng)絡(luò)的信息表征能力。最后，采用特征金字塔融合方式，將網(wǎng)絡(luò)的高層特征通過上采樣與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合，增強(qiáng)檢測(cè)目標(biāo)的定位能力，提高小目標(biāo)的檢測(cè)精度。

2 特征金字塔融合

特征金字塔網(wǎng)絡(luò)是表達(dá)輸出CNN 網(wǎng)絡(luò)得到圖片信息的一種有效方法，在目標(biāo)檢測(cè)中得到廣泛應(yīng)用，并取得了顯著效果[15]。特征金字塔網(wǎng)絡(luò)通過對(duì)不同層的特征圖進(jìn)行特征融合，預(yù)測(cè)多尺度的特征圖[16]。

SSD 算法引入ResNet-50 網(wǎng)絡(luò)后，為避免SSD 目標(biāo)檢測(cè)算法中低層網(wǎng)絡(luò)語義信息不足導(dǎo)致特征提取不充分，造成檢測(cè)小目標(biāo)效果較差的問題，利用圖像特征金字塔融合的方式搭建檢測(cè)模型，將上采樣的高層特征與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合。圖像特征金字塔預(yù)測(cè)流程如圖2 所示。

圖2 特征金字塔網(wǎng)絡(luò)預(yù)測(cè)流程圖

3 注意力機(jī)制

注意力機(jī)制的提出來源于人類視覺系統(tǒng)（Human Visual System, HVS）。為了合理利用有限的視覺信息處理資源，人類需要選擇并集中關(guān)注視覺區(qū)域中的特定部分，稱為注意力機(jī)制。圖像的局部特征提取可以看作一種注意力機(jī)制。注意力機(jī)制通常作為神經(jīng)網(wǎng)絡(luò)的一個(gè)附加神經(jīng)網(wǎng)絡(luò)，能夠?qū)δ承┹斎氲牟糠钟残赃x擇，或者將不同的權(quán)重分配給不同的輸入部分。

在ResNet-50 殘差網(wǎng)絡(luò)模型中引入注意力模塊，增強(qiáng)RSSD 網(wǎng)絡(luò)對(duì)遙感圖像中小目標(biāo)特征信息的提取能力，提高檢測(cè)精度。注意力模塊主要由兩部分組成：一部分是通道注意力模塊（Channel Attention Module）；另一部分是空間注意力模塊（Spatial Attention Module）。注意力模塊結(jié)構(gòu)如圖3 所示。

圖3 注意力模塊結(jié)構(gòu)

輸入的特征圖F經(jīng)過通道注意力模塊時(shí)，空間維度被壓縮，經(jīng)過共享全連接層MLP 生成通道注意力特征圖Mc。通道注意力模塊不僅考慮Average pooling，還引入Max pooling，計(jì)算公式如下：

式中：Fcavg和Fcmax分別表示在通道注意力模塊中經(jīng)過Average pooling 和Max pooling 的特征圖；W0和W1表示多層感知機(jī)模型中的兩層參數(shù)；σ為sigmoid 函數(shù)。

通道注意力特征圖Mc通過第二部分空間注意力模塊的空間關(guān)系生成空間注意力特征圖Ms，空間注意力特征圖更加關(guān)注目標(biāo)所在位置的特征信息，是對(duì)通道注意力部分的補(bǔ)充?？臻g注意力模塊對(duì)注意力特征圖進(jìn)行通道層面上的壓縮后，再對(duì)其通道維度上分別做Average pooling和Max pooling，得到的特征圖通道數(shù)為2，計(jì)算公式如下：

式中：F′表示經(jīng)過通道注意力模塊計(jì)算之后的特征圖；和分別表示在空間注意力模塊中經(jīng)過Average pooling和Maxpooling的特征圖；f7×7表示卷積核大小為7×7 的卷積運(yùn)算；“?”表示元素乘法，在乘法過程中注意特征值被相應(yīng)地傳播；F″為最終確定的輸出。最后，使用一個(gè)卷積核為1 的隱藏層進(jìn)行卷積操作，生成最終的二維空間注意力圖。

4 實(shí)驗(yàn)分析

為驗(yàn)證RSSD 算法對(duì)遙感圖像目標(biāo)的檢測(cè)效果，采用VEDAI 航拍遙感影像數(shù)據(jù)集進(jìn)行測(cè)試分析。VEDAI是航空影像中車輛檢測(cè)的數(shù)據(jù)集，是一種在不受限制的環(huán)境中對(duì)目標(biāo)檢測(cè)算法進(jìn)行基準(zhǔn)測(cè)試的工具。原始的大視場(chǎng)圖像被分割成1 024×1 024 像素并包含不同種類車輛以及其他混淆對(duì)象。VEDAI 數(shù)據(jù)集的圖像分為單通道紅外圖像和RGB 三通道彩色圖像，所有圖像都在與地面相同距離處拍攝，每張圖像平均包含約5.4 個(gè)車輛目標(biāo)，占整個(gè)圖像總像素的0.07%，是典型的遙感影像小目標(biāo)數(shù)據(jù)集。實(shí)驗(yàn)硬件采用NVIDAI RTX2080Ti GPU，PC 機(jī)操作系統(tǒng)為Ubuntu 18.04，在Python 中基于Pytorch 深度學(xué)習(xí)框架構(gòu)建算法模型。為了更好地適應(yīng)GPU 顯存性能，選擇數(shù)據(jù)集中圖像大小為512×512 且RGB 三通道彩色圖像子集進(jìn)行實(shí)驗(yàn)[17]。VEDAI 數(shù)據(jù)集中包括9 類目標(biāo)，分別為Boat、Camping、Car、Others、Pick_up、Tractors、Trucks、Vans 以及Plane。9 類目標(biāo)數(shù)量如表1 所示。

表1 VEDAI 數(shù)據(jù)集中9 類目標(biāo)數(shù)量

實(shí)驗(yàn)中初始學(xué)習(xí)率為1.1×10-3，迭代30 000 次后學(xué)習(xí)率調(diào)整為1.1×10-4，迭代60 000 次后終止訓(xùn)練，動(dòng)量參數(shù)為0.9，權(quán)重衰退率為0.000 5，batch size 設(shè)置為8。

平均準(zhǔn)確率均值（mean Average Precision, mAP）和每秒幀率（Frame Per Second, FPS）是目標(biāo)檢測(cè)領(lǐng)域最常用的評(píng)價(jià)指標(biāo)。mAP 定義為所有對(duì)象類別平均精度（Average Precision, AP）的平均值，AP可用積分計(jì)算表示：

采用SSD 算法和RSSD 算法分別訓(xùn)練VEDAI遙感影像數(shù)據(jù)集的訓(xùn)練集，并檢測(cè)測(cè)試集中的小目標(biāo)。SSD 算法和RSSD算法的小目標(biāo)檢測(cè)精度變化趨勢(shì)如圖4所示。

圖4 檢測(cè)精度變化趨勢(shì)圖

由圖4 可以看出，隨著迭代次數(shù)的增加，約在10 000 次迭代后，小目標(biāo)檢測(cè)精度值保持平穩(wěn)上升。經(jīng)過大約40 000 次迭代后，SSD 算法的小目標(biāo)檢測(cè)精度穩(wěn)定在0.55 左右，而RSSD 算法的檢測(cè)精度穩(wěn)定在0.60 左右，說明RSSD 算法較為明顯地提升了小目標(biāo)的檢測(cè)精度。

為驗(yàn)證RSSD 算法的性能，同時(shí)利用訓(xùn)練集訓(xùn)練SSD 算法和RSSD 算法在測(cè)試集上對(duì)9 類小目標(biāo)進(jìn)行檢測(cè)，各類目標(biāo)檢測(cè)結(jié)果如表2 所示。

表2 各類目標(biāo)檢測(cè)結(jié)果對(duì)比

實(shí)驗(yàn)結(jié)果表明，相比于SSD 算法，本文提出的RSSD算法的目標(biāo)檢測(cè)平均精準(zhǔn)度由56.47%提高到63.26%，平均檢測(cè)精度得到顯著提升。特征金字塔融合有效地利用淺層特征層中豐富的局部細(xì)節(jié)信息和深層特征層的高層語義信息，提升了算法的泛化能力。RSSD 算法通過替換基準(zhǔn)網(wǎng)絡(luò)，加深了原有網(wǎng)絡(luò)的層數(shù)，增加了提取特征信息的計(jì)算量，由于引入注意力機(jī)制也影響了算法的檢測(cè)速度，但是檢測(cè)效果有明顯提升。SSD 算法和RSSD 算法檢測(cè)VEDAI 數(shù)據(jù)集的部分目標(biāo)檢測(cè)結(jié)果如圖5 所示。

圖5 VEDAI 數(shù)據(jù)集的部分目標(biāo)檢測(cè)效果

由圖5 可知：SSD 算法對(duì)遙感圖像目標(biāo)檢測(cè)存在明顯的漏檢、錯(cuò)檢和準(zhǔn)確率低的問題；RSSD 算法可以避免漏檢、錯(cuò)檢目標(biāo)，提升較小目標(biāo)的檢測(cè)準(zhǔn)確率。

5 結(jié) 語

為提高遙感圖像小目標(biāo)的檢測(cè)效果，本文提出基于RSSD 的遙感圖像目標(biāo)檢測(cè)算法。該算法采用殘差網(wǎng)絡(luò)模型ResNet-50 作為SSD 網(wǎng)絡(luò)的基準(zhǔn)網(wǎng)絡(luò)模型，能夠提取更深層次的特征信息，且有效地避免梯度彌散和退化現(xiàn)象；引入注意力模塊，增強(qiáng)低層網(wǎng)絡(luò)的信息表征能力；通過圖像特征金字塔融合的方式對(duì)小目標(biāo)進(jìn)行位置回歸，提升了目標(biāo)檢測(cè)效果。該算法增強(qiáng)了復(fù)雜背景的干擾抑制性，提高了較小目標(biāo)的檢測(cè)精度，比SSD 算法的mAP 提升6.79%。

注：本文通訊作者為彭超亮。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡