邵小美 張春亢 韋永昱 張顯云 周成宇 張忠豪
改進(jìn)YOLOv3算法的遙感圖像道路交叉口自動(dòng)識(shí)別
邵小美1張春亢1韋永昱1張顯云1周成宇2張忠豪1
(1 貴州大學(xué)礦業(yè)學(xué)院,貴陽 550025)(2 31626部隊(duì),廣州 510800)
YOLOv3 道路交叉口 目標(biāo)檢測(cè) 空間金字塔池化 注意力機(jī)制 遙感應(yīng)用
隨著遙感影像空間分辨率的不斷提高,遙感影像中道路交叉口特征結(jié)構(gòu)受到周圍自然場(chǎng)景(車輛、建筑物、植被等)的影響越來越大。道路交叉口是構(gòu)成道路網(wǎng)絡(luò)的基礎(chǔ)與核心要素,起到了連接道路和承載轉(zhuǎn)向的重要作用[1]。因此,研究如何從高分辨率遙感圖像中對(duì)道路交叉口進(jìn)行有效、快速、智能的檢測(cè)就具有非常重要意義。
近年來,國(guó)內(nèi)外學(xué)者對(duì)道路交叉口的自動(dòng)識(shí)別進(jìn)行了大量的研究,其研究方法可分為兩類:一是傳統(tǒng)的道路交叉口識(shí)別方法,通過區(qū)域灰度、邊緣、方向和幾何形狀等多種特征檢測(cè)道路交叉口。文獻(xiàn)[2]根據(jù)交叉口的灰度特征和幾何特征,通過多角度旋轉(zhuǎn)矩形模板得到角度均值圖,識(shí)別出道路交叉口類型;文獻(xiàn)[3-4]在文獻(xiàn)[2]的方法上分別引入多尺度圓形均勻檢測(cè)和三角形檢測(cè)模型;文獻(xiàn)[5]提出了一種基于模板匹配和張量投票的多階段、多特征的道路交叉口提取方法;文獻(xiàn)[6]采用密度峰值聚類和數(shù)學(xué)形態(tài)學(xué)處理方法提取交叉口;文獻(xiàn)[7]利用支持向量機(jī)的方法根據(jù)交叉口路段的幾何與屬性特征完成交叉口的識(shí)別與化簡(jiǎn)。上述的傳統(tǒng)識(shí)別方法多依賴于人工設(shè)計(jì)的低層次特征,未能對(duì)交叉路口的細(xì)節(jié)特征進(jìn)行有效的描述,導(dǎo)致交叉口識(shí)別的精度不高。而且復(fù)雜的人工特征設(shè)計(jì),增加了模型研究的成本投入。二是基于深度學(xué)習(xí)的道路交叉口識(shí)別方法,近年來基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法成果越來越多[8-12]。在遙感影像道路交叉口檢測(cè)的過程中,通過采集大量道路交叉口樣本數(shù)據(jù),訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)模型,實(shí)現(xiàn)道路交叉口識(shí)別。文獻(xiàn)[13]利用CNN模型學(xué)習(xí)區(qū)分立交橋類型的深層次模糊性特征,實(shí)現(xiàn)了對(duì)復(fù)雜立交橋的識(shí)別和分類;文獻(xiàn)[14]通過訓(xùn)練Faster R-CNN模型自動(dòng)識(shí)別道路交叉口,但檢測(cè)速度上受到了很大的限制;文獻(xiàn)[15]提出了基于GoogLeNet神經(jīng)網(wǎng)絡(luò)的復(fù)雜交叉路口識(shí)別方法,但識(shí)別類型比較單一。由于遙感影像道路交叉口目標(biāo)較小,特征不明顯,而且存在較多的植被遮擋以及鄰近地物顏色相近等問題,加大了道路交叉口的檢測(cè)難度,導(dǎo)致目前已有的道路交叉口目標(biāo)檢測(cè)算法的精度不高且檢測(cè)效率低。
目標(biāo)檢測(cè)模型YOLOv3在進(jìn)行目標(biāo)檢測(cè)時(shí)具有檢測(cè)速度較快且精度較高的優(yōu)勢(shì),是一款非常容易操作,且對(duì)電腦配置要求相對(duì)較低的優(yōu)質(zhì)網(wǎng)絡(luò)。但其在目標(biāo)檢測(cè)時(shí)存在對(duì)小目標(biāo)檢測(cè)效果不佳和漏檢率較高以及難以區(qū)分重疊物體等不足。因此,本文在YOLOv3網(wǎng)絡(luò)的基礎(chǔ)上提出一種改進(jìn)的道路交叉口目標(biāo)檢測(cè)算法,提高了道路交叉口檢測(cè)精確度和檢測(cè)效率。
YOLOv3(You Only Look Once version 3)[16]是由Joseph Redmon和Ali Farhadi在2018年提出的YOLOv2升級(jí)版。通過采用K-Means聚類算法[17-18],根據(jù)目標(biāo)尺寸聚類出9種不同尺寸的先驗(yàn)框進(jìn)行 目標(biāo)檢測(cè)。YOLOv3網(wǎng)絡(luò)主要分為主干特征提取、加強(qiáng)特征提取和結(jié)果預(yù)測(cè)三個(gè)部分,其網(wǎng)絡(luò)結(jié)構(gòu)如 圖1所示。
圖1 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)
注:(batch_size, 3, 416, 416)中3表示通道數(shù),416和416分別表示圖片的寬和高;Residual Block 1×64表示殘差塊堆疊1次,通道數(shù)是64;Conv2D Block5L表示5次卷積操作;Conv2D+UpSampling2D表示卷積和上采樣;Concat是指將兩個(gè)特征層進(jìn)行堆疊;Conv2D 3×3+Conv2D 1×1表示通過一次3×3的卷積和一次1×1的卷積進(jìn)行分類預(yù)測(cè)和回歸預(yù)測(cè)。
YOLOv3的主干特征提取網(wǎng)絡(luò)是將YOLOv2的DarkNet-19替換成性能更優(yōu)的Darknet-53,通過不斷的1×1卷積和3×3卷積以及殘差邊的疊加,并在卷積層后添加批量歸一化層(Batch Normalization)抑制網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象,大幅度的加深了網(wǎng)絡(luò)。通過融合殘差網(wǎng)絡(luò)(ResNet)[19]等方法,使得YOLOv3在保持速度優(yōu)勢(shì)的前提下,提升了檢測(cè)精度。YOLOv3網(wǎng)絡(luò)通過使用特征金字塔(Feature Pyramid Network,F(xiàn)PN)[20]進(jìn)行加強(qiáng)特征提取網(wǎng)絡(luò)的構(gòu)建,利用特征金字塔將小尺度特征圖進(jìn)行上采樣,然后與大尺度特征圖進(jìn)行融合,提取出三個(gè)不同尺度的特征圖,并將其傳入Yolo Head網(wǎng)絡(luò)中獲得預(yù)測(cè)結(jié)果。
YOLOv3的損失函數(shù)由目標(biāo)定位損失、目標(biāo)置信度損失及目標(biāo)分類損失3部分組成。定位損失包括目標(biāo)預(yù)測(cè)區(qū)域中心點(diǎn)坐標(biāo)值損失和寬高值損失,采用均方誤差(MSE)作為損失函數(shù)的目標(biāo)函數(shù)。分類損失和置信度損失采用二值交叉熵?fù)p失(Binary Cross Entropy)函數(shù)[21]??偟膿p失函數(shù)Loss公式定義如下:
2015年何愷明提出的空間金字塔池化(Spatial Pyramid Pooling,SPP)[24],又稱之為“SPPNet”,主要解決網(wǎng)絡(luò)輸入圖像尺寸不統(tǒng)一的問題。通過使用固定分塊的池化操作,SPP模塊可以在具有全連接層的網(wǎng)絡(luò)中實(shí)現(xiàn)多尺度圖像的輸入,能夠避免因尺度問題導(dǎo)致的圖像失真問題。此外,SPP中不同大小特征的融合,有利于檢測(cè)大小差異較大的目標(biāo)。但由于采用空間金字塔池化會(huì)增加一定的模型復(fù)雜度,所以會(huì)影響模型運(yùn)行速度。由于YOLOv3算法存在對(duì)圖像重復(fù)特征提取和對(duì)多尺度目標(biāo)檢測(cè)性能較差等問題,本文在YOLOv3網(wǎng)絡(luò)中借鑒了SPPNet的思想,將SPP結(jié)構(gòu)引入到Y(jié)OLOv3的Darknet-53和FPN結(jié)構(gòu)之間,在對(duì)Darknet-53的最后一個(gè)特征層進(jìn)行卷積后,利用4個(gè)池化核大小分別為13′13、9′9、5′5、1′1(表示無處理)的最大池化進(jìn)行處理,使網(wǎng)絡(luò)能夠提取具有不同感受野的多尺度深層特征,大大增加網(wǎng)絡(luò)的有效感受野,極大程度提升了本文多尺度道路交叉口目標(biāo)檢測(cè)的識(shí)別精度。SPP結(jié)構(gòu)如圖2所示。
圖2 SPP結(jié)構(gòu)圖
近年來,注意力模型(Attention Model)被廣泛應(yīng)用于各種深度學(xué)習(xí)任務(wù)中。在目標(biāo)檢測(cè)領(lǐng)域中,通過在網(wǎng)絡(luò)中引入注意力機(jī)制,網(wǎng)絡(luò)能更快速定位圖像中重要特征信息的位置。注意力機(jī)制根據(jù)作用域的不同可進(jìn)行二次分類,包括空間注意力機(jī)制(Spatial Attention Mechanism,SAM)、通道注意力機(jī)制(Channel Attention Mechanism,CAM)以及混合注意力機(jī)制。其中CBAM(Convolutional Block Attention Module)[25]表示卷積模塊的注意力機(jī)制模塊,是一種結(jié)合了SAM和CAM的混合注意力機(jī)制模塊,相比于SE(Squeeze and Excitation)模塊只關(guān)注CAM可以取得更好的效果。其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示:
圖3 CBAM網(wǎng)絡(luò)結(jié)構(gòu)圖
從圖3可以看出,CBAM是依次通過CAM和SAM。通過CBAM模塊能加強(qiáng)目標(biāo)關(guān)鍵特征的注意力,抑制非關(guān)鍵特征的注意力,即使網(wǎng)絡(luò)更多關(guān)注到目標(biāo),抑制網(wǎng)絡(luò)對(duì)背景的關(guān)注,進(jìn)而提升目標(biāo)檢測(cè)的精度。其中CAM模塊是通過全局最大池化和全局平均池化對(duì)特征進(jìn)行降維,而SAM模塊則是經(jīng)過全局最大池化和全局平均池化堆疊后得到兩個(gè)不同的特征圖,再通過卷積層對(duì)其進(jìn)行連接,最后利用sigmoid函數(shù)將連接的特征向量映射到[0,1],進(jìn)而得到空間注意力結(jié)果。
本文通過在YOLOv3模型的三個(gè)特征層結(jié)構(gòu)以及兩個(gè)上采樣結(jié)構(gòu)中引入CBAM模塊,使網(wǎng)絡(luò)學(xué)會(huì)關(guān)注重點(diǎn)信息,特征信息可以覆蓋到道路交叉口的更多部位,進(jìn)一步提升YOLOv3模型對(duì)特征不明顯的道路交叉口的識(shí)別精度。特別是在被植被遮擋的道路交叉口和與背景相似的城市道路交叉口中能獲得更準(zhǔn)確的目標(biāo)特征,減少背景其他物體特征對(duì)網(wǎng)絡(luò)的影響,進(jìn)而提升道路交叉口的檢測(cè)精度。
由于目前還沒有公開的遙感影像道路交叉口的數(shù)據(jù)集,本文使用貴陽市的“高分二號(hào)”衛(wèi)星影像和馬薩諸塞州道路數(shù)據(jù)集中的部分圖像自制數(shù)據(jù)集。通過分析影像上道路交叉口的特征,使用LabelImg工具以人工方式對(duì)目標(biāo)逐一進(jìn)行標(biāo)注,圖像標(biāo)注的基本目標(biāo)是根據(jù)圖像的視覺內(nèi)容和獲得的指導(dǎo)信息來確定對(duì)應(yīng)的文本語義描述[26]。因本文檢測(cè)目標(biāo)為道路交叉口,所以本數(shù)據(jù)集目標(biāo)標(biāo)注只將遙感圖像中出現(xiàn)的道路交叉口目標(biāo)盡可能的標(biāo)注出來,其他類別不做標(biāo)注。
自制的道路交叉口數(shù)據(jù)包含1 137張圖像,其中包含了十字、丁字、X形、Y形等多種常見的道路交叉口類型。將數(shù)據(jù)以8:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集用于本文的研究。該數(shù)據(jù)集中分布的小尺寸道路交叉口目標(biāo)較多,這就導(dǎo)致目標(biāo)信息量小,難以檢測(cè),并且場(chǎng)景中目標(biāo)受到不同程度的遮擋,加大了檢測(cè)的難度。
實(shí)驗(yàn)所用的編程語言為Python,深度學(xué)習(xí)框架為Pytorch,采用Adam優(yōu)化器。在整個(gè)訓(xùn)練過程采用遷移學(xué)習(xí)的方式進(jìn)行凍結(jié)訓(xùn)練,主要是可以加快訓(xùn)練速度,也可以在訓(xùn)練初期防止權(quán)值被破壞。為了能使網(wǎng)絡(luò)更快的收斂且防止模型訓(xùn)練過擬合,訓(xùn)練過程中采用Label Smoothing將標(biāo)簽進(jìn)行平滑,初始學(xué)習(xí)率設(shè)置為0.001,每次傳入網(wǎng)絡(luò)的圖片數(shù)量(Batch Size)為4,并使用原始YOLOv3的初始訓(xùn)練權(quán)重進(jìn)行訓(xùn)練。當(dāng)?shù)?0次時(shí)進(jìn)行解凍訓(xùn)練,將學(xué)習(xí)率衰減為0.0001,Batch Size改為2。隨著迭代的進(jìn)行使損失逐漸收斂,從而得到模型訓(xùn)練的網(wǎng)絡(luò)權(quán)重。經(jīng)過多次實(shí)驗(yàn)顯示CSC-YOLOv3網(wǎng)絡(luò)在迭代到90次左右趨于穩(wěn)定,所以本實(shí)驗(yàn)將總的訓(xùn)練迭代次數(shù)設(shè)置成100。訓(xùn)練過程的損失函數(shù)曲線如圖4所示。
圖4 CSC-YOLOv3網(wǎng)絡(luò)訓(xùn)練損失曲線
(1)定性分析
為了能直觀的驗(yàn)證本文提出的改進(jìn)算法的性能,對(duì)原始YOLOv3算法和改進(jìn)的CSC-YOLOv3算法使用相同的實(shí)驗(yàn)硬件配置和實(shí)驗(yàn)參數(shù)進(jìn)行訓(xùn)練,對(duì)檢測(cè)結(jié)果進(jìn)行對(duì)比分析。分別在存在植被遮擋、鄰近地物顏色相近和小目標(biāo)場(chǎng)景下的檢測(cè)結(jié)果如圖5~7所示。圖中黃色檢測(cè)框表示改進(jìn)前后的變化情況。
圖5 植被遮擋場(chǎng)景下道路交叉口檢測(cè)結(jié)果
圖6 鄰近地物顏色相近場(chǎng)景下道路交叉口檢測(cè)結(jié)果
圖7 小目標(biāo)場(chǎng)景下道路交叉口檢測(cè)結(jié)果
從圖5可以看出,由于道路交叉口被植被遮擋嚴(yán)重,在原始的YOLOv3網(wǎng)絡(luò)檢測(cè)中,部分道路交叉口因特征不明顯,未能被檢測(cè)出來;而CSC-YOLOv3網(wǎng)絡(luò)中由于引入了注意力機(jī)制,對(duì)于遮擋嚴(yán)重的道路交叉口目標(biāo),能根據(jù)道路交叉口的部分特征進(jìn)行識(shí)別,這使道路交叉口的檢測(cè)更加細(xì)致。對(duì)于圖6中的城市道路,道路和周圍的房屋背景較為相似且道路網(wǎng)復(fù)雜交錯(cuò),導(dǎo)致交叉口的檢測(cè)難度加大。在這樣的情況下,原始YOLOv3網(wǎng)絡(luò)模型雖然能準(zhǔn)確的檢測(cè)出大部分的道路交叉口,但出現(xiàn)較多的漏提目標(biāo),相比之下,CSC-YOLOv3網(wǎng)絡(luò)檢測(cè)出的道路交叉口更完整。而圖7中除兩條主干道以外,存在較多的小尺寸交叉路口,從圖中可以看出,兩個(gè)模型均能檢測(cè)識(shí)別出大尺寸道路交叉口目標(biāo),但針對(duì)部分小尺寸道路交叉口目標(biāo),CSC-YOLOv3網(wǎng)絡(luò)的檢測(cè)效果更優(yōu),在原始YOLOv3網(wǎng)絡(luò)的基礎(chǔ)上,降低了小目標(biāo)漏檢率。
從以上三種不同場(chǎng)景下的道路交叉口檢測(cè)對(duì)比實(shí)驗(yàn)可以看出,改進(jìn)后的CSC-YOLOv3網(wǎng)絡(luò)在自制的道路交叉口數(shù)據(jù)集上表現(xiàn)出了較好的檢測(cè)效果。相較于原始YOLOv3網(wǎng)絡(luò),其檢測(cè)性能得到了大幅提升,對(duì)于植被遮擋場(chǎng)景、鄰近地物顏色相近場(chǎng)景和小目標(biāo)較多的場(chǎng)景,均能精確地檢測(cè)出道路交叉口目標(biāo)。
(2)定量分析
為了進(jìn)一步驗(yàn)證本文提出的改進(jìn)算法的性能,本文通過、、1、AP和FPS對(duì)改進(jìn)的CSC-YOLOv3算法和原始YOLOv3算法進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)對(duì)比結(jié)果如表1所示。
表1 道路交叉口檢測(cè)結(jié)果對(duì)比
Tab.1 Comparison of test results of road intersections
從表1可以看出,相比于原始YOLOv3算法,本文改進(jìn)的CSC-YOLOv3算法對(duì)道路交叉口的檢測(cè)精度提升較為顯著,、、1、AP和1值分別提高了6.54、8.55、11.74和8個(gè)百分點(diǎn),雖然FPS降低了3幀/秒,但是其檢測(cè)性能的提升彌補(bǔ)了速度上的不足,證明了改進(jìn)CSC-YOLOv3算法的有效性,提升了高分遙感影像道路交叉口的檢測(cè)效果。
(3)消融實(shí)驗(yàn)結(jié)果對(duì)比分析
本文在現(xiàn)有YOLOv3模型的基礎(chǔ)上,通過使用CIOU損失函數(shù)并引入SPP和CBAM模塊,設(shè)計(jì)了一種新的遙感圖像道路交叉口識(shí)別方法。為了明確各個(gè)模塊對(duì)網(wǎng)絡(luò)性能的影響,本文采用消融實(shí)驗(yàn)進(jìn)行對(duì)比分析。一共設(shè)置了四組實(shí)驗(yàn),如表2所示,其中“√”表示包含對(duì)應(yīng)的模塊,“×”表示不包含對(duì)應(yīng)的模塊。
表2 消融實(shí)驗(yàn)結(jié)果比較
Tab.2 Comparison of ablation results
從表2中可以看出,相比于原始YOLOv3算法,引入不同的模塊改進(jìn)的YOLOv3算法在道路交叉口數(shù)據(jù)集上的、、AP以及1值上均有所提升。S-YOLOv3網(wǎng)絡(luò)因?yàn)橐肓薙PP模塊增加了一定的模型復(fù)雜度,導(dǎo)致模型的計(jì)算量稍有增加,F(xiàn)PS下降1幀/秒,但、、AP以及1值均提升較多,分別提高了5.58、7.26、9.37和7個(gè)百分點(diǎn)。而CS-YOLOv3網(wǎng)絡(luò)通過在S-YOLOv3網(wǎng)絡(luò)中使用CIOU損失函數(shù)進(jìn)行改進(jìn),、、AP、1以及FPS值在S-YOLOv3網(wǎng)絡(luò)的基礎(chǔ)上分別提高了0.45、0.87、0.56、1個(gè)百分點(diǎn)和1幀/秒,表明CIOU損失函數(shù)能在加快網(wǎng)絡(luò)模型的訓(xùn)練速度的同時(shí)提升道路交叉口檢測(cè)精度。CSC-YOLOv3模型是綜合SPP模塊和CIOU損失函數(shù)的特點(diǎn),繼續(xù)將CBAM模塊引入到Y(jié)OLOv3網(wǎng)絡(luò)中。相比于CS-YOLOv3模型來說,CSC-YOLOv3網(wǎng)絡(luò)的、、和1值進(jìn)一步提升,但FPS值降低了3幀/秒,表明引入CBAM模塊能使網(wǎng)絡(luò)學(xué)會(huì)關(guān)注交叉口的重點(diǎn)信息,提高目標(biāo)識(shí)別精確,但由于CBAM模塊的增加使網(wǎng)絡(luò)運(yùn)行速度受到了一定的影響。
為了更準(zhǔn)確地描述各個(gè)模塊的性能,對(duì)原始YOLOv3、S-YOLOv3、CS-YOLOv3和CSC-YOLOv3四個(gè)模型的檢測(cè)結(jié)果進(jìn)行分析,局部檢測(cè)結(jié)果如圖8~9所示。
圖8 郊區(qū)道路交叉口檢測(cè)結(jié)果
圖9 城市道路交叉口檢測(cè)結(jié)果
從以上兩種不同場(chǎng)景下的道路交叉口檢測(cè)對(duì)比實(shí)驗(yàn)可以看出,引入不同模塊改進(jìn)的YOLOv3算法的檢測(cè)效果具有一定差異。從圖8的郊區(qū)道路交叉口檢測(cè)結(jié)果可以看出:引入SPP模塊可以優(yōu)化多尺度目標(biāo)的檢測(cè)效果,提升小目標(biāo)檢測(cè)精度。使用CIOU損失函數(shù)后對(duì)檢測(cè)結(jié)果影響不大,但目視來看,目標(biāo)檢測(cè)框更加準(zhǔn)確。而引入CBAM模塊則主要可以有效檢測(cè)被植被遮擋的道路交叉口。從圖9的城市道路交叉口檢測(cè)結(jié)果可以看出:引入SPP模塊后城市道路交叉口的檢測(cè)精度得到了一定的提升,特別是對(duì)小目標(biāo)檢測(cè)效果的提升較為明顯,但部分相聚較近、被植被遮擋以及與背景相似的目標(biāo)存在漏檢情況。在此基礎(chǔ)上,使用CIOU損失函數(shù),更好地反應(yīng)預(yù)測(cè)框的定位精度,有效地識(shí)別出了相聚較近的目標(biāo)。而引入CBAM模塊則更準(zhǔn)確地對(duì)被植被遮擋以及與背景相似的道路交叉口進(jìn)行識(shí)別,有效提升了模型檢測(cè)精度。
綜上所述,SPP模塊通過增加網(wǎng)絡(luò)的有效感受野提升模型檢測(cè)精度,有利于檢測(cè)大小差異較大的目標(biāo);CIOU損失函數(shù)主要是提升運(yùn)行速度和預(yù)測(cè)框的回歸準(zhǔn)確度,對(duì)相聚較近的目標(biāo)有較好的效果;而CBAM模塊主要用于識(shí)別特征不明顯的目標(biāo),包括植被遮擋目標(biāo)和與背景相似目標(biāo)等。通過消融實(shí)驗(yàn)可知,本文改進(jìn)的CSC-YOLOv3模型是綜合了三個(gè)模塊的特點(diǎn),提升了模型的整體性能。
本文針對(duì)道路交叉口目標(biāo)較小、存在較多的植被遮擋、鄰近地物顏色相近等問題,提出了一種改進(jìn)的CSC-YOLOv3網(wǎng)絡(luò)模型。CSC-YOLOv3算法是將SPP模塊和CBAM模塊引入到Y(jié)OLOv3模型中,并使用CIOU損失函數(shù)改進(jìn)原來YOLOv3的目標(biāo)定位損失函數(shù),從而降低目標(biāo)漏檢率,提升目標(biāo)檢測(cè)精度。改進(jìn)的CSC-YOLOv3算法對(duì)道路交叉口的檢測(cè)效果相較于原始YOLOv3網(wǎng)絡(luò)取得了較大的提升,對(duì)于道路交叉口遮擋嚴(yán)重的場(chǎng)景、背景復(fù)雜的城市場(chǎng)景以及小目標(biāo)較多的郊區(qū)場(chǎng)景,均能精確地檢測(cè)出道路交叉口目標(biāo)。
[1] 李雅麗, 向隆剛, 張彩麗, 等. 車輛軌跡與遙感影像多層次融合的道路交叉口識(shí)別[J]. 測(cè)繪學(xué)報(bào), 2021, 50(11): 1546-1557.
LI Yali, XIANG Longgang, ZHANG Caili, et al. Road Intersection Recognition Based on Multi-level Fusion of Vehicle Trajectory and Remote Sensing Image[J]. Acta Geodaeticaet Cartographica Sinica, 2021, 50(11): 1546-1557. (in Chinese)
[2] 程江華, 高貴, 庫(kù)錫樹, 等. 高分辨率SAR圖像道路交叉口檢測(cè)與識(shí)別新方法[J]. 雷達(dá)學(xué)報(bào), 2012, 1(1): 100-108.
CHENG Jianghua, GAO Gui, KU Xishu, et al. A Novel Method for Detecting and Identifying Road Junctions from High Resolution SAR Images[J]. Journal of Radars, 2012, 1(1): 100-108. (in Chinese)
[3] 蔡紅玥, 姚國(guó)清. 高分辨率遙感圖像道路交叉口自動(dòng)提取[J]. 國(guó)土資源遙感, 2016, 28(1): 63-71.
CAI Hongyue, YAO Guoqing. Auto-extraction of Road Intersection from High Resolution Remote Sensing Image[J]. Remote Sensing for Land & Resources, 2016, 28(1): 63-71.(in Chinese)
[4] 郭風(fēng)成, 李參海, 李宗春, 等. 高分辨率SAR影像道路交叉口自動(dòng)提取方法[J]. 測(cè)繪科學(xué)技術(shù)學(xué)報(bào), 2017, 34(2): 199-203.
GUO Fengcheng, LI Canhai, LI Zongchun, et al. A New Method for Automatic Extracting Road Junctions from High Resolution SAR Images[J]. Journal of Geomatics Science and Technology, 2017, 34(2): 199-203. (in Chinese)
[5] SUN Ke, ZHANG Junping, ZHANG Yingying, et al. Roads and Intersections Extraction from High-Resolution Remote Sensing Imagery Based on Tensor Voting under Big Data Environment[J]. Wireless Communications and Mobile Computing, 2019, 2019: 1-11.
[6] 李思宇, 向隆剛, 張彩麗, 等. 基于低頻出租車軌跡的城市路網(wǎng)交叉口提取研究[J]. 地球信息科學(xué)學(xué)報(bào), 2019, 21(12): 1845-1854.
LI Siyu, XIANG Longgang, ZHANG Caili, et al. Extraction of Urban Road Network Intersections Based on Low-Frequency Taxi Trajectory Data[J]. Journal of Geo-Information Science, 2019, 21(12): 1845-1854. (in Chinese)
[7] 馬超, 孫群, 陳換新, 等. 利用路段分類識(shí)別復(fù)雜道路交叉口[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2016, 41(9): 1232-1237.
MA Chao, SUN Qun, CHEN Huanxin, et al. Recognition of Road Junctions Based on Road Classification Method[J]. Geomatics and Information Science of Wuhan University, 2016, 41(9): 1232-1237. (in Chinese)
[8] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-time Object Detection[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 779-788.
[9] 吳永靜, 吳錦超, 林超, 等. 基于深度學(xué)習(xí)的高分辨率遙感影像光伏用地提取[J]. 測(cè)繪通報(bào), 2021(5): 96-101.
WU Yongjing, WU Jinchao, LIN Chao,et al. Photovoltaic Land Extraction from High-resolution Remote Sensing Images Based on Deep Learning Method[J]. Bulletin of Surveying and Mapping, 2021(5): 96-101. (in Chinese)
[10] 方明, 孫曉敏, 黃然, 等. 面向高分辨率衛(wèi)星遙感的電力桿塔自動(dòng)檢測(cè)[J]. 航天返回與遙感, 2021, 42(5): 118-126.
FANG Ming, SUN Xiaomin, HUANG Ran, et al. Research on Automatic Detection Algorithm of Power Tower Using High Resolution Remote Sensing Satellite Image[J]. Space Recovery & Remote Sensing, 2021,42(5):118-126. (in Chinese)
[11] 劉穎, 劉紅燕, 范九倫, 等. 基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)研究與應(yīng)用綜述[J]. 電子學(xué)報(bào), 2020, 48(3): 590-601.
LIU Ying, LIU Hongyan, FAN Jiulun, et al. A Survey of Research and Application of Small Object Detection Based on Deep Learning[J]. Acta Electronica Sinica, 2020, 48(3): 590-601. (in Chinese)
[12] 余培東, 王鑫, 江剛武, 等. 一種改進(jìn)YOLOv4的遙感影像典型目標(biāo)檢測(cè)算法[J]. 測(cè)繪科學(xué)技術(shù)學(xué)報(bào), 2021, 38(3): 280-286.
YU Peidong, WANG Xin, JIANG Gangwu, et al. A Typical Target Detection Algorithm in Remote Sensing Images Based on Improved YOLOv4[J]. Journal of Geomatics Science and Technology, 2021, 38(3): 280-286. (in Chinese)
[13] 何海威, 錢海忠, 謝麗敏, 等. 立交橋識(shí)別的CNN卷積神經(jīng)網(wǎng)絡(luò)法[J]. 測(cè)繪學(xué)報(bào), 2018, 47(3): 385-395.
HE Haiwei, QIAN Haizhong, XIE Limin, et al. Interchange Recognition Method Based on CNN[J].Acta Geodaetica et Cartographica Sinica, 2018, 47(3): 385-395. (in Chinese)
[14] 周偉偉. 基于道路交叉口的高分辨率遙感影像道路提取[D]. 武漢: 武漢大學(xué), 2018.
ZHOU Weiwei. Road Extraction from High Resolution Remote Sensing Image Based on Road Intersections[D]. Wuhan: Wuhan University, 2018. (in Chinese)
[15] 張鴻剛, 李成名, 武鵬達(dá), 等. GoogLeNet神經(jīng)網(wǎng)絡(luò)的復(fù)雜交叉路口識(shí)別方法[J]. 測(cè)繪科學(xué), 2020, 45(10): 190-197.
ZHANG Honggang, LI Chengming, WU Pengda, et al. A Complex Intersection Recognition Method Based on GoogLeNet Neural Network[J]. Science of Surveying and Mapping, 2020, 45(10): 190-197. (in Chinese)
[16] REDMON J, FARHADI A. Yolov3: An Incremental Improvement[EB/OL]. [2021-12-20]. https://www.xueshufan.com/ publication/2796347433.
[17] 張素潔, 趙懷德. 最優(yōu)聚類個(gè)數(shù)和初始聚類中心點(diǎn)選取算法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2017, 34(6): 1617-1620.
ZHANG Sujie, ZHAO Huaide. Algorithm Research of Optimal Cluster Number and Initial Cluster Center[J]. Application Research of Computers, 2017, 34(6): 1617-1620. (in Chinese)
[18] 孔方方, 宋蓓蓓. 改進(jìn)YOLOv3的全景交通監(jiān)控目標(biāo)檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(8): 20-25.
KONG Fangfang, SONG Beibei. Improved YOLOv3 Panoramic Traffic Monitoring Target Detection[J]. Computer Engineering and Applications, 2020, 56(8): 20-25. (in Chinese)
[19] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.
[20] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 2117-2125.
[21] 張彬彬, 帕孜來·馬合木提. 基于YOLOv3改進(jìn)的火焰目標(biāo)檢測(cè)算法[J/OL]. (2021-03-12)[2022-02-22]. http://kns. cnki.net/kcms/detail/31.1690.TN.20210311.1628.047.html.
ZHANG Binbin, PAZILAI Mahemuti. Improved Flame Target Detection Algorithm Based on YOLOv3[J/OL]. (2021-03-12)[2022-02-22]. http://kns.cnki.net/kcms/detail/31.1690.TN.20210311.1628.047.html. (in Chinese)
[22] ZHENG Zhaohui, WANG Ping, LIU Wei, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[EB/OL]. [2022-02-22]. https://arxiv.org/pdf/1911.08287.pdf.
[23] 秦鵬, 唐川明, 劉云峰, 等. 基于改進(jìn)YOLOv3的紅外的目標(biāo)檢測(cè)方法[J]. 計(jì)算機(jī)工程, 2022, 48(3): 211-219.
QIN Peng, TANG Chuanming, LIU Yunfeng, et al. Infrared Target Detection Method Based on Improved YOLOv3[J]. Computer Engineering, 2022, 48(3): 211-219. (in Chinese)
[24] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[25] WOO S, PARK J, LEE J Y, et al. CBAM: Convoluational Block Attention Module[EB/OL]. [2022-02-22]. https://arxiv. org/pdf/1807.06521.pdf.
[26] 盧漢清, 劉靜. 基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注[J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 31(9): 1629-1639.
LU Hanqing, LIU Jing. Image Annotation Based on Graph Learning[J]. Chinese Journal of Computers, 2008, 31(9): 1629-1639. (in Chinese)
Improved YOLOv3 Algorithm for Remote Sensing Image Road Automatic Intersection Identification
SHAO Xiaomei1ZHANG Chunkang1WEI Yongyu1ZHANG Xianyun1ZHOU Chengyu2ZHANG Zhonghao1
(1 School of Mining, Guizhou University, Guiyang 550025, China)(2 Troops 31626, Guangzhou 510800, China)
Aiming at the problems of small intersection target, more vegetation occlusion and similar color of adjacent ground objects, an improved YOLOv3 high-resolution image intersection target detection algorithm, CSC-YOLOv3, was proposed. Firstly, CIOU loss function is used to improve the target locating loss of YOLOv3 and reduce the target missing rate. Secondly, the effective receptive field of YOLOv3 network was increased by adding spatial pyramid pooling module after the main feature extraction network of YOLOv3. Finally, the attention mechanism module was introduced into three feature layer structures and two upsampling structures of YOLOv3 network to improve the detection accuracy of the network. The results show that the accuracy rate, recall rate, average accuracy rate and F1 score of CSC-YOLOv3 algorithm reached 86.05%, 70.19%, 83.71% and 77% respectively. Compared with the original YOLOv3 algorithm, the improvement is 6.54, 8.55, 11.74 and 8 percentage points respectively. Although the FPS is reduced by 3 frames per second, the improvement of its detection performance makes up for the lack of speed and effectively improves the detection effect of high-resolution remote sensing images on road intersections.
YOLOv3; road intersections; target detection; space pyramid pooling; attentional mechanism; remote sensing application
P237
A
1009-8518(2022)05-0123-10
10.3969/j.issn.1009-8518.2022.05.012
2022-04-20
國(guó)家自然科學(xué)基金(41701464);貴州大學(xué)培育項(xiàng)目(貴大培育[2019]26號(hào));貴州省省級(jí)科技計(jì)劃項(xiàng)目(黔科合支撐[2022]一般204)
邵小美, 張春亢, 韋永昱, 等. 改進(jìn)YOLOv3算法的遙感圖像道路交叉口自動(dòng)識(shí)別[J]. 航天返回與遙感, 2022, 43(5): 123-132.
SHAO Xiaomei, ZHANG Chunkang, WEI Yongyu, et al. Improved YOLOv3 Algorithm for Remote Sensing Image Road Automatic Intersection Identification[J]. Spacecraft Recovery & Remote Sensing, 2022, 43(5): 123-132. (in Chinese)
邵小美,女,1994生,2017年獲貴州大學(xué)測(cè)繪工程學(xué)士學(xué)位,現(xiàn)在貴州大學(xué)測(cè)繪科學(xué)與技術(shù)專業(yè)攻讀碩士學(xué)位。主要研究方向?yàn)楦叻诌b感影像信息提取。E-mail:1598091011@qq.com。
(編輯:毛建杰)