摘 要:針對(duì)航拍瀝青路面圖像數(shù)據(jù)不足、檢測(cè)精度低、存在漏檢的問(wèn)題,研究提出一種改進(jìn)的DETR(Detection Transformer)端到端瀝青路面破損檢測(cè)模型。該模型采用ResNet50提取特征,引入SiLU激活函數(shù)提高特征提取能力,并采用多尺度融合特征圖保留更多上下文語(yǔ)義信息;在Transformer的Encoder中使用多尺度可變形自注意力機(jī)制,加快模型收斂速度;采用CIoU損失函數(shù)提高了裂縫檢測(cè)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明:改進(jìn)模型的平均精度達(dá)83.7%,比DETR模型在精確率上提高7.4%,召回率上提升了10.9%。提出的改進(jìn)模型可對(duì)瀝青路面破損進(jìn)行有效檢測(cè),可為航拍圖像的瀝青路面破損檢測(cè)提供參考。
關(guān)鍵詞:破損檢測(cè);可變形自注意力;多尺度融合;CIoU;目標(biāo)檢測(cè)
中圖分類號(hào):U418,TP751 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007 - 9734 (2024) 05 - 0050 - 08
DOI:10.19327/j.cnki.zuaxb.1007-9734.2024.05.007
0 引 言
截至2022年,我國(guó)高速公路里程已達(dá)16.9萬(wàn)公里,瀝青路因?yàn)榫哂锌箟簭?qiáng)度高、壽命長(zhǎng)等優(yōu)點(diǎn),在高速路中占比超過(guò)90%[1]。瀝青路面破損檢測(cè)是路面養(yǎng)護(hù)和維護(hù)中非常重要的一環(huán)。隨著運(yùn)營(yíng)年限的增加,若不及時(shí)修復(fù)路面破損會(huì)造成更大的危害。
路面破損分為兩大類:裂縫破損與坑槽破損[2]。傳統(tǒng)的路面破損檢測(cè)以人工檢測(cè)為主,該方法存在檢測(cè)精度低、效率慢、作業(yè)時(shí)風(fēng)險(xiǎn)系數(shù)大的缺點(diǎn)[3]。隨著無(wú)人機(jī)航拍、計(jì)算機(jī)視覺(jué)及深度學(xué)習(xí)的不斷發(fā)展,基于航拍圖像的方法被廣泛應(yīng)用于瀝青路面破損檢測(cè)[4-6]。無(wú)人機(jī)通過(guò)搭載高清相機(jī)、激光雷達(dá)、測(cè)量模塊等,能夠應(yīng)對(duì)復(fù)雜的道路環(huán)境和天氣條件,還能高效、準(zhǔn)確地獲取道路裂縫圖像信息,并結(jié)合分類算法、語(yǔ)義分割及目標(biāo)檢測(cè)等技術(shù)進(jìn)行自動(dòng)化分析和識(shí)別[7-10],可以提高瀝青路面破損檢出率,保證高速路行車安全。
路面裂縫存在無(wú)固定形狀、尺寸差異大的特點(diǎn),是路面破損檢測(cè)領(lǐng)域的研究重點(diǎn)。對(duì)圖像進(jìn)行裂縫檢測(cè)的方法可分為兩類,即圖像處理法與深度學(xué)習(xí)法。張文靜將航拍圖像預(yù)處理、精處理再經(jīng)過(guò)支持向量機(jī)分類,實(shí)現(xiàn)橫向裂縫、縱向裂縫、斜向裂縫的線性分類[11]。Fang等對(duì)瀝青圖像進(jìn)行閾值去噪、高斯濾波操作,將投影特征和裂紋像素特征經(jīng)過(guò)支持向量機(jī)(Support Vector Machines,SVM)處理,完成4種裂縫類型的分類[12]。
以上算法在數(shù)據(jù)處理時(shí)的共性問(wèn)題是,彩色圖像難以用單一算法處理,灰度處理難以將裂縫清晰地從背景中分離[13],深度學(xué)習(xí)可以直接對(duì)彩色圖片進(jìn)行裂縫檢測(cè)。深度學(xué)習(xí)可將路面裂縫檢測(cè)分為圖像分類任務(wù)、分割任務(wù)和目標(biāo)檢測(cè)任務(wù)。
張偉光等在自建路面裂縫數(shù)據(jù)集上,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與多層感知機(jī)神經(jīng)網(wǎng)絡(luò)模型對(duì)路面裂縫進(jìn)行分類研究[14]。Hong等將醫(yī)學(xué)領(lǐng)域的U-Net算法引入路面裂縫分割中[15],所提出的方法能夠有效分割航拍圖像中的裂縫。王博對(duì)航拍圖像路面裂縫檢測(cè)提出新的目標(biāo)檢測(cè)算法[16],在數(shù)據(jù)集上對(duì)橫向、縱向裂縫進(jìn)行分類研究。Luo等提出STrans-YOLOX的路面裂縫檢測(cè)模型[17],在公開(kāi)裂縫數(shù)據(jù)上對(duì)路面裂縫進(jìn)行識(shí)別。
瀝青路面坑槽檢測(cè)可分為三類:振動(dòng)檢測(cè)法、三維重建法、視覺(jué)檢測(cè)法。振動(dòng)檢測(cè)法操作簡(jiǎn)單但可靠性差;三維重建法檢測(cè)效果好,但檢測(cè)范圍小、成本高;視覺(jué)檢測(cè)法則具有測(cè)量范圍廣、成本低、靈活度高等優(yōu)點(diǎn)??硬廴毕菀蚰繕?biāo)小、數(shù)量少因此成為檢測(cè)領(lǐng)域的難點(diǎn)。Ozoglu提出用CNN識(shí)別振動(dòng)傳感器異常振動(dòng)數(shù)據(jù)轉(zhuǎn)的方式,將道路數(shù)據(jù)轉(zhuǎn)化為像素識(shí)別[18]。Vinodhini等在航拍數(shù)據(jù)集中提出CNN與Transformer相結(jié)合的方法,并將卷積網(wǎng)絡(luò)與動(dòng)態(tài)特征相融合,提高網(wǎng)絡(luò)的全局搜索能力,所提出的方法優(yōu)于圖神經(jīng)網(wǎng)絡(luò)。趙璐璐針對(duì)小目標(biāo)坑槽誤檢、漏檢的問(wèn)題,在YOLO v7網(wǎng)絡(luò)中引入SE注意力機(jī)制并用EIoU替換原損失函數(shù),改進(jìn)后網(wǎng)絡(luò)平均精度提升1.9%[20]。
通過(guò)對(duì)瀝青路面破損檢測(cè)領(lǐng)域的相關(guān)研究分析,發(fā)現(xiàn)仍存在以下幾個(gè)問(wèn)題:(1)圖像處理需要對(duì)彩色圖像灰度化,受復(fù)雜背景環(huán)境影響,抗噪性能較差;(2)現(xiàn)有的深度學(xué)習(xí)模型需要根據(jù)不同的路面裂縫進(jìn)行人工干預(yù),例如需要預(yù)先設(shè)置先驗(yàn)框;(3)路面破損主要集中在裂縫類型,嚴(yán)重的裂縫會(huì)導(dǎo)致坑槽缺陷,受坑槽缺陷圖片數(shù)量影響僅有少部分學(xué)者對(duì)路面坑槽進(jìn)行視覺(jué)檢測(cè)研究。
綜上所述,通過(guò)對(duì)航拍瀝青路面破損圖像進(jìn)行進(jìn)一步研究,擴(kuò)充航拍坑槽數(shù)據(jù)圖像,本文制作了四種缺陷類型的數(shù)據(jù)集,提出端到端的目標(biāo)檢測(cè)模型,去除掉了先驗(yàn)框和非極大值抑制,改進(jìn)DETR(Detection Transformer)檢測(cè)模型,在Resnet50中使用SiLU激活函數(shù)、改進(jìn)多尺度融合特征圖、引入多頭可變形自注意力機(jī)制、替換CIoU損失函數(shù),優(yōu)化原目標(biāo)檢測(cè)算法的性能、保留路面破損淺層語(yǔ)義信息、增強(qiáng)不同尺度破損特征信息的融合、提高小目標(biāo)坑槽的檢測(cè)準(zhǔn)確率。
1 DETR網(wǎng)絡(luò)
DETR將目標(biāo)檢測(cè)看作一個(gè)集合預(yù)測(cè)任務(wù),如圖1所示。DETR的網(wǎng)絡(luò)結(jié)構(gòu)主要由4個(gè)模塊組成:CNN、位置編碼(Positional Encoding)、編碼器(Encoder)、解碼器(Decoder)和預(yù)測(cè)頭(Prediction Heads)。DETR的預(yù)測(cè)流程分為4步:首先將輸入的圖片經(jīng)過(guò)CNN特征提取網(wǎng)絡(luò)處理后得到特征圖,然后將特征圖展平為一個(gè)帶有空間位置編碼的序列,與位置編碼一起送入編碼器中,編碼器的輸出再加上目標(biāo)查詢結(jié)果(Object Query)分別送入解碼器中,最后將解碼器的輸出送入預(yù)測(cè)頭中,即可得到預(yù)測(cè)框和類別[21]。
1.1" 特征提取網(wǎng)絡(luò)
1.1.1 ResNet50
CNN網(wǎng)絡(luò)主要用于提取特征,但隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,訓(xùn)練損失的增加將造成精度迅速下降。ResNet網(wǎng)絡(luò)的深度殘差網(wǎng)絡(luò)結(jié)構(gòu)可以解決CNN網(wǎng)絡(luò)的退化問(wèn)題。在ResNet網(wǎng)絡(luò)中,采用了殘差連接來(lái)執(zhí)行恒等映射,殘差塊的輸出被添加到堆疊層的輸出中。殘差塊上一層網(wǎng)絡(luò)的輸出值x通過(guò)第一權(quán)重層后經(jīng)過(guò)ReLU激活函數(shù)進(jìn)入第二權(quán)重層。第二權(quán)重層輸出后的殘差映射F(x)加入輸入x的恒等映射,即可得到理想映射F(x)+x,殘差結(jié)構(gòu)連接如圖2所示。
在ResNet的所有網(wǎng)格類型中,ResNet50網(wǎng)絡(luò)具有比ResNet18、ResNet34更深的網(wǎng)絡(luò)結(jié)構(gòu)以及比ResNet101更高的執(zhí)行效率。因此本文采用ResNet50網(wǎng)絡(luò)來(lái)做特征提取,網(wǎng)格結(jié)構(gòu)如圖3所示。
在ResNet50網(wǎng)絡(luò)中,最后一層的輸出和位置編碼一起傳入編碼器中,這種方法增大了特征圖的感受野,然而降采樣的過(guò)程會(huì)造成過(guò)多細(xì)節(jié)信息的丟失。因此,改進(jìn)模型引入多尺度信息融合的特征提取方式,如圖4所示。通過(guò)將ResNet50網(wǎng)絡(luò)的C3、C4特征圖分別經(jīng)過(guò)1×1的卷積,C5階段的特征圖經(jīng)過(guò)1×1及3×3步長(zhǎng)為2的卷積得到多尺度融合特征圖,改進(jìn)后的多尺度融合特征圖在保留原有感受野的同時(shí)保留了更多的細(xì)節(jié)信息。
1.1.2 引入SiLU
本文所使用的航拍圖像的信噪比介于14.35 dB至15.8 dB之間。為提高模型的性能和魯棒性,在ResNet50網(wǎng)絡(luò)中引入SiLU激活函數(shù)。ReLU函數(shù)和SiLU激活函數(shù)表達(dá)式如(1)(2)所示。
[ReLUx=max0,x] (1)
[SiLUx=x*11+e-x] (2)
從圖5可以看出,ReLU函數(shù)在輸入為負(fù)數(shù)時(shí)會(huì)輸出0,輸入為0時(shí)導(dǎo)數(shù)不存在,而SiLU函數(shù)在整個(gè)輸入范圍內(nèi)都具有非零輸出,導(dǎo)數(shù)在整個(gè)輸入范圍內(nèi)均存在,如圖5所示。這意味著SiLU的引入可以在ResNet50網(wǎng)絡(luò)中改善模型的性能,尤其是在低信噪比或低對(duì)比度的情況下。
1.2" 多尺度可變形自注意力機(jī)制
DETR模型使用多頭注意力機(jī)制,在模型訓(xùn)練時(shí)需要消耗大量的計(jì)算資源。改進(jìn)模型引入局部注意力機(jī)制,采用可變形注意力模塊來(lái)關(guān)注參考點(diǎn)周圍的關(guān)鍵采樣點(diǎn),增加了小目標(biāo)檢測(cè)的精度并加快模型收斂速度。
改進(jìn)模型的Transformer由可變形編碼器和解碼器兩個(gè)部分組成。Transformer的可變形編碼器部分接收輸入的圖像特征和sin函數(shù)的絕對(duì)位置編碼信息,然后進(jìn)入一個(gè)由多個(gè)相同結(jié)構(gòu)的編碼器層堆疊而成的循環(huán)結(jié)構(gòu)。每個(gè)編碼器層由多頭自注意力機(jī)制(Multi-Head Self-Attention)和前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network)組成。在每個(gè)編碼器層中,輸入的特征經(jīng)過(guò)自注意力機(jī)制進(jìn)行加權(quán)和整合,然后通過(guò)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行非線性變換。最后,將經(jīng)過(guò)前饋神經(jīng)網(wǎng)絡(luò)的輸出與輸入進(jìn)行殘差連接和歸一化,得到編碼器層的輸出。
Transformer模型的核心是自注意力機(jī)制,表達(dá)式如公式(3)所示。
[MultiHeadAttnzq,x=]
(3)
改進(jìn)模型提出多尺度可變形自注意力模塊對(duì)原多頭注意力檢測(cè)模塊進(jìn)行改進(jìn),使模型可以有效利用改進(jìn)后的ResNet50多尺度特征圖,改進(jìn)的多頭可變形自注意力定義如公式(4)所示。
[MSDeformAttnzq,pq,x=][m=1MWmk=1kAmqk?WmX(pq+?pmqk)] (4)
式(4)中:zq為輸入的原始特征,pq為當(dāng)前參考點(diǎn)的歸一化坐標(biāo),x為特征圖編號(hào),Wm為多頭注意力,m為注意力編號(hào),k為當(dāng)前采樣點(diǎn)編號(hào),K是總采樣鍵數(shù),[Wm]為固定單位矩陣,[?pmqk]和Amqk表示第m個(gè)注意力頭中第k個(gè)采樣點(diǎn)的采樣偏移量和注意力權(quán)重[22]。
1.3" 損失函數(shù)
在DETR模型中,使用GIoU作為定位損失函數(shù),GIoU并未考慮預(yù)測(cè)框與真實(shí)框的中心點(diǎn)與縱橫比,因此當(dāng)預(yù)測(cè)框與真實(shí)框出現(xiàn)包含關(guān)系時(shí),會(huì)出現(xiàn)退化及收斂慢的現(xiàn)象。
針對(duì)GIoU出現(xiàn)的退化現(xiàn)象,改進(jìn)模型提出CIoU損失函數(shù),以便在檢測(cè)任務(wù)中更準(zhǔn)確地反映目標(biāo)框之間的相似度,CIoU結(jié)構(gòu)如圖6所示。CIoU損失是一種用于目標(biāo)檢測(cè)的改進(jìn)型IoU損失函數(shù),相比于傳統(tǒng)的IoU損失函數(shù)和GIoU損失函數(shù),CIoU損失函數(shù)在計(jì)算目標(biāo)框之間的距離時(shí),不僅考慮了目標(biāo)框之間的中心點(diǎn)距離、目標(biāo)框的長(zhǎng)寬比和重心距離等因素,而且能夠更好地區(qū)分錯(cuò)位、大小不同的目標(biāo)框。
CIoU定位損失的公式如(5)(6)(7)所示。
[LCloU=1-LIoU+d2c2+av] (5)
[v=4p2arctanwgthgt-arctanwh]" (6)
[a=v1-LloU+v] (7)
LCIoU代表CIoU損失函數(shù)值,LIoU代表真實(shí)框與預(yù)測(cè)框的交并比,d代表真實(shí)框中心點(diǎn)與預(yù)測(cè)框中心點(diǎn)的歐式距離,c代表真實(shí)框與預(yù)測(cè)框最小閉包區(qū)域的對(duì)角線長(zhǎng)度,v是衡量真實(shí)框與預(yù)測(cè)框?qū)捀弑纫恢碌膮?shù),wgt、hgt、w、h分別代表真實(shí)框的寬度、真實(shí)框的高度、預(yù)測(cè)框的寬度、預(yù)測(cè)框的高度,a是長(zhǎng)寬比一致的權(quán)衡函數(shù)。
2 實(shí)驗(yàn)數(shù)據(jù)
2.1" 實(shí)驗(yàn)數(shù)據(jù)概況
數(shù)據(jù)集采用Hong[15]開(kāi)源的數(shù)據(jù)圖像,采集于2020年1月9日,中國(guó)新疆維吾爾自治區(qū)喀什地區(qū),無(wú)人機(jī)的圖像分辨率為512×512,飛行高度200米。數(shù)據(jù)集含擴(kuò)充后圖像2876張,將破損類型劃分為4類:橫向裂縫、縱向裂縫、斜向裂縫、坑槽,如表1所示。橫向裂縫為道路裂縫垂直于行車線的裂縫,縱向裂縫為道路裂縫平行于行車線的裂縫,斜向裂縫指與行車線存在較大角度的裂縫,坑槽是使路面凹陷的缺陷類型。
2.2" 數(shù)據(jù)增強(qiáng)
以LabelImg軟件為標(biāo)注工具,標(biāo)注路面破損數(shù)據(jù)集。實(shí)驗(yàn)證明數(shù)據(jù)增強(qiáng)可以增加深度學(xué)習(xí)的數(shù)據(jù)量并提高深度網(wǎng)絡(luò)的泛化能力。本文采用的數(shù)據(jù)增強(qiáng)的方法有縮放、翻轉(zhuǎn)、旋轉(zhuǎn)、改變亮度和outcut來(lái)模擬過(guò)路汽車遮擋的情況,使數(shù)據(jù)量擴(kuò)充一倍,增強(qiáng)后的圖像如圖7所示。破損檢測(cè)數(shù)據(jù)集按照7:2:1的比例,劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。
2.3" 模型評(píng)價(jià)指標(biāo)
采用IoU gt; 0.5時(shí),精確率(Precision,P)、召回率(Recall,R)、各類別平均精度(Mean Average Precision,mAP)、F1分?jǐn)?shù)(F1 Score,F(xiàn)1)和像素小于32×32的小目標(biāo)檢測(cè)精度(AP50:90S)5個(gè)指標(biāo)來(lái)評(píng)估模型的性能。
精確率P和召回率R的計(jì)算如公式(8)(9)所示,精確率為真正例樣本占預(yù)測(cè)結(jié)果為正例樣本中的百分比,召回率為在全部正例中,被正確預(yù)測(cè)為真正例的百分比。
[P=TPTP+FP×100%] (8)
[R=TPTP+FN×100%] (9)
TP為檢測(cè)框和真實(shí)框IoU ≥ 0.5的數(shù)量,即正確檢測(cè)到裂縫的數(shù)量;FP是檢測(cè)框和真實(shí)框IoU lt; 0.5的數(shù)量,即錯(cuò)誤檢測(cè)裂縫的數(shù)量;FN為沒(méi)有檢測(cè)到裂縫的數(shù)量,即漏檢的裂縫的數(shù)量。
AP表示以召回率R、精確率P為橫縱坐標(biāo)構(gòu)成的曲線以下部分所圍成的面積,各類別精度的均值mAP對(duì)應(yīng)的計(jì)算方法如公式(10)所示。
[mAP=1ci=1c01PRdR] (10)
式中:c為圖像總類別數(shù),i為檢測(cè)次數(shù)。
F1是多分類問(wèn)題的最終評(píng)價(jià)指標(biāo),它是精確率和召回率的調(diào)和平均數(shù)。
[F1=2×P×RP+R] (11)
3 實(shí)驗(yàn)與分析
3.1" 實(shí)驗(yàn)驗(yàn)證
實(shí)驗(yàn)平臺(tái)在Ubuntu 20.04系統(tǒng)上,硬件設(shè)備處理器采用英特爾Core(TM) i9-10900K,內(nèi)存為16G,圖形處理器GPU為NVIDIA GeForce GTX3070顯卡,具有8G顯存。在試驗(yàn)訓(xùn)練過(guò)程中,訓(xùn)練輪數(shù)設(shè)為300輪,采用AdamW優(yōu)化器,ResNet50網(wǎng)絡(luò)學(xué)習(xí)率為0.00001,主干網(wǎng)絡(luò)學(xué)習(xí)率設(shè)為0.0001,batches為2。在測(cè)試數(shù)據(jù)集上對(duì)DETR及改進(jìn)模型作縱向?qū)Ρ葘?shí)驗(yàn),并與主流CNN算法模型作橫向?qū)Ρ葘?shí)驗(yàn)。
3.2" 消融實(shí)驗(yàn)
對(duì)DETR模型與本文提出的改進(jìn)模型作對(duì)比實(shí)驗(yàn),評(píng)價(jià)指標(biāo)如表2所示。
從表2看出,本文提出的模型在采用的評(píng)價(jià)指標(biāo)上均優(yōu)于DETR,其中改進(jìn)之后的模型在精確率P上提升7.4%,在召回率R上提升了10.9%,平均精度提升了4.4%,小目標(biāo)檢測(cè)精度提升了5.4%,F(xiàn)1提升了0.093。
訓(xùn)練平均精度如圖8所示,橫坐標(biāo)代表訓(xùn)練輪數(shù),縱坐標(biāo)代表平均精度。從圖中可以看出,DETR模型使用了預(yù)訓(xùn)練權(quán)重,初始精度遠(yuǎn)高于改進(jìn)模型,經(jīng)過(guò)200輪的訓(xùn)練之后,兩種模型的精度快速上升,最終改進(jìn)模型的平均精度比DETR模型高0.044。
為了直接觀察模型的提升效果,在測(cè)試集中選取三張典型的圖像進(jìn)行分析,在DETR與本文模型訓(xùn)練權(quán)重中選取最優(yōu)訓(xùn)練權(quán)重進(jìn)行瀝青路面破損檢測(cè),檢測(cè)效果如圖9所示。
圖9中最左側(cè)為航拍原始圖像,中間為DETR模型預(yù)測(cè)效果,右側(cè)為改進(jìn)之后的模型預(yù)測(cè)效果。從三張效果圖可以看出,兩種模型均能正確區(qū)分檢測(cè)類別,改進(jìn)之后的模型在定位精度上優(yōu)于原模型。DETR模型在小目標(biāo)檢測(cè)上存在漏檢的情況,當(dāng)預(yù)測(cè)框密集時(shí)出現(xiàn)漏檢現(xiàn)象。改進(jìn)之后的模型,將圖中的小目標(biāo)全部檢出并無(wú)重檢、漏檢的現(xiàn)象,且在定位上更為精確。
3.3" 算法對(duì)比
通過(guò)對(duì)比Faster-Rcnn、YOLO v3、YOLO v5m模型,在裂縫檢測(cè)數(shù)據(jù)集上做對(duì)比實(shí)驗(yàn)。模型對(duì)比實(shí)驗(yàn)評(píng)價(jià)指標(biāo)如表3所示。
由表3可以看出,對(duì)比其他三種模型,改進(jìn)模型同樣為最優(yōu)模型。其中,YOLO v5m模型與改進(jìn)模型在平均精度上均大于80%,且改進(jìn)模型的平均精度最高為83.7%,比YOLO v5m、YOLOv3、Faster-Rcnn高3.5%、7.3%、5.1%。在精確率上改進(jìn)模型的精確率為83.7%,優(yōu)于YOLO v5m模型的79.6%、YOLO v3模型的73.8%、Faster-Rcnn模型的81.5%。改進(jìn)模型在召回率上為76.7%,優(yōu)于YOLO v5m模型的75.4%、YOLO v3模型的68.4%、Faster-Rcnn模型的69.4%。從F1指標(biāo)中可以看出改進(jìn)模型最為均衡,改進(jìn)模型的F1指標(biāo)為0.800,YOLO v3的F1指標(biāo)最低為0.710。
4 結(jié) 論
本文在航拍的瀝青路面圖像上進(jìn)行破損檢測(cè)研究,對(duì)2876張航拍圖像使用了數(shù)據(jù)增強(qiáng)算法,構(gòu)建了四種檢測(cè)類別的數(shù)據(jù)集。在此數(shù)據(jù)集上提出了端到端的深度學(xué)習(xí)網(wǎng)絡(luò)模型,解決了航拍瀝青路面破損檢測(cè)時(shí)圖像數(shù)據(jù)不足、檢測(cè)精度低、存在漏檢的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,所提出的模型較原DETR模型在平均精度上提升了4.4%,小目標(biāo)檢測(cè)精度提升了5.4%,并與Faster-Rcnn、YOLO v3及YOLO v5m模型對(duì)比,最終建立了最優(yōu)的瀝青路面破損檢測(cè)模型。這些結(jié)果證明了改進(jìn)模型的有效性和優(yōu)越性,為從無(wú)人機(jī)航拍圖像中自動(dòng)檢測(cè)瀝青路面破損提供了一種可靠的解決方案。
參考文獻(xiàn):
[1]楊燕澤,王萌,劉誠(chéng),等.基于語(yǔ)義分割的瀝青路面裂縫智能識(shí)別[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2023,57(10):2094-2105.
[2]LIU W,LUO R,XIAO M,et al.Intelligent detection of hidden distresses in asphalt pavement based on GPR and deep learning algorithm[J].Construction and Building Materials,2024,4116:135089.
[3]MUNAWAR H S,HAMMAD A W,HADDAD A,et al.Image-based crack detection methods:a review [J].Infrastructures,2021,6(8):115-143.
[4]ELAMIN A,RABBANY E A.UAV-based image and lidar fusion for pavement crack segmentation[J].Sensors,2023,23(23):9315-9331.
[5]SUJONG K,DONGMAHN S,SOOBIN J.Improvement of tiny object segmentation accuracy in aerial images for asphalt pavement pothole detection[J].Sensors (Basel,Switzerland),2023,23(13):5815-5829.
[6]LI D,DUAN Z D,HU X Y,et al.Automated classification and detection of multiple pavement distress images based on deep learning[J].Journal of Traffic and Transportation Engineering (English Edition),2023,10(2):276-290.
[7]苑玉彬,吳一全,趙朗月,等.基于深度學(xué)習(xí)的無(wú)人機(jī)航拍視頻多目標(biāo)檢測(cè)與跟蹤研究進(jìn)展[J].航空學(xué)報(bào),2023,44(18):6-36.
[8]PARK Y,SHIN Y.Applying object detection and embedding techniques to one-shot class-incremental multi-label image classification[J].Applied Sciences,2023,13(18):10468-10489.
[9]THISANKE H,DESHAN C,CHAMITH K,et al.Semantic segmentation using vision transformers:A survey[J].Engineering Applications of Artificial Intelligence,2023(126):106669.
[10]ZOU Z,SHI Z,GUO Y,et al.Object detection in 20 years:a survey [J].Proceedings of the IEEE,2023,111(3):157-276.
[11]張文靜.基于無(wú)人機(jī)影像的道路裂縫類型識(shí)別方法研究[D].石家莊:河北師范大學(xué),2020.
[12]FANG H,HE N.Detection method of cracks in expressway asphalt pavement based on digital image processing technology[J].Applied Sciences,2023,13(22):12270-12287.
[13]馬曉忠,李雪瑩.無(wú)人機(jī)技術(shù)在路面裂縫檢測(cè)中的應(yīng)用[J].北方交通,2022(10):29-31.
[14]張偉光,鐘靖濤,于建新,等.基于機(jī)器學(xué)習(xí)和圖像處理的路面裂縫檢測(cè)技術(shù)研究[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,52(7):2402-2415.
[15]HE X Y,TANG Z W,DENG Y B,et al.UAV-based road crack object-detection algorithm[J].Automation in Construction,2023(154):105014.
[16]王博.航拍圖像路面裂縫檢測(cè)研究[D].北京:北京理工大學(xué),2017.
[17]LUO H,LI J M,CAI L M,et al.Strans-YOLOX:fusing swin transformer and YOLOX for automatic pavement crack detection[J].Applied Science,2023,13(3):1999-2027.
[18]OZOGLU F,GOKGOZ T.Detection of road potholes by applying convolutional neural network method based on road vibration data[J].Sensors,2023,23(22):9023-9042.
[19]KANCHI A V,KOCILVENNI R A S.Pothole detection in bituminous road using CNN with transfer learning[J].Measurement:Sensors,2024,31:100940.
[20]趙璐璐.基于深度學(xué)習(xí)的路面坑槽檢測(cè)研究[D].西安:長(zhǎng)安大學(xué),2023.
[21]杜宇峰,黃亮,趙子龍,等.基于DETR的高分辨率遙感影像滑坡體識(shí)別與檢測(cè)[J].測(cè)繪通報(bào),2023(5):16-20.
[22]樊嶸,馬小陸.面向擁擠行人檢測(cè)的改進(jìn)DETR算法[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(19):159-165.
責(zé)任編校:陳 強(qiáng),裴媛慧
Improved DETR Algorithm for Asphalt Pavement Damage Detection in UAV Aerial Images
LI Sihong, JI Shude, REN Zhaoxu
(Shenyang Aerospace University,Shenyang 110136,China)
Abstract:Aiming at the problems of insufficient data,low Detection accuracy and missed detection of aerial images of asphalt pavement,an improved DETR(Detection Transformer) end-to-end asphalt pavement damage detection model is proposed.Firstly,the model uses ResNet50 to extract features,introduces the SiLU activation function to improve feature extraction ability,and uses a multi-scale fusion feature map to retain more context semantic information.Secondly,the multi-scale deformable self-attention mechanism is used in the Transformer Encoder to accelerate the convergence speed of the model.Finally,the CIoU loss function is used to improve the accuracy of crack detection.The experimental results show that the average precision of the improved model is 83.7%,which is 7.4% higher than that of the DETR model,and the recall rate is increased by 10.9%.The proposed improved model can effectively detect asphalt pavement damage,which can provide a reference for the detection of asphalt pavement damage in aerial images.
Key words:damage detection; deformable self-attention; multi-scale fusion; CIoU; object detection
收稿日期:2024-04-12
基金項(xiàng)目:面向復(fù)雜環(huán)境的輪式自主跟隨機(jī)器人關(guān)鍵技術(shù)研究(20230078)
作者簡(jiǎn)介:李思宏,山東煙臺(tái)人,碩士,研究方向?yàn)楹娇罩悄苎b備試驗(yàn)技術(shù)。
姬書(shū)得,遼寧沈陽(yáng)人,教授,主要研究方向?yàn)楹娇罩悄苎b備試驗(yàn)技術(shù)。