国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合雙注意力機制的道路裂縫檢測

2022-07-15 01:05張志華溫亞楠慕號偉杜小平
中國圖象圖形學(xué)報 2022年7期
關(guān)鍵詞:殘差卷積注意力

張志華,溫亞楠,慕號偉,杜小平

1.蘭州交通大學(xué)測繪與地理信息學(xué)院,蘭州 730070;2.地理國情監(jiān)測技術(shù)應(yīng)用國家地方聯(lián)合工程研究中心,蘭州 730070;3.甘肅省地理國情監(jiān)測工程實驗室,蘭州 730070;4.中國科學(xué)院空天信息創(chuàng)新研究院數(shù)字地球重點實驗室,北京 100094

0 引 言

道路裂縫是一種普通路面和高速公路路面中常見的病害,會降低路面性能,縮短道路使用壽命,危及車輛行車安全。人工道路裂縫檢測的步驟非常煩瑣、費時費力,而且人工選取道路裂縫經(jīng)常存在很強的主觀性,直接影響道路裂縫檢測的精度。常用的裂縫檢測方法有Gabor濾波器、小波特征、方向梯度直方圖以及局部二值模式。這些方法只編碼了局部特征,未考慮全局特征,存在噪聲干擾,使裂縫檢測缺乏連續(xù)性(曹錦綱 等,2020)。

隨著計算機視覺、圖像處理以及模式識別技術(shù)的不斷發(fā)展,深度學(xué)習(xí)方法廣泛用于道路裂縫圖像檢測。最初深度學(xué)習(xí)架構(gòu)下的裂縫檢測方法大多是將原始圖像分割為大量圖像塊,經(jīng)篩選后通過卷積神經(jīng)網(wǎng)絡(luò)進行分類,從而實現(xiàn)道路裂縫檢測。但檢測出的道路裂縫寬于實際裂縫,檢測精度需要進一步提升(Zhang等,2016)。因此,李良福等人(2019)利用滑動窗口算法將原始橋梁裂縫圖像分割為更小的裂縫圖像塊和背景圖像塊,采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型,實現(xiàn)橋梁裂縫檢測,得到了較好的裂縫檢測結(jié)果。但該方法會使數(shù)據(jù)量激增,影響處理效率。Cha等人(2017)在圖像分塊的基礎(chǔ)上,提出一種圖像掃描塊算法。首先設(shè)定滑塊大小為256 × 256像素,步長為256像素,圖像左上角為(0,0)坐標(biāo),分別將(0,0)和(128,128)作為起點,對每幅圖像掃描兩次得到圖像掃描塊數(shù)據(jù)集。然后通過構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)對裂縫圖像掃描塊數(shù)據(jù)集進行分類,并保留分類為裂縫的圖像掃描塊,從而實現(xiàn)裂縫檢測。這種深度學(xué)習(xí)方法取得了較好的裂縫檢測效果,但只能檢測出裂縫所在區(qū)域,無法精確定位裂縫位置。

隨著深度學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展,基于深度學(xué)習(xí)的語義分割方法用于道路裂縫檢測,不僅要解決道路裂縫逐像素分類問題,而且要識別每個道路裂縫像素的精確位置。相關(guān)研究通過卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像進行逐像素分類實現(xiàn)裂縫檢測,但這種網(wǎng)絡(luò)結(jié)構(gòu)沒有設(shè)計任何有關(guān)下采樣的結(jié)構(gòu),導(dǎo)致其網(wǎng)絡(luò)架構(gòu)與輸入圖像大小嚴格相關(guān),直接影響著模型的泛化能力(Zhang等,2017)。為了提升深度學(xué)習(xí)網(wǎng)絡(luò)的檢測性能,一些專家學(xué)者將醫(yī)學(xué)領(lǐng)域的U-Net網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于混凝土裂縫檢測,取得了較好的裂縫圖像分割效果,但該網(wǎng)絡(luò)將輸入圖像分辨率固定為512 × 512 × 3的圖像,未考慮輸入圖像的普適性(Liu等,2019)。在路況評價中,除了要檢測出圖像裂縫,還要求輸出裂縫的長度和寬度,因此將卷積神經(jīng)網(wǎng)絡(luò)的全連接層替換為反卷積層以實現(xiàn)圖像裂縫檢測,并對裂縫的長度、寬度以及檢測準(zhǔn)確度進行定量評價,獲得了較好的檢測效果(沙愛民 等,2018)。另外,針對復(fù)雜背景的裂縫圖像,王森等人(2018)在全卷積網(wǎng)絡(luò)的基礎(chǔ)上,將全連接層中的dropout層替換為卷積層以及通過加深網(wǎng)絡(luò)深度實現(xiàn)裂縫檢測,但該網(wǎng)絡(luò)的最優(yōu)平均交并比以及像素精確度都較低。

鑒于此,針對背景較為復(fù)雜、干擾較多的道路裂縫圖像數(shù)據(jù),本文設(shè)計了一種基于雙注意力機制的道路裂縫檢測網(wǎng)絡(luò),將帶有空洞卷積的101層深度殘差網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),提取裂縫特征;將設(shè)計的殘差注意力模塊(Res-A)替換101層深度殘差網(wǎng)絡(luò)(ResNet-101)中的殘差模塊,該模塊通過不斷提高特征權(quán)值以提取裂縫的低級和中級特征;然后將Non-Local計算模式的注意力機制(NL-A)連接于ResNet-101輸出端,提取高級特征并輸出道路裂縫檢測結(jié)果。對比實驗表明,與一些典型深度學(xué)習(xí)網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)可以有效提高復(fù)雜背景條件下的道路裂縫檢測精度。

1 基于雙注意力機制的道路裂縫檢測

基于Res-A和NL-A,設(shè)計了一種結(jié)合雙注意力機制的道路裂縫語義分割神經(jīng)網(wǎng)絡(luò)模型,旨在通過不斷提升道路裂縫像元的關(guān)系權(quán)重來實現(xiàn)道路裂縫檢測。模型由3部分組成,即基于Res-A低級和中級裂縫特征循環(huán)提取模塊的ResNet-101基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)、空洞卷積結(jié)構(gòu)和基于NL-A的高級特征提取模塊。模型的設(shè)計要點如下:

1)以ResNet-101網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò),該網(wǎng)絡(luò)由4個殘差循環(huán)結(jié)構(gòu)組成,4個殘差循環(huán)結(jié)構(gòu)分別包含3、4、23、3個殘差塊(共33個)。本文改進了殘差塊,將一種輕量型的注意力機制與殘差塊組成Res-A模塊,并將所有殘差塊替換為Res-A模塊。隨著Res-A模塊不斷由殘差網(wǎng)絡(luò)循環(huán)調(diào)用,網(wǎng)絡(luò)更加專注于提高道路裂縫特征的關(guān)系權(quán)值,有效提高了道路裂縫特征的檢測性能。

2)在ResNet-101基礎(chǔ)網(wǎng)絡(luò)中的所有殘差塊替換為Res-A模塊后,將殘差循環(huán)結(jié)構(gòu)中的普通卷積替換為空洞卷積,這樣可以提高網(wǎng)絡(luò)模型的感受野、降低計算量以及更好地捕獲上下文信息。

3)將NL-A嵌入帶空洞卷積的ResNet-101網(wǎng)絡(luò)的尾部,該機制利用局部特征與全局特征上下文之間的關(guān)系,不僅可以繼續(xù)增加道路裂縫的關(guān)系權(quán)值,還可以剔除冗余,最終提高檢測精度。

4)通過上采樣將特征圖恢復(fù)到輸入圖像尺寸,得到最后的道路裂縫檢測結(jié)果。實驗部分代碼已共享至GitHub(https://github.com/ HaoweiGis/ EarthLearning)。模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中128、256、512、1 024、2 048表示該層網(wǎng)絡(luò)的輸出通道數(shù);1/2、1/4、1/8表示該層網(wǎng)絡(luò)的輸出特征圖與原圖的比例;×3、×4、×23、×3表示該部分Res-A模塊的數(shù)量;Res-A conv1-conv4表示改進后的殘差卷積模塊。

圖1 結(jié)合雙注意力機制的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The network structure combined with dual attention mechanism

1.1 基于空洞卷積的深度殘差網(wǎng)絡(luò)

在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型時,隨著網(wǎng)絡(luò)層數(shù)的增加,經(jīng)常會伴隨梯度彌散和梯度爆炸問題,從而阻止網(wǎng)絡(luò)收斂,導(dǎo)致模型網(wǎng)絡(luò)性能退化,造成精度不升反降。為此,He等人(2016)提出了深度殘差網(wǎng)絡(luò),在卷積神經(jīng)網(wǎng)絡(luò)中引入了殘差模塊,通過構(gòu)建恒等映射來搭建深度網(wǎng)絡(luò)模型,確保深層網(wǎng)絡(luò)訓(xùn)練誤差不會大于淺層誤差,從而極大地加深深度神經(jīng)網(wǎng)絡(luò)的層數(shù)。

實驗采用ResNet-101作為骨干網(wǎng)絡(luò),由1個輸入卷積模塊conv1和4個殘差卷積模塊conv2—conv5構(gòu)成,輸入卷積模塊采用1個7 × 7 × 64卷積。需要注意的是,conv2—conv5的位置與圖1中Res-A conv1—conv4的位置相對應(yīng)。4個殘差卷積模塊全部采用3 × 3卷積核,每經(jīng)過1個殘差卷積模塊后通道數(shù)會增加1倍,而特征圖尺寸會縮小1倍,因此通道數(shù)分別為256、512、1 024和2 048,特征圖尺寸分別為輸入圖像的1/4、1/8、1/16和1/32。為了減少下采樣造成的信息損失,將殘差模塊conv4—conv5替換為帶空洞卷積的殘差模塊conv4—conv5(Yu等,2017),如圖2所示,其中h和w分別代表特征圖的高和寬;C代表特征圖的通道數(shù);d-1代表空洞卷積像素間的像素個數(shù)。與普通的ResNet-101網(wǎng)絡(luò)相比,輸入特征圖的通道數(shù)仍然會增加1倍,但特征圖尺寸不再縮小,因此殘差卷積模塊conv2—conv5的通道數(shù)不變,而特征圖尺寸變?yōu)檩斎雸D像尺寸的1/4、1/8、1/8和1/8,以此降低信息損失。空洞卷積的作用是擴大卷積過程的感受野以及降低卷積的計算量。另外,將輸入卷積模塊conv1的輸出通道數(shù)由64改為128。

圖2 ResNet-101網(wǎng)絡(luò)和帶空洞卷積的ResNet-101網(wǎng)絡(luò)Fig.2 ResNet-101 network and ResNet-101 network with dilated convolution((a)traditional ResNet-101;(b)ResNet-101 with dilated convolution)

1.2 注意力機制

深度學(xué)習(xí)中的注意力機制與人類的注意力機制類似。人類視覺通過快速掃描目標(biāo)或場景的全局信息獲得需要的感興趣區(qū),然后對感興趣區(qū)投入更多的關(guān)注度。深度學(xué)習(xí)中注意力機制的核心目標(biāo)是確定圖像中的全部像素對當(dāng)前像素的關(guān)系權(quán)值,權(quán)值越高則代表該像素為道路裂縫的可能性越大。注意力機制已廣泛應(yīng)用于語義分割、目標(biāo)檢測以及全景分割等方面,通常由通道注意力機制、空間注意力機制以及混合注意力機制構(gòu)成。

1.2.1 殘差注意力模塊

為了更好地提升神經(jīng)網(wǎng)絡(luò)的低級特征和中級特征提取性能,實驗引入一種輕量型注意力機制(Woo等,2018)來改進ResNet-101網(wǎng)絡(luò)中的殘差模塊,使之進行連續(xù)的特征融合,不斷提高分割對象的權(quán)值,以達到提升分割精度的目的。

如圖3所示,引入的通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)可以嵌入到深度學(xué)習(xí)網(wǎng)絡(luò),并與深度學(xué)習(xí)網(wǎng)絡(luò)一起進行端到端的訓(xùn)練。實驗結(jié)果表明,加入該注意力機制有效提升了道路裂縫檢測性能。

圖3 通道注意力模塊和空間注意力模塊Fig.3 CAM and SAM((a)channel attention module;(b)spatial attention module)

CAM和SAM的設(shè)計模式如下:1)CAM模塊首先分別對輸入的特征圖進行全局平均池化和全局最大池化,然后將兩種池化結(jié)果分別輸入到多層感知機,之后將這兩部分結(jié)果進行矩陣加法運算,最后與輸入的特征圖進行矩陣點乘運算得到通道注意力特征。2)SAM模塊首先對輸入的特征圖進行通道維度上的最大池化和平均池化,然后將兩種池化結(jié)果通道合并后進行7 × 7卷積操作,最后將卷積結(jié)果與輸入的特征圖進行矩陣點乘運算得到空間注意力特征。

實驗在該注意力機制的CAM-SAM的“串聯(lián)”模式的基礎(chǔ)上,額外增加SAM-CAM“串聯(lián)”模式和CAM與SAM的“并聯(lián)”模式(矩陣加法),通過道路裂縫分割實驗來確定分割效果最優(yōu)的組織模式。如圖4所示,選擇一種CAM和SAM的組織模式嵌入殘差模塊的尾部,組成Res-A模塊,帶空洞卷積的ResNet-101網(wǎng)絡(luò)共包含33組殘差模塊,組成33組Res-A模塊。

圖4 Res-A模塊Fig.4 Res-A module

1.2.2 基于Non-Local計算模式的注意力機制

為了進一步提取道路裂縫的高級特征,實驗引入了另一種基于Non-Local計算模式(Wang等,2018)的注意力機制(Fu等,2019)。如圖5所示,該注意力機制由通道注意力模塊和空間注意力模塊構(gòu)成。通道注意力模塊計算每一個通道與所有通道的依賴關(guān)系,并通過加權(quán)求和的方式確定每一個通道的關(guān)系權(quán)值,加權(quán)方式由當(dāng)前通道與任一通道的特征相似性所決定;空間注意力模塊計算空間中每個位置與所有位置的依賴關(guān)系,同樣通過加權(quán)求和的方式確定空間中每一個位置的關(guān)系權(quán)值,加權(quán)方式由當(dāng)前位置與所有位置的特征相似性決定。這兩種模塊結(jié)合(矩陣加法)后,可以在局部特征與全局特征上建立豐富的上下文關(guān)系,這有利于剔除冗余、準(zhǔn)確定位與恢復(fù)道路裂縫細節(jié)信息。網(wǎng)絡(luò)在進入NL-A模塊時,特征圖的通道數(shù)為2 048,特征圖的高和寬分別為輸入圖像高和寬的1/8,假定輸入圖像的高和寬分別為H和W,那么此時的輸入矩陣為[2 048,H/8,W/8]。具體而言,通道注意力模塊和空間注意力模塊的矩陣變化如下:

圖5 NL-A模塊Fig.5 NL-A module

1)通道注意力模塊。首先,將輸入特征圖分為3個支路,每個支路的初始矩陣為[2 048,H/8,W/8]。將第1支路的矩陣維度變換為[2 048,H/8×W/8],將第2和第3支路的矩陣維度變換為[2 048,H/8×W/8]并轉(zhuǎn)置為[H/8×W/8,2 048]。其次,將第1支路與第2支路進行矩陣乘法運算,得到[2 048,2 048]。再將上一步輸出與第3支路進行矩陣乘法運算,得到[2 048,H/8×W/8]。然后,經(jīng)過矩陣維度變換后得到[2 048,H/8,W/8]。

2)空間注意力模塊。首先,將輸入特征圖分為3個支路,每個支路初始矩陣為[2 048,H/8,W/8]。將第1支路的矩陣維度變換為[2 048,H/8×W/8],并轉(zhuǎn)置為[H/8×W/8,2 048],將第2和第3支路的矩陣維度變換為[2 048,H/8×W/8]。其次,將第1與第2支路得到的結(jié)果進行矩陣乘法運算,得到[H/8×W/8,H/8×W/8],再將第3支路與上一步輸出結(jié)果的轉(zhuǎn)置進行矩陣乘法運算,得到[2 048,H/8×W/8]。然后,對上一步結(jié)果進行矩陣維度變換后得到最終輸出維度[2 048,H/8,W/8]。

最后,將通道注意力機制和空間注意力機制進行矩陣加法運算得到輸出結(jié)果[2 048,H/8,W/8]。

2 實驗結(jié)果與分析

實驗環(huán)境為Intel(R) Core(TM) i9-9900k CPU,32 GB內(nèi)存,Geforce RTX 2080Ti GPU,11 GB顯存,操作系統(tǒng)為Ubuntu,在pytorch深度學(xué)習(xí)框架下實現(xiàn)。

為了驗證結(jié)合雙注意力機制網(wǎng)絡(luò)模型的有效性,選擇公共道路裂縫數(shù)據(jù)集Crack500(Yang等,2020)進行實驗。該數(shù)據(jù)集圖像中裂縫粗細相差較大且背景較為復(fù)雜、干擾較多。實驗時,從中獲取了2 817幅原始圖像及其對應(yīng)的真實分割圖(ground truth,GT),圖像分辨率為640 × 360 × 3。將所有圖像隨機劃分為訓(xùn)練集、驗證集和測試集,分別包含1 992幅、500幅和325幅圖像。為了提高模型的訓(xùn)練性能,訓(xùn)練時在原裂縫圖像的基礎(chǔ)上進行顏色變換,之后將每幅圖像由分辨率640 × 360 × 3隨機裁剪為若干幅分辨率360 × 360 × 3,360由圖像長和高的最小值所得。所有模型采用統(tǒng)一的參數(shù)進行訓(xùn)練,初始學(xué)習(xí)率為0.000 1,優(yōu)化器為隨機梯度下降法(stochastic gradient descent,SGD),采用softmax_cross_entropy為損失函數(shù),訓(xùn)練迭代次數(shù)設(shè)置為24 900,訓(xùn)練過程中每次迭代所取的圖像數(shù)batchsize = 4,所有數(shù)據(jù)訓(xùn)練的總輪數(shù)epochs為50。模型會在整個訓(xùn)練過程中不斷迭代保存最優(yōu)的模型參數(shù)。

2.1 評價指標(biāo)

實驗采用平均交并比(mean intersection over union,mIoU)、像素精確度(pixel accuracy,PA)和訓(xùn)練迭代時間對道路裂縫檢測結(jié)果進行定量評價(翟鵬博 等,2020)。需要注意一點,在定量比較不同模型的性能時,3個評價指標(biāo)的優(yōu)先級為mIoU>PA>訓(xùn)練迭代時間。

平均交并比mIoU是語義分割中衡量分割精度的重要度量,即一個類別真實值和預(yù)測值的交集與并集之比。在計算一幅圖像的mIoU時,需要分別計算每個類別的mIoU,然后再計算所有類別的mIoU。mIoU越大表示分割效果越好。具體計算為

(1)

式中,k代表類別數(shù),pii為像素實際類別為i且預(yù)測為i的數(shù)量,pij為像素實際類別為j且預(yù)測為i的數(shù)量,pji為像素實際類別為i且預(yù)測為j的數(shù)量。

PA為像素精確度,即預(yù)測正確的像素數(shù)量與像素總量的比值。具體計算為

(2)

式中,p為分類正確的像素數(shù)量,s為像素總數(shù)。PA越大,模型精度越高,分割效果越好。

訓(xùn)練迭代時間,即訓(xùn)練過程中每次迭代所需時間,所用時間越少,模型訓(xùn)練效率越高。

2.2 Res-A模塊不同結(jié)構(gòu)性能比較與分析

為比較Res-A模塊中通道注意力機制和空間注意力機制在道路裂縫檢測中的性能,基于提出的雙注意力機制道路裂縫檢測網(wǎng)絡(luò),設(shè)計了3種模型進行實驗。模型1為Res-A(C→S)+NL-A,模型2為Res-A(S→C)+NL-A,模型3為Res-A(S⊕C)+NL-A。其中,“→”表示按照前后順序進行串聯(lián)連接,“⊕”表示兩者并聯(lián)連接執(zhí)行矩陣加法運算,“C”和“S”分別表示Res-A模塊中的CAM和SAM,“+”表示在其后連接NL-A注意力機制。選用測試集中不同類型的道路裂縫圖像對3種模型進行對比實驗,部分道路裂縫圖像的檢測結(jié)果如圖6所示,3種模型的檢測結(jié)果相差較大。圖像中裂縫較細或背景干擾較小時,如圖6第1行所示,模型1存在漏檢導(dǎo)致檢測出的裂縫不連續(xù),模型2未能檢測出裂縫,而模型3檢測出的裂縫較為完整,檢測效果最好。圖像中裂縫粗細適中且結(jié)構(gòu)較為簡單時,如圖6第2、3行所示,模型2出現(xiàn)了大量漏檢,檢測出的裂縫表現(xiàn)出了不連續(xù)性,模型1和模型3雖然都出現(xiàn)了輕微漏檢,但都可以較準(zhǔn)確地檢測出裂縫,并且模型3比模型1檢測出的裂縫更加完整。圖像中裂縫較粗且結(jié)構(gòu)較為復(fù)雜時,如圖6第4—6行所示,模型2漏檢較嚴重且檢測出的裂縫不連續(xù),尤其在第4、5行漏檢了大量裂縫像素,而模型1除了漏檢還出現(xiàn)了一定程度的誤檢,模型3整體檢測效果較好,雖然存在輕微的漏檢和誤檢,但細節(jié)信息更加豐富,能夠更加準(zhǔn)確完整地檢測出裂縫。綜上分析,模型3的道路裂縫檢測效果最好,整體上存在更少的漏檢和誤檢,檢測出的裂縫具有更好的連續(xù)性,因此Res-A模塊中的通道注意力機制和空間注意力機制采用“并聯(lián)”模式可以表現(xiàn)出最好的道路裂縫檢測效果。

圖6 CAM和SAM的不同組織模式檢測示例Fig.6 Examples of detection of different organization patterns of CAM and SAM((a)original images;(b)ground truth;(c)model 1;(d)model 2;(e)model 3)

為了進一步對比3種模型的有效性,對3種模型的mIoU、PA和迭代時間進行定量分析,實驗結(jié)果如表1所示,模型3的mIoU和PA均為最優(yōu),分別為79.28%和93.88%。其中,mIoU比模型1和模型2分別高出2.11%和11.29%,PA比模型1和模型2分別高出2.08%和0.23%。因此,模型3的裂縫檢測效果最好,與定性分析結(jié)果相一致。此外,模型3訓(xùn)練時每次迭代的時間消耗最長,為0.490 4 s,表明“并聯(lián)”組織模式的計算量要高于“串聯(lián)”組織模式。

表1 CAM和SAM不同組織模式實驗結(jié)果Table 1 Different organization model experimental results of CAM and SAM

為了證明Res-A模塊的有效性,在Crack500數(shù)據(jù)集上進行了Res-A模塊的消融實驗,添加Res-A模塊的模型選用效果最好的模型3,而NL-A注意力機制是本文網(wǎng)絡(luò)內(nèi)置的模塊,因此不用對其進行消融實驗。Res-A模塊消融實驗的定量對比結(jié)果如表2所示??芍?,當(dāng)添加Res-A模塊時,mIoU和PA分別比未添加Res-A模塊高出2.34%和3.01%,表明了Res-A模塊對于整個網(wǎng)絡(luò)的有效性。同時可以發(fā)現(xiàn),未添加Res-A模塊時,每次迭代耗費時間為1.294 9 s,是添加Res-A模塊時耗費時間的2.64倍,表明Res-A模塊除了可以循環(huán)提取特征外,還有縮小計算量的作用。

表2 Res-A模塊消融實驗對比結(jié)果Table 2 Comparison results of Res-A module ablation experiment

在Res-A模塊不同組織模式的對比實驗以及Res-A模塊的消融實驗之后,對其中的空洞卷積進行消融實驗,定量對比結(jié)果如表3所示。使用普通卷積的mIoU和PA為72.63%和89.70%,比空洞卷積分別低6.65%和4.18%,表明空洞卷積可以較好地提升道路裂縫檢測的性能。另外,使用普通卷積時的迭代時間為1.805 3 s,是使用空洞卷積的3.68倍,印證了空洞卷積可以降低網(wǎng)絡(luò)模型計算量的特點。

表3 空洞卷積消融實驗對比結(jié)果Table 3 Comparison results of dilated convolution ablation experiment

2.3 與其他深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對比實驗

為進一步驗證模型3的有效性,在公開道路裂縫數(shù)據(jù)集Crack500上,從定性和定量角度與FCN(fully convolutional network)(Long等,2015)、PSPNet(pyramid scene parsing network)(Zhao等,2017)、ICNet(image cascade network)(Zhao等,2018a)、PSANet(point-wise spatial attention network)(Zhao等,2018b)和DenseASPP(dense atrous spatial pyramid pooling)(Yang等,2018)等網(wǎng)絡(luò)進行對比實驗,測試設(shè)備均保持一致,實驗結(jié)果如圖7和表4所示。

表4 不同深度神經(jīng)網(wǎng)絡(luò)評價指標(biāo)對比Table 4 Comparison of evaluation indicators of different depth neural networks

從圖7可知,各模型之間表現(xiàn)出較大差異。當(dāng)圖像中裂縫較細或背景干擾較小時(圖7第1行),F(xiàn)CN和PSA檢測出極少量裂縫(白色矩形框標(biāo)出),PSPNet和ICNet檢測出少量裂縫。僅DenseASPP和模型3可以較準(zhǔn)確地檢測出裂縫,但DenseASPP漏檢較多,而模型3可以較好地檢測出裂縫。當(dāng)裂縫粗細適中且結(jié)構(gòu)較為簡單時(圖7第2、3行),僅PSPNet和模型3可以較完整地檢測出裂縫,其他各模型均出現(xiàn)了不同程度的漏檢。相較于PSPNet,模型3漏檢更少,檢測結(jié)果更連續(xù)、更完整。當(dāng)裂縫較粗且結(jié)構(gòu)較為復(fù)雜時(圖7第4—6行),如第4行所示,ICNet、PSPNet和DenseASPP出現(xiàn)了較為嚴重的漏檢,PSPNet存在錯檢;如第5行所示,F(xiàn)CN、PSPNet、ICNet和PSANet錯檢較為嚴重,造成檢測出的裂縫較粗且變形;如第6行所示,F(xiàn)CN、ICNet、PSANet和DenseASPP存在漏檢,細節(jié)信息不足,造成檢測出的裂縫不連續(xù);而模型3在第4—6行只有較少的漏檢和錯檢,檢測效果較準(zhǔn)確,細節(jié)信息更豐富,可以較好地保持裂縫的完整性。定性分析表明了模型3對道路裂縫檢測的有效性。

圖7 不同深度神經(jīng)網(wǎng)絡(luò)裂縫檢測示例Fig.7 Examples of crack detection with different depth neural networks((a)original images;(b)ground truth;(c)FCN;(d)PSPNet;(e)ICNet;(f)PSANet;(g)DenseASPP;(h)model 3)

從表4可知,模型3的mIoU最高,分別比FCN、PSPNet、ICNet、PSANet、DenseASPP高出7.67%、1.54%、6.51%、7.76%、7.70%,模型3的PA僅比DenseASPP低1.59%,分別比FCN、PSP-Net、ICNet、PSANet高出2.94%、0.42%、3.34%、2.13%。這充分表明了模型3在道路裂縫檢測上具有較好的有效性。訓(xùn)練迭代時間表明模型排在第3位,雖然Res-A模塊可以有效縮短訓(xùn)練時間,但雙注意力機制網(wǎng)絡(luò)整體上還是較為復(fù)雜。當(dāng)外部軟硬件設(shè)備配置較高時,在一定程度上可以忽略此評價指標(biāo)。

3 結(jié) 論

針對背景復(fù)雜、干擾較多的道路裂縫圖像檢測性能較低問題,本文提出了一種結(jié)合雙注意力機制的道路裂縫檢測網(wǎng)絡(luò)。主要結(jié)論如下:

1)首先采用基于帶空洞卷積的骨干網(wǎng)絡(luò)ResNet-101,改變下采樣次數(shù),獲得較大感受野并且保持較高的特征圖分辨率,在避免網(wǎng)絡(luò)退化的同時可以保留更多的特征細節(jié)信息;然后通過殘差模塊與輕量型注意力機制構(gòu)造Res-A模塊以及引入NL-A模塊,結(jié)合空間和通道之間的依賴關(guān)系,不斷提高檢測對象的關(guān)系權(quán)值,自適應(yīng)學(xué)習(xí)更加有效的道路裂縫特征的信息表達,抑制其他特征的信息表達。

2)將本文網(wǎng)絡(luò)在背景復(fù)雜、干擾較多的Crack500道路裂縫數(shù)據(jù)集上進行實驗,采用mIoU和PA評估網(wǎng)絡(luò)性能,證明Res-A模塊中通道注意力機制和空間注意力機制并聯(lián)相加時,道路裂縫檢測效果最優(yōu)。

3)與現(xiàn)有的一些典型網(wǎng)絡(luò)進行對比實驗,結(jié)果表明本文網(wǎng)絡(luò)訓(xùn)練時間較短,模型性能更好,細節(jié)信息更豐富。

雖然本文網(wǎng)絡(luò)取得了較好的道路裂縫檢測效果,但還是存在一定程度的錯檢和漏檢,主要是由于未考慮損失函數(shù)對模型性能的影響。因此,在未來,除了繼續(xù)改進網(wǎng)絡(luò)模型以外,還將使用合適的損失函數(shù)來進一步增強模型性能,如focal loss等,提升道路裂縫的mIoU和PA。

猜你喜歡
殘差卷積注意力
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
多級計分測驗中基于殘差統(tǒng)計量的被試擬合研究*
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
用于處理不努力作答的標(biāo)準(zhǔn)化殘差系列方法和混合多層模型法的比較*
讓注意力“飛”回來
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計數(shù)
卷積神經(jīng)網(wǎng)絡(luò)概述
A Beautiful Way Of Looking At Things
測量數(shù)據(jù)的殘差分析法
連續(xù)型過程的二元殘差T2控制圖