基于CNN與CRF的橋梁裂縫檢測算法

2021-01-20 07:57:22吳向東趙健康劉傳奇

計算機工程與設計 2021年1期

吳向東，趙健康，劉傳奇

(上海交通大學電子信息與電氣工程學院，上海 200240)

0 引言

橋梁作為我國交通系統(tǒng)的主要組成部分之一，對其進行定期檢測是一項極其重要的工作。橋梁裂縫的相關指標計算是橋梁檢測的重要指標之一，通過圖像處理對橋梁裂縫進行檢測一直受國內外學者廣泛關注。

瞿中等[1]提出了一種紋理特征融合與顯著性檢測相結合的路面裂縫提取算法，可達到較高的準確度和召回率。張晶晶等[2]提出了一種基于多尺度輸入圖像滲透模型的裂縫檢測算法，可有效提高裂縫檢測的精確度和穩(wěn)定性。李鵬等[3]提出了一種基于雙樹復小波變換的方法，在保證準確率的同時，提高了抗干擾能力。在一些場景中，傳統(tǒng)的圖像處理手段雖然可有效提取出裂縫，但由于橋梁環(huán)境的特殊性，橋底光照條件差，橋梁表面的噪聲干擾嚴重，使用此種方法的魯棒性難以保證。

近年來，隨著人工智能技術的興起，國內外學者開始嘗試使用深度學習的方法對圖像中的裂縫進行提取。文獻[4-6]中介紹了一種基于滑窗掃描式的裂縫檢測方法，但此方法速度較慢。Ross Girshick等[7]提出了Faster-RCNN算法，極大提高了目標檢測任務的速度和精度。文獻[8,9] 將Faster-RCNN引入到裂縫檢測任務中，在保證速度的情況下，有效檢測出裂縫，但此方法未考慮裂縫細長、連續(xù)的特點，因此存在漏檢和誤檢的情況。

鑒于上述情況，本文提出了一種基于卷積神經網絡與條件隨機場的裂縫檢測算法。該算法首先通過特征提取網絡與區(qū)域推薦網絡對整張圖片中可能存在裂縫的部分進行初步預測，通過后續(xù)的分類回歸網絡與條件隨機場相結合，對裂縫的空間特性進行建模，綜合判定該區(qū)域是否屬于裂縫。此方法精度高，漏檢率低，抗干擾性強，可較好完成裂縫檢測的任務。

1 橋梁裂縫檢測系統(tǒng)框架

本文設計的橋梁裂縫檢測算法框架如圖1所示。整個系統(tǒng)總共由3部分組成：第一部分是由一系列卷積層、池化層以及非線性激活函數(shù)等構成的特征提取網絡，其作用是對原始的RGB彩色圖像進行特征提取，生成適合裂縫檢測的高層特征，用于后續(xù)的區(qū)域推薦網絡及分類回歸網絡。第二部分為區(qū)域推薦網絡RPN(region proposal network)，其作用是生成一系列可能包含裂縫部位的候選區(qū)域。第三部分是由卷積神經網絡(convolutional neural network，CNN)及條件隨機場(conditional random field，CRF)構成分類和回歸網絡，其作用是考慮RPN提取到的各個候選區(qū)域與其空間鄰域之間的相關性，對裂縫的連續(xù)性以及走向等空間特性進行建模，據此對前一步產生的候選區(qū)域進行進一步的類別判定并對裂縫位置的預測值回歸修正。

圖1 橋梁裂縫檢測系統(tǒng)框架

1.1 特征提取網絡

特征提取網絡的主要作用是作為一種特征提取器，當網絡經過充分訓練之后，便可通過一系列的卷積與池化操作從原始的RGB彩色圖提取出有利于后續(xù)裂縫分類及定位的高層特征。本文采用基于Vgg16[10]的特征提取網絡，其主要架構如圖2所示。

圖2 特征提取網絡結構

由圖2可知，整體的特征提取網絡共分為5組，每組均由卷積層、非線性激活函數(shù)relu層,以及池化層構成。由于這樣的全卷積結構，整個網絡可以接受任意大小的圖像作為輸入。卷積過程中，每個卷積核的大小均為3×3，這樣做的優(yōu)勢在于，多個小尺寸的卷積核進行組合可在減少計算量的同時，達到與5×5、7×7這種大的卷積相同的感受野。所有卷積操作的步長均為1，邊界填充的大小也為1，這樣圖像每次經過卷積后其寬度和高度均不會發(fā)生改變。每個池化層均采用最大池化，池化層大小均為2×2，步長也為2，這樣圖像每經過一次池化，其寬度和高度均縮減至原來的一半。因此，經過特征提取網絡后，原始尺寸為 (h,w,3) 的RGB彩色圖像將變?yōu)槌叽鐬?(h/16,w/16,512) 大小的特征圖。

1.2 RPN網絡

RPN網絡是用于生成可能包含裂縫部位的區(qū)域推薦網絡。其輸入是由特征提取網絡得到的特征圖，RPN網絡首先在特征圖上的每個點預設一系列不同尺度和寬高比的矩形框，將這些預設的矩形框記為anchors。本文在特征圖的每個點上設置了9種不同的anchors。9種anchors對應于3種面積與3種寬高比的組合。RPN網絡通過卷積及softmax操作對這些預設的anchors進行初步的分類及回歸，包含前景的anchors被分類為1，只有背景的anchors被分類為0，同時對這些anchors的位置進行回歸修正，使其盡可能多的包含待檢測物體。使用RPN的好處在于其較滑窗法或一些傳統(tǒng)的候選框生成算法如selective search，速度得到了極大的提高。RPN的架構如圖3所示。

圖3 RPN架構

通過其架構圖可看出，特征圖首先通過512個3×3，步長及邊界填充為1的卷積后，分為兩路。第一路通過18個1×1卷積及softmax操作。1×1卷積的目的在于改變特征圖的維度，即特征圖的通道數(shù)變?yōu)榱?8，對應于特征圖每個點上預設的9個anchors分別屬于前景及背景的概率(Pfg,Pbg)。第二路通過36個1×1卷積操作，特征圖的通道數(shù)變?yōu)?6，對應于9個anchors的4個位置坐標修正值 (tx,ty,tw,th)，設原始預設anchor的坐標及寬高為 (px,py,pw,ph)，則通過第二路輸出修正后的anchor的位置如式(1)所示

(1)

其中，gx,gy,gw,gh為修正后的anchor的中心坐標及寬、高。ProposalCreator層為一系列操作的集合，其作用在于將上述兩路卷積得到的結果進行結合。該層首先將超出原圖尺寸的anchors進行尺寸截斷，以保證所有的anchors都在原圖內，再將一些尺寸過小以及寬高比過大的anchors進行剔除，后利用第一路的輸出從高到低對這些anchors進行排序，保留前K個anchors，最后通過非極大值抑制[11]算法進行篩選，保留M個候選區(qū)域，即為RPN最終的輸出結果。

1.3 候選區(qū)域分類與回歸

經過RPN生成M個候選區(qū)域后，將通過roi-pooling[7]將這M個候選區(qū)域進行大小統(tǒng)一。首先根據候選區(qū)域在原圖上的位置坐標映射到特征圖上，再將映射后的區(qū)域進行相同的劃分，如都劃分為7×7的小區(qū)域，在每個小區(qū)域內做最大池化，則可將原來大小不一的候選區(qū)域都統(tǒng)一為 7×7 的尺寸。Faster-RCNN便將這些候選區(qū)域單獨送入后續(xù)的由CNN構成的分類回歸網絡進行進一步的分類與位置修正，得到最終的檢測結果。如果直接采用這種做法雖然也能得到相對不錯的結果，但此方法沒有考慮到裂縫的特性：一條裂縫往往是細長的，裂縫的周圍很可能存在這條裂縫的延伸，背景的附近大概率也是背景。因此，這種做法可能會造成漏檢和誤檢：一些由于拍攝條件而比較模糊的裂縫會被漏檢，一些與裂縫灰度和形狀相似的干擾如劃痕、水漬等會被誤檢為裂縫。因此，對RPN產生的候選區(qū)域進行后續(xù)分類時應綜合考慮各個候選區(qū)域的空間鄰域的像素分布情況。本文采用CRF來達到這一目的。

CRF[12]是一種概率無向圖模型，在詞性標注、序列分析、語義分割中有著廣泛的應用。設有條件概率分布模型P(Y|X)，表示給定一組輸入隨機變量X的條件下,另一組輸出隨機變量Y的條件概率分布。將此概率分布采用無向圖表示，圖中的節(jié)點表示隨機變量，圖中的邊表示隨機變量之間的依賴關系。若在給定X的條件下，輸出變量Y構成了一個馬爾可夫隨機場，即圖中表示Y的節(jié)點之間滿足成對、局部和全局馬爾可夫性，則條件概率分布P(Y|X) 為條件隨機場。根據Hammersley-Clifford定理,概率無向圖的聯(lián)合概率分布可以在其最大團上進行因子分解,其聯(lián)合概率分布可表示為如下所示

(2)

(3)

ψu(Yi)=-ln(P(Yi=1))

(4)

(5)

其中，u(Yi,Yj) 為標簽兼容函數(shù)，當Yi=Yj時,u(Yi,Yj)=1，否則u(Yi,Yj)=0。這表明，當給兩圖像塊Xi,Xj分配相同標簽時，其像素內容應盡可能相似，即鄰近相似的圖像塊被鼓勵分配相同的標簽。wi,j為權重系數(shù)，用以衡量圖像塊i、j之間相關性的強弱?？傮w的由CNN與CRF構成的分類與回歸網絡結構如圖4所示。

圖4 分類與回歸網絡

分類與回歸網絡將RPN產生的每個候選區(qū)域作為輸入，需要對其進行是否為裂縫的類別判定以及候選區(qū)域位置坐標的回歸修正。因此與RPN網絡相似，分類與回歸網絡同樣會分為兩路，第一路是由CNN與CRF構成的分類部分，分類過程中，首先取每個候選區(qū)域及周圍與該區(qū)域相同大小的圖像塊，將這9個圖像塊作為輸入，首先通過CNN進行特征提取，得到9個特征向量X，再將這9個特征向量作為輸入送入CRF中，計算各個圖像塊標簽Y的條件概率，從而對候選區(qū)域的類別進行判定。第二路與RPN網絡類似，由CNN直接得到每個候選區(qū)域的位置坐標修正值，其計算方法與式(1)相同。

對條件隨機場模型而言，直接對目標變量的條件概率分布進行推斷無法在多項式時間內完成，精確推斷需要較大的計算開銷。因此實際應用過程中，常用近似推斷的方法。近似推斷方法可分為兩大類：采樣技術和變分推斷[14]，本文采用后者進行求解。

(6)

通過最小化KL散度可得出Qi的迭代更新公式如下

(7)

其中，Zi為歸一化因子，L為Y可能取值的標簽集合，L={0,1}。初始化時

(8)

通過若干次迭代后，則可得到Y的近似條件分布，進而對候選區(qū)域進行分類。

2 實驗與分析

2.1 實驗數(shù)據準備

在深度學習算法的搭建中,數(shù)據集的準備屬于至關重要的一環(huán)。數(shù)據量的大小、數(shù)據的多樣性、數(shù)據類別的分布等都對算法最后的性能有極大的影響。目前為止，全球尚未有公開的、帶標簽的、可直接使用的橋梁裂縫數(shù)據集。本文使用的數(shù)據由第三方合作單位提供以及實驗室無人機室外拍攝得到。原始的圖片數(shù)量共計300張。由于圖片的來源不一，其拍攝環(huán)境各不相同。不同距離、不同光照、不同類型的裂縫均有涉及，因此，數(shù)據具有一定的代表性。為提升模型的檢測效果，增強模型的泛化能力，需要在原始數(shù)據的基礎上再進行數(shù)據增強，本文對其通過隨機翻轉、加入隨機噪聲、隨機旋轉、對比度調整、隨機平移等方法對原始數(shù)據集進行了擴充，數(shù)據增強后的結果如圖5所示。

圖5 數(shù)據增強效果

通過數(shù)據增強后得到的數(shù)據共計1200張，其中900張用于訓練集，200張用于交叉驗證集，100張用于測試集。由于原圖的尺寸大小不一，為方便后續(xù)處理，首先將其尺寸由原始的 (h,w) 進行等比例縮放至 (h×scale,w×scale)，其中縮放因子scale=600/min(h,w)，即將原圖中較短的邊縮放至600像素大小，同時另一個邊乘以相同的縮放比例。最后，對訓練集中的圖片進行像素值均值統(tǒng)計，求出所有訓練集樣本中的R、G、B三通道均值，對每個樣本像素進行去均值處理，并歸一化，使像素值的范圍為[-1,1]。

2.2 實驗環(huán)境及設置

本文實驗所使用的硬件環(huán)境為：CPU型號為Intel Core i7-7700k，內存為16 G，顯卡型號為NVIDIA GeForce GTX-1080 TI，8 G顯存。實驗算法程序基于Pytorch框架進行編寫。整體網絡參數(shù)的初始化方法：特征提取網絡使用torchvision提供的VGG16預訓練模型進行初始化。RPN及后續(xù)CNN分類網絡均采用Xavier初始化。網絡使用帶動量的SGD方法進行參數(shù)更新，動量大小為0.9。網絡的學習率初始設置為0.001，采用指數(shù)衰減的方式進行學習率衰減，衰減系數(shù)為0.1。網絡一共訓練70個epochs，訓練批次的大小設置為batchsize=8。

2.3 評價指標

本文采用查準率P，查全率R，F(xiàn)1度量，P-R曲線及精度均值AP(average precision)作為評價模型好壞的標準。

在裂縫檢測任務中，記裂縫部位被正確預測為TP(true positive)，裂縫部位被誤檢測為背景為FP(false posi-tive),背景部分被誤檢測為裂縫為FN(false negative)。則查準率P、查全率R的計算公式如下

(9)

(10)

其中查準率反映了模型的誤檢率，即查準率P越高，誤檢率則越低。查全率反映了模型的漏檢率，即查全率R越高，模型的漏檢率越低。一般來說，查準率和查全率是一對相互矛盾的度量，只將最有把握的樣本預測為正例，則可得到很高的查準率，然而此時查全率很低；將所有的樣本均預測為正例，則此時查全率為1，然而查準率卻很低。為綜合評價模型的性能，常采用P和R的調和平均值F1度量，其定義如下

(11)

通過改變模型的閾值，模型的P、R值會相應發(fā)生變化。以查準率P為縱軸，查全率R為橫軸，這些變化的P、R值便能形成相應的P-R曲線。如前所述，P、R值往往此消彼長，一個性能好的模型應該有如下的特性：在R增長的同時，P值應該不能下降的太快，即好的模型不應犧牲太多的查準率來提高查全率。因此P-R曲線的面積即AP值可反應模型的性能好壞。mAP(mean average precision)是目標檢測中常用的指標，它是多個類別AP的平均值，在本文中由于只有裂縫一個待檢測的類別，因此，裂縫的AP值即為模型的mAP指標。

2.4 實驗結果對比分析

為評估本文方法的性能，本文采用目前裂縫檢測任務中最常用的Faster-RCNN方法以及滑窗掃描法進行實驗結果的對比。在圖片背景中存在劃痕、水漬、孔洞等復雜干擾的情況下，3種方法的檢測結果如圖6所示。其中圖6(a)與圖6(b)為滑窗法得到的檢測結果，圖6(c)與圖6(d)為Faster-RCNN算法得到的檢測結果，圖6(e)與圖6(f)為本文提出的方法得到的檢測結果。

圖6 檢測效果對比

通過3組圖的對比可看出，滑窗法雖然能有效檢測出裂縫部位，但由于圖片中存在一些與裂縫形態(tài)和顏色比較相似的污漬和干擾，在只有滑窗內的局部信息時，這些部位很容易被誤檢為裂縫，因此此種算法的誤檢率較高。且滑窗法由于窗口的數(shù)目太多、滑窗的之間存在重疊、冗余計算較多，因此其速度往往較慢。Faster-RCNN算法雖然能夠較快準確識別出裂縫，但該算法對一些由于拍照模糊或光照不均勻造成的裂縫特征不明顯的部位，或裂縫部位周圍存在諸多干擾時，容易將裂縫判別為背景，因此該算法在圖片的干擾嚴重、光照條件不佳時，漏檢率較高。本文提出的算法則能夠以較低的漏檢率和誤檢率很好完成裂縫檢測的任務，魯棒性較好。圖7為3種算法的P-R曲線對比。

圖7 P-R曲線

圖7中pr1為本文方法的P-R曲線，pr2為Faster-RCNN 方法得到的P-R曲線，pr3為滑窗掃描法得到的P-R曲線。由圖7可看出，pr1曲線基本都能完全包住pr2和pr3，即pr1代表的查全率和查準率都要高于pr2和pr3。通過求出P-R曲線下的面積值則可得到各個模型對于裂縫對象檢測的AP指標。滑窗法的AP值約為0.693，F(xiàn)aster-RCNN的AP值約為0.777，本文提出的方法其AP值約為0.868,相較于前兩種方法AP分別提高了0.175和0.091。因此，本文提出的方法對于裂縫檢測任務更加準確，漏檢率和誤檢率都更低。

表1展示了3種方法在測試集上的查準率、查全率和F1度量的數(shù)值比較結果。

表1 不同方法之間的性能比較

由表1可知，在查準率上，本文提出的方法比滑窗掃描法提高了9.31%，比Faster-RCNN提高了9.01%。在查全率上，本文提出的方法比滑窗法提高了10.45%，比Faster-RCNN提高了7.72%。綜上所述，本文提出的算法對于橋梁裂縫檢測任務具有更好的效果。

3 結束語

本文提出了一種基于CNN和CRF的橋梁裂縫檢測算法。整個算法由特征提取網絡、區(qū)域推薦網絡和分類回歸網絡構成。通過引入卷積神經網絡結構以及條件隨機場CRF，結合裂縫細長連續(xù)的特點，對裂縫的空間特性進行建模，有效降低了裂縫檢測的漏檢率和誤檢率。實驗結果表明，本文提出的算法相比于目前最常用的滑窗掃描法和Faster-RCNN算法，在查準率上分別提高了9.31%和9.01%，在查全率上分別提高了10.45%和7.72%，平均準確度分別提高了0.175和0.091，取得了較好的檢測效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡