舒江鵬 李俊 馬亥波 段元鋒 趙唯堅(jiān)
摘 要:基于圖像分析的裂縫自動(dòng)檢測識(shí)別一直是橋梁結(jié)構(gòu)健康檢測的熱點(diǎn)問題之一。深度學(xué)習(xí)作為裂縫檢測的重要解決方法,需要大量數(shù)據(jù)支持。公開數(shù)據(jù)集提供的小尺寸裂縫圖像不足以解決超大尺寸細(xì)長裂縫圖像的檢測問題。提出一個(gè)基于特征金字塔深度學(xué)習(xí)網(wǎng)絡(luò)的超大尺寸圖像中細(xì)長裂縫的檢測方法。通過對編碼器提取的4個(gè)不同層次的特征圖分別進(jìn)行預(yù)測,網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對細(xì)小裂縫的高精度分割。試驗(yàn)使用120張大小為3 264×4 928像素的橋鋼箱梁表面裂縫圖像對特征金字塔網(wǎng)絡(luò)進(jìn)行訓(xùn)練、測試;并將獲得的訓(xùn)練模型與通過雙線性插值方法縮放圖像至1 600×2 400像素和2 112×3 168像素兩種規(guī)格生成的數(shù)據(jù)集訓(xùn)練后的模型進(jìn)行對比。結(jié)果表明:該方法在對比測試中能夠獲得最高的裂縫檢測交并比(IoU)為0.78,最低的Dice Loss為0.12。測試中,裂縫檢測圖像顯示,縮放圖像會(huì)導(dǎo)致部分裂縫信息的丟失,該方法能穩(wěn)定地保留裂縫信息,并實(shí)現(xiàn)復(fù)雜背景下超大尺寸圖像中細(xì)長裂縫的高精度自動(dòng)檢測。
關(guān)鍵詞:裂縫檢測;深度學(xué)習(xí);超大尺寸圖像;特征金字塔網(wǎng)絡(luò)
中圖分類號:U446.2?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號:2096-6717(2022)03-0029-08
收稿日期:2021-04-28
基金項(xiàng)目:國家自然科學(xué)基金(U1709216);國家重點(diǎn)研發(fā)計(jì)劃(2018YFE0125400)
作者簡介:舒江鵬(1987- ),男,博士,研究員,主要從事結(jié)構(gòu)智能檢測和評估,E-mail:jpeshu@zju.edu.cn。
Received:2021-04-28
Foundation items:National Natural Science Foundation of China (No. U1709216); The National Key Research and Development Program of China (No. 2018YFE0125400)
Author brief:SHU Jiangpeng(1987- ), PhD, professor, main research interests: inspection and assessment of structures, E-mail: jpeshu@zju.edu.cn.
Crack detection method based on feature pyramid network for super large-scale images
SHU Jiangpenga,b, LI Juna,c, MA Haiboa, DUAN Yuanfenga, ZHAO Weijiana
(a. College of Civil Engineering and Architecture; b. Center for Balance Architecture; c. The Architectural Design & Research Institute of Zhejiang University Co., Ltd., Zhejiang University, Hangzhou 310058, P. R. China)
Abstract: Automatic crack detection based on image analysis is a hot issue in bridge structure health inspection. Crack segmentation based on deep learning is a significant solution, which needs lots of database. The small-scale crack images of open datasets are not sufficient for detection of long and thin cracks of super large-scale image. The study proposes an automatic crack detection method for super large-scale images, based on feature pyramid network. Through four different feature maps in various sizes, the proposed network yields predictions, respectively, which means a highly precise crack segmentation. Experiments are carried on 120 steel box girder crack images in a resolution of 3 264 pixels×4 928 pixels. These images are used to train and test the network. The comparison study is conducted between the proposed method and the models trained with crack images resized into 1 600 pixels×2 400 pixels and 2 112 pixels×3 168 pixels with bilinear interpolation algorithm. The results show that our method can achieve the highest crack Intersection over Union (IoU) of 0.78, and the lowest Dice Loss of 0.12 in the comparison study. The predictions of crack images in testing indicate that resizing images sometimes result in the loss of crack information, and our method can maintain the detail of cracks and detect cracks of super large-scale images automatically and precisely.
Keywords: crack detection; deep learning; super large-scale images; feature pyramid network
裂縫作為橋梁早期損傷破壞的重要表征之一,及時(shí)發(fā)現(xiàn)并對其進(jìn)行檢測是橋梁維護(hù)工作中的重點(diǎn)[1]。常規(guī)的人工勘測不僅存在檢查盲區(qū),同時(shí)也需要耗費(fèi)大量的人力物力,有時(shí)還存在安全隱患。隨著攝影、遙感、無人機(jī)等圖像采集技術(shù)的快速發(fā)展,基于數(shù)字圖像處理技術(shù)的裂縫檢測方法得到廣泛關(guān)注[2]。通過使用模糊多級中值濾波[3]、灰度矯正[4]、非下采樣輪廓波變換[5]等數(shù)字圖像處理技術(shù)去除裂縫圖像上的噪聲并優(yōu)化圖像質(zhì)量,裂縫的幾何特征和尺寸信息能夠被提取出來。在面對復(fù)雜光照、背景等外界因素時(shí),傳統(tǒng)的數(shù)字圖像處理技術(shù)不能很好地消除干擾。張維峰等[6]綜合應(yīng)用了不同圖像處理算法開發(fā)的適用于橋梁缺陷較遠(yuǎn)距離圖像的檢測分析軟件,在面對細(xì)小裂縫的檢測時(shí)也遇到了瓶頸。
隨著計(jì)算機(jī)領(lǐng)域深度學(xué)習(xí)的興起,橋梁裂縫圖像處理迎來了新的機(jī)遇和挑戰(zhàn)。眾多學(xué)者從實(shí)際情況出發(fā),對數(shù)據(jù)方法、智能算法進(jìn)行改進(jìn),提高了模型的分析能力,推動(dòng)了人工智能在橋梁檢測應(yīng)用中的提高[7]。比如,Zhang等[8]將深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)應(yīng)用到裂縫信息提取研究中,該算法展現(xiàn)出了比傳統(tǒng)方法更高的準(zhǔn)確度。Zhang等[9]提出網(wǎng)絡(luò)CrackNet,能夠?qū)崿F(xiàn)裂縫的自動(dòng)檢測提取。數(shù)據(jù)集作為數(shù)據(jù)驅(qū)動(dòng)型深度學(xué)習(xí)算法的核心組成部分,也得到了廣泛的關(guān)注。服務(wù)于像素級別下橋梁裂縫檢測任務(wù)的公開數(shù)據(jù)集[10]包含了超過一萬張的裂縫圖像樣本,但這些圖像的尺寸都只有256×256像素。包括其他的公開數(shù)據(jù)集[11],服務(wù)于裂縫檢測任務(wù)的裂縫圖像尺寸不超過500×500像素。在工程應(yīng)用中,使用高清相機(jī)或者無人機(jī)拍攝的圖像一般都會(huì)超過1 920×1 080(1 080 p)。一般認(rèn)為,4k UHD(3 840×2 160)作為新的工業(yè)標(biāo)準(zhǔn),視為高分辨率(High-Resolution);而超過這一尺寸則為超大尺寸,或者是超高分辨率(Very High-Resolution)[12]。一些超大尺寸的裂縫圖像甚至?xí)^4 096×3 112[13]。另外,這些公開數(shù)據(jù)集中的圖像一般都是經(jīng)過挑選的小尺寸、裂縫特征明顯的圖像。在實(shí)際工程應(yīng)用中,高清相機(jī)拍攝獲取的裂縫圖像中的裂縫尺寸遠(yuǎn)小于公開數(shù)據(jù)集或者試驗(yàn)條件下拍攝的裂縫。
由Lin等[14]首次提出的金字塔型深度學(xué)習(xí)網(wǎng)絡(luò)(FPN)表現(xiàn)出了強(qiáng)大的圖像分割能力,并贏得了COCO 2016挑戰(zhàn)。其網(wǎng)絡(luò)結(jié)構(gòu)突出體現(xiàn)了對小目標(biāo)檢測的優(yōu)勢。受Lin等工作的啟發(fā),筆者提出一個(gè)基于特征金字塔深度學(xué)習(xí)網(wǎng)絡(luò)針對超大尺寸裂縫圖像的細(xì)長裂縫檢測方法。在金字塔型的網(wǎng)絡(luò)架構(gòu)下,采用特征提取效率更高的Se_resnext50_32×4d[15]編碼器,區(qū)別于傳統(tǒng)的圖像分割網(wǎng)絡(luò),將編碼器提取的不同層次(共4個(gè))特征圖分別進(jìn)行預(yù)測,不同分辨率的特征圖得以保留。對于細(xì)小裂縫,更大分辨率的特征圖能夠提供更精確的裂縫幾何特征,同時(shí),較小分辨率的特征圖提供了更深層的語義信息,能夠優(yōu)化細(xì)小目標(biāo)的預(yù)測。不同尺寸裂縫特征圖最后通過一包含3×3卷積層的W運(yùn)算進(jìn)行疊加輸出統(tǒng)一尺寸的預(yù)測,避免產(chǎn)生混疊效應(yīng)。
該方法包括使用超大尺寸圖像的數(shù)據(jù)集構(gòu)建方法。針對細(xì)長裂縫的檢測特征,創(chuàng)新性利用特征金字塔深度學(xué)習(xí)網(wǎng)絡(luò)具備的多層識(shí)別能力以及識(shí)別小目標(biāo)的優(yōu)勢,通過充分利用裂縫長細(xì)幾何特征,實(shí)現(xiàn)了對超大尺寸裂縫圖像進(jìn)行像素級的裂縫檢測。
1 數(shù)據(jù)集構(gòu)建方法
數(shù)據(jù)集是基于深度學(xué)習(xí)的裂縫自動(dòng)檢測方法的核心之一。為了充分獲取裂縫細(xì)長的幾何特征以及發(fā)揮深度學(xué)習(xí)網(wǎng)絡(luò)的特征提取能力,提出針對超大尺寸細(xì)長裂縫圖像的數(shù)據(jù)集構(gòu)建方法。該數(shù)據(jù)集的構(gòu)建方法包括兩個(gè)關(guān)鍵部分:訓(xùn)練集與測試集。下文中將分別對訓(xùn)練集和測試集的處理、生成和構(gòu)建方法做詳細(xì)介紹。同時(shí),來自International Project Competition for SHM (IPC-SHM 2020) ANCRiSST[13]的鋼箱梁數(shù)據(jù)集將按提出的數(shù)據(jù)集構(gòu)建方法進(jìn)行處理,以生成后續(xù)試驗(yàn)用的數(shù)據(jù)集。
該鋼箱梁數(shù)據(jù)集中包含120張高清相機(jī)拍攝的鋼箱梁表面細(xì)長裂縫圖像,這些圖像為三通道RGB圖像,像素為3 264×4 928大小。除這些裂縫圖像外,數(shù)據(jù)集內(nèi)還包含每張裂縫圖像相對應(yīng)的標(biāo)記圖(label)。標(biāo)記圖由土木工程領(lǐng)域內(nèi)專家對裂縫圖像中的每一像素點(diǎn)進(jìn)行標(biāo)注分類生成,例如將裂縫像素標(biāo)注為1,背景像素標(biāo)注為0進(jìn)行像素級別的區(qū)分。
在進(jìn)行處理前,鋼箱梁數(shù)據(jù)集中的120張圖像首先被隨機(jī)分出100張作為初始訓(xùn)練集,其余20張為初始測試集,命名為DS0。
將超大尺寸的圖像直接放入網(wǎng)絡(luò)中通常需要超大的計(jì)算機(jī)GPU運(yùn)算空間??紤]到計(jì)算機(jī)性能的限制,較為簡單直接的方法便是縮小圖像尺寸,減小運(yùn)算空間。傳統(tǒng)是使用方法的雙線性插值方法是在保證一定質(zhì)量條件下對圖像進(jìn)行縮放。
為了與數(shù)據(jù)集構(gòu)建方法相對比,試驗(yàn)中通過傳統(tǒng)的雙線性插值對圖像進(jìn)行縮放處理,構(gòu)建了兩個(gè)數(shù)據(jù)集。將原來的高分辨率圖像降采樣為1 600×2 400像素和2 112×3 168像素兩種規(guī)格。為討論方便,將圖像大小調(diào)整為1 600×2 400像素的訓(xùn)練集命名為DS1,將圖像大小調(diào)整為2 112×3 168像素的訓(xùn)練集命名為DS2,其具體參數(shù)見表1。對于驗(yàn)證及測試過程,仍然以原規(guī)格圖像作為驗(yàn)證和測試對象,但為了和訓(xùn)練過程相匹配,測試的裂縫圖像均根據(jù)雙線性插值方法調(diào)整為1 600×2 400像素和2 112×3 168像素大小。模型輸出預(yù)測結(jié)果(1 600×2 400像素和2 112×3 168像素)后,再利用雙線性插值恢復(fù)為3 264×4 928像素,與標(biāo)注圖像進(jìn)行比較。
由于細(xì)小裂縫占裂縫背景極少,雙線性插值縮放之后,圖像中裂縫像素急劇減小,預(yù)測難度增加,預(yù)測準(zhǔn)確度降低??紤]到部分裂縫即可提供足夠信息進(jìn)行識(shí)別,即可以拆分的幾何特性與特征金字塔網(wǎng)絡(luò)對小目標(biāo)識(shí)別的優(yōu)勢,相應(yīng)地提出了針對超大尺寸裂縫圖像通用的訓(xùn)練集和測試集處理方法。
1.1 訓(xùn)練集
針對實(shí)際工程拍攝中裂縫在圖像中分布不確定、長細(xì)比例較大、裂縫像素占整體像素比例較低的特點(diǎn),采用多個(gè)步驟對超大尺寸圖像進(jìn)行處理,以構(gòu)建訓(xùn)練集。
步驟1:獲得一張初始的超大尺寸裂縫圖像(假設(shè)其大小為h×w,其中,h為圖像的高、w為圖像的寬),選取一大小為32m×32n(m、n為大于1的整數(shù))的固定拆分尺寸。該拆分尺寸的取值主要取決于計(jì)算資源。將初始圖像以數(shù)值0進(jìn)行邊緣擴(kuò)增(Padding),將圖像統(tǒng)一為尺寸32m×32n的倍數(shù)。擴(kuò)增后的圖像大小為H×W。H、W的計(jì)算式為
H=h32m+132m(1)
W=w32n+132n(2)
步驟2:使用一個(gè)大小為32m×32n的滑窗,以行、列步長為16m、16n像素大小對擴(kuò)充后的圖像進(jìn)行拆分。
步驟3:保留所有k張帶裂縫的拆分圖像,同時(shí),為保證深度學(xué)習(xí)能夠充分獲得背景特征,學(xué)習(xí)背景信息;k張只包含背景的圖像也被隨機(jī)選取,進(jìn)入最終的訓(xùn)練集。最后,一張初始的超大尺寸裂縫圖像經(jīng)過上述操作共可生成2k張的32m×32n拆分子圖進(jìn)入深度學(xué)習(xí)訓(xùn)練集。對多張超大尺寸裂縫圖像進(jìn)行該構(gòu)建操作便可構(gòu)建出相應(yīng)的訓(xùn)練集。
對于試驗(yàn)用鋼箱梁數(shù)據(jù)集,考慮計(jì)算機(jī)的計(jì)算性能,選取m=15、n=20。首先將尺寸為3 264×4 928的圖像(如圖 1(a))填充為3 360×5 120,并置零,保證后續(xù)拆分時(shí)能夠覆蓋到圖像的邊緣,見圖1(b),根據(jù)重疊分割的步驟2,設(shè)定滑窗大小為480×640對圖像以行/列240、320像素的步長,得到拆分子圖,如圖1(c)所示。一些將子圖像包含0填充部分。利用所有的子圖像作為輸入需要大量的訓(xùn)練時(shí)間。因此,根據(jù)對應(yīng)的子標(biāo)簽,自動(dòng)篩選出包含裂紋損傷像素的1 923個(gè)子圖像,如圖2(a)所示,即k=1 923。這1 923張裂縫子圖像組成了一個(gè)訓(xùn)練集,命名為DS3,作為缺少背景圖像信息的數(shù)據(jù)集,與本方法進(jìn)行對比。其余的13 939個(gè)子圖像不包含屬于裂紋損傷的像素,
只表示背景信息,如圖2(b)所示。在13 939個(gè)子圖像中隨機(jī)選取1 923張子圖像。1 923張裂縫子圖像和1 923張背景子圖像構(gòu)成一個(gè)訓(xùn)練集,命名為DS4,見表1,即為本方法提出的數(shù)據(jù)集構(gòu)建方法的最終結(jié)果。
1.2 測試集
在圖像測試方法上,同樣針對細(xì)長裂縫的位置和幾何特征提出了新的超大尺寸細(xì)長裂縫圖像的測試處理方法。該方法包含3個(gè)步驟:
1)輸入測試圖像(假設(shè)為h×w),將圖像以0進(jìn)行擴(kuò)增,不同于訓(xùn)練集,為了保證邊緣像素能夠被后續(xù)拆分覆蓋,擴(kuò)增后尺寸H×W的計(jì)算式為
H=h32m+232m(3)
W=w32n+232n(4)
式中:m、n的取值同訓(xùn)練集中的取值。
2)使用32m×32n的滑窗以行、列步長為32m、32n對測試圖像進(jìn)行第1次拆分,隨后將分割起點(diǎn)定位于圖內(nèi)的第16m行、第16n列像素,進(jìn)行第2次拆分。通過此方法,第1次拆分的4張相鄰圖像交點(diǎn)將成為第2次分割圖像的中心。針對裂縫的位置不確定性對分割圖像邊緣進(jìn)行多次覆蓋。將步驟2生成的一系列拆分圖一同輸入經(jīng)訓(xùn)練集訓(xùn)練后的特征金字塔深度學(xué)習(xí)網(wǎng)絡(luò),獲得預(yù)測結(jié)果。
3)最后將該預(yù)測結(jié)果按照滑窗順序重新拼裝成為帶0增的圖像。去除0增區(qū)域后,便獲得與原測試圖像大小相同的裂縫預(yù)測圖。同時(shí),由于預(yù)測圖中的每一個(gè)像素經(jīng)過二次分割擁有兩個(gè)預(yù)測值。本方法從較為安全的角度設(shè)定其中只要有一個(gè)預(yù)測判斷該像素為裂縫,該像素即可認(rèn)為為裂縫像素,保證盡可能多的裂縫像素被檢測識(shí)別。
在測試試驗(yàn)中,m、n的取值同訓(xùn)練中的取值,分別為15、20。其余處理按上述3個(gè)步驟進(jìn)行,與訓(xùn)練集雖然稍有差別,但較為相似。
2 特征金字塔深度學(xué)習(xí)網(wǎng)絡(luò)
特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network)的結(jié)構(gòu)大致可以分為編碼器(Encoder)、解碼器(Decoder)和組裝(Assembling)3個(gè)部分,如圖3所示。編碼器是卷積神經(jīng)網(wǎng)絡(luò)的前饋過程,用來提取不同階段的特征,并不斷降低特征圖分辨率。解碼器是自下而上的特征圖放大過程。通過上采樣,頂層特征圖和底層特征圖實(shí)現(xiàn)合并,豐富網(wǎng)絡(luò)獲取的語義信息。在融合完成后,網(wǎng)絡(luò)使用了3×3的卷積核對每一個(gè)融合結(jié)果并進(jìn)行卷積,目的是消除上采樣中的混疊效應(yīng)(Aliasing Effect)。最后,在組裝部分添加各個(gè)階段的特征圖獲取各層信息,這使得特征金字塔網(wǎng)絡(luò)擁有較強(qiáng)的語義信息獲取能力,同時(shí)也能夠滿足速度和內(nèi)存的要求。特征金字塔網(wǎng)絡(luò)的特別之處在于預(yù)測是在不同的特征層中獨(dú)立進(jìn)行的,有助于檢測不同尺寸的裂縫目標(biāo),契合工程獲取裂縫圖像中裂縫大小不確定性的特點(diǎn)。
2.1 編碼器
編碼器是一個(gè)特征提取網(wǎng)絡(luò),一般采用VGG[16]和ResNet[17]作為骨干。在本方法中,為了提高對裂縫的特征提取效果,采用Se_ResNeXt50_32×4d[15]為編碼器。它包括3個(gè)部分:ResNet,SE(Squeeze-and-Excitation)模塊和X模塊,使網(wǎng)絡(luò)更加深入、更快收斂和更易優(yōu)化。同時(shí),該模型的參數(shù)少,復(fù)雜度低,適合裂縫檢測任務(wù)。SE模塊采用的是SENet[15]的一個(gè)計(jì)算單元。
壓縮(Squeeze)采用了一個(gè)全局平均池化層,獲取具有全局視野的特征圖。激勵(lì)(Excitation)利用了一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對壓縮后的結(jié)果進(jìn)行非線性變換,然后將其作為一個(gè)權(quán)重乘以輸入特征。SENet主要對通道之間的相關(guān)性進(jìn)行學(xué)習(xí),減弱了對通道本身的關(guān)注,雖然稍微增加了計(jì)算量,但能夠?qū)崿F(xiàn)更好的分割效果。X模塊來自ResNeXt[18],一個(gè)更優(yōu)版本的ResNet。ResNeXt的核心創(chuàng)新在于采用了聚合轉(zhuǎn)換(Aggregated Transformations),用相同拓?fù)浣Y(jié)構(gòu)的并行堆疊取代原始的ResNet的3層卷積塊,提高了模型的準(zhǔn)確度,而不顯著增加參數(shù)量。同時(shí),由于拓?fù)浣Y(jié)構(gòu)相同,超參數(shù)減少,模型也較原始的ResNet更易移植。ResNeXt50_32×4d從有50層網(wǎng)絡(luò)深度的ResNet50改進(jìn)而來。其中,32×4d代表的是32條路徑,每條路徑的通道數(shù)為4個(gè)。SE模塊嵌入到ReNext50_32×4d中,最終獲得Se_resnext50_32×4d。其預(yù)訓(xùn)練參數(shù)通過imagenet1000得到。
總的來說,編碼器是一個(gè)以Se_resnext50_32×4d為骨干的自下而上裂縫特征提取網(wǎng)絡(luò)。在編碼器入口,將大小為裂縫圖像輸入(32m×32n)。后續(xù)中,每一個(gè)階段便是特征金字塔的一個(gè)層次。選取conv2、conv3、conv4和conv5層提取的特征為{C2, C3, C4, C5},這是FPN網(wǎng)絡(luò)的4個(gè)層次。N是batch size,特征向量則分別為F2=(N, 256, 8m, 8n),F(xiàn)3=(N, 512, 4m, 4n),F(xiàn)4=(N,1 024, 2m, 2n),F(xiàn)5=(N, 2048, m, n)。需要注意的是,由于F5是原圖的1/32大小,所以,拆分滑窗的長度和寬度應(yīng)是32的倍數(shù)。
2.2 解碼器
解碼器是一個(gè)自上而下的放大裂縫特征圖的過程。P5=(N,256,m,n)是通過1×1卷積層直接從F5得到的。在接下來的操作中,通過插值算法將P5放大兩倍為(N,256,2m,2n)。F4經(jīng)過1×1卷積層,變成(N,256,2m,2n)。將上述兩個(gè)特征向量相加,得到P4=(N,256,2m,2n)。這些操作被稱為跳躍連接(Skip Connection),如圖4所示,繼續(xù)使用這些操作來獲取P4、P3和P2。跳躍連接的優(yōu)勢在于它既可以利用頂層的高級語義特征(有助于裂縫特征分類),又可以利用底層的高分辨率信息(有助于裂縫特征定位)。
2.3 組裝
組裝部分要求金字塔每一層輸出的特征圖具有相同尺寸大小,為了實(shí)現(xiàn)該目的,首先選擇包含3×3卷積層的W運(yùn)算,采用雙線性插值放大,如圖5所示。
P5執(zhí)行3次W操作后,H5=(N,128,8m,8n)。以此類推,H4和H3分別進(jìn)行兩次和一次W操作。此外,H2不需要放大。然后直接將Hi(i=2~5)相加,得到一個(gè)向量(N,256,8m,8n)。該向量經(jīng)過3×3的卷積層和雙線性插值放大到原始裂紋圖像尺寸(N,1,32m,32n)。為了便于預(yù)測過程,通過將激活函數(shù)sigmoid的值改為0~1得到掩碼(N,1,480,640)。如果某點(diǎn)的值大于某一固定閾值,則預(yù)測該點(diǎn)為裂紋。在試驗(yàn)中,選擇0.5作為閾值。
3 試驗(yàn)
3.1 試驗(yàn)細(xì)節(jié)
所有試驗(yàn)均在Intel(R) Xeon(R) E5-2678 v3 @ 2.50 GHz、64.0 GB RAM和NVIDIA RTX2080TI、11.0 GB RAM的計(jì)算平臺(tái)上進(jìn)行?;?個(gè)不同的訓(xùn)練集訓(xùn)練了4個(gè)基于特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)測模型。為了討論方便,用DS1和DS2訓(xùn)練獲得的特征金字塔網(wǎng)絡(luò)稱為Model1和Model2,用DS3和DS4訓(xùn)練獲得的網(wǎng)絡(luò)稱為Model3和Model4。
3.2 試驗(yàn)指標(biāo)
假設(shè)在標(biāo)簽和預(yù)測中均屬于裂縫的像素?cái)?shù)為I,在標(biāo)簽或預(yù)測中表示裂縫的像素?cái)?shù)為U,交并比(Intersection over Union IoU)是圖像分割任務(wù)常用的評價(jià)指標(biāo),通過式(5)計(jì)算。
IoU=IU(5)
另一評價(jià)指標(biāo)Dice Loss不僅可以作為深度學(xué)習(xí)訓(xùn)練中的損失函數(shù),也可以在一定程度上評價(jià)圖像分割的準(zhǔn)確度。假設(shè)在裂紋分割任務(wù)中X為圖像對應(yīng)的標(biāo)記,Y是裂縫預(yù)測,Dice Loss通過式(6)計(jì)算。
Dice Loss=1-2|X∩Y||X|+|Y|(6)
4 結(jié)果和討論
圖6為4個(gè)模型在一些典型測試圖像上的裂縫檢測結(jié)果,圖7為基于4個(gè)不同訓(xùn)練集測試中的評價(jià)指標(biāo)IoU和Dice Loss的對比。圖6中展示的IoU值通過單張預(yù)測圖片與對應(yīng)標(biāo)記計(jì)算得到,圖7中展示的IoU和Dice Loss測試指標(biāo)值為測試中所有圖片的預(yù)測同對應(yīng)標(biāo)記計(jì)算獲得的平均IoU和Dice Loss的值。從圖7可以看出,在IoU和Dice Loss方面,在測試圖像上,Model2比Model1出性能更好,Model2的IoU高于Model1,同時(shí)Model2的Dice Loss小于Model1。在分析了Model1和Model2的預(yù)測之后,發(fā)現(xiàn)一個(gè)值得注意的現(xiàn)象,如圖6所示,Model1和Model2的預(yù)測都忽略了測試圖像中的部分裂紋,導(dǎo)致預(yù)測中的裂紋長度比標(biāo)簽中的短,在預(yù)測中丟失了部分裂紋。造成這種現(xiàn)象的原因之一是用于調(diào)整圖像形狀大小的雙線性插值算法,雙線性插值考慮已知像素值圍繞未知像素計(jì)算位置的最接近的2×2鄰域,然后取這4個(gè)像素的加權(quán)平均值來得到最終的插值值。調(diào)整大小的方法
不是對測試圖像中的每個(gè)像素進(jìn)行預(yù)測,而是對像素的統(tǒng)計(jì)值進(jìn)行預(yù)測。一方面,Model1和Model2的預(yù)測不能在像素級上進(jìn)行精確預(yù)測,但另一方面,模型仍然可以指出裂縫的位置。根據(jù)Model1和Model2預(yù)測的裂紋位置,可以采用一些方法改進(jìn)裂紋預(yù)測,如利用擴(kuò)展閾值算法可以擴(kuò)展裂縫長度。從圖7(a)可以看出,Model1的IoU僅比Model2的IoU小0.02,但DS1中的圖像大小幾乎是DS2的1/3。這表明,更大的圖像尺寸并不能在很大程度上改善預(yù)測,而作為輸入的大尺寸圖像卻需要大量的存儲(chǔ)和計(jì)算空間。當(dāng)需要縮放圖像以獲得一個(gè)新的訓(xùn)練集時(shí),建議首先考慮計(jì)算效率,而不是圖像大小。
使用該方法構(gòu)建數(shù)據(jù)集時(shí),測試中評價(jià)指標(biāo)IoU和Dice Loss都有了明顯提升。Model3和Model4的IoU分別為0.70和0.78。由于Model3只在裂紋子圖像(DS3)上進(jìn)行訓(xùn)練,因此忽略了一些背景信息。
從圖6第3、第4行的預(yù)測結(jié)果可以看出,Model3錯(cuò)誤地將邊緣上的一些像素點(diǎn)預(yù)測為裂紋,鋼結(jié)構(gòu)的一些凹槽特征也被預(yù)測為裂紋。盡管Model3的預(yù)測不如Model4準(zhǔn)確,但Model3在結(jié)構(gòu)健康監(jiān)測中可以視為提供了較為安全的估計(jì)。從圖6第5行可以看出,使用Model3對結(jié)構(gòu)的主裂紋進(jìn)行了預(yù)測,并將一些可疑特征視為裂紋,保證不遺漏裂紋損傷。Model3的IoU雖然不是最好的,但在工程上具有理想的特性。經(jīng)過DS4的訓(xùn)練,Model4變得比Model3更加優(yōu)秀和準(zhǔn)確。Model4同時(shí)學(xué)習(xí)了背景信息和裂紋信息。在圖6中的預(yù)測4,Model4的性能最好,很好地處理了背景和溝槽的干擾。較高的精度意味著Model4可以為下一步的研究或測量提供精確的裂紋信息。在裂紋分割任務(wù)中,Model3和Model4的性能優(yōu)于Model1和Model2。對于基本訓(xùn)練集的圖像,該方法被證明是比直接調(diào)整超大尺寸圖像大小方法更好的解決方案。部分裂縫便可以提供足夠的檢測信息。因此,該方法是一種合適的針對超大尺寸細(xì)長裂縫的處理方法。此外,該方法對圖像的分辨率沒有任何要求,適用于任意的高分辨率和低分辨率圖像。
5 結(jié)論
針對鋼箱梁內(nèi)部包含復(fù)雜背景和裂縫的超大尺寸圖像,提出了一種基于特征金字塔深度學(xué)習(xí)網(wǎng)絡(luò)的裂縫自動(dòng)檢測方法,并進(jìn)行了一系列對比試驗(yàn)。主要結(jié)論如下:
1)基于本方法構(gòu)建的訓(xùn)練集,特征金字塔網(wǎng)絡(luò)能夠在測試中對3 264×4 928像素的橋鋼箱梁表面裂縫圖像實(shí)現(xiàn)最大交并比(IoU)為0.78,最小Dice Loss為0.12,表現(xiàn)優(yōu)于將圖像進(jìn)行簡單縮放構(gòu)建數(shù)據(jù)集訓(xùn)練的模型。
2)采用雙線性插值方法將超大尺寸圖像(3 264×4 928)縮放至1 600×2 400像素或2 112×3 168像素,將會(huì)導(dǎo)致部分裂縫信息丟失,降低裂縫檢測準(zhǔn)確度。建議采用本方法對超大尺寸裂縫圖像進(jìn)行拆分,拆分尺寸大小可設(shè)定為480×640。
3)部分裂縫可以為深度學(xué)習(xí)網(wǎng)絡(luò)提供足夠的特征信息。該方法適合于裂縫檢測任務(wù),并且該方法對于裂縫圖像的具體分辨率沒有嚴(yán)格的要求,為今后的裂縫自動(dòng)檢測提供了一個(gè)較有潛力的解決方案。參考文獻(xiàn):
[1] 李艷霞. 基于深度學(xué)習(xí)的橋梁裂縫圖像信息自動(dòng)提取方法研究[D]. 北京: 北京交通大學(xué), 2020.
LI Y X. Research on automatic bridge crack extraction based on image deep learning [D]. Beijing: Beijing Jiaotong University, 2020. (in Chinese)
[2] 彭玲麗, 黃少旭, 張申申, 等. 淺談無人機(jī)在橋梁檢測中的應(yīng)用與發(fā)展[J]. 交通科技, 2015(6): 42-44.
PENG L L, HUANG S X, ZHANG S S, et al. Discussion on UAV application and development in bridge inspection [J]. Transportation Science & Technology, 2015(6): 42-44. (in Chinese)
[3] 陳艷君. 基于特征空間的路面裂縫檢測與識(shí)別算法研究[D]. 武漢: 武漢工程大學(xué), 2012.
CHEN Y J. Research on detection and recognition method for pavement crack based on feature space [D]. Wuhan: Wuhan Institute of Technology, 2012. (in Chinese)
[4] 孫朝云, 褚燕利, 樊瑤, 等. 基于VC++路面裂縫圖像處理系統(tǒng)研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2009, 26(8): 82-85.
SUN Z Y, CHU Y L, FAN Y, et al. Pavement crack image processing system research based on VC++ [J]. Computer Applications and Software, 2009, 26(8): 82-85. (in Chinese)
[5] 馬常霞, 趙春霞, 胡勇, 等. 結(jié)合NSCT和圖像形態(tài)學(xué)的路面裂縫檢測[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2009, 21(12): 1761-1767.
MA C X, ZHAO C X, HU Y, et al. Pavement cracks detection based on NSCT and morphology [J]. Journal of Computer-Aided Design & Computer Graphics, 2009, 21(12): 1761-1767. (in Chinese)
[6] 張維峰, 劉萌, 楊明慧. 基于數(shù)字圖像處理的橋梁裂縫檢測技術(shù)[J]. 現(xiàn)代交通技術(shù), 2008, 5(5): 34-36.
ZHANG W F, LIU M, YANG M H. Bridge crack detection technology based on digital image processing [J]. Modern Transportation Technology, 2008, 5(5): 34-36. (in Chinese)
[7] 勾紅葉, 楊彪, 華輝, 等. 橋梁信息化及智能橋梁2019年度研究進(jìn)展[J]. 土木與環(huán)境工程學(xué)報(bào)(中英文), 2020, 42(5): 14-27.
GOU H Y, YANG B, HUA H, et al. State-of-the-art review of bridge informatization and intelligent bridge in 2019 [J].Journal of Civil and Environmental Engineering, 2020, 42(5): 14-27. (in Chinese)
[8] ZHANG L, YANG F, ZHANG Y D, et al. Road crack detection using deep convolutional neural network [C]//2016 IEEE International Conference on Image Processing (ICIP). September 25-28, 2016, Phoenix, AZ, USA. IEEE, 2016: 3708-3712.
[9] ZHANG A, WANG K C P, LI B X, et al. Automated pixel-level pavement crack detection on 3D asphalt surfaces using a deep-learning network [J]. Computer-Aided Civil and Infrastructure Engineering, 2017, 32(10): 805-819.
[10] DORAFSHAN S, THOMAS R J, MAGUIRE M. Comparison of deep convolutional neural networks and edge detectors for image-based crack detection in concrete [J]. Construction and Building Materials, 2018, 186: 1031-1045.
[11] AZIMI M, ESLAMLOU A D, PEKCAN G. Data-driven structural health monitoring and damage detection through deep learning: State-of-the-art review [J]. Sensors (Basel, Switzerland), 2020, 20(10): 2778.
[12] CHENG H K, CHUNG J, TAI Y W, et al. CascadePSP: Toward class-agnostic and very high-resolution segmentation via global and local refinement [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 8887-8896.
[13] BAO Y Q, LI H. Machine learning paradigm for structural health monitoring [J]. Structural Health Monitoring, 2020: 147592172097241.
[14] LIN T Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 936-944.
[15] HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 7132-7141.
[16] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. 2014. https://arxiv.org/abs/1409.1556.
[17] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.
[18] XIE S N, GIRSHICK R, DOLLR P, et al. Aggregated residual transformations for deep neural networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 5987-5995.
(編輯 胡玲)