張在巖,宋偉東,陳兆雪
(1. 遼寧工程技術(shù)大學(xué)測繪與地理科學(xué)學(xué)院,遼寧 阜新 123000; 2. 黑龍江科技大學(xué)礦業(yè)工程學(xué)院,黑龍江 哈爾濱 150022)
“十三五”以來,我國累計投入養(yǎng)護(hù)公路的資金為1.29萬億元[1]。其中,實施預(yù)防養(yǎng)護(hù)135.6萬km、修復(fù)養(yǎng)護(hù)165.2萬km,實施公路安全生命防護(hù)工程116萬km。路面病害的智能化檢測是提升大規(guī)模路面養(yǎng)護(hù)科學(xué)決策水平的關(guān)鍵。目前,道路養(yǎng)護(hù)部門一般采用移動采集車獲取路面車載電荷耦合器件(CCD)圖像,進(jìn)而通過人工目視檢查的方法完成病害的勾畫,該過程耗時、費力且主觀性強[2]。因此,基于實測路面圖像對大規(guī)模公路路面自動檢測和定量評價,對于保證公路處于安全可用狀態(tài)具有重要意義。
近年來,研究者基于CCD傳感器獲取的數(shù)字圖像,從計算機(jī)視覺的角度對路面病害自動化檢測開展了廣泛研究?,F(xiàn)階段,路面病害提取的方法主要為基于數(shù)字圖像和語義分割裂縫檢測。前者在病害具有較好的連續(xù)性和較高的對比度的情況下,可以獲得較高的病害檢測精度。然而,受到環(huán)境、行車荷載和養(yǎng)護(hù)條件等多種因素的影響,基于數(shù)字圖像裂縫檢測技術(shù)與我國現(xiàn)階段的發(fā)展并不適配。
伴隨深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)的路面裂縫的自動檢測[3]逐漸成為研究熱點。通常,基于深度學(xué)習(xí)的病害檢測方法可分為3類,包括基于圖像分類的方法、基于目標(biāo)檢測的方法和基于語義分割的方法[4-7],這些方法用于圖像分類和目標(biāo)檢測。分割可以為廣泛的應(yīng)用提供更精確的幾何目標(biāo)描述,如病害幾何特征量測、嚴(yán)重程度劃分和路面條件定量評估等,這也是本文的研究重點。然而,受到環(huán)境、行車荷載和養(yǎng)護(hù)條件等多種因素的影響,自然場景下采集的CCD圖像中的不同病害存在拓?fù)浣Y(jié)構(gòu)復(fù)雜、灰度特征差異大、與背景對比度低和受路面背景噪聲干擾強的問題,現(xiàn)有的語義分割研究多集中在場景單一的裂縫分割,距離滿足實際工程應(yīng)用還有一段距離。問題為:①目前已公開可用于路面病害分割的數(shù)據(jù)集通常不超過500張[8-10],且大多數(shù)可用的路面破損語義分割的公開數(shù)據(jù)集多來源于高速公路和城市道路,場景較少,幾乎所有的數(shù)據(jù)集都來源于瀝青路面圖像,因此其中的路面病害種類較少[11],這直接限制了復(fù)雜場景下多類型路面病害算法的研究。②現(xiàn)有模型如FCN在裂縫分割中存在背景和特征區(qū)域像素分布不平衡的問題,導(dǎo)致背景或負(fù)樣本像素點大于裂縫像素點[12];U-Net模型對于裂縫檢測時存在準(zhǔn)確度不高、丟失細(xì)節(jié)信息等[13];SegNet模型難以精確區(qū)分裂縫和灌封裂縫等具有相似特征的瀝青路面病害的問題[14]。
為了解決上述問題,本文首先收集并構(gòu)建一套用于復(fù)雜場景下多類型路面病害二類語義分割的數(shù)據(jù)集,稱為CPCD(complex pavement crack datasets),該數(shù)據(jù)集具有足夠的規(guī)模和場景復(fù)雜度;以此為基礎(chǔ),基于HRNet[15]框架結(jié)構(gòu),提出一種顧及多尺度特征融合和注意力機(jī)制的公路路面多類型病害提取模型(CBAM-HRNet)。
為解決數(shù)據(jù)問題,基于多場景、高分辨率的CCD圖像,構(gòu)建了一個用于路面病害分割任務(wù)的數(shù)據(jù)集(CPCD)。使用移動采集車輛獲取數(shù)據(jù)集的原始圖像 (如圖1所示),后置acA4096面陣CCD相機(jī),同時左右搭配兩個疝燈以減少光強的影響,圖像分辨率為3517×2193像素,單個像素為0.91 mm×0.91 mm。
圖1 移動路面病害采集設(shè)備
收集遼寧省實測路面CCD圖像共計9000張。首先,按照路面破損程度設(shè)定4個分組關(guān)鍵詞:高質(zhì)量瀝青路面(HQA)、低質(zhì)量瀝青路面(LQA)、高質(zhì)量水泥路面(HQCC)、低質(zhì)量水泥路面(LQCC),手動篩選出4組合計7000張原始路面CCD圖片;然后,利用Python開發(fā)了一個無損裁剪工具裁剪病害區(qū)域圖像,按預(yù)先設(shè)定的7個病害類別:橫向裂縫(HF)、縱向裂縫(ZF)、水泥裂縫(SC)、瀝青龜網(wǎng)裂(JWL)、水泥破碎板(SP)、修補(XB)、坑槽/洞(LKC/SKD),從4組原始圖像中裁剪樣本圖像;最后,根據(jù)每類病害所處場景的復(fù)雜性,獲得6967張樣本圖像,其中含有3980 張病害樣本圖像和2997張帶有干擾噪聲的負(fù)樣本圖像(如圖2(a)所示)。選擇和裁剪策略類似于文獻(xiàn)[6]的方法。大多數(shù)選定的含病害的圖像只包含單個目標(biāo),能夠獲得豐富而高精度的結(jié)構(gòu)和細(xì)節(jié)。
圖2 CPCD數(shù)據(jù)集收集及病害樣本分組分布
CPCD數(shù)據(jù)集由4個病害檢測領(lǐng)域?qū)<沂褂?Labelme軟件對每張圖像進(jìn)行像素級精度手工標(biāo)記(如圖3所示)。平均每張圖像的標(biāo)記時間約為10 min,部分網(wǎng)狀裂縫圖像的標(biāo)記時間長達(dá)1 h。圖3(a)為復(fù)雜場景下7類病害及負(fù)樣本的標(biāo)注樣例,有些標(biāo)注的真值 (GT) 掩膜在視覺上接近圖像摳圖真值;圖3(b)為數(shù)據(jù)集中與路面病害在灰度特征和紋理特征方面高度相似的干擾噪聲,為負(fù)樣本,如陰影、水漬或油漬,拋落物和路面附屬物等,這些在實際病害檢測任務(wù)中很常見,但由于種類繁雜或收集困難而被其他數(shù)據(jù)集忽略;圖3(c)為CPCD數(shù)據(jù)集中病害類內(nèi)結(jié)構(gòu)的復(fù)雜性和多樣性。
圖3 CPCD數(shù)據(jù)集
圖像復(fù)雜度采用圖像信息熵(information entropy, IE)定量描述,IE可定量反應(yīng)復(fù)雜場景中的目標(biāo)識別或提取的困難程度[16]。公式為
(1)
式中,Pi表示灰度值為i的像素在圖像中的占比,即從信息論的角度衡量圖像中灰度分布的聚集特征所包含的信息量。圖像中的信息熵越大,說明圖像的復(fù)雜程度越高。
本文計算了現(xiàn)有公開數(shù)據(jù)集CFD[8]CRACK500[9]、GAPs384[9]、AigleRN[10]、CRACKtree[11]及本文數(shù)據(jù)集的IE均值和標(biāo)準(zhǔn)差,如圖4所示。與其他公共數(shù)據(jù)集相比,計算的度量就平均IE而言,CPCD數(shù)據(jù)集具有最高的圖像復(fù)雜度,更接近于實際應(yīng)用場景。標(biāo)準(zhǔn)差對比結(jié)果也反映了本文數(shù)據(jù)集中圖像的復(fù)雜度差異性最大。
圖4 不同數(shù)據(jù)集圖像復(fù)雜度對比結(jié)果
本文將CPCD中的6967張圖像分成3個子集: CPCD-TR(53804)、CPCD-VD(587)和CPCD-TE(1000),用于訓(xùn)練、驗證和測試。TR、 VD與TE中包含的類別總體一致??傮w而言,ISTD-PDS7數(shù)據(jù)集是為滿足復(fù)雜場景下的模型訓(xùn)練及性能評估所遇到的各類挑戰(zhàn)性問題設(shè)計的。
HRNet[15]最初是為人體姿態(tài)估計而設(shè)計的,其主要特點是采用高分辨率與低分辨率并聯(lián)的方式,在保持最后的輸出層高分辨率的同時,使預(yù)測結(jié)果更加準(zhǔn)確。如圖5(a)所示,HRNet主要包括4個stage部分,每個stage由藍(lán)色框和黃色框構(gòu)成。藍(lán)色框1是對輸入的原始channel maps進(jìn)行并聯(lián),黃色框I是channel maps經(jīng)過strided 3×3的卷積而輸出的一個分支。使用strided 3×3卷積可以在進(jìn)行學(xué)習(xí)的同時降低語義信息的損耗。stage2根據(jù)stage1輸出的低分辨率和高分辨率進(jìn)行并聯(lián),利用圖5(b)的操作進(jìn)行特征融合,輸出另一個低分辨率分支,再送入stage3進(jìn)行并聯(lián),以此類推進(jìn)行操作,完成stage4。將各分辨率特征融合后進(jìn)行特征層上采樣,輸出為原始特征層尺寸。將各分辨率的特征層進(jìn)行融合,采用并聯(lián)多個分辨率的分支進(jìn)行信息交互,使得在維持高分辨率的同時,達(dá)到增強語義信息和精準(zhǔn)位置信息的目的。
圖5 HRNet網(wǎng)絡(luò)結(jié)構(gòu)
如圖6所示,CBAM(convolutional block attention module)是通道和空間注意力操作的合體,其實現(xiàn)可分為兩部分。
圖6 CBAM注意力機(jī)制模塊
第1部分為CAM,對于輸入特征F∈RH×W×C,同時經(jīng)過全局平均池化和最大池化操作,得到不同的空間語義描述算子,兩首者先通過一個共享感知機(jī)MLP;然后將兩個通道注意力特征向量相加融合;最后經(jīng)過激活函數(shù)Sigmoid生成一維通道注意力圖MC,通道注意模塊的操作過程為
MC(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F))
(2)
式中,F為輸入特征;MLP為多層感知機(jī);σ為Sigmoid激活函數(shù);AvgPool為全局平均池化;MaxPool為全局最大池化。其中MLP的權(quán)重由W0∈RC×C/r和W1∈RC×C/r共享。通道注意力集中在圖像中什么級別的特征信息是更重要的。
MS(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
(3)
通過引入注意力機(jī)制可以使輸出信息更聚焦于更關(guān)鍵更有用的信息,減弱甚至消除無關(guān)信息的干擾,使模型更加注重邊緣、細(xì)節(jié)的分割。故本文將HRNet與CBAM二者融合在一起。如圖7所示,在特征層進(jìn)行上采樣的同時添加CBAM注意力機(jī)制,有效增加了上采樣的準(zhǔn)確率,從而保證了進(jìn)行特征融合的輸出層能夠獲得更豐富的語義信息。經(jīng)過stage4后得到4個有效特征層,自上而下尺寸分別為128×128×32、60×60×64、30×30×128、15×15×256。首先對60×60×64的特征層進(jìn)行1×1的卷積和BN操作,進(jìn)而通過2倍Upsample后送入CBAM模塊得到上采樣后的輸出f1;對30×30×128的特征層進(jìn)行1×1的卷積和BN操作,進(jìn)而通過4倍Upsample后送入CBAM模塊得到上采樣后的輸出f2;對15×15×256的特征層進(jìn)行1×1的卷積和BN操作,進(jìn)而通過8倍Upsample后送入CBAM模塊得到上采樣后的輸出f3。將經(jīng)過上采樣的特征層進(jìn)行堆疊,之后再通過1×1的卷積核的卷積和激活函數(shù)進(jìn)行特征融合,最后輸出尺寸為480×480×3的病害特征圖。
圖7 CBAM-HRNet網(wǎng)絡(luò)結(jié)構(gòu)
試驗環(huán)境:硬件環(huán)境CPU 為Intel(R)Core(TM)i5-8300H CPU @2.30 GHz處理器;內(nèi)存為16 GB;所有試驗都是在單一的GeForce GTX 3060 (16 GB) GPU上進(jìn)行的;編程框架為Python3.8+Pytorch1.7.1。參數(shù)設(shè)置:采取遷移學(xué)習(xí)的方法訓(xùn)練模型,以提高模型訓(xùn)練的性能,預(yù)訓(xùn)練權(quán)重來自各模型在VOC2012數(shù)據(jù)集上的訓(xùn)練結(jié)果。采用凍結(jié)(50 epoch)+解凍(100 epoch)的方式訓(xùn)練網(wǎng)絡(luò),以節(jié)省訓(xùn)練時間,其中凍結(jié)訓(xùn)練階段批處理量大小設(shè)置為4,學(xué)習(xí)率設(shè)為10-4;解凍過程批處理量大小設(shè)置為2,學(xué)習(xí)率設(shè)為10-5。使用 AdamW優(yōu)化器對模型訓(xùn)練過程進(jìn)行優(yōu)化,學(xué)習(xí)率為10-4。動量和衰減率分別設(shè)置為0.9和0。為了得到綜合性的評價,運算復(fù)雜度用算法參數(shù)量Par(parameters)和GFLOPs(10 億次/s浮點運算數(shù))表示,推理效率用每秒傳輸幀數(shù)(frames per second, FPS)表示。所有模型的效率指標(biāo)均在GeForce RTX 3090 GPU上計算完成。采用Precision、Recall、F1分?jǐn)?shù)和mIoU進(jìn)行分割模型的性能評價。Precision、Recall分別表示在所有預(yù)測都是正值的情況下,正值的樣本所占的比重和在所有正樣本中,預(yù)測正確的正樣本的比例。F1為Precision和Recall的調(diào)和平均數(shù)。mIoU代表真實值與預(yù)測值之間的平均交并比,計算公式為
(4)
式中, TPk、FPk、FNk分別代表真陽性、假陽性、假陰性預(yù)測;n=2。
(1)定量對比分析。將CBAM-HRNet與U-Net[17]、PSPNet[18]、DeepLabv3+[19]及HRNet[15]進(jìn)行比較,表1為所有模型在驗證集和測試集上的總體性能。就模型屬性計算指標(biāo)而言,基于輕量級MobileNetV2的PSPNet具有最低參數(shù)量、最小的計算復(fù)雜度及最快的推理速度,但其F1分?jǐn)?shù)與mIoU較本文模型分別低了4.39%和6.92%;與原始的HRNet相比,CBAM-HRNet算法復(fù)雜度、參數(shù)量僅提高了0.016和0.007 M,模型在測試集上的mIoU得分提高了1.47%。與其他模型相比,本文提出的CBAM-HRNet在4個評價指標(biāo)上均取得了最具競爭力的性能。此外,由于HRNet并行連接,高分辨率到低分辨率卷積保持高分辨率表示,且通過重復(fù)跨并行卷積執(zhí)行多尺度融合增強高分辨率表示。CPCD-TE上的測試結(jié)果明顯優(yōu)于其他3種特征圖串聯(lián)結(jié)構(gòu)的模型,證明并聯(lián)結(jié)構(gòu)的網(wǎng)絡(luò)更加適合對位置比較敏感的路面病害密集預(yù)測任務(wù)。
表1 各模型在CPCD驗證和測試集的定量評價結(jié)果
(2)定性對比分析。圖8為5種不同模型之間的定性比較結(jié)果,其中第1列(a)至(i)分別對應(yīng)模糊、干燥、清晰、銳化、濕潤、曝光、黑暗、污漬、雜物9種自然場景的實測路面圖像,方框內(nèi)的圖像為需要重點關(guān)注的區(qū)域。由圖8第3列預(yù)測結(jié)果可以看出,U-Net在裂縫病害的提取效果較好,但對于大面積坑槽的提取效果較差,在污漬和雜物存在的圖像中,出現(xiàn)明顯的假陽性預(yù)測,這與其較小的感受野有關(guān);由圖8第4至5列可以看出,僅采用金字塔池化模塊(pyramid pooling module,PPM)和空洞卷積空間金字塔池化 (atrous spatial pyramid pooling,ASPP)模塊聚合上下文信息的PSPNet和DeepLabV3+,由于采用了多尺度的池化和空洞卷積,導(dǎo)致大量空間信息的丟失和細(xì)小裂縫檢測性能的顯著下降;HRNet模型提取路面不同病害較連續(xù),邊界輪廓清晰,但也存在細(xì)小裂縫和邊界不連續(xù)的問題,在場景(c)中因石子突起曝光,導(dǎo)致預(yù)測結(jié)果相差較大;而CBAM-HRNet模型提取病害邊界輪廓清晰,病害提取連續(xù),標(biāo)簽圖像相近;在含有干擾噪聲的無病害場景中,U-Net模型的抗假陽性預(yù)測能力較差,其他4個模型的抗假陽性預(yù)測能力較為良好;本文提出的CBAM-HRNet相比于HRNet和其他3種模型,在復(fù)雜場景中的分割結(jié)果更為連續(xù)、病害邊緣更細(xì)化,模型的穩(wěn)定性強,能有效降低模型的假陽性預(yù)測。
圖8 路面病害和干擾物的分割結(jié)果比較
(3)模型泛化性驗證。本文還額外驗證了CBAM-HRNet在其他公開數(shù)據(jù)集上的泛化性,分別基于智能手機(jī)拍攝的CFD和CRACK500、基于面陣CCD相機(jī)拍攝的AigleRN,以及基于線陣CCD相機(jī)拍攝的GAPs384數(shù)據(jù)集。裂縫提取部分結(jié)果如圖9所示。此外,本文方法未利用這4個數(shù)據(jù)集中的裂縫圖像參與訓(xùn)練階段。結(jié)果表明,相比于原始的HRNet,本文方法裂縫分割的完整度和精細(xì)化程度更好,說明本文檢測方法能夠提取大多數(shù)路面裂縫,模型具有較強的泛化性。
圖9 CBAM-HRNet泛化性分析結(jié)果展示
為解決復(fù)雜場景下的多類型路面病害自動提取問題,促進(jìn)病害智能分割算法工程化應(yīng)用的發(fā)展,本文基于實測路面CCD圖像構(gòu)建了一個新的滿足于多類型路面病害圖像二類語義分割任務(wù)的數(shù)據(jù)集,即CPCD,這是國內(nèi)目前路面病害語義分割任務(wù)中較大、具有挑戰(zhàn)性的數(shù)據(jù)集。該數(shù)據(jù)集將會在:https://ciigis.lntu.edu.cn/發(fā)布,以推進(jìn)復(fù)雜場景下公路路面病害精細(xì)分割的最先進(jìn)算法。此外,本文提出融合注意力機(jī)制與高分辨率網(wǎng)絡(luò)HRNet的新型網(wǎng)絡(luò)結(jié)構(gòu)CBAM-HRNet,可在確保輸出高分辨率的前提下,使網(wǎng)絡(luò)更專注于病害目標(biāo)的特征提取,降低了假陽性預(yù)測。與其他算法相比,具備并聯(lián)結(jié)構(gòu)的CBAM-HRNet具有最佳的病害分割性能和穩(wěn)定性,后續(xù)研究重點為平衡模型分割精度和推理速度。