李秀麗?裴瑤瑤
摘要:針對建筑裂縫識別精度差和泛化性弱的問題,提出一種基于圖像識別的建筑裂縫自動識別技術(shù)。該技術(shù)融合了注意力機(jī)制和U-Net架構(gòu),即AU-Net,能夠有效學(xué)習(xí)不同尺度特征間的相互關(guān)系,從而顯著提升裂縫識別的精度和泛化性。在三個(gè)建筑裂縫識別的數(shù)據(jù)集上進(jìn)行測試,結(jié)果表明,相較于全卷積網(wǎng)絡(luò)和標(biāo)準(zhǔn)的U-Net模型,AU-Net的平均F1分?jǐn)?shù)提升9.4%,平均交并比提升7.2%。因此,本研究有助于及時(shí)預(yù)防建筑的結(jié)構(gòu)性故障,提升建筑安全性。
關(guān)鍵詞:建筑裂縫;自動識別;安全性
一、前言
隨著城市化進(jìn)程的推進(jìn),建筑物的安全性與耐久性成為重點(diǎn)問題之一。在建筑物的生命周期中,裂縫的出現(xiàn)往往預(yù)示著潛在的結(jié)構(gòu)問題,及時(shí)檢測建筑物對于預(yù)防災(zāi)害、保障人民生命財(cái)產(chǎn)安全具有至關(guān)重要的作用[1]。然而,傳統(tǒng)的裂縫檢測方法大多依賴于人工視覺檢查,不僅效率低下,而且容易受到檢測人員主觀經(jīng)驗(yàn)的影響,導(dǎo)致檢測結(jié)果的精度較差。此外,人工檢測通常伴隨著高昂的勞動力成本和時(shí)間成本,在高空或危險(xiǎn)環(huán)境中工作更增加了檢測人員的安全風(fēng)險(xiǎn)?;趫D像識別的建筑裂縫自動識別技術(shù),以其高效、準(zhǔn)確的特點(diǎn),被視為提升建筑裂縫檢測水平的有力工具。本研究以混凝土材質(zhì)的居民建筑和道路為研究對象,提出了一種基于深度學(xué)習(xí)的建筑裂縫自動識別技術(shù)。該技術(shù)構(gòu)建了一種融合注意力機(jī)制和U-Net架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,即AU-Net,不僅能夠捕捉圖像的細(xì)微特征,還能處理分析不同尺寸和形態(tài)的裂縫。實(shí)驗(yàn)表明,AU-Net與現(xiàn)有的全卷積網(wǎng)絡(luò)和U-Net模型相比,識別精度均有顯著提升。因此,本研究可以有效提高裂縫檢測的自動化水平,對于維護(hù)建筑的健康狀態(tài)有重要意義。
二、裂縫識別技術(shù)的研究現(xiàn)狀
(一)基于特征提取的方法
基于特征提取的方法應(yīng)用傳統(tǒng)的數(shù)字圖像處理技術(shù),對裂縫圖像進(jìn)行預(yù)處理和特征提取,通過分析處理后的結(jié)果以確定裂縫的位置和屬性。傳統(tǒng)的數(shù)字圖像處理檢測技術(shù)主要依賴于圖像分割,包括基于閾值的方法、邊緣檢測算子(如Sobel,Canny等)、基于圖論的分割方法,以及基于能量泛函的分割方法。例如,快速哈爾變換被驗(yàn)證了在裂縫識別的精確性上有著出色的表現(xiàn)。此外,數(shù)學(xué)形態(tài)學(xué)的方法也被用于圖像增強(qiáng),與閾值分割相結(jié)合,進(jìn)一步提升對裂縫的識別能力[2]。
(二)基于深度學(xué)習(xí)的方法
與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法利用其深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動提取圖像中的復(fù)雜特征。這些深度特征提取器能夠識別圖像中難以直接捕捉的裂縫邊緣、寬度、位置和亮度等細(xì)節(jié)[3]。計(jì)算機(jī)視覺領(lǐng)域的進(jìn)步推動了基于深度神經(jīng)網(wǎng)絡(luò)的圖像處理方案在實(shí)際應(yīng)用中的發(fā)展。例如,深度學(xué)習(xí)算法被用于隧道襯砌裂縫的自動識別,多尺度深度卷積特征融合用于提升裂縫特征的提取效率,有監(jiān)督的學(xué)習(xí)方法調(diào)整樣本比例以處理數(shù)據(jù)不平衡問題。此外,通過在U-Net模型中加入殘差連接,可以增強(qiáng)特征提取的能力,實(shí)驗(yàn)證明這種方法的準(zhǔn)確率超過了傳統(tǒng)的U-Net模型和其他深度學(xué)習(xí)模型[4]。
三、基于圖像識別的建筑裂縫自動識別技術(shù)
(一)AU-Net網(wǎng)絡(luò)架構(gòu)
在本研究中,提出了一種基于圖像識別的建筑裂縫自動識別技術(shù)。該技術(shù)采用了融合注意力機(jī)制的改進(jìn)U-Net網(wǎng)絡(luò)架構(gòu),即 AU-Net。如圖1所示,AU-Net的核心是編碼器—解碼器結(jié)構(gòu)。編碼器部分融合了殘差卷積層和基于注意力機(jī)制的Transformer層,這種結(jié)合充分利用了卷積操作在提取豐富的細(xì)節(jié)和語義信息方面的能力。同時(shí),通過Transformer層引入的全局自注意力機(jī)制,捕獲特征間長距離的依賴關(guān)系,以實(shí)現(xiàn)全局特征信息的整合,為識別過程提供了更全面的上下文支持。
解碼器部分通過級聯(lián)的上采樣操作將抽象的高級特征映射回原始的分辨率。這一過程包括四個(gè)階段,每個(gè)階段都包含一個(gè)2倍上采樣操作、一個(gè)3×3卷積層以及一個(gè)ReLU激活層。此外,解碼器在每個(gè)上采樣步驟中都引入了長跳躍連接,將編碼器各層提取的高分辨率特征圖與相應(yīng)上采樣層的特征圖進(jìn)行精確融合。這種設(shè)計(jì)使得解碼路徑能夠更加精細(xì)地恢復(fù)淺層細(xì)節(jié)特征,提高了裂縫識別的精確度。
(二)殘差卷積模塊
在本研究中,對U-Net模型的編碼器部分進(jìn)行了改進(jìn),即采用由兩個(gè)殘差單元組成的殘差卷積模塊來替代每一步的下采樣操作。第一個(gè)殘差單元的設(shè)計(jì)旨在通過兩次不同配置的卷積操作來增強(qiáng)特征的提取能力。首先使用步長為2的3×3卷積核實(shí)現(xiàn)下采樣,并捕獲更抽象的特征。隨后采用步長為1的3×3卷積核,以保持特征圖的細(xì)節(jié)信息。在建筑裂縫識別的應(yīng)用中,這種設(shè)計(jì)有助于更有效地提取裂縫特征,并在下采樣過程中減少細(xì)節(jié)的丟失,這對于復(fù)雜、細(xì)微的裂縫尤為重要。該過程可以表示為:
F=σ(conv3×3?(conv3×3?(X) )+conv1×1?(X) ) (1)
X為第一個(gè)殘差單元的輸入,conv3×3為3×3卷積核,conv1×1為1×1卷積核,σ為激活函數(shù)。第二個(gè)殘差單元的目的是在不改變特征圖分辨率和通道數(shù)的前提下進(jìn)行特征融合。因此,采用兩個(gè)步長均為1的3×3卷積核來維持特征圖的空間分辨率,同時(shí)防止模型的過擬合,提高泛化能力。該過程可以表示為:
(F=σ(conv3×3(conv3×3(X) )+X) (2)
X為第二個(gè)殘差單元的輸入,conv3×3為3×3卷積核,σ為激活函數(shù)。
(三)注意力模塊
為了在建筑裂縫識別中取得更好的效果,在編碼器設(shè)計(jì)的最后引入了基于Transformer的注意力模塊,以彌補(bǔ)傳統(tǒng)卷積編碼方式在提取空間細(xì)節(jié)時(shí)可能丟失上下文信息的問題。自注意力機(jī)制有助于捕捉圖像中的長距離依賴,從而提高對建筑裂縫特征的識別能力,并減少分割圖中裂縫的斷裂或冗余情況。設(shè)輸入的特征圖X∈RH×W×C,注意力特征提取的過程如下:
第一,進(jìn)行圖像序列化。將輸入設(shè)置為二維的小塊,設(shè)每個(gè)塊尺寸為P×P,得到序列化的塊向量xp∈RN×(P2?C),N=H×W/P2為塊的數(shù)量。
第二,執(zhí)行嵌入操作。通過可訓(xùn)練的線性映射將圖像塊序列映射到潛在空間,該過程表示為:
z0=[xp1E;xp2E;…;xpNE] (3)
E∈R(P2?C)×D代表線性映射矩陣,xpi代表第i個(gè)塊向量。
第三,添加位置信息,引入可學(xué)習(xí)的位置編碼,該過程表示為:
z0=z0+Epos (4)
Epos∈RN×D代表位置編碼。
最后,基于注意力機(jī)制提取特征,這里采用標(biāo)準(zhǔn)的Transformer結(jié)構(gòu),每個(gè)Transformer層由兩個(gè)標(biāo)準(zhǔn)化塊、一個(gè)多頭自注意力模塊和一個(gè)多層感知機(jī)模塊構(gòu)成。第l個(gè)Transformer層的計(jì)算表達(dá)為:
zl'=MSA (LN(zl-1) )+zl-1 (5)
zl=MLP (LN(zl' ))+zl' (6)
LN表示標(biāo)準(zhǔn)化層,“MSA”表示多頭子注意力模塊,“MLP”表示多層感知機(jī)模塊,zl-1表示第l個(gè)Transformer層的輸入,zl表示第l個(gè)Transformer層的特征輸出。這種結(jié)構(gòu)的設(shè)計(jì)特別適用于建筑裂縫識別任務(wù),有助于增強(qiáng)模型對裂縫的連續(xù)性和整體性的理解,進(jìn)而提高分割效果的準(zhǔn)確性和一致性。
(四)損失函數(shù)
在建筑裂縫識別的應(yīng)用中,裂縫像素通常與背景像素的數(shù)量差異巨大。針對這種不平衡的正負(fù)樣本分布,使用Dice損失函數(shù)。Dice損失的計(jì)算公式如下:
DiceLoss=1----2∑i=1N pigi+?
∑i=1N pi2+∑i=1N gi2+? (7)
pi代表預(yù)測值,gi代表真實(shí)值,N是像素點(diǎn)的總數(shù),?是平滑因子,用以防止分母為0。對于Dice損失函數(shù)相對于某個(gè)像素點(diǎn)pj的梯度計(jì)算,公式表示為:
(8)
可以觀察到,當(dāng)pj或gj的值很小時(shí),由于分母中包含平方項(xiàng),計(jì)算結(jié)果將會變得非常小,造成梯度異常放大,意味著Dice損失對于裂縫這類小尺寸目標(biāo)的分類錯(cuò)誤異常敏感,使得模型即使對裂縫的少量像素點(diǎn)預(yù)測錯(cuò)誤也會產(chǎn)生較大損失。利用這一特性,Dice損失能夠促使模型更精確地預(yù)測細(xì)小裂縫。
四、實(shí)驗(yàn)及結(jié)果分析
(一)實(shí)驗(yàn)環(huán)境
為了驗(yàn)證所提出的AU-Net建筑裂縫自動識別技術(shù)的有效性,本研究在多個(gè)數(shù)據(jù)集上進(jìn)行了一系列對比實(shí)驗(yàn)。實(shí)驗(yàn)所用的操作系統(tǒng)為Ubuntu 18.04,深度學(xué)習(xí)框架為PyTorch。此外,使用NVIDIA Geforce RTX 3080顯卡對所有模型進(jìn)行訓(xùn)練和測試。
(二)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)主要來源于混凝土的居民建筑和道路裂縫場景[5],包括:1.自行采集的居民建筑裂縫數(shù)據(jù)集,該數(shù)據(jù)集由600張224×224分辨率的裂縫圖像組成。2.CrackForestDataset(CFD)數(shù)據(jù)集,包含118張分辨率約為480×320像素的城市混凝土道路裂縫圖片。3.CrackLS315數(shù)據(jù)集,采用線陣相機(jī)技術(shù)采集的315張道路裂縫圖片。本實(shí)驗(yàn)將每個(gè)數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集三部分,比例為70%、15%和15%。確保訓(xùn)練和評估階段廣泛覆蓋各種情況,保證模型性能評估的公平性。
(三)基線模型
為了準(zhǔn)確評估AU-Net建筑裂縫自動識別技術(shù)的性能,選取了FCN8和標(biāo)準(zhǔn)的U-Net模型作為基線模型。FCN8模型是全卷積網(wǎng)絡(luò)的一種變體,將圖像中的每個(gè)像素分類。具體地,F(xiàn)CN8是一種通過將預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改造,移除全連接層,利用反卷積對多尺度特征進(jìn)行上采樣和融合,從而實(shí)現(xiàn)對每個(gè)像素進(jìn)行像素級別的語義分割;標(biāo)準(zhǔn)的U-Net模型是一種為醫(yī)學(xué)圖像分割設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),具備優(yōu)秀的特征提取和上下文信息融合能力。U-Net則采用了對稱的編碼器-解碼器結(jié)構(gòu),編碼器逐層提取不同尺度的特征表示,解碼器逐層對特征進(jìn)行上采樣和重建,同時(shí)通過大量的跳級連接融合不同尺度的特征信息,使其在醫(yī)學(xué)圖像分割等任務(wù)中表現(xiàn)出色。
(四)評價(jià)指標(biāo)
F1分?jǐn)?shù)和平均交并比(mean Intersection over Union,mIoU)是本實(shí)驗(yàn)的兩個(gè)主要評價(jià)指標(biāo),用于綜合評估模型性能。F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均數(shù),提供了一個(gè)單一指標(biāo)來評價(jià)模型對正樣本的識別能力。mIoU衡量預(yù)測區(qū)域與真實(shí)區(qū)域的重疊程度,是分類正確的像素與分類錯(cuò)誤及未分類的像素之間的比例,能夠直觀反映出模型的分割效果。
(五)結(jié)果及分析
經(jīng)測試,實(shí)驗(yàn)結(jié)果如表1所示。結(jié)果表明,在自采集居民建筑數(shù)據(jù)集上,AU-Net模型相比FCN8和U-Net分別在F1分?jǐn)?shù)上提高了大約15.2%和6.5%,在mIoU上提高了大約11.1%和2.9%。對于CFD數(shù)據(jù)集,AU-Net分別比FCN8和U-Net在F1分?jǐn)?shù)上提升了約6.2%和3.6%,在mIoU上提高了約5.9%和4.1%。在CrackLS315數(shù)據(jù)集上,AU-Net相較于FCN8和U-Net的F1分?jǐn)?shù)分別提升了6.7%和3.3%,mIoU分別提升了4.7%和2.0%??傮w而言,AU-Net在三個(gè)數(shù)據(jù)集上的平均F1分?jǐn)?shù)提升為9.4%,平均mIoU提升為7.2%。因此,AU-Net能夠更有效地融合多尺度特征并準(zhǔn)確捕捉裂縫的細(xì)微結(jié)構(gòu),從而提高裂縫檢測的精度和魯棒性。
五、結(jié)語
本研究提出了一種融合記憶力機(jī)制與U-Net架構(gòu)的深度學(xué)習(xí)模型以自動化識別建筑裂縫。該模型能夠有效捕捉和分析不同尺寸、形態(tài)的裂縫細(xì)微特征,實(shí)驗(yàn)結(jié)果顯示出顯著的精度提升。本研究提升了建筑裂縫檢測自動化水平、檢測的準(zhǔn)確性和操作的安全性,對于確保建筑物的耐久性和預(yù)防潛在災(zāi)害具有重要意義。未來工作將著力于模型的進(jìn)一步優(yōu)化,拓展其在實(shí)際應(yīng)用中的泛化能力,為建筑物的長期安全監(jiān)測提供強(qiáng)有力的技術(shù)支持。因此, AU-Net 的編碼器融合殘差卷積和Transformer自注意力層,能夠更好地捕獲局部細(xì)節(jié)和全局長范圍依賴關(guān)系,有助于更準(zhǔn)確地識別出曲折、斷裂的裂縫結(jié)構(gòu);解碼器采用級聯(lián)上采樣操作,能夠逐步恢復(fù)高分辨率的特征圖,使預(yù)測結(jié)果與原始圖像分辨率一致,從而保留更多細(xì)節(jié)信息,從而提高裂縫檢測的精度和魯棒性。
參考文獻(xiàn)
[1]陳紅彬,李華北.土木結(jié)構(gòu)物裂縫識別檢測的自動化研究[J].中州建設(shè),2011(18):68-69.
[2]張娟,沙愛民,高懷鋼,等.基于數(shù)字圖像處理的路面裂縫自動識別與評價(jià)系統(tǒng)[J].長安大學(xué)學(xué)報(bào):自然科學(xué)版,2004,24(02):18-22.
[3]李良福,馬衛(wèi)飛,李麗,等.基于深度學(xué)習(xí)的橋梁裂縫檢測算法研究[J].自動化學(xué)報(bào),2019,45(09):1727-1742.
[4]惠冰,李遠(yuǎn)見.基于改進(jìn)U型神經(jīng)網(wǎng)絡(luò)的路面裂縫檢測方法[J].交通信息與安全,2023,41(01):105-114.
[5]苗翔宇,劉華軍.基于金字塔特征和級聯(lián)注意力的路面裂縫檢測[J].計(jì)算機(jī)與數(shù)字工程,2023,51(03):629-634.
作者單位:河南測繪職業(yè)學(xué)院
責(zé)任編輯:張津平、尚丹