崔李三 鄧鵬 周圓兀
摘 要:為提高自密實(shí)混凝土骨料語(yǔ)義分割算法的性能,本文研究了一種融合注意力機(jī)制與深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)方法,該方法采用主流的編碼器(ResNet50)-解碼器(U-net)結(jié)構(gòu),建立了基于融合注意力機(jī)制與深度學(xué)習(xí)的自密實(shí)混凝土骨料語(yǔ)義分割模型,可以在像素級(jí)別上分割混凝土圖像中的骨料,并通過(guò)精度、召回率、F1分?jǐn)?shù)和交并比等4個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,在同一數(shù)據(jù)集下,本文模型評(píng)估性能優(yōu)于目前性能優(yōu)異的模型DeepLab V3+、PSPNet和HRnet,為評(píng)價(jià)自密實(shí)混凝土的穩(wěn)定性或抗靜態(tài)離析性提供了高效率的工具。
關(guān)鍵詞:深度學(xué)習(xí);注意力機(jī)制;語(yǔ)義分割;自密實(shí)混凝土;穩(wěn)定性評(píng)價(jià)
中圖分類號(hào):TP391.41;TU528.041 DOI:10.16375/j.cnki.cn45-1395/t.2023.04.006
0 引言
自密實(shí)混凝土是一種高流動(dòng)性、非離析混凝土,具有良好的自密性和耐久性能,可以在不使用振搗器的情況下實(shí)現(xiàn)更好的充填性和均勻性,降低工程施工難度和成本,具有廣泛的應(yīng)用前景,如高層建筑、大型橋梁和水利工程等。自密實(shí)混凝土通常使用特殊的配合比和添加劑,其制備過(guò)程中需要控制混凝土的流動(dòng)性和坍落度,以確?;炷辆哂芯鶆虻拿軐?shí)性和良好的耐久性能。由于自密實(shí)混凝土的制備較為復(fù)雜,需要采用特殊的工藝和技術(shù),因此,在實(shí)際應(yīng)用中需要嚴(yán)格控制混凝土的質(zhì)量和施工工藝,以確保其穩(wěn)定性和耐久性能。自密實(shí)混凝土的穩(wěn)定性或抗靜態(tài)離析性通??梢愿鶕?jù)硬化視覺(jué)穩(wěn)定性指數(shù)進(jìn)行評(píng)估[1],該方法主要通過(guò)縱向切割硬化混凝土,依靠人工目視比較不同高度的骨料分布,獲得其穩(wěn)定性信息,工作量大、效率低、數(shù)據(jù)精度受到限制。因此,利用圖像處理技術(shù)對(duì)自密實(shí)混凝土的內(nèi)部結(jié)構(gòu)進(jìn)行分析和評(píng)價(jià)成為了一種新的研究方向。這種方法可以通過(guò)數(shù)字圖像獲取和處理,快速、準(zhǔn)確地獲得自密實(shí)混凝土的內(nèi)部結(jié)構(gòu)信息,提高了評(píng)價(jià)的效率和精度。
近年來(lái),利用圖像處理方法評(píng)價(jià)自密實(shí)混凝土穩(wěn)定性的研究不斷涌現(xiàn),并取得了一定的研究成果。基于計(jì)算機(jī)視覺(jué)的檢測(cè)方法已逐漸應(yīng)用于混凝土骨料分割任務(wù),包括形態(tài)學(xué)分水嶺算法[2]、閾值[3]和邊緣檢測(cè)[4]等,這些方法雖然具有圖像處理速度快、人工操作少等優(yōu)勢(shì),但僅適合簡(jiǎn)單工況,應(yīng)用范圍小。隨著全卷積神經(jīng)網(wǎng)絡(luò)等一些深度學(xué)習(xí)算法在圖像處理技術(shù)中的應(yīng)用,為解決上述混凝土骨料分割方法的不足提供了有效手段[5]。深度學(xué)習(xí)算法中的語(yǔ)義分割模型主要使用編碼器-解碼器結(jié)構(gòu)(如SegNet[6]、U-net[7-8]、BTU-net[9]和PSPNet [10])。編碼器通常是一個(gè)卷積神經(jīng)網(wǎng)絡(luò),由多個(gè)卷積層和池化層組成,用于提取圖像的低級(jí)和高級(jí)特征,如VGG[11]、ResNet[12-13]、MobileNet[14]和GoogLeNet[15]。解碼器用于對(duì)提取的特征進(jìn)行進(jìn)一步優(yōu)化,通常包括轉(zhuǎn)置卷積層或上采樣層以及卷積層,以便將編碼器輸出的低維特征圖映射回原始圖像的像素空間。然而,使用編碼器-解碼器結(jié)構(gòu)應(yīng)用于骨料語(yǔ)義分割的問(wèn)題上主要存在2個(gè)問(wèn)題:骨料多尺度和骨料邊界信息丟失[6]。Lin等[7]提出特征金字塔網(wǎng)絡(luò)來(lái)解決分割任務(wù)中的對(duì)象多尺度問(wèn)題。Chen等[10]使用空洞卷積來(lái)放大感受野并聚合多尺度上下文信息,而不會(huì)減小特征映射的大小,從而減少邊界信息丟失。Sun等 [11]提出了一種多路徑高分辨率網(wǎng)絡(luò),通過(guò)高分辨率和低分辨率并行連接、交換信息,可以有效利用高分辨層的空間語(yǔ)義信息和低分辨率層的語(yǔ)義信息,使網(wǎng)絡(luò)解決多尺度和邊界信息丟失問(wèn)題更加高效。Milletari等[16]通過(guò)使用增加注意力機(jī)制模塊的ResNet50作為主干網(wǎng)絡(luò)改進(jìn)DeepLab V3+[10]網(wǎng)絡(luò),進(jìn)一步提高了模型性能。Wang等[12]設(shè)計(jì)了一種半監(jiān)督語(yǔ)義分割網(wǎng)絡(luò),與之前的方法相比,在精度指標(biāo)上(如召回率、交并比和精度)都有較大優(yōu)勢(shì),但模型相對(duì)復(fù)雜,訓(xùn)練更加困難,需要計(jì)算的資源也較大,Yang等[14]基于高速實(shí)時(shí)語(yǔ)義分割雙分支架構(gòu)設(shè)計(jì)了一個(gè)具有高分辨率分支和輕量化的全局語(yǔ)義分支,有效地保留語(yǔ)義分割所需的遠(yuǎn)程和局部上下文依賴關(guān)系,并且計(jì)算開(kāi)銷較低。
盡管基于深度學(xué)習(xí)的語(yǔ)義分割方法已在土木工程中廣泛使用,如建材質(zhì)量檢測(cè)[17]、建筑垃圾分類[18]、現(xiàn)場(chǎng)安全管理等,然而在自密實(shí)混凝土骨料圖像處理中的應(yīng)用較少。為提高深度學(xué)習(xí)的語(yǔ)義分割算法在自密實(shí)混凝土骨料圖像處理中的應(yīng)用,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的混凝土骨料語(yǔ)義分割算法,對(duì)自密實(shí)混凝土的圖像進(jìn)行自動(dòng)化處理,以期提高評(píng)價(jià)的準(zhǔn)確性與可靠性。
1 融合注意力機(jī)制的自密實(shí)混凝土骨料語(yǔ)義分割模型
為了實(shí)現(xiàn)混凝土截面圖像中自密實(shí)混凝土骨料的精確分割,本文提出了一種基于深度學(xué)習(xí)的新型架構(gòu)。該模型使用U-net[19]對(duì)沉積圖像進(jìn)行處理,并根據(jù)預(yù)測(cè)結(jié)果從圖像中提取骨料的形態(tài)特征。本文提出的自密實(shí)混凝土骨料語(yǔ)義分割框架如圖1所示。該方法采用具有編碼器-解碼器主流的語(yǔ)義分割結(jié)構(gòu)。編碼器提取輸入圖像特征,解碼器將低分辨率編碼器特征映射到輸入分辨率特征圖以實(shí)現(xiàn)全像素的分類。修改后的ResNet50[20]作為編碼器提取沉降圖像的特征,U-net作為解碼器實(shí)現(xiàn)分割。注意力機(jī)制通過(guò)學(xué)習(xí)進(jìn)行通道和空間維度上的注意力特征融合,本文在ResNet50的結(jié)構(gòu)中引入了一種通道空間注意力機(jī)制(convolutional block attention module,CBAM)[21],以模擬通道、空間維度之間的相關(guān)性并增強(qiáng)基本特征。本文模型使用的U-net解碼器部分可以分為2個(gè)階段:上采樣和卷積。上采樣階段使用2*2卷積核將編碼器中的低維特征圖放大,經(jīng)過(guò)5次上采樣放大到原始圖像的尺寸。U-net解碼器的上采樣階段與編碼器的相應(yīng)階段通過(guò)跳躍連接在一起,將編碼器中的高級(jí)特征圖與解碼器中的低級(jí)特征圖結(jié)合起來(lái)。跳躍連接保留高級(jí)特征圖的信息,可以減少多次卷積導(dǎo)致的骨料多尺度和邊界信息丟失,提高了分割精度。在最后一個(gè)卷積層上應(yīng)用softmax激活函數(shù)生成概率分布,進(jìn)行圖像分割預(yù)測(cè)。
1.1 注意力機(jī)制
在深度學(xué)習(xí)中,注意力機(jī)制為一個(gè)可學(xué)習(xí)的模塊,即通過(guò)在特征圖的通道或空間上計(jì)算一個(gè)權(quán)重向量,使網(wǎng)絡(luò)模型在訓(xùn)練時(shí)能夠動(dòng)態(tài)、自適應(yīng)地調(diào)整輸入的不同部分,達(dá)到使模型關(guān)注特定信息的目的。例如,在圖像分類中,注意力機(jī)制可以幫助模型識(shí)別與分類相關(guān)的局部區(qū)域,在語(yǔ)義分割中,可以幫助模型聚焦于具有語(yǔ)義信息的區(qū)域。本研究使用的CBAM[21]模塊的注意力機(jī)制結(jié)構(gòu)如圖2所示。CBAM模塊允許網(wǎng)絡(luò)動(dòng)態(tài)調(diào)整通道和空間權(quán)重以提高網(wǎng)絡(luò)的表達(dá)能力。通過(guò)該操作有效特征獲得大權(quán)重,無(wú)效或低效特征獲得小權(quán)重,訓(xùn)練模型獲得顯著效果。CBAM模塊的輸入和輸出的通道數(shù)、特征圖尺寸都是相同的,可以集成到網(wǎng)絡(luò)的任何位置。CBAM模塊分為通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)兩部分。CAM和SAM的計(jì)算公式分別為式(1)、式(2),
1.2 主干網(wǎng)絡(luò)
隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的不斷加深,訓(xùn)練CNN模型的難度也會(huì)逐漸增加。為了應(yīng)對(duì)訓(xùn)練深度CNN模型的困難,He等[20]提出深度殘差網(wǎng)絡(luò)(ResNet)來(lái)解決網(wǎng)絡(luò)深度加深引起的梯度消失或爆炸問(wèn)題,使用殘差連接(跳躍連接),以使原始輸入信息直接傳入以下輸出部分,進(jìn)一步降低了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度,有助于誤差反向傳播并優(yōu)化模型參數(shù)。在圖像識(shí)別、圖像分割、目標(biāo)定位等計(jì)算機(jī)視覺(jué)相關(guān)任務(wù)中取得了良好的效果。
使用修改后的ResNet50主干特征提取網(wǎng)絡(luò),ResNet50整體結(jié)構(gòu)如圖3所示。本文方法是在Conv Block和Identity Block 2個(gè)殘差塊內(nèi)增加CBAM注意力機(jī)制,以提高網(wǎng)絡(luò)的表達(dá)能力。修改后的ResNet50主干特征提取網(wǎng)絡(luò)有5個(gè)特征提取階段(Stage 0—Stage 4),每個(gè)階段都會(huì)得到1個(gè)特征圖(Feature),這5個(gè)特征圖為主干特征提取網(wǎng)絡(luò)的輸出。
1.3 損失函數(shù)
損失函數(shù)(loss function)在深度學(xué)習(xí)中的作用是衡量模型預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的差異程度,通過(guò)最小化損失函數(shù)來(lái)調(diào)整模型的參數(shù)使其能夠更準(zhǔn)確地預(yù)測(cè)輸出結(jié)果。損失函數(shù)的作用是將深度學(xué)習(xí)任務(wù)中的問(wèn)題轉(zhuǎn)化為一個(gè)數(shù)學(xué)優(yōu)化問(wèn)題,使得模型的優(yōu)化過(guò)程可以通過(guò)求解損失函數(shù)的最小值來(lái)實(shí)現(xiàn)。語(yǔ)義分割任務(wù)的常用損失函數(shù)包括交叉熵?fù)p失函數(shù)、Dice損失函數(shù)、Jaccard損失函數(shù)和focal損失函數(shù)等,常常根據(jù)具體任務(wù)和數(shù)據(jù)集的特點(diǎn)來(lái)選擇使用的損失函數(shù)。用于自密實(shí)混凝土骨料分割的數(shù)據(jù)集表現(xiàn)出樣本不平衡,圖像中骨料只占其中一部分像素,砂漿和拍攝背景占據(jù)了大部分像素。不平衡的訓(xùn)練樣本會(huì)導(dǎo)致訓(xùn)練模型專注于具有大量樣本的類,低估具有少量樣本的類,并最終影響測(cè)試集上的泛化性能[6]。為了解決網(wǎng)絡(luò)訓(xùn)練期間發(fā)生的樣本不平衡問(wèn)題,將Dice損失函數(shù)和focal損失函數(shù)結(jié)合起來(lái)指導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練。Dice損失函數(shù)用于計(jì)算2個(gè)樣本之間的相似性,通過(guò)學(xué)習(xí)類分布來(lái)緩解不平衡的像素問(wèn)題。focal損失函數(shù)側(cè)重于困難樣本,這迫使模型更好地學(xué)習(xí)分類不佳的像素。組合損失函數(shù)將難以分類的類和像素都考慮在內(nèi),使其在訓(xùn)練過(guò)程中更加穩(wěn)定。
[αt]是不平衡系數(shù),可通過(guò)設(shè)置[αt]取值實(shí)現(xiàn)控制易分類和難分類樣本對(duì)損失的貢獻(xiàn);[pt]是模型的估計(jì)概率;[lnpt]為標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù);γ是可調(diào)聚焦參數(shù),可通過(guò)設(shè)置γ取值實(shí)現(xiàn)控制正負(fù)樣本對(duì)損失的貢獻(xiàn);[α]是一個(gè)可調(diào)參數(shù),用于控制易于分類的樣本在損失計(jì)算中的權(quán)重,[α]的取值范圍為[0,1];y是標(biāo)簽值;[p]為模型對(duì)于樣本屬于真實(shí)類別的預(yù)測(cè)概率。
1.4 數(shù)據(jù)集
為了評(píng)估所提出的自密實(shí)混凝土骨料分割算法的性能,本文通過(guò)縱向切割混凝土圓柱體,可以獲得混凝土截面骨料分布的高分辨率圖像,使用Labelme標(biāo)注工具對(duì)圖像中的骨料進(jìn)行像素級(jí)的標(biāo)識(shí),每個(gè)像素對(duì)應(yīng)于骨料或背景類別。圖4為本文數(shù)據(jù)集樣本,標(biāo)簽圖為PNG格式,骨料被標(biāo)注為1,背景被標(biāo)注為0。標(biāo)注后數(shù)據(jù)集在GitHub上進(jìn)行了開(kāi)源共享(https://github.com/fanta12138)。同時(shí)加入了Coenen等提供的數(shù)據(jù)集[23]。由于計(jì)算機(jī)硬件的限制,不能將完整圖片輸入模型進(jìn)行訓(xùn)練,因此,制作數(shù)據(jù)集時(shí)截面圖像被裁剪為分辨率是512×512的圖像,共獲得了2 072張圖像。數(shù)據(jù)集分為訓(xùn)練集(包含1 491張圖像)、驗(yàn)證集(包含166 張圖像)和測(cè)試集(包含415張圖像)。在數(shù)據(jù)集帶標(biāo)簽的像素中,骨料類別的像素占比25.4%,背景類別占比74.6%。因此,類別分布是不均衡的。
2 模型訓(xùn)練
本文使用 Chollet[17]深度學(xué)習(xí)框架。實(shí)驗(yàn)是在Ubuntu系統(tǒng)工作站上進(jìn)行,該工作站配置了Intel Core i7-11700 CPU,工作頻率為2.50 GHz,32 GB DDR4內(nèi)存和NVIDIA RTX2080Ti GPU。遷移學(xué)習(xí)通常用于計(jì)算機(jī)視覺(jué)任務(wù),將信息從經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)傳輸?shù)叫戮W(wǎng)絡(luò),以解決類似的問(wèn)題并為模型提供更好的初始狀態(tài)。從頭開(kāi)始訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí),將對(duì)整個(gè)模型的權(quán)重進(jìn)行隨機(jī)初始化,沒(méi)有經(jīng)過(guò)大型數(shù)據(jù)集的預(yù)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)不容易收斂,而且所需計(jì)算資源太大。雖然本文提出的模型對(duì)原始ResNet50作了一定的改動(dòng),但仍使用原始ResNet50在ImageNet[18]大型數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重作為初始權(quán)重。
模型訓(xùn)練時(shí)利用 Adam優(yōu)化器更新模型參數(shù)。本文采用了余弦退火學(xué)習(xí)率下降方法調(diào)整學(xué)習(xí)率,與常規(guī)的學(xué)習(xí)率衰減方法相比,余弦退火學(xué)習(xí)率下降方法能夠更好地避免訓(xùn)練過(guò)程中的震蕩和過(guò)擬合問(wèn)題。其中初始學(xué)習(xí)率為1×10?4。通過(guò)使用余弦退火學(xué)習(xí)率下降方法,初始學(xué)習(xí)率被設(shè)置為一個(gè)比較大的值,這使得模型在訓(xùn)練初期可以快速地找到一個(gè)相對(duì)較好的局部最優(yōu)解。隨著訓(xùn)練的進(jìn)行,學(xué)習(xí)率會(huì)不斷地降低,使得模型可以緩慢地調(diào)整參數(shù)并最終收斂到全局最優(yōu)解。該網(wǎng)絡(luò)經(jīng)過(guò)100次迭代訓(xùn)練,每一輪中單次傳給網(wǎng)絡(luò)的圖像數(shù)量設(shè)置為4張。為方便訓(xùn)練,在前50次迭代訓(xùn)練時(shí)凍結(jié)主干網(wǎng)絡(luò)權(quán)重。在訓(xùn)練和驗(yàn)證過(guò)程中,參考模型在訓(xùn)練集和驗(yàn)證集上的損失、交并比作為模型訓(xùn)練狀態(tài)的監(jiān)控指標(biāo),并根據(jù)曲線的變化判斷模型是否收斂。如圖5所示,隨著訓(xùn)練迭代次數(shù)的增加,訓(xùn)練和驗(yàn)證過(guò)程中的交并比逐漸增加。在前50次訓(xùn)練結(jié)束后,主干網(wǎng)絡(luò)權(quán)重解凍,訓(xùn)練和驗(yàn)證損失曲線出現(xiàn)波動(dòng),隨著模型繼續(xù)訓(xùn)練優(yōu)化,最終收斂。
3 實(shí)驗(yàn)驗(yàn)證
3.1 骨料分割評(píng)估指標(biāo)
根據(jù)幾個(gè)常用于評(píng)價(jià)語(yǔ)義分割模型的指標(biāo),定量評(píng)價(jià)本文模型的性能。通過(guò)與標(biāo)簽的比較,評(píng)估了自密實(shí)混凝土骨料分割的結(jié)果。本文選擇了通常用于評(píng)估模型的4個(gè)指標(biāo):精度、召回率、F1分?jǐn)?shù)和交并比。將骨料像素視為正樣本,將背景像素視為負(fù)樣本。精度是指分類為骨料的所有像素中正確骨料像素的百分比;召回率是指正確分類的所有骨料像素的百分比;F1分?jǐn)?shù)是指精度和召回率的調(diào)和平均數(shù);交并比是指邊界框的真實(shí)值交集和并集的比值,用來(lái)預(yù)測(cè)分割精度。
3.2 注意力機(jī)制消融實(shí)驗(yàn)
本文利用相同的數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,以驗(yàn)證注意力機(jī)制CBAM塊對(duì)骨料分割模型性能的影響。如表1所示,由于增加了CBAM塊,網(wǎng)絡(luò)可以使用全局信息有選擇地增強(qiáng)包含有用信息的特征,并抑制無(wú)用的特征以提高模型性能。與沒(méi)有CBAM塊的神經(jīng)網(wǎng)絡(luò)相比,精度、召回率、F1分?jǐn)?shù)和交并比值分別提高了0.76%、1.90%、1.34%和2.59%。
3.3 損失函數(shù)消融實(shí)驗(yàn)
骨料分割數(shù)據(jù)集存在樣本不平衡,損失函數(shù)對(duì)模型性能有重大影響。本文訓(xùn)練了3個(gè)使用不同損失函數(shù)的網(wǎng)絡(luò),其他參數(shù)保持相同,以驗(yàn)證所提出的組合損失函數(shù)的效果。從表2中可以看出,提出的組合損失函數(shù)在精度、召回率、F1分?jǐn)?shù)和交并比方面的效果均好于其他2個(gè)損失函數(shù)。
3.4 模型對(duì)比
使用測(cè)試集來(lái)進(jìn)一步比較本文模型和其他3種語(yǔ)義分割模型及傳統(tǒng)閾值方法的性能。如表3所示,本文模型計(jì)算結(jié)果在4個(gè)指標(biāo)中都實(shí)現(xiàn)了最優(yōu)性能。此外,可以明顯看出,與傳統(tǒng)Otsu閾值方法相比,本文模型在精度、召回率、F1分?jǐn)?shù)和交并比方面的表現(xiàn)均優(yōu)于Otsu閾值方法,分別提升了37.77%、11.92%、24.86%和52.76%。
圖6為不同分割方法結(jié)果對(duì)比圖。由圖6可看出,本文模型可以對(duì)自密實(shí)混凝土骨料和砂漿進(jìn)行精確分割,特別是對(duì)小目標(biāo)骨料、輪廓和邊緣信息表現(xiàn)更高的準(zhǔn)確性(紅圈標(biāo)識(shí)所示),骨料的詳細(xì)分布信息可以很容易獲取。
表4為硬化自密實(shí)混凝土試樣視覺(jué)穩(wěn)定性指數(shù)評(píng)級(jí)標(biāo)準(zhǔn)(HVSI)[1],將圖像在高度方向上分割為4層,對(duì)分割結(jié)果進(jìn)行后處理,可準(zhǔn)確地得到圖像中骨料的分布。圖7為典型的自密實(shí)混凝土橫截面圖像和分層骨料分布。經(jīng)過(guò)本文算法預(yù)處理后,將橫截面切割成尺寸相等的4層,骨料像素被標(biāo)記為1,砂漿像素被標(biāo)記為0,經(jīng)算法統(tǒng)計(jì)確定每層的骨料/砂漿面積比,即圖7中的白/黑面積比。使用本文方法可以高效、客觀地評(píng)價(jià)自密實(shí)混凝土的穩(wěn)定性。
4 結(jié)論
本研究基于深度學(xué)習(xí)和圖像處理技術(shù)提出了一種混凝土骨料語(yǔ)義分割模型,可以快速、高效地提取出圖像中的骨料分布密度等相關(guān)參數(shù)。本文方法使用語(yǔ)義分割主流的編碼器-解碼器結(jié)構(gòu)、具有跳躍連接的U-net模型對(duì)自密實(shí)混凝土截面圖像的輸出特征圖進(jìn)行多尺度特征提取和融合,提高了模型對(duì)骨料邊緣信息的提取能力。引入CBAM注意力機(jī)制模塊顯著提高了編碼器的特征提取能力,綜合了Dice和focal 2種損失函數(shù),減少正負(fù)樣本不均衡的影響。通過(guò)與DeepLab V3+、HRnet和PSPnet 3種高性能分割方法在本文數(shù)據(jù)集上進(jìn)行比較,驗(yàn)證了本文方法的優(yōu)越性。自密實(shí)混凝土的圖像可以通過(guò)本文方法進(jìn)行自動(dòng)化處理,避免了人工處理的主觀性和不穩(wěn)定性,提高了評(píng)價(jià)的準(zhǔn)確性和可靠性。
參考文獻(xiàn)
[1] ASSAAD J J. Correlating thixotropy of self-consolidating concrete to stability,formwork pressure,and multilayer casting[J]. Journal of Materials in Civil Engineering,2016,28(10):1-10.
[2] 楊子晴,楊健,熊吳越. 基于改進(jìn)分水嶺算法的堆積態(tài)再生混合粗骨料圖像分析[J]. 硅酸鹽學(xué)報(bào),2021,49(8):1691-1698.
[3] 范九倫,趙鳳. 灰度圖像的二維Otsu曲線閾值分割法[J]. 電子學(xué)報(bào),2007,35(4):751-755.
[4] 高廣運(yùn),楊成斌,高盟,等. 持力層對(duì)大直徑擴(kuò)底灌注樁豎向承載性狀的影響[J]. 巖土工程學(xué)報(bào),2012,34(7):1184-1191.
[5] 李濤,王子豪,王庸道,等. 基于深度殘差網(wǎng)絡(luò)的油紙絕緣老化狀態(tài)識(shí)別策略研究[J].廣西科技大學(xué)學(xué)報(bào),2022,33(1):39-45.
[6] WANG W J,SU C,ZHANG H. Automatic segmentation of concrete aggregate using convolutional neural network[J]. Automation in Construction,2022,134:104106.
[7] LIN T Y,DOLL?R P,GIRSHICK R,et al. Feature pyramid networks for object detection[C]// Proceedings of 30th IEEE Conference on Computer Vision and Pattern Recognition,2017,106:936-944.
[8] 龍雪,李政林,王智文,等. 基于改進(jìn)U-Net網(wǎng)絡(luò)的肺部CT圖像結(jié)節(jié)分割方法[J].廣西科技大學(xué)學(xué)報(bào),2022,33(1):63-70,77.
[9] 文澤奇,林川,喬亞坤. 輪廓檢測(cè)深度學(xué)習(xí)模型中解碼網(wǎng)絡(luò)融合方法[J].廣西科技大學(xué)學(xué)報(bào),2021,32(4):43-49,57.
[10] CHEN L C,ZHU Y K,PAPANDREOU G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//15th European Conference on Computer Vision,2018,11211:833-851.
[11] SUN K,XIAO B,LIU D,et al. Deep high-resolution representation learning for human pose estimation[C]// Proceedings of the 32nd IEEE Conference on Computer Vision and Pattern Recognition,2019,2019:5686-5696.
[12] WANG W J,SU C. Semi-supervised semantic segmentation network for surface crack detection[J]. Automation in Construction,2021,128:103786.
[13] 王衢,林川,陳永亮.? 基于ResNet網(wǎng)絡(luò)與離散變分自編碼器的精細(xì)輪廓檢測(cè)方法[J].廣西科技大學(xué)學(xué)報(bào),2022,33(3):8-13,28.
[14] YANG M Y,KUMAAR S,LYU Y,et al. Real-time semantic segmentation with context aggregation network[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2021,178:124-134.
[15] 羅紹猛,文家燕,陳彬. 基于改進(jìn)GoogLeNet的瘢痕色澤和血管分布評(píng)估算法[J]. 廣西科技大學(xué)學(xué)報(bào),2022,33(3):36-42,52.
[16] MILLETARI F,NAVAB N,AHMADI S A. V-Net:fully convolutional neural networks for volumetric medical image segmentation[C]//Proceedings of the 4th? IEEE International Conference on 3D Vision,2016,2016:565-571.
[17] CHOLLET F.? Keras:the python deep learning library[EB/OL]. (2017)[2022-10-19]. https://keras.io/.
[18] DENG J,DONG W,SOCHER R,et al. ImageNet:a large-scale hierarchical image database[C]// IEEE Conference on Computer Vision and Pattern Recognition,Princeton,USA:IEEE,2009.
[19] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-net:convolutional networks for biomedical image segmentation [C]//18th International Conference on Medical Image Computing and Computer-Assisted Intervention,2015,9351:234-241.
[20] HE K,ZHANG X Y,REN S,et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recog-
nition,2016,2016:770-778.
[21] WOO S,PARK J,LEE J Y,et al. CBAM:convolutional block attention module[C]//Proceedings of the 15th European Conference on Computer Vision,2018,11211 LNCS:3-19.
[22] LIN T Y,GOYAL P,GIRSHICK R,et al. Focal loss for dense object detection[C]// Proceedings of the IEEE International Conference on Computer Vision,2017,2017:2999-3007.
[23] COENEN M,SCHACK T,BEYER D,et al. Semi-supervised segmentation of concrete aggregate using consensus regularisation and prior guidance [C]// ISPRS Annals of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2021,5(2):83-91.
Improved U-net semantic segmentation algorithm for
self-compacting concrete aggregate
CUI Lisan, DENG Peng, ZHOU Yuanwu*
(School of Civil Engineering and Architecture, Guangxi University of Science and Technology,
Liuzhou 545006, China)
Abstract: To improve the performance of semantic segmentation algorithm for self-compacting concrete aggregate, a computer vision method integrating attention mechanism and deep learning was developed. This method adopted the mainstream encoder (ResNet50)-decoder (U-net) structure, and established a semantic segmentation model of self-compacting concrete aggregate based on attention mechanism and deep learning. It could segment aggregate in concrete image at pixel level. The model was evaluated by four indicators:precision, recall, F1 score and IoU. The experimental results show that under the same dataset, the evaluation performance of this model is better than those of DeepLab V3+, PSPnet and HRnet, which have excellent performance at present. This provides an efficient tool for evaluating the stability or static segregation resistance of self-compacting concrete.
Key words: deep learning; attention mechanism; semantic segmentation; self-compacting concrete; stability evaluation
(責(zé)任編輯:羅小芬)
收稿日期:2022-11-26
基金項(xiàng)目:廣西高校中青年教師科研基礎(chǔ)能力提升項(xiàng)目(2022KY0348);國(guó)家自然科學(xué)基金項(xiàng)目(51908141);廣西科技大學(xué)博士掛職駐柳企業(yè)工作項(xiàng)目(BSGZ2127);廣西科技大學(xué)博士基金項(xiàng)目(校科博14z13);廣西高等教育本科教學(xué)改革工程項(xiàng)目(2020JGZ129);2022年度校級(jí)本科教育教學(xué)改革項(xiàng)目(2022XJJG51)資助
第一作者:崔李三,博士,工程師,研究方向:建筑儲(chǔ)能與節(jié)能材料
*通信作者:周圓兀,博士,副教授,碩士生導(dǎo)師,研究方向:遺傳算法、邊坡穩(wěn)定性分析,E-mail:ywzhou@gxust.edu.cn