何國(guó)歡,朱江平
WT-U-Net++:基于小波變換的表面缺陷檢測(cè)網(wǎng)絡(luò)
何國(guó)歡,朱江平*
(四川大學(xué) 計(jì)算機(jī)學(xué)院,成都 610065)( ? 通信作者電子郵箱zjp16@scu.edu.cn)
針對(duì)傳統(tǒng)機(jī)器視覺(jué)算法在表面缺陷檢測(cè)中精度低、無(wú)法適應(yīng)環(huán)境變化和噪聲影響的問(wèn)題,提出一種基于小波變換(WT)的改進(jìn)UNet++——WT-U-Net++。首先,由WT獲取缺陷圖像的高頻與低頻分量,再通過(guò)多尺度模塊MCI(Mix-Conv Inception)提取高、低頻分量的細(xì)節(jié)特征;其次,將MCI模塊提取到的細(xì)節(jié)特征與原始圖像融合,并將融合結(jié)果作為改進(jìn)UNet++的輸入;再次,在UNet++的下采樣階段引入通道注意力模塊,從而使網(wǎng)絡(luò)在捕獲更多上下文語(yǔ)義信息的同時(shí)提高跨層特征級(jí)聯(lián)的質(zhì)量,而在上采樣階段采用反卷積恢復(fù)更多的缺陷細(xì)節(jié)信息;最后,從UNet++的多個(gè)輸出中選擇最佳結(jié)果作為檢測(cè)結(jié)果。在鐵軌、磁瓦、硅鋼油污這3個(gè)公開(kāi)缺陷數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相較于次優(yōu)的UNet++,WT-U-Net++的交并比(IoU)分別提高了7.98%、4.63%和8.74%,相似度度量指標(biāo)(DSC)分別提高了4.26%、2.99%和4.64%。
UNet++;表面缺陷檢測(cè);小波變換;通道注意力;反卷積
目前我國(guó)制造業(yè)持續(xù)快速發(fā)展,缺陷檢測(cè)是把控質(zhì)量的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的人工缺陷檢測(cè)效率低,檢測(cè)結(jié)果易受人為因素干擾,不能滿足現(xiàn)代工業(yè)檢測(cè)場(chǎng)景需求。因此,非接觸式的高精度、高效率的缺陷檢測(cè)對(duì)工業(yè)生產(chǎn)制造有著重大的意義。
根據(jù)不同的圖像特征,可以將傳統(tǒng)的機(jī)器視覺(jué)缺陷檢測(cè)算法分為3類(lèi):基于紋理特征、顏色特征和形狀特征的算法。紋理特征反映圖像的同質(zhì)性現(xiàn)象,通過(guò)像素點(diǎn)及其鄰近空間鄰域的灰度分布表征圖像組織結(jié)構(gòu)和排列屬性,常見(jiàn)的算法有局部二值模式(Local Binary Pattern, LBP)[1-2]、線性尺度微分(Linear Scale-space Differential, LSD)[3]法和小波變換(Wavelet Transform, WT)[4]等?;陬伾卣鞯姆椒ㄓ?jì)算量小,并且不受圖像尺寸、方向、視角等因素的限制,魯棒性強(qiáng),典型的算法有顏色直方圖(Color Histogram, CH)[5]、色矩(Color Moment, CM)[6]法。形狀特征屬于中間層特征,主要描述圖像的輪廓和區(qū)域特征,如傅里葉形狀描述子(Fourier Shape Descriptor, FSD)[7]、霍夫變換(Hough Transform, HT)[8]。傳統(tǒng)缺陷檢測(cè)算法特別依賴(lài)缺陷特征和圖像質(zhì)量,它的特征提取算子需人為設(shè)計(jì),多針對(duì)單一場(chǎng)景,無(wú)法適應(yīng)背景、光照等環(huán)境變化和噪聲影響,檢測(cè)精度較低。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在缺陷檢測(cè)領(lǐng)域取得飛速發(fā)展,為實(shí)現(xiàn)高精度、高效率的表面缺陷檢測(cè)提供了新方法。基于CNN的表面缺陷檢測(cè)算法大致分為分類(lèi)網(wǎng)絡(luò)、檢測(cè)網(wǎng)絡(luò)和分割網(wǎng)絡(luò)?;贑NN的分類(lèi)網(wǎng)絡(luò)已成為表面缺陷檢測(cè)最常用的算法,Soukup等[9]首先采集光度立體圖像訓(xùn)練CNN,實(shí)現(xiàn)軌道表面缺陷分類(lèi)。Deitsch等[10]將改進(jìn)的VGG19(Visual Geometry Group 19)網(wǎng)絡(luò)應(yīng)用于太陽(yáng)能電池板缺陷檢測(cè),并證明該算法優(yōu)于尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)和支持向量機(jī)(Supported Vector Machine, SVM)分類(lèi)器。檢測(cè)網(wǎng)絡(luò)可分為兩階段網(wǎng)絡(luò)(如Faster R-CNN[11-12])和單階段網(wǎng)絡(luò)(如SSD(Single Shout multibox Detector)[13]、YOLO[14])。兩階段網(wǎng)絡(luò)具有更好的精度,而單階段網(wǎng)絡(luò)具有更快的速度。分類(lèi)網(wǎng)絡(luò)僅能夠判斷缺陷是否存在和不同缺陷類(lèi)別,但是無(wú)法定位缺陷,因此在實(shí)際應(yīng)用場(chǎng)景中存在一定的局限性;檢測(cè)網(wǎng)絡(luò)通過(guò)預(yù)測(cè)框可以直接定位缺陷位置,且檢測(cè)算法已趨向成熟,算法精度較高,在工業(yè)缺陷檢測(cè)中廣泛應(yīng)用,但它只能定位缺陷位置,無(wú)法準(zhǔn)確描述缺陷的輪廓。
分割網(wǎng)絡(luò)通過(guò)區(qū)分缺陷與正常區(qū)域,將表面缺陷檢測(cè)任務(wù)轉(zhuǎn)換為語(yǔ)義分割或者實(shí)例分割問(wèn)題,不僅可以精細(xì)分割缺陷區(qū)域,還可以獲取缺陷的位置、類(lèi)別和相應(yīng)的幾何屬性。典型的分割網(wǎng)絡(luò)包括全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[15]、SegNet[16-17]系列和U-Net[18]系列。U-Net是一種典型的編碼解碼結(jié)構(gòu),與FCN相比,U-Net的跳層連接將編碼器與解碼器的特征跨層融合,有利于恢復(fù)圖像細(xì)節(jié)。U-Net在醫(yī)學(xué)圖像處理取得了矚目的成績(jī),而工業(yè)缺陷圖像與醫(yī)學(xué)圖像相似,它們的語(yǔ)義信息簡(jiǎn)單、結(jié)構(gòu)固定,且通常為小規(guī)模數(shù)據(jù)集。針對(duì)工業(yè)缺陷圖像檢測(cè)模型過(guò)大、參數(shù)過(guò)多容易導(dǎo)致過(guò)擬合的問(wèn)題,U-Net系列編碼器?解碼器這一從低分辨到高分辨的輕量網(wǎng)絡(luò)結(jié)構(gòu)完美契合了工業(yè)缺陷圖像的特性。
在編碼階段,U-Net的下采樣通過(guò)擴(kuò)大感受野提取深層的圖像特征,這些深層特征有助于判斷圖像是否存在缺陷;但是在下采樣的過(guò)程中,圖像的分辨率也隨之下降,導(dǎo)致圖像丟失一些細(xì)節(jié)信息,如顏色、形狀等。UNet++[19]是U-Net的變體網(wǎng)絡(luò),UNet++在解碼階段采用多解碼器設(shè)計(jì),多解碼器通過(guò)從編碼器不同層解碼,能夠同時(shí)捕獲深層特征和淺層特征,融合深、淺層特征以獲取豐富的多尺度信息,加強(qiáng)網(wǎng)絡(luò)性能,提高泛化能力。因此,本文將UNet++應(yīng)用于表面缺陷檢測(cè)。另外,深度學(xué)習(xí)方法雖然在提取特征的能力上相較于傳統(tǒng)算法有著明顯優(yōu)勢(shì),但由于它的“黑盒”屬性,難以針對(duì)具體場(chǎng)景調(diào)參。相反,傳統(tǒng)算法雖然對(duì)背景、光照等環(huán)境變化和噪聲干擾適應(yīng)性差,但它的計(jì)算復(fù)雜度低,可以提取并應(yīng)用圖像的一些底層特征?;诖耍疚奶岢鲆环N基于小波變換[20]的改進(jìn)UNet++——WT-U-Net++,用于工業(yè)場(chǎng)景下的表面缺陷檢測(cè)。
本文主要工作如下:
1)提出一種基于小波變換的表面缺陷檢測(cè)網(wǎng)絡(luò)WT-U-Net++,通過(guò)小波變換獲取圖像的高、低頻分量,增加缺陷特征的豐富度;
2)引入MCI(Mix-Conv Inception)模塊,對(duì)高、低頻分量提取多尺度特征,使它更好地融入檢測(cè)網(wǎng)絡(luò);
3)改進(jìn)UNet++,在下采樣階段引入通道注意力增強(qiáng)網(wǎng)絡(luò)的檢測(cè)性能,在上采樣階段使用反卷積加強(qiáng)網(wǎng)絡(luò)細(xì)節(jié)恢復(fù)能力。
WT-U-Net++的整體結(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)由MCI模塊和改進(jìn)UNet++構(gòu)成。首先,將待檢測(cè)三通道(RGB)缺陷圖像輸入網(wǎng)絡(luò),經(jīng)過(guò)小波變換提取特征,得到近似分量(CA)、水平分量(CH)、垂直分量(CV)和對(duì)角分量(CD)這4個(gè)單通道分量;其次,將4個(gè)分量融合,作為MCI模塊的輸入,使小波變換得到的特征更好地融入網(wǎng)絡(luò);最后,與原始輸入融合,作為檢測(cè)網(wǎng)絡(luò)改進(jìn)UNet++的輸入。其中,經(jīng)過(guò)MCI模塊得到的特征首先經(jīng)過(guò)改進(jìn)UNet++的編碼器提取下采樣特征,對(duì)缺陷定位與分割;同時(shí),在編碼器階段,引用注意力機(jī)制獲取更多的上下文語(yǔ)義信息,增強(qiáng)網(wǎng)絡(luò)性能。其次,通過(guò)解碼器上采樣恢復(fù)缺陷形狀,解碼器中采用反卷積上采樣模塊(D-Up)增強(qiáng)缺陷細(xì)節(jié)恢復(fù)能力。最后,經(jīng)過(guò)檢測(cè)網(wǎng)絡(luò)預(yù)測(cè)得到多個(gè)輸出,選擇最優(yōu)輸出作為網(wǎng)絡(luò)的輸出。
圖1 所提網(wǎng)絡(luò)的整體結(jié)構(gòu)
1.2.1小波變換
小波變換將空域信息轉(zhuǎn)換到小波域進(jìn)行特征提取,通過(guò)縮放、平移等操作函數(shù)對(duì)圖像進(jìn)行多尺度細(xì)化分析,其次將圖像分解為不同的特征向量。通過(guò)哈爾小波變換(Haar Wavelet Transform, HWT)將輸入圖像分解成1個(gè)低頻分量與3個(gè)高頻分量,計(jì)算公式為:
1.2.2MCI模塊
為了使小波變換得到的分量都能夠提供有效的缺陷信息,本文構(gòu)建了MCI模塊,從分量中提取有效特征,減少噪聲干擾。為了避免不同分量的相互影響,首先將4個(gè)分量通過(guò)concat操作在通道上疊加,其次經(jīng)過(guò)兩個(gè)3×3卷積塊提取粗特征:
卷積核的大小表征著不同的特征提取能力,大核卷積更容易捕獲全局信息,而小核卷積提取局部特征的能力更強(qiáng)。大部分的缺陷圖像語(yǔ)義信息簡(jiǎn)單,所占圖像面積比例較小,因而缺陷是一種局部特征?;诖?,本文構(gòu)建一種小核卷積的Inception結(jié)構(gòu)[21],即MCI,如圖2所示。
圖2 MCI模塊
表1 卷積層的組成
1.3.1UNet++
WT-U-Net++以UNet++為基礎(chǔ),如圖3所示,UNet++主要由編碼器與解碼器兩部分組成:編碼器負(fù)責(zé)下采樣,壓縮缺陷圖像并提取特征;解碼器通過(guò)上采樣恢復(fù)圖像尺寸和缺陷細(xì)節(jié)信息。通常,對(duì)于不同應(yīng)用場(chǎng)景,網(wǎng)絡(luò)的最佳深度取決于數(shù)據(jù)集的大小和難度,而UNet++將多個(gè)不同深度的U-Net統(tǒng)合到一個(gè)網(wǎng)絡(luò),從多個(gè)U-Net路徑中選擇最佳結(jié)果作為最終輸出,這種結(jié)構(gòu)不僅可以提高網(wǎng)絡(luò)的多尺度檢測(cè)性能,同時(shí)也加強(qiáng)對(duì)不同尺寸的圖像的適應(yīng)性,提升網(wǎng)絡(luò)的泛化性。另外,與大多數(shù)的級(jí)聯(lián)操作僅連接同層的編碼器,與解碼器相比,UNet++的級(jí)聯(lián)操作還連接了同層的淺層解碼器,有助于深層解碼器從淺層解碼器捕獲更豐富的空間域信息,獲取更豐富的缺陷特征。
圖3 改進(jìn)UNet++
1.3.2通道注意力模塊
受注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域成功應(yīng)用的啟發(fā),在UNet++的下采樣階段引入通道注意力機(jī)制[22]。除了可以使網(wǎng)絡(luò)學(xué)習(xí)到廣泛的上下文信息從而提高檢測(cè)性能外,引入通道注意力機(jī)制還有以下兩個(gè)好處。首先,小波變換提取的特征與原始圖像在通道層面融合,通道注意力側(cè)重通道關(guān)系,通過(guò)顯性建模加強(qiáng)通道之間的相互依賴(lài)性,從而可以校準(zhǔn)不同通道間的特征響應(yīng);其次,通道注意力作用于特征跨層融合階段,原始UNet++級(jí)聯(lián)操作未考慮不同通道的特征的差異性和淺層特征存在的噪聲等,通道注意力通過(guò)對(duì)特征重新編碼,計(jì)算通道間的相互關(guān)系,對(duì)不同通道的權(quán)重重新分配,提高了特征融合的質(zhì)量。如圖4所示,通道注意力模塊主要包括池化操作、多層感知機(jī)(Multi-Layer Perceptron, MLP)。
在缺陷檢測(cè)任務(wù)中,更加關(guān)注缺陷本身的特征而非缺陷圖像的背景,即更關(guān)注局部特征而非全局特征,因此采用最大池化獲得更準(zhǔn)確的語(yǔ)義信息。輸入特征首先經(jīng)過(guò)池化操作,得到一個(gè)包含空間上下文信息的1×1×(為通道數(shù))特征圖;其次將它送入包含兩個(gè)1×1卷積的MLP,第一層卷積操作后為激活函數(shù)ReLU,通過(guò)MLP的特征圖經(jīng)過(guò)Sigmoid函數(shù)得到注意力特征;最后,與輸入特征相乘,得到輸出特征。通道注意力模塊計(jì)算公式如下:
其中:表示Sigmoid函數(shù);MLP代表多層感知機(jī);max_pool表示最大池化操作;、和分別為輸入、中間特征和輸出特征。
1.3.3反卷積上采樣模塊
在下采樣階段,網(wǎng)絡(luò)對(duì)圖像提取特征的同時(shí)也降低了圖像的分辨率,減少了網(wǎng)絡(luò)運(yùn)算量并過(guò)濾部分噪聲,但同時(shí)也會(huì)使圖像丟失掉大量的細(xì)節(jié),因此需要通過(guò)上采樣恢復(fù)圖像的尺寸及其細(xì)節(jié)信息。傳統(tǒng)的上采樣通常采用線性插值,而線性插值的方式需要人工設(shè)計(jì)參數(shù),插值結(jié)果的好壞取決于插值參數(shù)的設(shè)計(jì);而反卷積與預(yù)先定義的插值法不同,它有可學(xué)習(xí)的參數(shù),可以自動(dòng)學(xué)習(xí)適當(dāng)?shù)淖儞Q,從而增強(qiáng)網(wǎng)絡(luò)對(duì)不同圖像的適應(yīng)能力。如圖5所示,輸入特征經(jīng)過(guò)反卷積操作擴(kuò)展圖像尺寸,其次通過(guò)卷積操作學(xué)習(xí)參數(shù)與特征分配得到輸出特征。
圖5 反卷積模塊
本文實(shí)驗(yàn)基于Windows10專(zhuān)業(yè)版下搭建的PyTorch深度學(xué)習(xí)框架,詳細(xì)運(yùn)行環(huán)境見(jiàn)表2。訓(xùn)練過(guò)程中使用了Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 1,迭代80個(gè)周期。
表2 實(shí)驗(yàn)運(yùn)行環(huán)境
為了驗(yàn)證WT-U-Net++的性能,分別采用多個(gè)開(kāi)源數(shù)據(jù)集驗(yàn)證,主要包括:鐵軌數(shù)據(jù)集(Type-Ⅰ RSDDs)[23]、磁瓦數(shù)據(jù)集[24]和硅鋼油污數(shù)據(jù)集[25]。由于磁瓦數(shù)據(jù)集中缺陷圖像大小不一,為了統(tǒng)一尺寸且不影響缺陷特征,從中挑選118張缺陷圖像。數(shù)據(jù)集樣例見(jiàn)圖6,每對(duì)圖像分別為缺陷圖像及其真值。數(shù)據(jù)集簡(jiǎn)介見(jiàn)表3。
表3 數(shù)據(jù)集
圖6 數(shù)據(jù)集樣例
上述數(shù)據(jù)集中鐵軌數(shù)據(jù)集和磁瓦數(shù)據(jù)集均已給出真值,硅鋼油污數(shù)據(jù)由人工標(biāo)注,標(biāo)注工具為L(zhǎng)abelMe[26]。深度學(xué)習(xí)是以數(shù)據(jù)為驅(qū)動(dòng)的科學(xué)方法,數(shù)據(jù)量不僅影響結(jié)果,同時(shí)也影響訓(xùn)練的難度,而在真實(shí)的工業(yè)場(chǎng)景中,缺陷數(shù)據(jù)集的規(guī)模通常較小,它的數(shù)量通常在幾十例到幾百例不等。為了解決數(shù)據(jù)短缺的問(wèn)題,使用數(shù)據(jù)增強(qiáng)手段,同時(shí)為盡可能模擬工業(yè)場(chǎng)景下復(fù)雜的檢測(cè)環(huán)境,在圖像處理過(guò)程中加入隨機(jī)高斯噪聲、隨機(jī)Gamma、高斯模糊等方式仿真生成噪聲數(shù)據(jù);通過(guò)調(diào)整對(duì)比度、明亮度、飽和度、加入光學(xué)畸變等方式,仿真生成不同光照條件下的缺陷數(shù)據(jù),具體增強(qiáng)方式如表4所示。使用基于OpenCV的快速圖像增強(qiáng)庫(kù)Albumentations[27],訓(xùn)練過(guò)程中按照8∶2將數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集,再將數(shù)據(jù)等比例增強(qiáng),增強(qiáng)后的數(shù)據(jù)量為原始數(shù)據(jù)的20倍。
表4 數(shù)據(jù)增強(qiáng)方式
通過(guò)兩個(gè)評(píng)價(jià)指標(biāo)評(píng)估WT-U-Net++的有效性,指標(biāo)為交并比(Intersection over Union, IoU)和相似度度量指標(biāo)(Dice Similarity Coefficient, DSC),計(jì)算公式如下:
選擇U-Net[18]、UNet++[19]、AttentionU-Net[28]、SegNet[16]作為實(shí)驗(yàn)對(duì)比對(duì)象,不同網(wǎng)絡(luò)在測(cè)試集上的部分檢測(cè)結(jié)果如圖7~9所示。
如圖7所示,第1行缺陷圖像有大小不同的兩個(gè)缺陷,5個(gè)網(wǎng)絡(luò)均能完整地檢測(cè)較大的缺陷,而U-Net、AttentionU-Net與SegNet無(wú)法完整檢測(cè)較小的缺陷。UNet++雖然能較好地恢復(fù)缺陷形狀,但嚴(yán)重受到噪聲干擾,只有WT-U-Net++既完整恢復(fù)了缺陷信息,又較少受到噪聲干擾。第2行的缺陷形狀更小且受到光照反射的干擾,只有WT-U-Net++能夠完整地檢測(cè)所有缺陷信息,其他對(duì)比網(wǎng)絡(luò)均有不同程度的缺陷漏檢。第3行中,只有U-Net與WT-U-Net++受到偽缺陷影響較小,但WT-U-Net++的缺陷檢測(cè)結(jié)果更完整。
從圖8可以看出,在第1行中,U-Net、AttentionU-Net和SegNet在不同程度上受到噪聲干擾,WT-U-Net++和UNet++均達(dá)到了較好的檢測(cè)效果。在第2行中,UNet++表現(xiàn)較差,WT-U-Net++表現(xiàn)最優(yōu)。在第3行中,只有WT-U-Net++能夠較為完整地恢復(fù)圖像右方的缺陷。
從圖9可以看出,在第1行中,WT-U-Net++恢復(fù)了最完整的缺陷信息,而其他對(duì)比網(wǎng)絡(luò)都未能恢復(fù)完整缺陷形狀,SegNet甚至出現(xiàn)誤檢。在第2行中,U-Net、AttentionU-Net和UNet++雖然都完整地恢復(fù)了缺陷形狀,但它們?cè)诓煌潭壬隙际艿搅藗稳毕莸母蓴_,導(dǎo)致產(chǎn)生一些額外的噪聲信息;SegNet雖然受到偽缺陷干擾程度小,但是恢復(fù)缺陷信息能力較差;只有WT-U-Net++受偽缺陷影響最小且完整恢復(fù)了缺陷形狀。第3行中,由于位于圖像下方的缺陷對(duì)比度較低且缺陷較小,只有WT-U-Net++恢復(fù)缺陷形狀最為完整。
圖7 不同網(wǎng)絡(luò)在鐵軌數(shù)據(jù)集上的檢測(cè)結(jié)果對(duì)比
圖8 不同網(wǎng)絡(luò)在磁瓦數(shù)據(jù)集上的檢測(cè)結(jié)果對(duì)比
圖9 不同網(wǎng)絡(luò)在硅鋼油污數(shù)據(jù)集上的檢測(cè)結(jié)果對(duì)比
為了充分驗(yàn)證WT-U-Net++的優(yōu)越性,本文在IoU與DSC兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)下進(jìn)行比較,具體結(jié)果見(jiàn)表5??梢钥闯?,WT-U-Net++在IoU指標(biāo)上最低為0.758,最高為0.814,在DSC指標(biāo)上最低為0.856,最高達(dá)到0.897,在IoU、DSC上的平均精度分別達(dá)78.53%、87.73%,WT-U-Net++在3個(gè)數(shù)據(jù)集上的表現(xiàn)在5個(gè)網(wǎng)絡(luò)之中最好。在3個(gè)數(shù)據(jù)集上,相較于次優(yōu)的UNet++,WT-U-Net++的交并比分別提高了7.98%、4.63%和8.74%,相似度度量指標(biāo)提高了4.26%、2.99%和4.64%,WT-U-Net++在不同的缺陷數(shù)據(jù)類(lèi)型下均有較好的表現(xiàn),具有一定的通用性。
為了驗(yàn)證所提模塊的有效性,在鐵軌數(shù)據(jù)集和磁瓦數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果如表6所示。原始模塊未添加小波變換(WT)、MCI模塊、通道注意力模塊(ATT)和反卷積上采樣模塊(D-Up),上采樣由二次線性插值代替。
表6 消融實(shí)驗(yàn)結(jié)果
從表6中可以看出,在鐵軌和磁瓦數(shù)據(jù)集上,相較于原始模塊,WT分別使IoU、DSC提升0.85%、0.24%和2.88%、1.67%;在添加WT的基礎(chǔ)上,MCI模塊分別使IoU、DSC再次提升0.98%、0.48%和6.14%、4.00%。在添加WT和MCI模塊的基礎(chǔ)上,分別又針對(duì)ATT和D-Up模塊進(jìn)行驗(yàn)證,結(jié)果表明兩個(gè)模塊對(duì)IoU、DSC兩個(gè)指標(biāo)均有所提升。最后同時(shí)使用4個(gè)模塊,兩個(gè)指標(biāo)上達(dá)到最優(yōu)效果,由此驗(yàn)證了本文所提出的4個(gè)模塊可以有效提高檢測(cè)性能。
本文提出一種基于小波變換的表面缺陷檢測(cè)網(wǎng)絡(luò)WT-U-Net++,通過(guò)引入小波變換獲取缺陷圖像的高頻以及低頻分量,豐富了缺陷特征信息。同時(shí),構(gòu)建MCI模塊對(duì)特征信息進(jìn)行多尺度融合,使通過(guò)小波變換得到的細(xì)節(jié)信息更好地融入網(wǎng)絡(luò)。另外,改進(jìn)UNet++,引入通道注意力機(jī)制增強(qiáng)對(duì)特征語(yǔ)義信息的獲取且提高跨層特征融合的質(zhì)量,從而增強(qiáng)網(wǎng)絡(luò)的性能和魯棒性。最后,引入反卷積進(jìn)行上采樣,使恢復(fù)的缺陷信息更加完整且準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明,WT-U-Net++在多個(gè)應(yīng)用場(chǎng)景下均有較好的檢測(cè)效果,相較于其他對(duì)比網(wǎng)絡(luò),WT-U-Net++具有較大的優(yōu)勢(shì)。
然而由于缺陷樣本不同類(lèi)型樣本量的不平衡,所提網(wǎng)絡(luò)的缺陷識(shí)別精度仍有待提高,因此在后續(xù)工作中,將會(huì)針對(duì)數(shù)據(jù)的不平衡性對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,并對(duì)網(wǎng)絡(luò)模型持續(xù)優(yōu)化,提升檢測(cè)精度。
[1] LIU Y, XU K, XU J. An improved MB-LBP defect recognition approach for the surface of steel plates[J]. Applied Sciences, 2019, 9(20): No.4222.
[2] SU B, CHEN H, ZHU Y, et al. Classification of manufacturing defects in multicrystalline solar cells with novel feature descriptor[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68(12): 4675-4688.
[3] LI S, LI D, YUAN W. Wood chip crack detection based on linear scale-space differential[J]. Measurement, 2021, 175: No.109095.
[4] RYU S G, KOO G, KIM S W. An adaptive selection of filter parameters: defect detection in steel image using wavelet reconstruction method[J]. ISIJ International, 2020, 60(8):1703-1713.
[5] REN H, TIAN K, HONG S, et al. Visualized investigation of defect in cementitious materials with electrical resistance tomography[J]. Construction and Building Materials, 2019, 196:428-436.
[6] MA N, GAO X, WANG C, et al. Influence of hysteresis effect on contrast of welding defects profile in magneto-optical image[J]. IEEE Sensors Journal, 2020, 20(24): 15034-15042.
[7] PAN Y, LU R, ZHANG T. FPGA-accelerated textured surface defect segmentation based on complete period Fourier reconstruction[J]. Journal of Real-Time Image Processing, 2020, 17(5): 1659-1673.
[8] LI R, TIAN F, CHEN S. Research on surface defect detection method of E-TPU midsole based on machine vision[J]. Journal of Computer and Communications, 2020, 8(11):145-160.
[9] SOUKUP D, HUBER-M?RK R. Convolutional neural networks for steel surface defect detection from photometric stereo images[C]// Proceedings of the 2014 International Symposium on Visual Computing, LNCS 8887. Cham: Springer, 2014: 668-677.
[10] DEITSCH S, CHRISTLEIN V, BERGER S, et al. Automatic classification of defective photovoltaic module cells in electroluminescence images[J]. Solar Energy, 2019, 185:455-468.
[11] 陳仁祥,詹贊,胡小林,等. 基于多注意力Faster RCNN的噪聲干擾下印刷電路板缺陷檢測(cè)[J]. 儀器儀表學(xué)報(bào), 2021, 42(12):167-174.(CHEN R X, ZHAN Z, HU X L, et al. Printed circuit board defect detection based on the multi-attentive Faster RCNN under noise interference[J]. Chinese Journal of Scientific Instrument, 2021, 42(12):167-174.)
[12] 郭文明,劉凱,渠慧帆. 基于Faster R-CNN模型X-射線圖像的焊接缺陷檢測(cè)(英文)[J]. 北京郵電大學(xué)學(xué)報(bào), 2019, 42(6):20-28.(GUO W M, LIU K, QU H F. Welding defect detection of X-ray images based on Faster R-CNN model[J]. Journal of Beijing University of Posts and Telecommunications, 2019, 42(6):20-28.)
[13] LI Y, HUANG H, XIE Q, et al. Research on a surface defect detection algorithm based on MobileNet-SSD[J]. Applied Sciences, 2018, 8(9): No.1678.
[14] 韓航迪,徐亦睿,孫博,等. 基于改進(jìn)Tiny-YOLOv3網(wǎng)絡(luò)的航天電子焊點(diǎn)缺陷主動(dòng)紅外檢測(cè)研究[J]. 儀器儀表學(xué)報(bào), 2020, 41(11):42-49.(HAN H D, XU Y R, SUN B, et al. Using active thermography for defect detection of aerospace electronic solder joint base on the improved Tiny-YOLOv3 network[J]. Chinese Journal of Scientific Instrument, 2020, 41(11): 42-49.)
[15] DUNG C V, ANH L D. Autonomous concrete crack detection using deep fully convolutional neural network[J]. Automation in Construction, 2019, 99: 52-58.
[16] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[17] ZOU Q, ZHANG Z, LI Q, et al. DeepCrack: learning hierarchical convolutional features for crack detection[J]. IEEE Transactions on Image Processing, 2019, 28(3): 1498-1512.
[18] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[19] ZHOU Z, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Transactions on Medical Imaging, 2020, 39(6):1856-1867.
[20] SHENSA M J. The discrete wavelet transform: wedding the a trous and Mallat algorithms[J]. IEEE Transactions on Signal Processing, 1992, 40(10):2464-2482.
[21] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016:2818-2826.
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[23] GAN J, LI Q, WANG J, et al. A hierarchical extractor-based visual rail surface inspection system[J]. IEEE Sensors Journal, 2017, 17(23): 7935-7944.
[24] HUANG Y, QIU C, YUAN K. Surface defect saliency of magnetic tile[J]. The Visual Computer, 2020, 36(1): 85-96.
[25] 硅鋼油污數(shù)據(jù)集[DS/OL]. [2021-05-22].http://faculty.neu.edu.cn/yunhyan/SLSM.html.(Oil pollution defect database[DS/OL]. [2021-05-22].http://faculty.neu.edu.cn/yunhyan/SLSM.html.)
[26] RUSSELL B C, TORRALBA A, MURPHY K P, et al. LabelMe: a database and web-based tool for image annotation[J]. International Journal of Computer Vision, 2008, 77(1/2/3): 157-173.
[27] BUSLAEV A, IGLOVIKOV V I, KHVEDCHENYA E, et al. Albumentations: fast and flexible image augmentations[J]. Information, 2020, 11(2): No.125.
[28] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: learning where to look for the pancreas[EB/OL]. (2018-05-20) [2022-02-24].https://arxiv.org/pdf/1804.03999.pdf.
WT-U-Net++: surface defect detection network based on wavelet transform
HE Guohuan, ZHU Jiangping*
(,,610065,)
To address the problems of traditional machine vision algorithms such as low detection accuracy, inability to adapt to environmental changes and noise influence in surface defect detection, a improved UNet++ based on Wavelet Transform (WT) — WT-U-Net++ was proposed. Firstly, the high frequency and low frequency components of the defect image were obtained by the WT, and the detailed features of the high and low frequency components were extracted by the multi-scale module MCI (Mix-Conv Inception). Secondly, the detailed features extracted by MCI module were fused with the original image, and the fusion results were used as the input of the improved UNet++. Thirdly, in the downsampling stage of UNet++, channel attention module was introduced to enable the network to capture more contextual semantic information and improve the quality of cross-layer feature cascade at the same time. In the upsampling stage, deconvolution was adopted to recover more defect details. Finally, the best result was selected from the multiple output of UNet++ as the detection result. Experimental results on three public defect datasets of rail, magnetic tile and silicon steel oil stain show that compared with the sub-optimal algorithm UNet++, WT-U-Net ++ has the Intersection over Union (IoU) increased by 7.98%, 4.63%, and 8.74% respectively, and the Dice Similarity Coefficient (DSC) improved by 4.26%, 2.99% and 4.64% respectively.
UNet++; surface defect detection; Wavelet Transform (WT); channel attention; deconvolution
This work is partially supported by Key Research and Development Project of Sichuan Province (2022YFG0053).
HE Guohuan, born in 1996, M. S. candidate. His research interests include computer vision, defect detection.
ZHU Jiangping, born in 1984, Ph. D., associate professor. His research interests include computer vision, three dimensional reconstruction, defect detection.
1001-9081(2023)10-3260-07
10.11772/j.issn.1001-9081.2022091452
2022?09?30;
2022?12?17;
四川省重點(diǎn)研發(fā)專(zhuān)項(xiàng)(2022YFG0053)。
何國(guó)歡(1996—),男,陜西安康人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺(jué)、缺陷檢測(cè); 朱江平(1984—),男,四川達(dá)州人,副教授,博士,主要研究方向:計(jì)算機(jī)視覺(jué)、三維重建、缺陷檢測(cè)。
TP389.1
A
2022?12?28。