吳亞尉,明幫銘,何劍鋒,鐘國韻
(東華理工大學(xué)a.江西省核地學(xué)數(shù)據(jù)科學(xué)與系統(tǒng)工程技術(shù)研究中心;b.江西省放射性地學(xué)大數(shù)據(jù)技術(shù)工程實驗室;c.信息工程學(xué)院,南昌 330013)
隨著“中國制造2025”規(guī)劃的提出,鋼鐵生產(chǎn)在自動化程度上有了較大的提高,但針對帶鋼表面缺陷種類繁多、形態(tài)復(fù)雜,傳統(tǒng)人工檢測方法已無法滿足企業(yè)自動化生產(chǎn)要求。因此探索開發(fā)高效且高精度的自動化檢測方法將是實現(xiàn)鋼鐵自動化生產(chǎn)的關(guān)鍵之一。計算機(jī)視覺技術(shù)的發(fā)展,特別是深度學(xué)習(xí)技術(shù)的應(yīng)用,為帶鋼表面缺陷檢測提供了新的解決方案。
在計算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)技術(shù)已經(jīng)成為目前最為先進(jìn)的技術(shù)之一,其中許多學(xué)者基于深度學(xué)習(xí)提出的目標(biāo)檢測技術(shù)具有廣泛的應(yīng)用前景。而其中作為Two-stage目標(biāo)檢測算法中經(jīng)典的Faster R-CNN[1]被大量用于工業(yè)缺陷檢測。相比于傳統(tǒng)機(jī)器學(xué)習(xí)模型,Two-stage目標(biāo)檢測模型雖然在檢測精度上有顯著提升,但在實時檢測方面存在較大的局限性。近年來,部分研究者探索了可能實現(xiàn)實時檢測的one-stage目標(biāo)檢測模型[2]。
One-stage檢測算法中的YOLO(you only look once)算法[3]因其具有檢測速度快、精度高等優(yōu)點(diǎn),是目前工業(yè)缺陷檢測領(lǐng)域應(yīng)用最為廣泛的目標(biāo)檢測算法之一。針對帶鋼表面缺陷檢測中存在的檢測效率和檢測精度較低等問題,研究者通過改進(jìn)YOLO系列模塊實現(xiàn)了高精度、實時性的缺陷檢測模型[4-5]。但隨著YOLO算法的不斷改進(jìn)和升級,YOLOv5算法成為目前性能最為出色的版本之一。然而,對于帶鋼表面缺陷檢測這樣的特殊應(yīng)用場景,傳統(tǒng)的YOLOv5模型仍然存在一些不足之處,如對大尺度目標(biāo)類別的檢測能力較差、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、模型較大等。王子豫等[6]引入注意力機(jī)制對YOLOv5進(jìn)行改進(jìn),有效的提升網(wǎng)絡(luò)特征提取能力。閆鈞華等[7]通過對空間金字塔圖進(jìn)行跨層級通道特征融合以及結(jié)合位置注意力機(jī)制CA,提出一種融合多層級特征的遙感圖像地面弱小目標(biāo)檢測YOLO算法。但只針對網(wǎng)絡(luò)檢測精度方面的提升無法滿足模型在自動檢測設(shè)備上的部署。
本文在保證效率的前提下,通過引入了GhostV2 Bottleneck輕量化模塊、RepLK大卷積和W-IoU損失函數(shù)改進(jìn)了YOLOv5模型,實現(xiàn)高精度的輕量化帶鋼表面缺陷檢測。
YOLO-GR是一種輕量化的目標(biāo)檢測模型,其網(wǎng)絡(luò)結(jié)構(gòu)分為3個部分:Backbone、Neck和Head。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 YOLO-GR網(wǎng)絡(luò)結(jié)構(gòu)圖
YOLO-GR的Backbone主干網(wǎng)絡(luò)主為網(wǎng)絡(luò)特征提取部分,采用CSPDarknet53網(wǎng)絡(luò)結(jié)構(gòu)[8],其中GB-1、GB-2為本文替換的輕量化模塊,能夠減少模型的計算量和參數(shù)數(shù)量,并且可以提高模型的準(zhǔn)確率。Neck特征融合部分采用SPP(spatial pyramid pooling)結(jié)構(gòu),這個結(jié)構(gòu)可以自適應(yīng)地將不同大小的目標(biāo)框中的信息提取出來,使得模型對不同大小的目標(biāo)具有較好的適應(yīng)性。此外,還采用了PAN(path aggregation network)模塊[9],可以將不同層次的特征圖進(jìn)行聚合,增強(qiáng)了模型的感受野,提高了檢測性能。Head檢測頭部分依舊采用YOLOv3[9]中的結(jié)構(gòu),并且在此基礎(chǔ)上加入了RepLK卷積進(jìn)行了改進(jìn),YOLO-GR中的head部分包含了3個不同大小的檢測頭,分別用于檢測不同大小的目標(biāo)。每個檢測頭都由3個卷積層組成,用于檢測目標(biāo)的類別、位置和置信度。此外,還采用了FPN(feature pyramid network)結(jié)構(gòu)[10],能夠自適應(yīng)地將不同層次的特征圖進(jìn)行融合,提高了檢測性能,邊界框損失計算采用的是CIoU loss[11]。
1.2.1 GhostNet Bottleneck結(jié)構(gòu)
GhostNet[12]是一種SOTA輕量級模型,它的主要組成部分是Ghost模塊,它可以通過使用較少的計算量來生成更多的特征映射來替換原來的卷積,可消除一些冗余特征,減少計算量,使模型更輕量化,原理圖如圖2所示。
圖2 Ghost模塊原理
Ghost模塊主要分兩步構(gòu)成,第一步對其中一部分特征圖進(jìn)行卷積操作,對于給定輸入特征X∈RH×W×C使用F1×1卷積核生成m個內(nèi)在特征Y′:
Y′=X*F1×1
(1)
第二步再使用計算量較小的操作(如深度卷積濾波器Fdp)根據(jù)內(nèi)在特征Y′生成n=ms個輸出特征Y∈RH×W×Cout,兩部分特征沿通道維度連接,如式(2)所示[13]。Ghost模塊經(jīng)計算可將運(yùn)算量縮小至普通卷積的1/s。圖4a所示為兩個步長不同的GhostNet Bottleneck模塊。
Y=Concat([Y′,Y′*Fdp])
(2)
1.2.2 解耦全連接注意力機(jī)制
在計算機(jī)視覺信息處理過程中引入注意力機(jī)制,不僅可以將有限的計算資源分配給重要的目標(biāo),還能夠產(chǎn)生出符合人類視覺認(rèn)知要求的結(jié)果。
在GhostNetV2[13]中,根據(jù)所需要注意力機(jī)制的3種特性:長距離、高效率部署、模塊簡單,設(shè)計了一種針對端側(cè)架構(gòu)的解耦全連接注意力機(jī)制。它采用了一種更簡單,更容易實現(xiàn)的具有固定權(quán)重的全連接層(FC)來生成具有全局感受野的注意力圖,如式(3)所示[13]。
(3)
給定輸入特征zi∈RC,i.e.,Z={z11,z12,…,zHW},其中⊙是逐元素乘法,F是全連接層中的可學(xué)習(xí)權(quán)重,A={a11,a12,…,aHW}是生成的注意力圖。式(3)可以通過將所有標(biāo)記與可學(xué)習(xí)的權(quán)重聚合來捕獲全局信息它的計算過程仍然需要二次復(fù)雜度即(i.e.,ο(H2W2))2。特征的2D形狀提供了一個視角來減少FC層的計算,即將式(3)分解為兩個FC層,并分別沿水平和垂直方向聚合特征。
(4)
(5)
式中:FH和FW是轉(zhuǎn)換權(quán)重,將原始特征zi作為輸入,分別應(yīng)用于式(4)、式(5)[13]中,沿兩個方向捕獲遠(yuǎn)程依賴,如圖3的解耦全連接(DFC)注意力機(jī)制所示[13]。由于水平和垂直變換的解耦,注意模塊的計算復(fù)雜度可降低到ο(H2W+HW2)。
圖3 DFC注意力機(jī)制信息流聚合過程
如圖4b所示。在相同的輸入下,Ghost模塊和DFC注意是兩個并行分支,從不同的角度提取信息。輸出是它們的元素乘積,其中包含來自Ghost模塊的兩個特征和DFC注意力模塊的注意力的信息,其中DFC注意增強(qiáng)了擴(kuò)展的特征,以提高表達(dá)能力。
(a) GhostNet Bottleneck
(b) GhostNetV2 Bottleneck
YOLOv5s網(wǎng)絡(luò)中的Bottleneck結(jié)構(gòu)對輸入特征圖先后使用32個1×1卷積核和64個3×3卷積核進(jìn)行卷積操作,因此本文采用步長為1的GB-1替換網(wǎng)絡(luò)中的C3模塊,使用步長為2的GB-2替換網(wǎng)絡(luò)中的CBS模塊,在保證能相對增強(qiáng)圖像特征提取能力的同時減少模型的計算量。
(6)
采用單個大卷積核相比于添加網(wǎng)絡(luò)深度能更高效地提升有效感受野,在RepLkNet中,DING等[14]使用深度可分離超大卷積、加入shortcut、使用小卷積核重參數(shù)化,以此來解決大卷積核不夠高效,難以兼顧局部特征等缺點(diǎn),并提出RepLKNet的CNN架構(gòu)。
本文借鑒RepLKNet網(wǎng)絡(luò)的思想,設(shè)計并使用RepLKDext大卷積核代替原卷積,利用更大的有效感受野在檢測頭部分處理大尺度方差,結(jié)構(gòu)圖如圖5所示。整個結(jié)構(gòu)由多個RepLKBlock模塊和CBS模塊組成,根據(jù)RepLKNet設(shè)計準(zhǔn)則,在RepLKBlock模塊中使用27×27深度可分離(DW)卷積之前使用1×1卷積,之后使用5×5卷積核進(jìn)行重新參數(shù)化。除了提供足夠感受野的大型卷積層以及聚合空間信息的能力外,模型的表征能力也與深度密切相關(guān)。為了跨通道提供更多非線性和信息通信,使用1×1層來增加模型深度。
圖5 RepLKDext模塊
邊界框回歸(BBR)損失函數(shù)作為目標(biāo)檢測損失函數(shù)的重要組成部分,在目前的目標(biāo)檢測任務(wù)中,通常使用IoU[16]損失函數(shù)來作為BBR損失,IoU表示預(yù)測框與真實框的重疊程度,能夠很好地平衡對大物體和小物體的學(xué)習(xí)。但當(dāng)預(yù)測框和真實框的交并比相同,預(yù)測框所在位置不同,所計算出來的損失一樣,無法找出更準(zhǔn)確的預(yù)測框,現(xiàn)有的BBR損失為考慮了許多與邊界框相關(guān)的幾何因素,提出了式(8)[16],構(gòu)造了懲罰項Ri來解決這個問題。
(7)
Li=LIoU+Ri
(8)
損失函數(shù)應(yīng)該在錨框與目標(biāo)框較好地重合時削弱幾何度量的懲罰,不過多地干預(yù)訓(xùn)練將使模型有更好的泛化能力。以此為基礎(chǔ),根據(jù)距離度量構(gòu)建了距離注意力,如式(9)和式(10)所示[16],得到了具有兩層注意力機(jī)制的Wise-IoU(W-IoU)[17]:RWIoU∈[1,e),用于放大普通質(zhì)量錨框的LIoU;LIoU∈[0,1],用于降低高質(zhì)量錨框的RWIoU并在錨框與目標(biāo)框重合較好的情況下顯著降低其對中心點(diǎn)距離的關(guān)注。為了防止RWIoU產(chǎn)生阻礙收斂的梯度,將Wg,Hg從計算圖(上標(biāo)*表示此操作)中分離,因為它有效地消除了阻礙收斂的因素。
LWIoU=RWIoULIoU
(9)
(10)
本文實驗所采用鋼材表面缺陷數(shù)據(jù)集(NEU-DET),包含6種帶鋼表面缺陷類型:氧化軋皮(Rolled-in_Scale,Rs)、點(diǎn)蝕面(Pitted_Surface,Ps)、斑塊(Patches,Pa)、夾雜(Inclusion,In)、裂紋(Crazing,Cr)、劃痕(Scratches,Sc),各類缺陷如圖6所示,每種類型300張共計1800張圖片。將數(shù)據(jù)集按照8:2比例隨機(jī)劃分成1440張的訓(xùn)練集和360張的測試集。
圖6 各類鋼材表面缺陷
YOLOv5s-G模型是通過使用GB-1,GB-2輕量化模塊替換YOLOv5s原主干網(wǎng)絡(luò)中的C3和CBS模塊,模型在In和Sc的檢測進(jìn)度有明顯提升,如表1所示。但模型檢測效率提升不明顯。加入輕量化模塊后模型大小有了明顯的下降,解耦注意力機(jī)制也可以捕捉到遠(yuǎn)距離空間位置的像素之間的依賴性,增強(qiáng)了輕量化模型的表達(dá)能力,補(bǔ)足了模型對空間信息的捕獲能力。YOLO-G雖然可以在準(zhǔn)確性和速度之間實現(xiàn)更好的權(quán)衡但對于檢測精度上并沒有太大提升。
表1 各改進(jìn)模型性能對比
基于此,YOLO-GR模型進(jìn)一步在YOLO-G的基礎(chǔ)上,在head部分的尺度20×20檢測層中使用具有足夠的感受野及聚合空間信息能力的RepLKDext大卷積替換原卷積結(jié)構(gòu)進(jìn)行實驗。如表1所示YOLO-GR模型在裂紋(Cr)和氧化軋皮(Rs)這兩類分別提升有7.1%、6.0%,其他的類別也均有提升,平均精度提高了2.6%,相對于原YOLOv5s模型運(yùn)算量仍減少了2.6GFLOPs,權(quán)重下降有1.7 MB。YOLO-GR模型相比于原YOLOv5模型在輕量化上有較大的提升,但精度方面表現(xiàn)并不理想。
表2是在前兩個改進(jìn)點(diǎn)的基礎(chǔ)上加入了不同的IoU損失函數(shù),從而進(jìn)行對比實驗的結(jié)果以驗證實驗改進(jìn)效果。對比實驗分別加入了D-IoU(Distance IoU Loss)[11]、E-IoU(Focal and Efficient IoU Loss)[18]、G-IoU(Generalized IoU Loss)[19]、α-IoU(Alpha IoU Loss)[20]、W-IoU(Wise IoU Loss)[17]進(jìn)行了5次實驗,從實驗結(jié)果中可以看到,在NEU-DET數(shù)據(jù)集上,除了G-IoU、α-IoU、W-IoU對精度有一定提升,其他的IoU Loss函數(shù)對模型無太大效。其中D-IoU在回歸過程中未考慮邊界框的縱橫比,導(dǎo)致在精度上反而下降了1.6%;G-IoU在檢測框和真實框出現(xiàn)包含現(xiàn)象時會退化成IoU,最后精度上也下降有0.6%。而E-IoU引入Focal Loss來解決難易樣本不平衡的問題,但比較依賴于數(shù)據(jù)集的分布和錨框的設(shè)計,并不具備較好的泛化能力,所以精度上僅僅提升了0.4%。W-IoU能比較好的處理質(zhì)量較好與質(zhì)量較差的樣本之間的平衡,對數(shù)據(jù)集的泛化能力做的比較好,能使模型擁有更好的泛化性能,在此數(shù)據(jù)集上有效的提升了1.2%的平均精度,明顯優(yōu)于其他IoU函數(shù)。圖7是原YOLOV5s模型與更換W-IoU損失函數(shù)的YOLO-GR模型結(jié)果對比圖,更換W-IoU損失函數(shù)后的YOLO-GR模型在各個類別的檢測精度以及平均精度上有著明顯提升。
表2 更換不同IoU損失函數(shù)實驗結(jié)果對比
圖7 YOLOv5改進(jìn)前后結(jié)果對比圖
表3為本文額外選用的4種目標(biāo)檢測模型在NEU-DET數(shù)據(jù)集上的與改進(jìn)后的YOLOv5s模型的性能對比結(jié)果。根據(jù)實驗結(jié)果可知,主流的一些目標(biāo)檢測模型SSD、YOLOv3、YOLOv4檢測效果都有著一定局限性,平均精度都低于70%,模型也較大。文獻(xiàn)[5]是基于YOLOv4-tiny所改進(jìn)的模型,檢測精度達(dá)到73.3%,檢測速度高達(dá)85 fps,在檢測速度方面較為優(yōu)秀,但對于精度以及模型大小方面并不理想。
表3 不同算法模型性能對比結(jié)果
本文改進(jìn)的使用W-IoU的YOLOv5s-GR輕量化模型在平均精度上高達(dá)77.3%,模型大小只有12 MB,檢測速度為78 fps,完全能滿足實時檢測的需求。對主要缺陷類別的檢測結(jié)果如圖8所示,模型對各類別缺陷的檢測都較為平衡,尤其是在對Cr和Rs這些主流的目標(biāo)檢測算法效果都較差的類別檢測上效果提升比較明顯。但總體上Cr、Rs這兩類別依舊只能分別達(dá)到40%、65%的精度,本文推測應(yīng)該是在數(shù)據(jù)集標(biāo)注上有部分誤差,之后可通過重新進(jìn)行人工標(biāo)注進(jìn)行數(shù)據(jù)集的調(diào)整從而達(dá)到更好的檢測效果。
圖8 檢測結(jié)果圖
本文提出了一種基于YOLOv5s改進(jìn)的輕量化帶鋼表面缺陷檢測模型。該模型采用了YOLOv5s算法作為基礎(chǔ),將主干網(wǎng)絡(luò)中CBS模塊和C3模塊使用GhostNetv2 Bottleneck輕量化模塊代替,在檢測層上使用RepLKDext大卷積代替原卷積,以及更換原有的C-IoU,使用泛化性能更好的W-IoU,使得模型在輕量化的情況下能夠有效地檢測出帶鋼表面的缺陷。改進(jìn)后的模型不僅輕量化,而且檢測精度達(dá)77.6%,相較于原模型提升了3.8%,模型大小縮小了15%。它可以用于工業(yè)生產(chǎn),自動識別帶鋼表面的缺陷。未來的工作將探索如何檢測其他種類的缺陷,例如焊縫、毛刺等,以及如何進(jìn)一步簡化網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)移動端的模型部署。