甄國涌,趙林熔,李文越,儲成群,王 達(dá),孫 妍
(1.中北大學(xué)儀器與電子學(xué)院,太原 030051;2.陸軍裝備部駐北京地區(qū)軍事代表局某軍代室,太原 030000;3.北京遙感設(shè)備研究所,北京 100005)
近年來,鋼材表面缺陷檢測已成為工業(yè)生產(chǎn)中不可或缺的重要環(huán)節(jié)。傳統(tǒng)的鋼材表面缺陷檢測方法主要依靠人工肉眼觀察,嚴(yán)重依賴質(zhì)檢人員的主觀判斷,通常需要耗費大量的人力資源和時間成本,且存在效率低,漏檢誤檢率高等問題。因此,基于深度學(xué)習(xí)的自動化檢測方法逐漸成為了鋼材表面缺陷檢測的研究熱點。其中,基于YOLO(you only look once)算法[1]的檢測網(wǎng)絡(luò)由于其高效、準(zhǔn)確等特點而備受關(guān)注。
然而,在實際應(yīng)用中,由于數(shù)據(jù)量較大、模型參數(shù)復(fù)雜等問題,傳統(tǒng)的YOLO模型在鋼材表面缺陷檢測任務(wù)中仍存在著一定的輕量化難題。曹義親等[2]改進(jìn)YOLOv5網(wǎng)絡(luò),加入多頭注意力機(jī)制和多層特征融合機(jī)制,提高網(wǎng)絡(luò)對鋼材表面缺陷的檢測精度,精度提高了3.4%,但是模型參數(shù)量隨之增加了大約3倍。GUO等[3]將YOLOv5中的特征融合網(wǎng)絡(luò)換成BiFPN,并將TRANS模塊添加到模型主干和檢測頭來提高模型檢測效果,改進(jìn)后模型體積為90.8 MB,是原始v5的6.6倍,難以在硬件受限的邊緣設(shè)備上進(jìn)行部署。
因此,本文針對YOLOv5的輕量化問題展開研究,采用一系列網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化等技術(shù)手段,提出一種更加高效、精準(zhǔn)的鋼材表面缺陷檢測方法。主要研究內(nèi)容包括:①在模型主干引入基于梯度路徑設(shè)計的ELAN模塊,它能在減少參數(shù)量的同時提高網(wǎng)絡(luò)對特征信息的學(xué)習(xí)能力;②在模型頸部引入深度可分離卷積和Ghostv2模塊,用來減少模型體積和參數(shù)量;③將v5原始的CIOU邊界框損失函數(shù)替換為SIOU邊界框損失函數(shù),充分考慮真實框與預(yù)測框之間的回歸方向問題,提高模型定位精度和檢測速度。在公開數(shù)據(jù)集NEU-DET上驗證改進(jìn)后模型對鋼材表面缺陷檢測的實際效果,改進(jìn)后的YOLOv5模型,能夠在保證檢測精度和速度的前提下,達(dá)到輕量化的目的。
YOLOv5的整體結(jié)構(gòu)包括輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)、預(yù)測頭(Prediction)4個部分[4]。
模型在輸入端先對輸入圖片進(jìn)行Mosaic數(shù)據(jù)增強(qiáng)豐富數(shù)據(jù)集,再通過自適應(yīng)縮放技術(shù)將圖片縮放至統(tǒng)一大小后輸入網(wǎng)絡(luò)。主干網(wǎng)絡(luò)包括Conv、C3和SPPF模塊,主要用來實現(xiàn)對鋼材表面缺陷特征的提取。其中Conv是基本的卷積計算單元;C3在早期的BottleneckCSP基礎(chǔ)上去掉了Bottleneck輸出后的卷積塊演變而來,減少了模型參數(shù),又降低了推理時間;SPPF結(jié)構(gòu)能夠利用多級池化提取不同分辨率的特征信息。頸部采用特征金字塔網(wǎng)絡(luò)(feature pyramid networks,FPN)[5]和路徑聚合網(wǎng)絡(luò)(path aggregation networks,PAN)[6]進(jìn)行特征融合,FPN自頂向下傳達(dá)頂層利于分類的強(qiáng)語義特征,PAN自底向上傳達(dá)利于定位的強(qiáng)位置信息,二者結(jié)合能夠有效融合不同深度的特征信息。最后為預(yù)測部分,YOLOv5一共有3個不同尺度的預(yù)測頭,分別對應(yīng)檢測大、中、小目標(biāo),根據(jù)鋼材表面缺陷尺寸的大小,自主選擇預(yù)測頭,最終輸出預(yù)測信息[7]。
本文提出的算法主要做了4個方面的改進(jìn):①在模型主干,用ELAN替換C3來豐富梯度組合,能夠減少重復(fù)的梯度信息,使用更少的參數(shù)信息學(xué)習(xí)到更多有效的特征;②將頸部的標(biāo)準(zhǔn)卷積換成深度可分離卷積,解決標(biāo)準(zhǔn)卷積造成的參數(shù)量和計算題過多的問題;③在頸部最后用Ghostv2模塊替換最后一個C3,既不會影響主干網(wǎng)絡(luò)的特征提取能力,還能減少模型體積和參數(shù)量;④使用SIOU替換CIOU邊界框損失函數(shù),解決預(yù)測框與真實框之間回歸方向不匹配的問題,提高模型穩(wěn)定性,加速收斂,改進(jìn)后的模型網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。
圖1 改進(jìn)后YOLOv5結(jié)構(gòu)圖
高效層聚合網(wǎng)絡(luò)(efficient layer aggregation networks,ELAN)[8]是基于梯度路徑分析設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)。傳統(tǒng)的基于數(shù)據(jù)路徑分析設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),通常需要增加額外的參數(shù)或計算成本來達(dá)到更好的精度。基于梯度路徑分析設(shè)計的網(wǎng)絡(luò)可以通過對梯度傳播路徑進(jìn)行重新規(guī)劃,豐富梯度組合,減少重復(fù)梯度信息,提高網(wǎng)絡(luò)的學(xué)習(xí)效果。同時可以通過調(diào)整梯度傳播路徑,使不同計算單元的權(quán)值可以學(xué)習(xí)到各種信息,提高參數(shù)利用率,在不引入額外參數(shù)和復(fù)雜結(jié)構(gòu)的情況下學(xué)習(xí)到更多的有效信息,獲得精度更高,計算成本更低的網(wǎng)絡(luò)模型。
ELAN主要由VoVNet[9]結(jié)合CSPNet[10]組成,基本構(gòu)成單元為Conv模塊,如圖2所示,它將輸入數(shù)據(jù)進(jìn)行分流,其中一部分經(jīng)過堆疊了計算單元的梯度路徑,該部分網(wǎng)絡(luò)能夠?qū)斎胩卣鲌D進(jìn)行充分的特征提取,另一部分使用跨階段連接,直接跨越整個階段,再與經(jīng)過計算單元的部分融合。這種分流設(shè)計結(jié)構(gòu)豐富了信息處理的多樣性,能有效減少重復(fù)的參數(shù)信息,使網(wǎng)絡(luò)有效學(xué)習(xí)和收斂。
圖2 ELAN原理圖
深度可分離卷積(depthwise separable convolution,DSC)[11]是一種因式分解形式的卷積,它將標(biāo)準(zhǔn)卷積分解為逐通道卷積(depthwise convolution,DWC)和逐點卷積(pointwise convolution,PWC)兩部分。DWC的每個卷積核只對輸入特征圖的一個通道做卷積運算,此過程與標(biāo)準(zhǔn)卷積相比能減少大量運算參數(shù)。為了避免通道之間在空間位置上的信息丟失,PWC將DWC得到的特征圖沿通道方向進(jìn)行加權(quán)組合,得到輸出特征圖(如圖3所示),這樣一來,可以實現(xiàn)與標(biāo)準(zhǔn)卷積同樣的效果且不會損失過多的精度。
(a) 標(biāo)準(zhǔn)卷積
假設(shè)輸入層大小為H×W×M,標(biāo)準(zhǔn)卷積核大小為K×K×M,個數(shù)為N,輸出層為大小為H×W×N,標(biāo)準(zhǔn)卷積過程如圖3a所示,參數(shù)量P1=K×K×M×N,計算量C1=H×W×K×K×M×N。深度可分離卷積將標(biāo)準(zhǔn)卷積核拆分,得到M個大小K×K×1的逐通道卷積核和N個1×1×M逐點卷積核,總參數(shù)量P2=K×K×M+1×1×M×N,總計算量C2=K×K×M×H×W+1×1×M×N×H×W,卷積過程如圖3b所示。深度可分離卷積和標(biāo)準(zhǔn)卷積的參數(shù)量和計算量之比分別為:
(1)
(2)
由公式可知,在相同輸入輸出的情況下,深度可分離卷積可以有效減少模型的參數(shù)和計算量。
為了使模型能夠部署在計算資源有限的硬件設(shè)備上,前人在網(wǎng)絡(luò)中引入Ghost[12]模塊。Ghost模塊主要有兩個步驟,首先,通過1×1的普通卷積得到intrinsic特征圖;然后,在此基礎(chǔ)上通過一系列計算成本更低的線性變換生成更多的Ghost特征圖,將不同的特征圖拼接到一起,組合成新的輸出。特征圖中的冗余性是成功部署神經(jīng)網(wǎng)絡(luò)的重要特性之一,Ghost模塊充分利用特征圖的冗余性,使用計算成本更低的操作產(chǎn)生更多特征圖而代替原始卷積。雖然Ghost模塊顯著降低了參數(shù)成本,但是不可避免的削弱了網(wǎng)絡(luò)的表示能力。Ghost特征圖和intrinsic特征圖僅僅是簡單的拼接,并沒有任何的像素信息進(jìn)行交互,捕獲空間信息的能力較弱,會阻礙模型性能進(jìn)一步的提高。因此,本文使用Ghostv2[13]模塊,它在Ghost模塊的基礎(chǔ)上加入解耦全連接注意力(decoupled fully connected attention,DFC)機(jī)制,將DFC注意力機(jī)制與Ghost模塊并聯(lián),有效彌補(bǔ)Ghost模塊建??臻g依賴能力的不足,原理圖如圖4所示。
在船舶減速過程進(jìn)行理論分析與數(shù)學(xué)計算基礎(chǔ)上,建立船舶減速概率模型,實現(xiàn)對航道內(nèi)船舶減速過程的定量描述,通過仿真試驗對船舶減速概率模型進(jìn)行驗證。試驗結(jié)果表明,概率模型能反映航道內(nèi)船舶的減速概率。比較模型計算的結(jié)果與仿真結(jié)果,找出航道船舶減速產(chǎn)生連鎖過程的臨界點,而船舶減速連鎖過程嚴(yán)重影響航道的通航能力。根據(jù)結(jié)果圖中的臨界點,可控制船舶到達(dá)率及船舶速度分布標(biāo)準(zhǔn)差,在臨界范圍內(nèi)來降低船舶減速連鎖效應(yīng)的影響。
圖4 Ghostv2原理圖
在DFC中,只有全連接層參與注意力圖的生成,它不僅可以在普通硬件上快速執(zhí)行,還可以捕獲遠(yuǎn)程像素之間的依賴關(guān)系,提高模型的檢測精度。DFC將全連接層分別沿水平方向和垂直方向進(jìn)行分解,并分別沿水平全連接層和垂直全連接層兩個方向聚合2D特征圖中的像素特征,計算過程可以表示為:
(3)
(4)
式中:FH和FW是變換權(quán)重,z是原始特征輸入,式(3)和式(4)依次作用于輸入特征圖,分別捕獲兩個方向上的遠(yuǎn)程依賴關(guān)系,由于水平方向和垂直方向的解耦操作可以大大降低模塊的計算復(fù)雜度。在運算過程中通過共享部分變換權(quán)重,可以省去耗時的張量重塑和轉(zhuǎn)置操作。在相同的輸入下,Ghost模塊和DFC注意力是兩個分支,從不同的角度提取信息,輸出是它們逐元素乘積的結(jié)果。
模型在迭代的過程中,損失函數(shù)通過計算預(yù)測值與真實值的差值反向更新參數(shù),使模型不斷優(yōu)化。鋼材表面缺陷分布密集,且小目標(biāo)占比多,預(yù)測框的少量偏移都會對模型的檢測效果造成不好的影響。YOLOv5原模型使用CIOU作為邊框損失函數(shù),它考慮了邊框中心點損失和高寬比損失,但是沒考慮到真實框與預(yù)測框之間回歸方向不匹配的問題,忽略回歸方向帶來的誤差,會導(dǎo)致訓(xùn)練過程中預(yù)測框“四處游蕩”,使模型收斂速度慢,精度低,從而產(chǎn)生檢測效果更差的模型。將真實框與預(yù)測框之間方向的影響作為損失函數(shù)的懲罰因子能夠有效解決上述問題。
本文采用SIOU[14]作為損失函數(shù),它在CIOU的基礎(chǔ)上充分考慮回歸之間的方向角度,使預(yù)測框朝著更精確的方向移動,能夠提高模型檢測速度和精度。它由4個部分組成:角度成本、距離成本、形狀成本和IOU成本。
預(yù)測框回歸方向由預(yù)測框與真實框中心點之間的角度決定,角度損失Λ如式(5)所示。
(5)
圖5 SIOU示意圖
角度損失主要是方便計算真實框與預(yù)測框之間的距離,結(jié)合重新定義的Λ,距離損失Δ如式(6)所示。
(6)
形狀損失Ω公式為:
(7)
式中:(wgt,hgt)表示真實框的寬高值,(w,h)表示預(yù)測框的寬高值,θ值用來控制在形狀損失中應(yīng)該給予多少關(guān)注度,它的范圍從2~6,本文在實驗中將它設(shè)置為4。形狀損失分別考慮了高度損失和寬度損失,CIOU同時考慮高寬比,容易出現(xiàn)兩個預(yù)測框中心點保持一致,高寬比相同但是值不相同而造成回歸誤差的情況,SIOU避免上述情況的發(fā)生使邊界框回歸更準(zhǔn)確,有助于提高模型檢測精度。
綜上所述,SIOU總損失函數(shù)定義為:
(8)
(9)
式中:B表示預(yù)測框,Bgt表示真實框。
本文實驗環(huán)境基于Ubuntu18.04,CPU型號為Intel(R)Xeon(R)Platinum8350C CPU@2.60 GHz,運行內(nèi)存為45 GB,GPU型號為NVIDIA GeForce RTX 3080 Ti,顯存大小為12 GB。該模型基于深度學(xué)習(xí)框架PyTorch 1.9.0,運行環(huán)境為python 3.8,集成開發(fā)環(huán)境為PyCharm,使用CUDA 11.1進(jìn)行加速。
本次實驗使用某大學(xué)發(fā)布的鋼材表面缺陷數(shù)據(jù)集NEU-DET,該數(shù)據(jù)集覆蓋了6種典型的鋼材表面缺陷灰度圖,每種缺陷300張圖片。6種缺陷分別為:裂紋(crazing,Cr)、夾雜物(inclusion,In)、斑塊(patches,Pa)、點蝕面(pitted surface,PS)、氧化鐵皮壓入(rolled-in scale,RS)、劃痕(scratches,Sc),數(shù)據(jù)集部分示例如圖6所示,可以發(fā)現(xiàn)缺陷與背景顏色相近,且不同缺陷之間尺度變化多樣,小目標(biāo)占比多。
圖6 數(shù)據(jù)集部分示例
實驗過程中將數(shù)據(jù)集以6∶2∶2的比例劃分為訓(xùn)練集、驗證集和測試集。為體現(xiàn)本文算法的魯棒性,更加貼近實際生活應(yīng)用,實驗所用數(shù)據(jù)集沒有經(jīng)過任何清晰化等預(yù)處理,均為原始圖像。
本文的目的是在保證檢測精度的情況下,實現(xiàn)模型輕量化。本實驗主要通過平均精度(average precision,AP)、平均精度均值(mean average presicion,mAP)、單張圖片所用推理時間(t)、模型體積(Weight)、網(wǎng)絡(luò)參數(shù)量(Params)作為評價指標(biāo)來衡量模型的性能。
我們在YOLOv5 v6.0模型的基礎(chǔ)上,進(jìn)行各類優(yōu)化策略的消融實驗,以測試不同優(yōu)化策略對于鋼材表面缺陷數(shù)據(jù)集在模型性能上的提升效果。共做8組實驗,均保持相同的參數(shù)設(shè)置和實驗環(huán)境,實驗結(jié)果如表1和表2所示,其中表1和表2的實驗序號相互對應(yīng)。
表1 消融實驗?zāi)P托阅苤笜?biāo)對比
表2 消融實驗?zāi)P偷腁P值 (%)
在表1和表2中,實驗1使用未改進(jìn)的原始YOLOv5作為對照試驗,mAP值為71.1%,對比實驗2、3、4、5分別添加ELAN、DSC、Ghostv2和SIOU模塊,mAP值均有提升,模型體積和參數(shù)量也有不同程度的減少,說明所改進(jìn)模塊對于鋼材表面缺陷檢測效果以及實現(xiàn)模型輕量化均有幫助。實驗2在模型主干將C3模塊替換成ELAN模塊,改進(jìn)后模型mAP值為76.8%,與YOLOv5相比提高了5.1%,雖然檢測時間增加了0.3 ms,但是模型體積減少了20.8%,參數(shù)量減少了21.5%,說明ELAN模塊通過優(yōu)化網(wǎng)絡(luò)路徑,能夠使模型以更少的參數(shù)量學(xué)習(xí)到更多的特征信息,既簡化了網(wǎng)絡(luò),同時對鋼材表面缺陷檢測性能顯著提高。實驗6在實驗2的基礎(chǔ)上,將頸部的標(biāo)準(zhǔn)卷積換成DSC,mAP值為76.2%,降低了0.6%,檢測時間縮短了0.3 ms,雖然損失了少量精度,但是DSC結(jié)構(gòu)使得模型體積減少了33.2%,參數(shù)量減少了34.1%。實驗7在頸部最后使用Ghostv2模塊,模型處理單張圖片所用時間縮短到2.9 ms,mAP值提升到76.7%,模型體積從原來的13.81 MB降低到7.99 MB,參數(shù)量從原來的7.03減少到3.98,驗證了DFC機(jī)制不僅能使模型快速運行,還能很好的捕捉遠(yuǎn)程像素之間的依賴關(guān)系,彌補(bǔ)網(wǎng)絡(luò)在訓(xùn)練過程中由于過度減少模型體積和參數(shù)量導(dǎo)致重要信息丟失的現(xiàn)象,提升了網(wǎng)絡(luò)對鋼材表面缺陷的檢測能力。實驗8使用SIOU邊框損失函數(shù)代替原有的CIOU,并沒有帶來任何模型體積和參數(shù)量的增加,SIOU在CIOU的基礎(chǔ)上充分考慮了真實框與預(yù)測框之間回歸方向不匹配的問題,加入角度影響因子,提高模型定位精度以及檢測速度,使邊界框能夠更快速精準(zhǔn)的回歸,mAP值提高到77.0%,處理時間縮短到2.8 ms。
通過上述分析,我們最終模型為實驗8所用模型,在ELAN、DSC、Ghostv2和SIOU 4個模塊的共同作用下,改進(jìn)后模型的輕量化效果明顯,模型體積較原始YOLOv5縮小了42.1%,模型參數(shù)量減少了43.4%,約降低到原始模型的一半。改進(jìn)后模型對鋼材表面缺陷檢測效果也大大提高,mAP值達(dá)到77.0%,在YOLOv5的基礎(chǔ)上提高了5.3%,裂紋、夾雜物、斑塊、點蝕面、氧化鐵皮壓入和劃痕6種缺陷AP值分別提高了5.0%、5.2%、2.4%、4.5%、12.0%、3.0%,說明改進(jìn)后的網(wǎng)絡(luò)能夠很好的解決目標(biāo)與背景相似度高,尺度變化多樣,小目標(biāo)占比多的問題,很好的實現(xiàn)了輕量化和檢測準(zhǔn)確率的平衡。
為進(jìn)一步驗證本文所提模型的有效性和優(yōu)越性,現(xiàn)將改進(jìn)后模型與目前主流YOLO系列算法和其他論文中提出的鋼材表面缺陷檢測算法進(jìn)行對比,實驗結(jié)果如表3所示。
表3 本文提出算法與其他網(wǎng)絡(luò)模型的對比
分析表3,綜合考慮模型的檢測效果和模型的輕量化實現(xiàn),本文所提模型表現(xiàn)最佳。本文模型mAP值為77.0%,相較于YOLOv5l和YOLOv3分別提高了3.3%和4.9%,YOLOv5l和YOLOv3的檢測速度也遠(yuǎn)比不上我們的模型,網(wǎng)絡(luò)參數(shù)量也極大,不僅會占用大量的計算資源,而且部署到移動端比較困難,應(yīng)用起來耗時耗力,難以推廣。相比于YOLOv5原模型,本文模型mAP值提高了5.3%,說明我們的模型對鋼材表面缺陷具備更強(qiáng)的檢測能力,同時,處理每張圖片的時間從3.2 ms提升到2.8 ms,完全滿足工業(yè)生產(chǎn)中實時性的需求,除此之外,模型體積縮小了42.1%,參數(shù)量減少了43.4%,大大降低了模型的復(fù)雜度。
現(xiàn)有的鋼材表面缺陷檢測算法主要以YOLOv5作為模型基線,再結(jié)合各種改進(jìn)方法設(shè)計網(wǎng)絡(luò)體系。與現(xiàn)有的5種模型相比,本文模型的綜合性能具有更高的優(yōu)勢。文獻(xiàn)[15]的模型體積雖然縮小到4.40,但是以犧牲檢測精度和速度為代價,本文模型每張圖片處理時間只需2.8 ms,比6.85 ms快了兩倍多。文獻(xiàn)[2]和文獻(xiàn)[3]的模型分別基于v5m和v5l,雖然使用更龐大的基線模型,但是模型參數(shù)和體積的大量增加并沒有帶來檢測精度的提高,檢測精度比本文模型分別低了2.9%和1.8%。與文獻(xiàn)[16]相比,本文模型處理時間慢了0.3 ms,但是模型體積小了38.1%,參數(shù)量減少了36.8%,在保證能過做到實時處理的同時,節(jié)省算力。文獻(xiàn)[17]檢測精度只比本文模型高0.2%,但是模型參數(shù)量仍比YOLOv5改進(jìn)前更高,不利于模型的輕量化部署。
綜上所述,我們所提模型能更好的完成鋼材表面缺陷檢測任務(wù),在檢測速度滿足實時性的情況下,實現(xiàn)了模型輕量化和檢測準(zhǔn)確率的平衡,為后續(xù)投入工業(yè)應(yīng)用奠定了基礎(chǔ)。
本文通過引入ELAN、DSC、Ghostv2和SIOU 4個模塊,在YOLOv5模型的基礎(chǔ)上提出了一種改進(jìn)的鋼材表面缺陷檢測輕量化模型。實驗結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)mAP值為77.0%,較原始模型提高了5.3%,網(wǎng)絡(luò)在參數(shù)量和模型大小等方面都得到了有效減少,參數(shù)量降低了43.1%,模型體積縮小了42.1%,每張圖片的處理速度從原來的3.2 ms提升到2.8 ms。改進(jìn)后的模型在符合實時性檢測要求的同時,能夠很好地實現(xiàn)模型檢測精度和輕量化的平衡。下一步工作將驗證該模型在不同鋼材表面缺陷數(shù)據(jù)集上的檢測效果,并研究如何將模型部署到移動端,結(jié)合實際應(yīng)用對模型加以完善和改進(jìn)。