胡越杰, 蔣高明
(江南大學(xué) a.紡織科學(xué)與工程學(xué)院; b.針織技術(shù)教育部工程研究中心, 江蘇 無錫 214122)
在紡織工業(yè)中,疵點(diǎn)的檢測(cè)與分類至關(guān)重要,可以為紡織生產(chǎn)的質(zhì)量控制提供指導(dǎo)性建議。紡織企業(yè)常用的檢測(cè)方法是人工檢測(cè),即檢測(cè)人員按個(gè)人經(jīng)驗(yàn)或評(píng)分標(biāo)準(zhǔn)對(duì)織物做出等級(jí)評(píng)定[1]。這種檢測(cè)方式存在眾所周知的局限性,如檢測(cè)人員注意力易分散、易疲勞及易受主觀因素影響,據(jù)調(diào)查其準(zhǔn)確率僅為60%~70%[2]。因此,自動(dòng)化的機(jī)器視覺檢測(cè)方法已成為當(dāng)前研究的熱點(diǎn),但是關(guān)于針織物疵點(diǎn)的檢測(cè)與分類比其他類織物更少涉及,這主要是由于針織物本身良好的彈性,及其較為松散的線圈結(jié)構(gòu),容易導(dǎo)致下機(jī)后織物無法在尺寸上保持穩(wěn)定,因而使得疵點(diǎn)信息相對(duì)模糊。
傳統(tǒng)的織物疵點(diǎn)檢測(cè)方法可以總結(jié)為統(tǒng)計(jì)法[3]、模型法[4]和頻譜法[5-6]。這些方法主要依賴人工設(shè)計(jì)的特征提取器對(duì)織物特征進(jìn)行提取,需要具備專業(yè)的知識(shí)并且調(diào)參過程復(fù)雜,因此存在一定的局限性。近年來隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)因其能夠自適應(yīng)、智能地學(xué)習(xí)關(guān)鍵信息,被廣泛應(yīng)用于織物疵點(diǎn)的檢測(cè)與分類任務(wù)中。Xie等[7]基于全卷積通道注意力和自底向上路徑增強(qiáng)設(shè)計(jì)了一種改進(jìn)的頭部結(jié)構(gòu)(Head),有效地提高了缺陷定位精度。Wen等[8]使用PE算法(Patches extractor)提取缺陷圖像的片段,再通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)來預(yù)測(cè)片段的類別和圖像的最終類別。在文獻(xiàn)[9]中同樣遵循二階段思想,以Inception-V1模型預(yù)估局部區(qū)域疵點(diǎn)是否存在,最終使用LeNet-5模型識(shí)別織物中的缺陷類型。Biradar等[10]設(shè)計(jì)三層結(jié)構(gòu)的CNN,在TILDA數(shù)據(jù)庫上的分類精度高達(dá)99.06%,但是該模型無法提供疵點(diǎn)的位置信息。此外,YOLO系列的目標(biāo)檢測(cè)模型具備端到端(End-to-end)的特性,并且兼顧了檢測(cè)精度,因此不乏其應(yīng)用于織物疵點(diǎn)檢測(cè)的場(chǎng)景。例如參照YOLOv5提出的師生結(jié)構(gòu)(Teacher-student)[11],以及根據(jù)YOLOv4設(shè)計(jì)的實(shí)時(shí)檢測(cè)系統(tǒng)[12]。Liu等[13]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的織物缺陷檢測(cè)框架,不僅實(shí)現(xiàn)了像素級(jí)別的分割還能夠自動(dòng)適應(yīng)不同的織物紋理。與之類似,文獻(xiàn)[14]中設(shè)計(jì)的DLSE網(wǎng)絡(luò),引入了注意力機(jī)制以提高對(duì)陌生樣本的適應(yīng)性。值得一提的是,上述兩種模型似乎更適合顯示疵點(diǎn)的形狀,然而這種分割過程將消耗大量的計(jì)算資源,如何設(shè)計(jì)合理的結(jié)構(gòu)以滿足工業(yè)檢測(cè)的實(shí)時(shí)性需求是該領(lǐng)域面臨的巨大挑戰(zhàn)。另外,Wang等[15]搭建的監(jiān)督神經(jīng)網(wǎng)絡(luò)模型只需要少量的無缺陷樣本進(jìn)行訓(xùn)練,在一定程度上緩解了數(shù)據(jù)集不足的問題。
以上織物缺陷檢測(cè)和分類的深度學(xué)習(xí)框架都是基于CNN模型。CNN提取局部有效信息效果顯著,但缺乏整合全局信息的能力。Transformer可以彌補(bǔ)這一缺陷[16],其獨(dú)特的自注意機(jī)制專注于建立遠(yuǎn)程元素之間的聯(lián)系,使每個(gè)像素包含全局特征。Alexey等[17]提出ViT網(wǎng)絡(luò)模型,將Transformer從自然語言處理應(yīng)用到圖像識(shí)別任務(wù)。ViT直接分割輸入圖像成16×16的片段(Patch)并輸入Transformer,該模型只能處理分類任務(wù)。Zheng等[18]提出一種名為SETR的網(wǎng)絡(luò),該網(wǎng)絡(luò)將Transformer的輸出從向量重塑為特征圖,隨后上采樣、反卷積解碼得到分割結(jié)果。雖然基于Transformer的算法極大地提高了目標(biāo)檢測(cè)的效果,但在計(jì)算機(jī)視覺領(lǐng)域仍然存在嚴(yán)重問題:1) 向量運(yùn)算需要涉及所有像素,對(duì)大尺寸圖像操作會(huì)非常耗時(shí)并且占據(jù)計(jì)算資源。2) 忽略了文本信號(hào)和視覺信號(hào)的差異,沒有與視覺信號(hào)本身的特點(diǎn)結(jié)合。
針對(duì)上述問題Swin Transformer(ST)模型被提出[19],ST采用層級(jí)結(jié)構(gòu)設(shè)計(jì),在各個(gè)窗口區(qū)域執(zhí)行注意力計(jì)算。ST開創(chuàng)性地引入卷積操作的局部性和層次性,同時(shí)大幅降低計(jì)算復(fù)雜度,使其與輸入圖像的尺寸呈線性關(guān)系。作為一個(gè)通用的視覺網(wǎng)絡(luò),ST在圖像分類、目標(biāo)檢測(cè)[20]和語義分割[21-22]等任務(wù)中表現(xiàn)出SOTA(State-of-the-art)的性能。然而處理針織物疵點(diǎn)檢測(cè)任務(wù)時(shí),ST對(duì)上下文信息編碼的能力有限,需要進(jìn)一步改善。此外,現(xiàn)有的目標(biāo)檢測(cè)網(wǎng)絡(luò)大多通過深度監(jiān)督處理不同層次的特征圖,或者只使用最終的抽象特征,導(dǎo)致無法充分整合多尺度特征信息,影響檢測(cè)精度。
因此,本文提出了一種多尺度自適應(yīng)網(wǎng)絡(luò)模型SwinBN(Swin transformer and bidirectional feature pyramid network),該模型以改進(jìn)的BiFPN網(wǎng)絡(luò)為頸部結(jié)構(gòu),有效地區(qū)分各個(gè)特征層對(duì)于輸出的重要性,實(shí)現(xiàn)不同尺度之間的加權(quán)特征融合??紤]到CNN提取全局信息能力弱及針織物疵點(diǎn)的形狀特點(diǎn),模型的骨干網(wǎng)絡(luò)DCSW(Deformable convolution and swin transformer)將可變形卷積和ST各自的優(yōu)勢(shì)相結(jié)合,有助于提取局部特征和整合全局信息。由于現(xiàn)有的圖像數(shù)據(jù)不足,本實(shí)驗(yàn)在紡織工廠現(xiàn)場(chǎng)采集圖像,人工標(biāo)注并創(chuàng)建了針織物疵點(diǎn)圖像數(shù)據(jù)庫。真實(shí)工業(yè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,SwinBN在針織物疵點(diǎn)檢測(cè)任務(wù)上優(yōu)于現(xiàn)有先進(jìn)的目標(biāo)檢測(cè)模型,驗(yàn)證了該方法的準(zhǔn)確性與可行性。
關(guān)于針織面料疵點(diǎn)檢測(cè)的研究很少,本實(shí)驗(yàn)圖像采集于江南大學(xué)針織技術(shù)工程研究中心和無錫新祥瑞紡織品有限公司,如圖1所示。采集圖像時(shí)使用一臺(tái)2 600萬像素的高分辨率相機(jī)(分辨率固定為300 dpi),鏡頭距坯布垂直距離200 mm,豎直向下聚焦拍攝,側(cè)面補(bǔ)光角度為30°以達(dá)到圖像沒有暗影和坯布反光的效果,采集的圖像大小為900×600 pixel。本文主要針對(duì)實(shí)際生產(chǎn)中出現(xiàn)的四種最常見的疵點(diǎn)類型,包括破洞、漏針、油針、橫檔(圖2),具體描述如下:
圖1 針織物圖像采集Fig.1 Acquisition of knitted fabric images
1) 破洞:紗線在編織過程中受到了超過其自身斷裂強(qiáng)度的力,導(dǎo)致紗線被拉斷,形成布面上的洞孔。
2) 漏針:緯編針織物在織造時(shí),織針沒有勾到毛紗或勾到毛紗后又脫出針鉤而造成線圈脫散,在布面出現(xiàn)垂直的條痕及小孔的現(xiàn)象。
3) 油針:由于機(jī)臺(tái)供油過多或者漏油,跟隨織針的運(yùn)轉(zhuǎn)污染坯布,在布面上呈現(xiàn)為一條黑線直落。
4) 橫檔:一種視覺上非主觀性設(shè)計(jì)的,重復(fù)且連續(xù)狀的條形圖案,通常平行于針織物的線圈橫列,又稱為橫條或橫路。
實(shí)驗(yàn)中,為了避免因計(jì)算原因影響圖像特性,采集的圖像從原始大小裁剪并縮放至320×320 pixel。經(jīng)過人工標(biāo)注后建立的數(shù)據(jù)集包含3 524張針織物圖像,其中負(fù)樣本935張,破洞、漏針、油針、橫檔疵點(diǎn)分別為890、784、439、476張。訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例設(shè)置為8︰1︰1,此外,采用水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和旋轉(zhuǎn)(90°、180°和270°)等數(shù)據(jù)增強(qiáng)方式擴(kuò)充樣本數(shù)量。
圖2 針織物疵點(diǎn)圖像Fig.2 Images of knitted fabric defects
針織是一種將紗線順序地彎曲成圈并相互穿套而形成織物的工藝。由于其線圈是紗線在空間彎曲而成,并且每個(gè)線圈均由一根紗線構(gòu)成,因此當(dāng)織針損壞,沉降片位置不對(duì)或者紗線本身出現(xiàn)問題時(shí),產(chǎn)生的瑕疵具有連續(xù)性,如圖3所示。以圖像的視角看,疵點(diǎn)的長(zhǎng)寬比例非常高,為細(xì)長(zhǎng)狀,并且疵點(diǎn)區(qū)域相對(duì)總圖像面積占比較小。
圖3 針織物疵點(diǎn)的形狀特征Fig.3 Shaped characteristics of knitted fabric defects
考慮到上述織物疵點(diǎn)本身的形狀特征,本文致力于將CNN和Transformer的先驗(yàn)優(yōu)勢(shì)有效結(jié)合,改進(jìn)Swin Transformer骨干網(wǎng)絡(luò)。本文在每個(gè)檢測(cè)層中加入可變形卷積模塊,加強(qiáng)網(wǎng)絡(luò)對(duì)于細(xì)長(zhǎng)疵點(diǎn)的局部感知能力,以便更好地融合高語義的特征信息。DCSW網(wǎng)絡(luò)由Patch Merging層、可變形卷積模塊和ST模塊等部分組成,其整體結(jié)構(gòu)如圖4所示。
圖4 DCSW主干網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.4 Overall structure of DCSW backbone network
1.2.1 Swin Transformer模塊
從圖4(b)可以看出,與Transformer模塊[16]相比,ST將標(biāo)準(zhǔn)多頭自注意單元(MSA)替換成窗口多頭自注意單元(W-MSA)和移動(dòng)窗口多頭自注意單元(SW-MSA),并分別應(yīng)用于兩個(gè)連續(xù)的ST模塊。此外,在每個(gè)(S)W-MSA和多層感知機(jī)MLP前安插歸一化層使得模型訓(xùn)練穩(wěn)定,并添加殘差連接。該部分可以用下式表示:
(1)
(2)
(3)
zl+1=MLP(LN(zl+1))+zl+1
(4)
如圖5(b)所示,ST模塊中的W-MSA首先將特征圖按M×M的比例劃分為一系列不重疊的窗口,而且在每個(gè)窗口中執(zhí)行注意力計(jì)算。該方式減少了網(wǎng)絡(luò)計(jì)算量,并控制模型復(fù)雜度與圖像尺寸線性相關(guān)。然而窗口分割的實(shí)現(xiàn)會(huì)導(dǎo)致不同區(qū)域之間缺乏跨窗口的信息交流,因此,SW-MSA通過將規(guī)則分區(qū)的窗口沿垂直和水平方向平移(M/2,M/2)像素的距離,并循環(huán)移位(Cycle shifted)獲得一種新的窗口布局,如圖5(d)所示。在此基礎(chǔ)上,像素的全局相關(guān)性得以保證。
圖5 移動(dòng)窗口的作用機(jī)制Fig.5 Action mechanism of shifted windows
1.2.2 可變形卷積模塊
盡管ST以W-MSA和SW-MSA兩種滑動(dòng)窗口方案為主體構(gòu)建了層次結(jié)構(gòu),但基于位置編碼的模式容易忽略圖像的局部相關(guān)性和結(jié)構(gòu)信息,以致無法高效地編碼空間上下文信息。為了緩解這個(gè)問題,本文設(shè)計(jì)了可變形卷積模塊改進(jìn)主干網(wǎng)絡(luò),它被嵌入在ST模塊的前面,其組成如圖4(a)所示。
由于ST模塊中不同層次以向量組成的數(shù)據(jù)流傳遞信息,而不是傳統(tǒng)卷積中的特征映射,因此在輸入可變形卷積模塊之前需要將其重塑為特征圖的形式。例如數(shù)據(jù)流維度大小為(B,H×W,C),首先將其重塑為(B,C,H,W)的特征圖。隨后,一個(gè)1×1的卷積層使其維度從C減小到C/4。再添加一層3×3的可變形卷積增強(qiáng)對(duì)局部特征的提取,并保持維度在C/4。然后設(shè)置一個(gè)1×1卷積層恢復(fù)維度,并使用殘差連接防止網(wǎng)絡(luò)退化,同時(shí)提升網(wǎng)絡(luò)的表征能力。為了加速神經(jīng)網(wǎng)絡(luò)的收斂及提高模型訓(xùn)練的穩(wěn)定性,每一個(gè)卷積層后面添加一個(gè)BatchNorm2D層和一個(gè)Relu激活函數(shù)。最終,將特征圖重塑為(B,H×W,C)的數(shù)據(jù)流,作為ST模塊的輸入。
圖6展示了3×3可變形卷積的特征提取過程,其直觀效果是卷積核采樣點(diǎn)的位置會(huì)根據(jù)圖像內(nèi)容自適應(yīng)調(diào)整,從而應(yīng)對(duì)不同物體的形狀、大小等幾何形變[23]。相比Pascal VOC[24]和COCO[25]這些大型數(shù)據(jù)集的檢測(cè)目標(biāo)(人臉、行人和車輛等),織物疵點(diǎn)的形狀特征更復(fù)雜多變。例如對(duì)于一張漏針圖像,其檢測(cè)對(duì)象的長(zhǎng)寬比可達(dá)30倍,而疵點(diǎn)區(qū)域面積僅占整幅圖像的1/19。因此,可變形卷積這種對(duì)圖像特征更細(xì)粒度的定位、提取方式與本文研究的需求匹配。
圖6 3×3可變形卷積的特征提取過程Fig.6 Feature extraction process of the 3×3 deformable convolution
在深度網(wǎng)絡(luò)中,深層的特征圖通常包含更豐富的全局語義信息,而淺層的特征圖包含更多的局部紋理和結(jié)構(gòu)信息。如何有效地表征和處理多尺度特征是目標(biāo)檢測(cè)任務(wù)的主要難點(diǎn)之一,常見的做法是在主干網(wǎng)絡(luò)和預(yù)測(cè)層之間添加頸部結(jié)構(gòu)(Neck)以整合信息流[26-27]。如圖7(a)所示,特征金字塔網(wǎng)絡(luò)(FPN)首次提出一種自頂向下的結(jié)構(gòu)來組合多尺度特征[28]。而NAS-FPN將其與神經(jīng)搜索相結(jié)合[29],自動(dòng)設(shè)計(jì)特征網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。但是該方法對(duì)算力的要求極高,并且從圖7(b)可以看出,其生成的特征網(wǎng)絡(luò)不規(guī)律,缺乏可解釋性。本文旨在以更直觀的方式平衡不同尺度的特征信息,受文獻(xiàn)[30]的啟發(fā)設(shè)計(jì)了一種改進(jìn)的頸部結(jié)構(gòu)I-BiFPN,如圖7(d)所示。
圖7 4種不同的頸部結(jié)構(gòu)設(shè)計(jì)Fig.7 Four different designs of the neck structure
已有研究表明,具有不同分辨率的各層次特征,對(duì)于輸出結(jié)果的作用各不相同[31-32]。因此改進(jìn)的網(wǎng)絡(luò)在各節(jié)點(diǎn)設(shè)置輸入權(quán)重,以加權(quán)融合的方式衡量不同特征層的重要性。具體而言,引入可學(xué)習(xí)參數(shù)wi=1(i表示各節(jié)點(diǎn)的輸入特征個(gè)數(shù)),將其作為不同輸入特征的權(quán)重與模型一起優(yōu)化。此外,網(wǎng)絡(luò)在原始輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間采用跨層連接的方式,以便在不消耗過多計(jì)算資源的情況下有效地聚合多尺度特征。假設(shè)輸入圖像尺寸320×320 pixel,網(wǎng)絡(luò)輸入特征F2至F5的分辨率分別為80×80、40×40、20×20、10×10。本文以圖7(d)中F4所在層為例,其特征融合過程可以用下式表示:
(5)
(6)
式中:F4td表示自頂向下路徑中的特征,F4out表示該層的輸出特征;Resize是上采樣或者下采樣操作以保證特征維度的匹配;ε=0.000 1,用于防止數(shù)值不穩(wěn)定。
所有其他特征都以類似的方式構(gòu)造。另外,在每個(gè)深度可分離卷積后添加批量歸一化層和Relu激活函數(shù)。值得注意的是,為了實(shí)現(xiàn)更高級(jí)別的特征融合,每個(gè)雙向路徑被視作一個(gè)特征網(wǎng)絡(luò)層,并在頸部結(jié)構(gòu)重復(fù)m次(m在下文3.2節(jié)中加以討論)。
SwinBN網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖8所示。給定一張大小為H×W×3的輸入圖像,其中空間分辨率為H×W。首先將圖片輸入Patch Partition模塊進(jìn)行分塊,即每4×4相鄰的像素為一組在通道方向展平,特征圖的尺寸由[H,W,3]重塑為[H/4,W/4,48]。隨后輸入至DSBL1(Deformable convolution and swin transformer block 1)。通過Linear Embedding層將其映射到維度C,再設(shè)置一個(gè)可變形卷積模塊加強(qiáng)局部信息的提取并且不改變特征圖的大小。DSBL1包含兩個(gè)連續(xù)的Transformer模塊,分別應(yīng)用WMSA和SW-MSA,不僅可以關(guān)注全局信息還能實(shí)現(xiàn)跨窗口的信息傳遞。輸出DSBL1的特征圖尺寸為H/4×W/4×C。與DSBL1相似,DSBL2包含一個(gè)可變形卷積模塊和兩個(gè)Transformer模塊,區(qū)別是將Linear Embedding層替換成Patch Merging層。Patch Merging層類似CNN中的池化層用于下采樣以得到多尺度特征信息,其中每2×2的相鄰像素劃分為一個(gè)片段并依次拼接,再通過全連接層調(diào)整通道數(shù)。由于可變形卷積模塊和ST模塊不改變特征圖的尺寸,因此DSBL2的輸出尺寸為H/8×W/8×2C。DSBL3、DSBL4與DSBL2高度相似,區(qū)別在于DSBL3中包含6個(gè)ST模塊,可以看作是DSBL2中的3倍。最終,DSBL1至DSBL4的輸出特征為F2、F3、F4、F5,通過頸部結(jié)構(gòu)I-BiFPN實(shí)現(xiàn)多尺度特征信息的融合。預(yù)測(cè)層參照文獻(xiàn)[11]和文獻(xiàn)[33]的設(shè)計(jì)方式,對(duì)4種不同尺度的特征圖進(jìn)行預(yù)測(cè)。
圖8 SwinBN網(wǎng)絡(luò)模型Fig.8 SwinBN network model
在本實(shí)驗(yàn)中,主要使用mAP值評(píng)估目標(biāo)檢測(cè)模型的性能,影響mAP值的相關(guān)指標(biāo)的含義及計(jì)算方法如下。
IoU表示真實(shí)邊界框和預(yù)測(cè)框的交集與并集的比值,如下式所示:
(7)
TP(True positive)是指正確檢測(cè)出對(duì)象的預(yù)測(cè)框數(shù)量。在本文中,該對(duì)象是織物疵點(diǎn),當(dāng)預(yù)測(cè)框與真實(shí)邊界框的IoU>0.5,并且類別預(yù)測(cè)正確,即被判定為TP。FP(False positive)表示IoU<0.5,或者分類錯(cuò)誤的預(yù)測(cè)框數(shù)量。FN(False negative)表示未被檢測(cè)到的對(duì)象個(gè)數(shù)。
精確率P(Precision)指預(yù)測(cè)正確的邊界框占所有預(yù)測(cè)框的比重,具體如下式所示:
(8)
召回率R(Recall)指預(yù)測(cè)正確的邊界框占所有真實(shí)邊界框的比重,具體如下式所示:
(9)
以召回率為橫軸、精確率為縱軸,可以得到P(R)曲線。AP指P(R)曲線與坐標(biāo)軸所包圍區(qū)域的面積,mAP值代表多個(gè)類別的平均AP值,mAP值越高則表示模型的檢測(cè)性能越好。因此,mAP可以通過下式計(jì)算:
(10)
本實(shí)驗(yàn)的操作系統(tǒng)是Windows10,64位,CPU配置Inter I7-10700,GPU配置NVIDIA GeForce RTX 2060(12 G)。軟件環(huán)境為CUDA 11.1、Python 3.8.8和Pytorch 1.9.0。采用隨機(jī)梯度下降(SGD)方法對(duì)模型進(jìn)行優(yōu)化,訓(xùn)練的迭代次數(shù)設(shè)置為200。此外,本文在自制的針織物疵點(diǎn)數(shù)據(jù)集上比較Faster RCNN[34]、Efficientdet[30]、YOLOv3[35]、YOLOv5、DETR[36]、SwinBN模型的性能。所有目標(biāo)檢測(cè)模型都是基于Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn)的,其初始化參數(shù)如表1所示。
表1 網(wǎng)絡(luò)初始化參數(shù)Tab.1 Initialization parameters of networks
參考Swin Transformer提供的4個(gè)版本(Swin-T、Swin-S、Swin-B和Swin-L),本文設(shè)計(jì)的DCSW主干網(wǎng)絡(luò)通過縮放系數(shù)λ調(diào)整網(wǎng)絡(luò)大小。此外控制頸部結(jié)構(gòu)深度的參數(shù)m需要合理優(yōu)化,因此使用控制變量法來分析參數(shù)對(duì)檢測(cè)效果的影響。實(shí)驗(yàn)中不同參數(shù)的模型均在同一臺(tái)設(shè)備訓(xùn)練直至收斂,訓(xùn)練次數(shù)不固定,結(jié)果如表2所示。
表2 不同參數(shù)配置下模型檢測(cè)mAP指標(biāo)Tab.2 Model detection mAP indexes under different parameter configurations
由表2可以看出,在[1,4]內(nèi)模型的mAP值隨著m值的增大提升明顯,這是因?yàn)殡S著特征融合網(wǎng)絡(luò)I-BiFPN加深,多尺度特征之間的加權(quán)融合更加充分。當(dāng)m≥5,模型的表現(xiàn)略有下降,此時(shí)訓(xùn)練模型所需迭代次數(shù)過多,導(dǎo)致模型難以訓(xùn)練無法完全收斂。圖9展示了在該參數(shù)下對(duì)于破洞疵點(diǎn)的檢測(cè)結(jié)果,學(xué)習(xí)不足的模型容易將織物背景誤判為疵點(diǎn)對(duì)象。
圖9 不同參數(shù)配置下的檢測(cè)結(jié)果Fig.9 Detection results under different parameter configurations
在另一組對(duì)照實(shí)驗(yàn)中,SwinBN模型的檢測(cè)效果并非與骨干網(wǎng)絡(luò)大小呈現(xiàn)正相關(guān)趨勢(shì),這可能是由于本實(shí)驗(yàn)的整體數(shù)據(jù)規(guī)模較小,SwinBN-b和SwinBN-l過于復(fù)雜以致無法良好地?cái)M合其他數(shù)據(jù)。圖10(m=4)和表2共同說明了當(dāng)λ=s時(shí)檢測(cè)效果最佳,但是推理速度達(dá)不到實(shí)時(shí)監(jiān)測(cè)的要求38 ms/image。綜上分析,選取λ=t和m=4的參數(shù)配置較為合理,模型的mAP值達(dá)到74.53%,并且在準(zhǔn)確性和實(shí)時(shí)性之間取得折中。本文后續(xù)與該模型相關(guān)的實(shí)驗(yàn)中全部使用此參數(shù)配置。
圖10 模型的性能與骨干網(wǎng)絡(luò)大小的關(guān)系討論Fig.10 Illustration on the relationship between a model’s performance and the size of the backbone network
表3對(duì)比了SwinBN模型與其他五個(gè)模型的檢測(cè)性能。由表3可以明顯地看出,在所有模型中二階段算法Faster RCNN的檢測(cè)效果最不理想。其精確率、召回率和mAP值分別為54.35%、50.67%和46.75%,皆是最差的實(shí)驗(yàn)結(jié)果。并且檢測(cè)一幅圖像的耗時(shí)最長(zhǎng)為0.237 s,因此不適合針織物疵點(diǎn)的檢測(cè)。
表3 不同目標(biāo)檢測(cè)模型的性能比較Tab.3 Performance comparison of different object detection models
此外,基于Transformer的網(wǎng)絡(luò)模型一定程度上表現(xiàn)出在視覺領(lǐng)域的優(yōu)越性。具體而言,DETR和SwinBN的平均mAP值達(dá)到了70.26%。分析主要原因在于自注意力機(jī)制的使用,它能夠捕捉全局上下文信息,建立像素之間的遠(yuǎn)程相關(guān)性,從而提取更有價(jià)值的特征。因此在計(jì)算機(jī)視覺領(lǐng)域,基于Transformer的模型與CNN相比,擁有更具競(jìng)爭(zhēng)力的性能及可觀的改進(jìn)空間??偟膩碚f,SwinBN以同一水平的參數(shù)量和計(jì)算成本在各指標(biāo)上取得了最佳的表現(xiàn)。對(duì)于綜合指標(biāo)F1-score,SwinBN分別比YOLOv3、Efficientdet、YOLOv5和DETR高19.18%、13.82%、10.39%和2.23%。就目標(biāo)檢測(cè)的基準(zhǔn)指標(biāo)mAP而言,本文提出的方法比上述模型高12.24%、11.91%、7.80%和1.63%。在檢測(cè)速度方面,SwinBN模型的參數(shù)量?jī)H為39.72 M,預(yù)測(cè)一張圖片所需時(shí)間0.032 s,快于YOLOv5m和DETR,比YOLOv3模型略慢。上述實(shí)驗(yàn)結(jié)果證明,該方法在檢測(cè)速度和檢測(cè)精度之間取得了平衡,能夠高效、快速地檢測(cè)出針織物疵點(diǎn)。
為了驗(yàn)證不同改進(jìn)技術(shù)的必要性和對(duì)模型性能的影響,本文進(jìn)行了消融實(shí)驗(yàn)。在模型設(shè)計(jì)階段,以ST為主干網(wǎng)絡(luò)原型,在DSBL1至DSBL4中配置可變形卷積模塊以提取更豐富的局部特征(表4)。
表4 可變形卷積模塊對(duì)檢測(cè)性能提升效果驗(yàn)證Tab.4 Verification of the improvement effect of deformable convolution modules on the detection performance
表4評(píng)估了各可變形卷積模塊的重要性,“√”和“×”分別表示其在DSBL中是否被應(yīng)用。實(shí)驗(yàn)結(jié)果證明,在添加可變形卷積模塊后模型性能有顯著提升。相比不使用可變形卷積模塊的Modela,SwinBN的mAP值提升了3.33%,并且針對(duì)橫檔、漏針兩種細(xì)長(zhǎng)型疵點(diǎn)的檢測(cè)效果改善明顯(圖11),其AP值分別提升了5.02%和3.03%。
圖11 Modela和SwinBN模型的檢測(cè)效果對(duì)比Fig.11 Comparison of the detection effect between Modela and SwinBN models
從圖11可以更直觀地看出,Modela將部分橫檔疵點(diǎn)誤檢為漏針,而且對(duì)于瑕疵區(qū)域的界定不及SwinBN精準(zhǔn)。除此之外,在模型早期添加可變形卷積對(duì)檢測(cè)性能的影響更為關(guān)鍵。例如只在DSBL1添加可變形卷積的Modelb,其mAP值提升了1.78%,而SwinBN相比Modeld的mAP增值只有0.12%。這是由于淺層的輸出包含豐富的顏色和紋理特征,更有利于動(dòng)態(tài)卷積核自適應(yīng)地定位細(xì)長(zhǎng)疵點(diǎn)??傊?可變形卷積模塊非常契合地彌補(bǔ)了Transformer對(duì)于局部特征提取能力弱的缺陷。
消融實(shí)驗(yàn)還對(duì)比了FPN、PAN、BiFPN和I-BiFPN四種頸部結(jié)構(gòu)對(duì)模型性能的影響,實(shí)驗(yàn)結(jié)果如圖12所示。由圖12可以看出,相比其他3種雙向結(jié)構(gòu),單向網(wǎng)絡(luò)FPN特征融合效果最差,mAP值僅為68.25%。結(jié)合DCSW和PAN的模型通過自底向上金字塔傳遞底層定位特征,對(duì)于漏針疵點(diǎn)的檢測(cè)效果顯著,但無法彈性地控制特征層深度,因此整體性能并不突出。實(shí)驗(yàn)結(jié)果顯示,使用改進(jìn)的BiFPN自適應(yīng)整合多尺度特征對(duì)各疵點(diǎn)類型的檢測(cè)效果均有提升,mAP值提升了1.02%,驗(yàn)證了此結(jié)構(gòu)比BiFPN能更大程度地利用融合權(quán)重的各尺度特征。
圖12 不同頸部結(jié)構(gòu)對(duì)檢測(cè)模型性能的影響Fig.12 Effects of different neck structures on the performance of detection models
本文提出了一種名為SwinBN的深度學(xué)習(xí)模型應(yīng)用于針織物疵點(diǎn)檢測(cè)任務(wù)。首先,SwinBN以DCSW為主干特征提取網(wǎng)絡(luò),充分結(jié)合了CNN和Transformer各自的優(yōu)勢(shì):通過自注意力機(jī)制高效地整合全局信息;根據(jù)疵點(diǎn)的形狀特征,引入了可變形卷積加強(qiáng)提取局部特征的能力。其次,模型以改進(jìn)的BiFPN網(wǎng)絡(luò)為頸部結(jié)構(gòu)促進(jìn)多尺度特征之間的加權(quán)融合,有效地提高了缺陷定位精度。綜合實(shí)驗(yàn)測(cè)試階段,SwinBN與其他現(xiàn)有研究的最新方法在針織物疵點(diǎn)數(shù)據(jù)集上進(jìn)行比較,各項(xiàng)指標(biāo)都取得了最好的表現(xiàn),例如精確率、F1-score和mAP值等。此外,本文還通過消融實(shí)驗(yàn)說明提出模型中關(guān)鍵組件的有效性和合理性。研究結(jié)果表明,SwinBN提供了一種精確滿足針織行業(yè)需求的疵點(diǎn)檢測(cè)方案,在織物疵點(diǎn)的檢測(cè)與分類任務(wù)中有著可觀的應(yīng)用前景。
《絲綢》官網(wǎng)下載
中國(guó)知網(wǎng)下載