国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度對比網(wǎng)絡的印刷缺陷檢測方法

2023-02-03 03:02:28王佑芯
計算機應用 2023年1期
關鍵詞:變化檢測算子印刷

王佑芯,陳 斌

(1.中國科學院 成都計算機應用研究所,成都 610213;2.中國科學院大學 計算機科學與技術學院,北京 100049;3.哈爾濱工業(yè)大學(深圳)國際人工智能研究院,廣東 深圳 518055;4.哈爾濱工業(yè)大學 重慶研究院,重慶 401100)

0 引言

印刷品質量檢測是印刷品生產(chǎn)過程中的一個重要環(huán)節(jié),作為印刷品質量檢測環(huán)節(jié)的一項重要技術,印刷缺陷檢測是工業(yè)檢測領域的一個經(jīng)典問題。目前,基于機器視覺的工業(yè)檢測技術[1]已取得了較好的發(fā)展,并且已經(jīng)應用于金屬表面劃痕檢測、印刷電路板缺陷檢測等問題中。相較于人工抽樣檢測,基于視覺的自動化檢測技術在保證產(chǎn)品全覆蓋的同時,還具有速度快、精度高、人力成本低等優(yōu)點,因此具有較高的研究與應用價值。

然而,即使在人工智能領域迅速發(fā)展的今天,現(xiàn)有的印刷缺陷檢測技術依舊沒有達到完全令人滿意的水平。在現(xiàn)有技術中,依賴傳統(tǒng)圖像處理技術的視覺檢測系統(tǒng)[2-4]對成像時的光照條件、機械誤差等影響因子極度敏感、魯棒性較差,并且需要專業(yè)人員不斷根據(jù)真實環(huán)境對系統(tǒng)參數(shù)進行調(diào)整,往往難以達到預期的檢測效果。近幾年來,得益于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[5]強大的表征能力,基于深度學習[6]的通用目標檢測方法[7-9]在諸多工業(yè)缺陷檢測問題中都取得了較好的結果;但對于具有內(nèi)容相關性的印刷缺陷檢測問題,這些方法依舊面臨著無法解決的語義矛盾。內(nèi)容相關性引起的語義矛盾可以理解為:當缺陷與印刷內(nèi)容的視覺特征相同時,YOLOv3(You Only Look Once v3)[7]等基于深度學習的通用目標檢測方法無法在只檢測圖像信息的條件下完成檢測。例如,模型無法將印刷內(nèi)容缺失處的背景判別為缺陷,因為背景本身并非缺陷。圖1 展示了兩種具有內(nèi)容相關性的印刷缺陷。

圖1 具有內(nèi)容相關性的缺陷樣例Fig.1 Defect samples with content correlation

針對上述問題,本文將傳統(tǒng)模板匹配技術中的對比思想與深度學習中的語義特征結合,提出了一種基于深度對比神經(jīng)網(wǎng)絡的印刷缺陷檢測方法,并在兩個不同數(shù)據(jù)集上對該方法進行了全面評估。本文的主要工作如下:

1)基于孿生卷積神經(jīng)網(wǎng)絡設計了一個端到端的印刷缺陷檢測模型——深度對比網(wǎng)絡(Deep Comparison Network,CoNet)。該模型在語義空間對比檢測圖像與參考圖像,不僅解決了傳統(tǒng)方法魯棒性較差的問題,而且避免了基于深度學習的通用目標檢測方法在印刷缺陷檢測問題中面臨的語義矛盾問題。

2)提出了一種非對稱的雙通路特征金字塔結構,并將其用于CoNet 的多尺度變化檢測模塊(Multi-scale Change Detection Module,MsCDM)。該網(wǎng)絡結構可以在盡可能少地增加計算量的條件下,為檢測模塊引入更多的有效信息,提升檢測性能。在公開的印刷電路板缺陷數(shù)據(jù)集DeepPCB[10]和本文收集的立金缺陷數(shù)據(jù)集上的實驗結果表明,相較于目前性能最優(yōu)的兩種印刷缺陷檢測方法,CoNet 的檢測精度更高,并且檢測速度也可以滿足工業(yè)檢測任務的實時性要求。

1 相關工作

1.1 傳統(tǒng)工業(yè)檢測算法

作為機器視覺領域的一個重要分支,基于傳統(tǒng)圖像處理技術的工業(yè)檢測系統(tǒng)已取得了較好的發(fā)展,并且已成功應用于大量的工業(yè)場景中,如印刷品[11-14]、電路板[15]、紡織和紋理[16-17]檢測等。

在印刷缺陷檢測問題上,Shankar 等[12]利用動態(tài)濾波器檢測圖像邊緣,然后通過閾值化與變換算法進一步分析,實現(xiàn)了可用于卷筒膠印設備的實時檢測系統(tǒng);Sun 等[13]通過增量主成分分析算法建模不同模式的正樣本,并利用主成分為不同的測試樣本重建模板,進而將測試樣本與重建模板的差異視作印刷缺陷;Wang 等[14]針對傳統(tǒng)差值方法存在的偽殘差問題,提出了灰度差值和梯度差值相結合的方法,有效消除了偽殘差,該方法的檢出率明顯高于傳統(tǒng)差值方法。此外,針對印刷電路板缺陷檢測問題,Malge 等[15]基于形態(tài)學算法提出了圖像分割與局部像素對比相結合的缺陷檢測方法;而Tsai 等[16]則利用傅里葉變換在頻域對圖像進行分析,通過一維霍夫變換檢測并過濾高頻分量后,再反變換得到只有缺陷區(qū)域被清晰保留的重構圖像。

整體上看,基于傳統(tǒng)圖像處理技術的方法通常在像素空間或低維特征空間進行檢測,例如直接計算檢測圖像與參考圖像之間的差值[12],或者在檢測時增加梯度[14]、頻率[16]等信息??梢园l(fā)現(xiàn),這些方法無法建模圖像的語義信息,而圖像的灰度、梯度等信息容易受成像條件等因素影響,因此魯棒性低。

1.2 基于深度學習的目標檢測方法

近年來,基于深度學習的計算機視覺算法發(fā)展迅猛,尤其在目標檢測問題上取得了驚人的進展。

Ren 等[8]提出的二階段模型Faster R-CNN(Faster Regionbased CNN)以CNN 提取的語義特征圖為基礎,先利用兩個1×1 卷積層生成粗粒度的候選框,再通過感興趣區(qū)域池化(Region of Interest Pooling,RoIPooing)提取候選框內(nèi)特征,最后將所得特征用于預測目標的類別與邊界框。與Faster R-CNN 不同,Redmon 等[7]提出的YOLOv3 直接以骨架網(wǎng)絡提取的多尺度特征圖為輸入,利用三個相互獨立的1×1卷積層分別預測三種尺度目標的置信度、類別與邊界框;得益于不用預先提取候選框,該方法不僅能保證檢測精度,還可以滿足實時檢測的需求。

基于經(jīng)典Faster R-CNN,He 等[9]提出的Mask R-CNN(Mask Region-based CNN)將Faster R-CNN 的骨架網(wǎng)絡改進為Lin 等[18]提出的特征金字塔網(wǎng)絡(Feature Pyramid Network,F(xiàn)PN),并增加了一個全卷積掩碼預測頭用于分割檢測結果中的目標與背景,提升檢測性能的同時還較好地解決了實例分割問題。馬佳良等[19]基于其提出的有效交并比(Effective Intersection over Union,EIoU)和特征重分配模塊(Feature Reassignment Module,F(xiàn)RM)設計了改進的目標檢測框架。而Yang 等[20]則利用關鍵點檢測的思路,設計了一個不依賴錨框的目標檢測模型RepPoints(Point set Representation),該模型為特征圖的每個位置預測一組點集,并利用該點集輸出檢測框,是一種與上述基于錨框的方法完全不同的范式。此外,Sparse R-CNN(Sparse Region-based CNN)[21]等候選框稀疏的目標檢測方法也逐漸被關注,它們不用像大多數(shù)方法一樣設置稠密分布的候選框,因此更符合人類思維。

上述方法在公開目標檢測數(shù)據(jù)集上已經(jīng)取得十分優(yōu)秀的結果,并在許多工業(yè)檢測問題中得以應用,例如Liong 等[22]將Mask R-CNN 用于皮革缺陷檢測問題;He 等[23]將改進后的Faster R-CNN 用于鋼表面缺陷檢測問題;馮濤等[24]將提出的角度加權交并比與Mask R-CNN 結合后,較好地解決了染色體實例分割問題。

基于深度學習的方法能全面超越基于特征描述子和形態(tài)學算法等技術的目標檢測方法是因為CNN 具有更強大的表征能力。通過卷積層、池化層與激活層等線性與非線性變換運算的堆疊,CNN 將圖像從像素空間映射到語義空間,然后利用反向傳播算法[5]優(yōu)化模型參數(shù),使模型可以在語義空間自適應地表征各種復雜的模式。

但在印刷缺陷檢測問題上,上述以單張圖像為輸入的方法因為缺少參考圖像的信息,所以無法完全檢測具有內(nèi)容相關性的缺陷,例如印刷內(nèi)容的偏移、缺失,以及與印刷內(nèi)容視覺特征相同的缺陷。與通用目標檢測方法相比,本文提出的CoNet 通過孿生的網(wǎng)絡結構讓模型得到正樣本(即參考圖像)的信息,然后通過在語義空間比較檢測圖像與參考圖像完成缺陷檢測,從而解決了內(nèi)容相關性缺陷帶來的問題。因此,CoNet 相較于Faster R-CNN 等通用目標檢測方法更適合解決依賴參考圖像的檢測問題。

1.3 變化檢測與印刷缺陷檢測

與目標檢測問題不同,變化檢測的目標是對圖像之間的差異進行判別與定位,需要以兩張或多張圖像為輸入。一直以來,變化檢測都是遙感圖像分析領域的一個重要研究問題,并且也有許多優(yōu)秀的研究成果。

Zhao 等[25]首次將深度學習用于變化檢測問題,通過比例對數(shù)算子計算輸入圖像之間的差異圖,然后利用深度學習完成差異圖的后續(xù)判別。相反地,Zhan 等[26]將孿生卷積神經(jīng)網(wǎng)絡用于圖像對特征圖提取階段,然后以歐氏距離作為相似性度量計算特征圖之間的距離,最后通過閾值化和K近鄰得到檢測結果。與前兩種方法不同,Caye Daudt 等[27]基于U-Net[28]提出了三種變化檢測模型,這三種模型分別采用原圖拼接、特征圖拼接與特征圖差值三種信息融合的方式,并且都是端到端的全卷積神經(jīng)網(wǎng)絡。而黃平平等[29]則通過構造基于改進相對熵與均值比的融合差異圖提出了無監(jiān)督的變化檢測方法,并將其用于洪災前后的變化趨勢估計。

可以發(fā)現(xiàn),變化檢測方法正好可以用于印刷缺陷檢測問題,因為印刷缺陷本質上就是檢測圖像相較于參考圖像的變化之處。因此,Tang 等[10]基于變化檢測的思路,以VGG-tiny(Visual Geometry Group network-tiny)[30]作為骨架網(wǎng)絡提取檢測圖像和參考圖像的特征圖,通過特征圖差值進行信息融合后,再使用分組金字塔池化(Group Pyramid Pooling,GPP)完成印刷電路板缺陷檢測。Tang 等[10]分別測試了使用最大池化和平均池化兩種方法的GPP 模型,實驗結果表明,最大分組金字塔池化(Max-Pooling Group Pyramid Pooing,MP-GPP)方法的性能更好。相似地,Haik 等[11]針對動態(tài)數(shù)據(jù)打印提出了兩種缺陷檢測方法:一種是在像素空間進行信息融合的偽彩色單次檢測器(Pseudo-color Single Shot Detector,Pseudo-SSD);另一種是在語義空間進行信息融合的變化檢測單次檢測器(Change-Detection Single Shot Detector,CD-SSD)。

與上述同樣基于變化檢測思路設計的印刷缺陷檢測模型相比,本文提出的CoNet 具有以下特點:

1)在骨架網(wǎng)絡部分,CoNet 采用一對只包括三次下采樣的輕量化網(wǎng)絡提取圖像對的中層語義特征。因為工業(yè)檢測問題并不過分依賴高層語義特征,該設計可以更好地平衡檢測精度和速度。

2)頭部網(wǎng)絡MsCDM 采用了非對稱的雙通路特征金字塔結構。該結構通過增加一個運算量極低的次通路,將檢測特征圖通過類殘差結構傳遞給各個尺度的輸出模塊,在幾乎不降低速度的條件下提升檢測精度。

2 深度對比網(wǎng)絡模型CoNet

本文采用變化檢測的思路,將孿生卷積神經(jīng)網(wǎng)絡與非對稱的雙通路特征金字塔結構結合,提出了一個端到端的印刷缺陷檢測模型——CoNet。如圖2 所示,該模型以檢測圖像和參考圖像組成的圖像對為輸入,首先通過深度對比模塊(Deep Comparison Module,DCM)得到檢測圖像與參考圖像的語義關系圖;然后利用MsCDM 對語義關系圖進行后處理;最終輸出大、中、小三個尺度的預測結果,其中包括置信度、邊界框與缺陷類別三部分的預測值。最后,本文采用基于廣義交并比(Generalized Intersection over Union,GIoU)[31]的多目標損失函數(shù)訓練模型,引導模型更好地學習圖像對比的能力。

圖2 CoNet模型結構Fig.2 Structure of CoNet model

2.1 深度對比模塊

如圖3(a)所示,DCM 主要由兩個步驟組成:1)將檢測圖像與參考圖像組成的圖像對映射到語義空間;2)通過特征融合算子在語義空間中挖掘檢測圖像與參考圖像之間的語義關系。DCM 是CoNet 的核心,因為本文的目的就是將模板匹配方法中的對比思想和深度學習中的語義特征結合,通過在語義空間中進行圖像對比增強模型魯棒性。

2.1.1 孿生骨架網(wǎng)絡

與殘差網(wǎng)絡(Residual Network,ResNet)[32]等CNN 不同,DCM 中的骨架網(wǎng)絡是一個只包括三次下采樣的輕量化CNN,共18 個卷積層。采用淺層網(wǎng)絡的主要原因如下:

1)工業(yè)缺陷檢測問題對模型的計算復雜度要求較高,需要保證實時性。在采用孿生結構的情況下,網(wǎng)絡過深會成倍地增加計算量,因此DCM 采用輕量化網(wǎng)絡。

2)本質上,深度對比就是對檢測圖像與參考圖像的對應局部進行特征提取與相似度計算,而局部區(qū)域的大小則是模型的感受野。感受野過小會導致模型無法獲取足夠的語義信息,過大則會令不相似區(qū)域的語義特征相似度過高,因此DCM 采用只有三次下采樣的淺層網(wǎng)絡控制感受野。

如圖3(b)所示,骨架網(wǎng)絡由卷積層和殘差模塊組成。卷積層包括卷積、批歸一化與激活三個步驟,參數(shù)k、s、c分別表示卷積核大小、步長、卷積核個數(shù),步長為2 時,卷積層具有下采樣的功能;殘差模塊由兩個卷積核大小分別為1 和3的卷積層組成,并采用跳躍結構將輸入值短接到第二個卷積層的激活函數(shù)前。具體地,卷積層和殘差模塊的運算過程可以分別記為式(1)和式(2):

圖3 DCM示意圖Fig.3 Schematic diagram of DCM

其中:帶泄露修正線性單元(Leaky Rectified Linear Unit,LeakyReLU)的參數(shù)α為0.1。

為了同時處理輸入圖像對,CoNet 采用孿生的網(wǎng)絡結構,使用一對結構完全相同的骨架網(wǎng)絡分別處理檢測圖像和參考圖像,從而保證圖像對的特征圖維度相同。但是,因為CNN 是有參數(shù)模型,在參數(shù)不同時,兩個網(wǎng)絡結構完全相同的模型在本質上依舊是兩個不同的映射函數(shù)。因此,如圖3(a)所示,本文提出了以下兩種不同的方案:

1)結構相同,參數(shù)共享。該方案的核心目標是通過相同的非線性映射函數(shù)E,將原始圖像從像素空間投影到語義空間,令投影后的圖像具有可度量的語義相似性??啥攘康恼Z義相似性是指原圖的局部區(qū)域經(jīng)過映射函數(shù)E后,被投影為語義空間中的一個點,該方案希望投影點的距離就是局部區(qū)域之間的語義相似性。

2)結構相同,參數(shù)不共享。相較于參數(shù)共享方案,該方案的缺點在于,兩個參數(shù)不同的模型本質上是兩個不同的非線性映射函數(shù)E1、E2,未訓練的模型所得投影點的相似性關系無法得到保證。但是,該方案通過減少約束條件擴大了訓練時的搜索空間,令模型擁有更強的表征能力,只是訓練難度有所增加。

因此,兩種方案各有優(yōu)劣。

2.1.2 特征融合算子

以孿生骨架網(wǎng)絡輸出的語義特征圖Fdet和Fref為輸入,特征融合算子的目標就是整合二者的信息,并挖掘它們之間的相關性。這種相關性可以是顯式的相似性,也可以是隱式的不可解釋的相關性。因此,針對特征融合算子,本文也提出了兩種方案:一種是引入先驗信息設計的語義差分算子;另一種是基于卷積層設計的卷積融合算子。

1)語義差分算子。由2.1.1 節(jié)可知,原始圖像經(jīng)過孿生骨架網(wǎng)絡投影后具有可度量的語義相似性,當局部區(qū)域語義相似時,投影點距離足夠近,反之投影點距離足夠遠?;谶@一先驗信息,語義差分算子可以由式(3)定義。輸出結果越接近0.5 表示語義相似度越高;越接近0 或1 則表示相似度越低。

2)卷積融合算子。不同于語義差分算子,該算子不進行顯式的語義相關性挖掘,而是在特征通道維度拼接圖像對的語義特征圖后,使用兩個卷積核大小分別為1×1 和3×3 的卷積層進行特征融合。該算子雖然可解釋性不足,但得益于卷積層參數(shù)的可學習性,經(jīng)過大量數(shù)據(jù)訓練之后,其表征能力相對更強。

2.2 多尺度變化檢測模塊

本文采用非對稱的雙通路特征金字塔結構,設計了一種多尺度變化檢測模塊(MsCDM)。該模塊由兩個獨立的信息通路組成:語義關系圖通路、檢測特征圖通路。其中,語義關系圖通路是必須存在的,該通路以DCM 輸出的語義關系圖Fdiff為輸入,并對其中的差異信息進行判定、定位與分類,因此是檢測模塊的主通路;而檢測特征圖通路是可選的次通路,該通路以檢測圖像的語義特征圖為輸入,通過殘差模塊和步長為2 的卷積層,將特征圖變換后作為輔助信息傳輸至三種尺度的輸出模塊中,用于提升檢測性能。

2.2.1 MsCDM網(wǎng)絡結構

如圖4(a)所示,MsCDM 的主通路由2 個下采樣過程和2個上采樣過程組成,形成一個完整的特征金字塔結構。金字塔的下采樣分支和上采樣分支之間,信息的交互通過跳躍連接和特征通道拼接完成。以Fdiff為輸入,該通路首先在下采樣分支上得到三種尺度的中間值Fs、Fm、Fl,分辨率分別為原圖的1/8、1/16、1/32;然后,從Fl開始,模型先通過輸出模塊得到大尺度預測結果Ol,再用縮放因子為2 的雙線性插值層處理中間值,并將上采樣后的值與Fm拼接得到下一尺度的輸入值;最后,循環(huán)上一步驟得到中、小尺度的預測結果Om、Os。

與主通路不同,檢測特征圖通路只包括一個輕量級的下采樣分支,由圖4(a)可知,該分支只包括3 個殘差模塊和2個步長為2 的卷積層。因為該通路的作用只是將檢測特征圖作為輔助信息用于輸出模塊,所以在盡量地增加運算量的前提下,此處采用了與主通路不同的輕量級網(wǎng)絡。

連接以上兩個通路的模塊是輸出模塊(Output Block)。如圖4(b)所示,輸出模塊由若干參數(shù)不同的卷積層堆疊而成,主通路輸入值經(jīng)過5 個卷積層之后,同時進入兩個分支:一個作為中間值被輸入到上采樣模塊;另一個與次通路的檢測特征圖拼接,并用于預測結果計算。根據(jù)輸出模塊的網(wǎng)絡結構可知,次通路的檢測特征圖只參與預測結果計算,并不會進入主通路的特征金字塔中。

圖4 MsCDM示意圖Fig.4 Schematic diagram of MsCDM

2.2.2 預測結果解碼

由圖4(b)的輸出層參數(shù)可知,MsCDM 的輸出值的通道數(shù)都是3(5+N)。假設原圖的分辨率為(H,W),那么CoNet 預測結果的維度分別是:

以小尺度預測結果Os為例,如圖5 所示。該結果分辨率為原圖的1/8,一共包括個長為3(5+N)的向量,每個向量又分為三部分,每部分對應一組預測結果。具體地,一組預測結果共包括5+N位數(shù),分別代表三種預測值:

圖5 解碼過程示意圖Fig.5 Schematic diagram of decoding process

1)置信度。預測結果的第1 位用于表示對應位置是否存在缺陷,也就是說,將原圖劃分為的網(wǎng)格后,使用模型預測值表示對應網(wǎng)格中存在缺陷的置信度。如式(6)所示,解碼過程就是使用Sigmoid 函數(shù)將預測結果的第1 位映射到(0,1)區(qū)間。

2)邊界框。

①邊界框中心點。預測結果的第2~3 位用于表示缺陷邊界框中心點相對網(wǎng)格中心點的偏移量。假設網(wǎng)格中心點為(xc,yc),解碼過程可以記為式(7)。首先用系數(shù)為0.5 的雙曲正切函數(shù)將預測值映射到(-0.5,0.5)區(qū)間,與基準中心點相加后,再乘以當前尺度的下采樣倍數(shù)s。因此邊界框中心點最多只會比網(wǎng)格中心點向任意方向偏移半個網(wǎng)格,不會落在當前網(wǎng)格之外。

②邊界框大小。預測結果的第4~5 位用于表示缺陷邊界框的寬、高。本文為每個尺度預設了三種寬高比的錨框,每個錨框的面積與當前網(wǎng)格的面積相等。假設錨框的寬、高為wa、ha,如式(8)所示,邊界框大小的解碼過程就是將指數(shù)函數(shù)激活的預測值作為系數(shù)對錨框的寬、高進行縮放。

3)缺陷類別。預測結果中剩余的N位分別表示缺陷屬于某種類別的概率,其解碼過程就是使用Softmax 函數(shù)激活預測結果后N位,令它們的和為1。

此外,得到預測邊界框后,還需要使用非極大值抑制(Non-Maximum Suppression,NMS)算法進行邊界框去重。

2.3 損失函數(shù)

與預測結果解碼相同,模型訓練時的損失函數(shù)同樣分為置信度、邊界框與缺陷類別,三者之間的關系為:

其中:gconf表示置信度真值,當錨框為陰性時取值為0,邊界框和缺陷類別的損失函數(shù)不參與模型訓練;反之則在訓練時同時計算三部分損失函數(shù)。

置信度和缺陷類別預測是分類問題,因此本文采用交叉熵函數(shù)作為這兩部分的損失函數(shù),計算方法如下:

邊界框的中心點與大小預測則是回歸問題,在該部分,本文采用了基于GIoU 設計的損失函數(shù)。GIoU 的計算方法如式(13)所示:

其中:交并比(Intersection over Union,IoU)表示兩個邊界框交集與并集的比值。A和B表示兩個邊界框;C表示二者的最小閉包。由式(13)可知,GIoU 的取值范圍是(-1,1),當兩個邊界框的距離無限遠時,其取值為-1;當二者重合時,取值則為1。因此,GIoU 損失函數(shù)可以記為式(14),當預測框與真實框重合時,損失為0。

3 實驗與結果分析

3.1 數(shù)據(jù)集與評估指標

本文在兩個數(shù)據(jù)集上進行了實驗,一個是公開的印刷電路板缺陷數(shù)據(jù)集DeepPCB[10];另一個是本文收集的真實工業(yè)場景下的立金缺陷數(shù)據(jù)集。

DeepPCB 是一個包括6 種缺陷的數(shù)據(jù)集,它通過圖像對的形式組織數(shù)據(jù),并采用邊界框的方式標注缺陷,因此適用于測試本文提出的CoNet 模型。該數(shù)據(jù)集共3 000 張分辨率為640×640 的圖像,正、負樣本各1 500 張,二者一一對應后組成1 500 個圖像對。為了與現(xiàn)有印刷缺陷檢測方法對比,本文采用Tang 等[10]使用的方式,將數(shù)據(jù)集劃分為訓練集和測試集兩部分,前者1 000 個圖像對,后者500 個圖像對。

立金缺陷數(shù)據(jù)集是一個真實的銀行卡表面印刷缺陷數(shù)據(jù)集,共包括6 個印刷區(qū)域,1 384 張圖片,缺陷類別包括5種,分別是:殘缺、偏移、漏印、多印、劃痕。與DeepPCB 不同,立金缺陷數(shù)據(jù)集將每個印刷區(qū)域的所有圖像劃分為正、負樣本集,而非圖像對。同一區(qū)域的正、負樣本集中的所有圖像可以交叉組合。由于立金缺陷數(shù)據(jù)集的負樣本較少,為了得到更可靠的實驗結果,本文在數(shù)據(jù)集劃分時采用五折交叉驗證的方式,將各區(qū)域的正、負樣本劃分為5 份后,每次實驗選4 份作為訓練集,剩余1 份則作為測試集。如此重復5次,最終結果取5 次實驗的均值。

本文將目標檢測任務中常用的平均精度均值(mean Average Precision,mAP)作為評估指標,當檢測邊界框與標注邊界框的交并比(Intersection over Union,IoU)大于0.5 且類別相同時,該檢測邊界框為陽性。

3.2 實驗細節(jié)

本文所有實驗的運行環(huán)境相同,包括:Xeon Platinum 8163 2.5 GHz CPU ×1,Tesla P100-16G GPU ×1。

為了與其他性能優(yōu)秀的變化檢測方法進行對比,本文復現(xiàn)了Tang 等[10]提出的MP-GPP 和Haik 等[11]提出的CD-SSD,并在兩個數(shù)據(jù)集上進行了對比實驗。與本文提出的CoNet相似,MP-GPP 和CD-SSD 都采用變化檢測思路進行印刷缺陷檢測,其中MP-GPP 是DeepPCB 的基線模型,而CD-SSD 則是基于變化檢測思路解決印刷缺陷檢測問題的較新模型。

同時,本文還與模板匹配方法、Faster R-CNN[8]進行了對比,二者在DeepPCB 上的實驗結果來自文獻[10],而在立金缺陷數(shù)據(jù)集上的實驗結果則是本文的真實測試值。其中,模板匹配方法是本團隊已商業(yè)化的方案,因此可以保證其精度是有意義的;Faster R-CNN 的實驗則基于開源的MMDetection[33]完成。

對于DeepPCB,本文將輸入圖像的分辨率設置為640×640,并將訓練批次大小設置為4;對于立金缺陷數(shù)據(jù)集,本文首先采用長邊切分與短邊填充結合的方式,將原圖轉化為320×320 的圖像塊,然后將訓練批次設置為8。訓練時,這兩個數(shù)據(jù)集都會進行數(shù)據(jù)增廣,并且每個圖像對中的兩張圖像通過的數(shù)據(jù)增廣是一致的。

所有實驗都用Adam 優(yōu)化器訓練,初始學習率為0.000 3,并且采用熱啟動和余弦衰減策略動態(tài)調(diào)整學習率,終止學習率為0.000 006。每次實驗總共訓練50 輪,前2 輪學習率處于熱啟動階段,后48 輪學習率再進入余弦衰減階段。最終用于測試的模型為第50 輪保存的模型。

3.3 實驗結果分析

首先,本文在DeepPCB 上評估CoNet 模型,并與模板匹配方法、Faster R-CNN[8]、MP-GPP[10]和CD-SSD[11]進行對比,對比結果如表1 所示。

表1 在DeepPCB上的各類別AP與mAP 單位:%Tab.1 Average value of mAP and mAP on DeepPCB unit:%

在采用孿生骨架網(wǎng)絡參數(shù)共享、差分融合算子和雙通路結構的配置情況下,CoNet 模型的mAP 為99.1%,相較于現(xiàn)有的四種方法都取得了更好的檢測結果。與模板匹配方法相比,CoNet 的mAP 提高了9.8 個百分點,在性能上全面領先。與Faster R-CNN 相比,CoNet 的mAP 提高了1.5 個百分點,尤其在Open 和Short 缺陷類別上,CoNet 的AP 分別高出了2.2 和3.3 個百分點。與同類型的變化檢測方法MP-GPP和CD-SSD 相比,CoNet 依舊取得了更好的檢測結果,其mAP在超過了99%的情況下相較于MP-GPP 和CD-SSD 分別提升了0.4 和0.7 個百分點,并且在各種類型缺陷上的AP 都等于或者高于這兩種方法。綜上可知,相較于對比方法,本文提出的CoNet 具有更優(yōu)的性能。

然后,考慮到DeepPCB 的難度較小,實驗結果可能不足以反映它們的真實性能,本文又在更復雜的立金缺陷數(shù)據(jù)集上進行了類似的評估,實驗結果如表2 所示。

表2 在立金缺陷數(shù)據(jù)集上的檢測結果 單位:%Tab.2 Detection results on Lijin defect dataset unit:%

在采用孿生骨架網(wǎng)絡參數(shù)共享、差分融合算子和雙通路結構的配置情況下,CoNet 的mAP 平均值為69.8%,相較于兩種思路類似的方法MP-GPP 和CD-SSD,分別提升了3.5 和2.4 個百分點;相較于模板匹配方法和Faster R-CNN,分別提升了12.0 個百分點和5.3 個百分點。除了CD-SSD 得到了比MP-GPP 更高的mAP 外,表2 的整體結果與DeepPCB 上的結果基本一致。值得注意的是,在立金缺陷數(shù)據(jù)集上,如果只輸入檢測圖像訓練Faster R-CNN 會出現(xiàn)不收斂的情況;但如果將檢測圖像和參考圖像進行堆疊,組成6 通道的偽圖像,則訓練收斂,表2 中的Faster R-CNN*就是通過該方法訓練所得。分析訓練數(shù)據(jù)發(fā)現(xiàn),立金缺陷數(shù)據(jù)集中存在較多的內(nèi)容漏印和偏移缺陷,這可能就是Faster R-CNN 在正常訓練時不收斂的原因,同時也與前文提出的內(nèi)容相關性缺陷的概念相吻合。根據(jù)Caye Daudt 等[27]提出的變化檢測模型可知,堆疊檢測圖像和參考圖像在本質上就是一種圖像對信息融合的方式,因此可以在一定程度上解決內(nèi)容相關性問題。

此外,通過比較各個方法在五折交叉驗證中的最大和最小mAP 差值可以發(fā)現(xiàn),CoNet 具有更穩(wěn)定的性能表現(xiàn),其最大和最小mAP 的差值為1.2 個百分點,而MP-GPP 和CD-SSD則分別是2.3 個百分點和1.7 個百分點。這表明,CoNet 不僅精度更高,而且對訓練數(shù)據(jù)的自適應性也更強

除了定量分析CoNet 的檢測精度,本文還通過可視化方法更直觀地比較了對比實驗中的5 種方法。圖6 是3 種變化檢測方法在DeepPCB 上的檢測結果可視化,相較于MP-GPP和CD-SSD,本文提出的CoNet 在沒有漏檢的情況下,還避免了印刷內(nèi)容邊緣處的誤檢。類似地,圖7 是立金缺陷數(shù)據(jù)集上的可視化結果。相較于圖7(a)~(b)兩個非變化檢測方法的結果,圖7(c)~(e)的漏檢更少,這說明變化檢測方法對印刷缺陷檢測任務是有效的;相較于MP-GPP 和CD-SSD 兩種變化檢測方法,本文提出的CoNet 進一步提高了檢出率,并且依舊沒有出現(xiàn)誤檢。該結論與表1~2 的結果基本一致。

圖6 3種變化檢測方法在DeepPCB上的檢測結果可視化Fig.6 Visualization of detection results of three change detection methods on DeepPCB

圖7 表2中的五種方法在立金缺陷數(shù)據(jù)集上的檢測結果可視化Fig.7 Visualization of detection results of five methods in Table 2 on Lijin defect dataset

3.4 消融實驗與復雜度分析

本節(jié)首先通過消融實驗對CoNet 的兩個主要模塊及其不同方案進行分析;然后再對CoNet 的參數(shù)量、浮點運算次數(shù)和單次檢測的耗時進行分析。

3.4.1 針對DCM中各組件的消融實驗

由2.1.1 和2.1.2 節(jié)可知,孿生骨架網(wǎng)絡和特征融合算子分別存在兩種不同的方案,在MsCDM 采用雙通路結構時,將這兩個組件的可行方案交叉組合,然后在DeepPCB 和立金缺陷數(shù)據(jù)集上進行對比,結果如表3 所示。

表3 采用不同方案的DCM檢測結果Tab.3 Detection results of DCM with different schemes

在DeepPCB 上,4 種組合方案中的mAP 最高值為99.1%,在參數(shù)共享和語義差分算子(SubFuser)組合時取得。當該組合的骨架網(wǎng)絡改為參數(shù)不共享時,mAP 下降了0.5 個百分點。當采用卷積融合算子(ConvFuser)時,不論骨架網(wǎng)絡是否參數(shù)共享,mAP 都是98.8%。

在立金缺陷數(shù)據(jù)集上的實驗也取得了類似的結果。當使用語義差分算子時,骨架網(wǎng)絡參數(shù)共享與不共享兩種情況下的mAP 分別為69.8%和68.1%,后者相較于前者下降了1.7 個百分點。當使用卷積融合算子時,兩種骨架網(wǎng)絡方案的mAP 接近,只相差0.2 個百分點。

根據(jù)兩種融合算子在不同情況下的性能表現(xiàn)可以得出結論:差分融合算子需要與參數(shù)共享的孿生骨架網(wǎng)絡組合才能取得更好的效果;而卷積融合算子則可以適應不同類型的骨架網(wǎng)絡。合理的解釋是:差分融合算子基于強先驗信息設計,希望原始圖像間的語義相似性可以轉化為語義空間中投影點間的距離,因此參數(shù)共享的方案更加適合;而卷積融合算子因為其可學習的特性,對輸入數(shù)據(jù)的自適應能力更強,所以不會過分依賴骨架網(wǎng)絡輸出的語義特征。雖然在表3中卷積融合算子的性能略低于差分融合算子,但這并不完全表示卷積融合算子就不可取,因為可學習的模型往往需要更多的數(shù)據(jù)訓練,而本文使用的數(shù)據(jù)集規(guī)模都較小。

3.4.2 針對MsCDM中雙通路結構的消融實驗

本文在DCM 采用骨架網(wǎng)絡參數(shù)共享與語義差分算子組合的前提下,分別測試了MsCDM 采用單通路結構與雙通路結構時的性能,結果如表4 所示。相較于只有主通路的單通路結構,增加次通路的雙通路結構在DeepPCB 上的mAP 提升了1.2 個百分點,在立金缺陷數(shù)據(jù)集上則提升了2.1 個百分點。因此,雙通路結構是有效的。

表4 不同MsDCM結構下的檢測結果 單位:%Tab.4 Detection results under different structures of MsCDM unit:%

3.4.3 CoNet復雜度分析

作為工業(yè)檢測任務的一種,印刷缺陷檢測問題需要算法具有一定的實時性。本節(jié)在采用孿生骨架網(wǎng)絡參數(shù)共享與差分融合算子組合的前提下,分別測試了MsCDM 采用單通路結構與雙通路結構時CoNet 的復雜度,結果如表5 所示。實驗時輸入圖像的分辨率為640×640,硬件設備為:Xeon Platinum 8163 2.5 GHz CPU ×1;Tesla P100-16G GPU ×1。

表5 不同結構MsCDM下CoNet的復雜度Tab.5 Complexities of CoNet under different structures of MsCDM

在MsCDM 采用單通路結構時,CoNet 的參數(shù)量約為49.8×106,浮點運算次數(shù)約為96.0×109,在指定設備上完成前向運算和NMS 的總耗時約為32.3 ms(1 000 次實驗均值)。增加次通路后,參數(shù)量和運算量分別增加了12.8×106和10.1×109,耗時則增加了3.4 ms??梢姡黾哟瓮凡⒉粫^分影響檢測速度,CoNet 的最終耗時為35.7 ms,具有較好的實時性。

4 結語

本文將變化檢測用于印刷缺陷檢測問題,將對比思想與語義特征結合,提出了一種通用的印刷缺陷檢測方法CoNet。具體地,CoNet 首先通過深度對比模塊挖掘圖像對的語義關系圖;然后再利用雙通道的多尺度變化檢測模塊在語義關系圖上定位并識別印刷缺陷。得益于深度對比模塊強大的表征能力與多尺度變化檢測模塊利用雙通道結構引入的更多有效信息,CoNet 最終在DeepPCB 和立金缺陷數(shù)據(jù)集上都取得了優(yōu)于現(xiàn)有基于深度學習的變化檢測方法的性能。實驗結果表明,在語義空間進行圖像對比并用于解決印刷缺陷檢測任務的思路是可行的,但依舊存在可優(yōu)化的部分。后續(xù)的研究可以從兩方面展開:一方面是進一步提高CoNet 在弱小缺陷上的檢測性能;另一方面是引入弱監(jiān)督、自監(jiān)督等方法,解決基于深度學習的變化檢測方法需要大量有標注數(shù)據(jù)訓練的問題。

猜你喜歡
變化檢測算子印刷
神奇“印刷”術
用于遙感圖像變化檢測的全尺度特征聚合網(wǎng)絡
基于多尺度紋理特征的SAR影像變化檢測
河北地質(2021年1期)2021-07-21 08:16:12
擬微分算子在Hp(ω)上的有界性
印刷+智能=?
印刷智能化,下一站……
各向異性次Laplace算子和擬p-次Laplace算子的Picone恒等式及其應用
基于稀疏表示的視網(wǎng)膜圖像對變化檢測
一類Markov模算子半群與相應的算子值Dirichlet型刻畫
基于Landsat影像的黃豐橋林場森林變化檢測研究
昆山市| 闵行区| 清徐县| 绍兴县| 临邑县| 宜宾县| 同仁县| 富平县| 阳泉市| 且末县| 乳山市| 昌平区| 长岛县| 从化市| 错那县| 淮安市| 磐安县| 津市市| 宁阳县| 明溪县| 永济市| 广灵县| 江川县| 祁阳县| 郯城县| 中西区| 莱芜市| 榆中县| 梅州市| 鄂伦春自治旗| 洪湖市| 布尔津县| 东莞市| 青河县| 万州区| 乐东| 延寿县| 确山县| 宜阳县| 呼伦贝尔市| 南雄市|