胡文杰,吳曉波,李波*,徐天倫,姚為
(1中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074;2中國外運(yùn)股份有限公司,北京 100029)
在工業(yè)生產(chǎn)中,基于機(jī)器視覺的產(chǎn)品質(zhì)量檢測一般是采用有監(jiān)督訓(xùn)練來建模.深度學(xué)習(xí)需要充足的樣本集用于訓(xùn)練模型,但隨著企業(yè)生產(chǎn)工藝水平的提高,缺陷產(chǎn)品出現(xiàn)的概率往往很低,因此缺陷樣本集一般是小樣本.單樣本或小樣本的缺陷圖像對(duì)于目標(biāo)檢測而言存在模型訓(xùn)練過擬合的問題.而采用傳統(tǒng)的圖像增廣方法,如仿射變換與裁剪翻轉(zhuǎn)都無法解決圖像卷積過程中的平移不變性帶來的過擬合情況.鑒于此,本文的研究目標(biāo)是使用單張工業(yè)缺陷樣本圖像訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò),以獲取能穩(wěn)定生成指定缺陷的工業(yè)缺陷圖像生成模型.
在傳統(tǒng)單樣本圖像生成方法中,如基于圖像摘要的雙向相似性度量[1]等技術(shù),該技術(shù)需要大量的先驗(yàn)知識(shí)和函數(shù)設(shè)計(jì).有些方法局限性較高,只對(duì)紋理圖像進(jìn)行訓(xùn)練[2].目前只有少數(shù)模型能夠在單個(gè)“自然”圖像上進(jìn)行訓(xùn)練[3-5],或僅用于研究小樣本圖像之間的轉(zhuǎn)換遷移[6].
從近幾年GAN生成樣本的工作上來看,單個(gè)圖像上訓(xùn)練GAN模型的方法仍然相對(duì)較少.SinGAN[7]是首個(gè)能在無監(jiān)督條件下將單張自然圖像作為訓(xùn)練集進(jìn)行圖像生成訓(xùn)練的對(duì)抗生成網(wǎng)絡(luò)模型.SinGAN模型僅對(duì)當(dāng)前最近階段進(jìn)行參數(shù)訓(xùn)練,并凍結(jié)所有先前階段的參數(shù).該方法在每個(gè)批次的訓(xùn)練階段是沒有不同尺度的特征融合操作,導(dǎo)致網(wǎng)絡(luò)需要保存所有階段的特征圖參數(shù).
ConSinGAN[8]網(wǎng)絡(luò)包含一種新的漸進(jìn)式生長技術(shù),可以同時(shí)訓(xùn)練多個(gè)階段,但不是全部階段,同時(shí)在較低階段使用漸進(jìn)式較小的學(xué)習(xí)率.由于單張圖像樣本同時(shí)訓(xùn)練模型的多個(gè)階段,因此該模型稱為并發(fā)單張圖片GAN(Concurrent Single Image GAN).
ConSinGAN模型使用相鄰兩階段的特征圖融合與尺度非線性縮放等手段,改進(jìn)了SinGAN模型的訓(xùn)練時(shí)間過高與迭代消耗內(nèi)存過高的問題.工業(yè)生產(chǎn)圖片背景較為單一、特征較弱、缺陷與背景間對(duì)比度較低.上述特異性樣本會(huì)導(dǎo)致風(fēng)景圖像生成模型ConSinGAN訓(xùn)練極不穩(wěn)定.
本文在ConSinGAN模型的基礎(chǔ)上進(jìn)行改進(jìn),引入了自注意力機(jī)制和結(jié)構(gòu)相似度損失函數(shù),使得模型訓(xùn)練得到的圖像不僅評(píng)估指標(biāo)有較好提升,而且訓(xùn)練后的圖像質(zhì)量效果也有較大提高.本文改進(jìn)工作主要解決了背景紋理特征抽取和缺陷區(qū)域特征學(xué)習(xí)困難這兩個(gè)問題,主要貢獻(xiàn)點(diǎn)有:
(1)引入結(jié)構(gòu)相似度損失函數(shù)的混合損失,顯著降低了由于紋理缺陷圖像背景過于單一,訓(xùn)練容易崩潰的幾率(見1.2).
(2)引入注意力模塊(見2.5)提高了工業(yè)樣本生成的圖像性能,極大增加了樣本圖像生成中缺陷出現(xiàn)的概率,并有效解決了缺陷邊緣模糊和背景不一致問題.
對(duì)于小樣本圖像來說,為了解決樣本空間過小導(dǎo)致的過擬合問題,一般常采用迭代式的網(wǎng)絡(luò)結(jié)構(gòu)[9]設(shè)計(jì)來增強(qiáng)樣本的特征表達(dá)豐富程度.
ConSinGAN模型設(shè)計(jì)采用多階段疊加的策略來優(yōu)化多尺度特征圖的融合.原始圖像從一個(gè)較小的分辨率開始,進(jìn)行多次迭代,學(xué)習(xí)從隨機(jī)噪聲矢量z到低分辨率圖像的映射(參見圖1中的“生成器:階段0”).
圖1 ConSinGAN訓(xùn)練過程圖Fig.1 The Training processing of ConSinGAN
一旦階段n的訓(xùn)練收斂,ConSinGAN模型通過添加三個(gè)額外的卷積層來增加生成器的大小.該操作有助于訓(xùn)練出一定差異的生成器.每個(gè)階段都從前一階段獲取原始特征作為輸入,前一層參數(shù)不再被凍結(jié).模型將重復(fù)這個(gè)過程N(yùn)(常規(guī)尺寸的圖片設(shè)置N為6)直到達(dá)到滿足條件的輸出分辨率.為了提高生成器的穩(wěn)定和多樣性,在每個(gè)階段向特征添加額外的噪聲[10-11].
復(fù)合損失函數(shù)設(shè)計(jì)為對(duì)抗損失和重建損失之和,如公式(1):
其中Ladv(Gn,Dn)是WGAN-GP對(duì)抗損失函數(shù)[1],在這里還使用了αLrec(Gn)來重建生成器損失函數(shù),α為縮放系數(shù).對(duì)于重建損失函數(shù)來說,生成器講原始圖像x0的第n階段下采樣xn作為輸入,重建損失函數(shù)見公式(2):
工業(yè)生產(chǎn)圖片中背景特異性較強(qiáng),模型訓(xùn)練需要對(duì)判別器圖形的紋理背景相似度進(jìn)行更為精確的考量.為了達(dá)到更好的紋理學(xué)習(xí)效果,本文創(chuàng)新性地引入了結(jié)構(gòu)相似度損失函數(shù)LSSIM函數(shù)[12]公式(3)和(4)到GAN模型中,
其中,G,F(xiàn)為生成器產(chǎn)生的圖片和同尺寸縮小的原圖,μG,μF為G,F(xiàn)的平均值為G,F(xiàn)的方差,σGF是協(xié)方差.c1=(k1L)2,c2=(k2L)2是維持穩(wěn)定的常數(shù),L是圖像的動(dòng)態(tài)范圍.k1=0.01,k2=0.03.
改進(jìn)后模型的復(fù)合Loss見公式(5),其中α和β為權(quán)重縮放系數(shù).
眾所周知,注意力在人類視覺感知中起著重要作用[13-14].人類視覺系統(tǒng)的一個(gè)重要特性是聚焦于重點(diǎn)部分,而不是整個(gè)場景.最近的一些相關(guān)研究工作[15-16]將注意力處理和神經(jīng)網(wǎng)絡(luò)結(jié)合起來,以提高CNN在大規(guī)模分類任務(wù)中的性能.通過注意力機(jī)制添加的特征圖關(guān)聯(lián)映射,使得修改后的卷積網(wǎng)絡(luò)不僅性能良好,而且對(duì)噪聲輸入具有魯棒性.
本文選用CBAM[17]模塊,該模塊采用分解后的串行注意力機(jī)制,而不是直接計(jì)算三維注意力特征圖[15-16].串行計(jì)算可以減少特征圖的通道數(shù)和獲得較小的特征圖尺寸,因此具有更少的計(jì)算和參數(shù)開銷,設(shè)置好輸入和輸入維度后可以用作現(xiàn)有基礎(chǔ)CNN架構(gòu)的即插即用模塊.
CBAM模塊特征圖采用最大池化及平均池化兩者的共同組合以獲取強(qiáng)度更高的自注意力特征,并同時(shí)利用了空間和通道注意.并通過實(shí)證驗(yàn)證了利用兩者結(jié)合的方式優(yōu)于僅使用通道注意力[18].注意力過程可概括為公式(6)和(7),
這里?表示像素級(jí)乘積.在乘積中注意力的數(shù)值得到廣播,即通道注意力被廣播到頻域空間.F″是最終的輸出特征.圖2描繪了每個(gè)注意圖的計(jì)算過程.下面將描述每個(gè)注意模塊的詳細(xì)信息.
圖2 CBAM模塊模型結(jié)構(gòu)圖Fig.2 The Structure of CBAM Module
通道注意力作用于輸入圖像各位置的感知強(qiáng)度,即更關(guān)心圖像中的缺陷或者前景區(qū)域.
CBAM模塊使用平均池化和最大池化操作來聚合特征地圖的空間信息,生成兩個(gè)不同的空間上下文特征映射分別表示平均池特征和最大池特征.兩者通過維度拼接得到通道注意圖Mc∈Rc×1×1.共享網(wǎng)絡(luò)由多層感知器(MLP)和一個(gè)隱藏層組成.為了減少參數(shù)開銷,將隱藏激活大小設(shè)置為Rc/r×1×1,其中r為縮減率.通道注意力的計(jì)算如式(8):
W0∈Rc/r×c且W1∈Rc×c/r.需要注意的是,MLP權(quán)重W0和W1為同一個(gè)特征圖輸入,σ表示激活函數(shù).
與通道注意不同的是,空間注意側(cè)重于“何處”是信息部分,該模塊與通道注意獲取的注意力特征是互補(bǔ)的.空間注意力模塊首先沿特征通道應(yīng)用平均池和最大池操作,并將它們連接起來以生成有效的特征描述符.
卷積層生成空間注意圖Ms(F)∈RH×W表示加強(qiáng)或抑制的位置.該模塊通過兩個(gè)池化操作聚合特征映射的通道信息,生成兩個(gè)二維映射分別表示通道中的平均池特征和最大池特征.然后,通過卷積融合生成CBAM的二維空間注意力圖.空間注意力的計(jì)算如式(9):
其中σ表示激活函數(shù),f7×7表示濾波器大小為7×7的卷積運(yùn)算.
一般注意力機(jī)制常被引入到目標(biāo)檢測及分割[19-21]等研究中,本文成功引入注意力機(jī)制到單樣本生成模型ConSinGAN中,并在3.3節(jié)中通過實(shí)驗(yàn)詳細(xì)探究了CBAM模塊放置位置得到的模型效果.
具體的CBAM模塊結(jié)構(gòu)如圖3所示.作為一個(gè)即插即用的注意力模塊,理論上只需要對(duì)齊通道數(shù)即可將多通道注意力融入模型中.
圖3 可放置到指定位置的CBAM模塊Fig.3 CBAM modules that can be placed in designated location
鑒于單張圖片迭代式多尺度的作為判別器的采樣圖,需要將CBAM模塊放入不同級(jí)別的混合噪聲向量初始化判別器后.而在生成器中,為了提高模型的生成能力,防止過擬合的導(dǎo)致缺陷表現(xiàn)單一,CBAM模塊不能放入生成器內(nèi).
表1詳述了判別器與生成器神經(jīng)網(wǎng)絡(luò)設(shè)計(jì).生成器的輸入為混合隨機(jī)向量,然后通過全卷積操作(Conv)和正則處理(Norm)最后加上一個(gè)正切激活函數(shù)來保持出的平滑性.判別器(Discriminator,D)的輸入為生成器的輸出,在卷積運(yùn)算中插入CBAM模塊,提高了判別器對(duì)于特定區(qū)域(缺陷)的判別能力.可以反向提高生成器產(chǎn)生缺陷區(qū)域的效果.
表1 生成器和判別器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)表Tab.1 G and D structure in neural network
本文實(shí)驗(yàn)基于MVTec AD公開數(shù)據(jù)集[22]開展實(shí)驗(yàn),該數(shù)據(jù)集包含5354張不同對(duì)象和紋理類別的高分辨率彩色圖像.它包含用于訓(xùn)練的正常圖像,即無缺陷的圖像,和用于測試的缺陷圖像.缺陷圖像包含在超過70種不同類型的缺陷,如劃痕,凹痕,污染和各種結(jié)構(gòu)變化.具體樣本統(tǒng)計(jì)分布情況見表2,其中訓(xùn)練集為無缺陷正常圖像,測試集包含各類缺陷樣本.
表2 MVTec AD數(shù)據(jù)集樣本種類分布情況表Tab.2 Distribution of sample types in MVtec
具體來說,圖像分為兩類,一類是物體表面,包含原木板表面、麻布?jí)K等,另一類是工業(yè)單物件產(chǎn)品,例如含有漆包線、半導(dǎo)體元件等.每種產(chǎn)品含有該產(chǎn)物在生產(chǎn)環(huán)節(jié)中產(chǎn)生的常見缺陷樣本,并且缺陷種類較多.
圖4展示了較為顯著的缺陷樣本,圖4上部為三角管(transistor),包含的缺陷種類有缺腳、開膠、單腳缺焊和脫焊.圖4下部為原木板表面(woods),(a)到(e)分別表示正常(normal)、穿孔(hole)、染色(color)、水漬(liquid)與混合缺陷(combined).
圖4 MVTec AD中三角管和木板的缺陷種類樣圖Fig.4 Sample of defect types of translator and wood in MVTec AD
實(shí)驗(yàn)的環(huán)境主要包括:硬件環(huán)境是ubuntu18.04操作系統(tǒng),NVIDIA Tesla P40 24 GB顯卡,內(nèi)存大小為32GB,CPU為Intel X5;軟件環(huán)境為python 3.9下pytorch1.9和cuda10.2.實(shí)驗(yàn)設(shè)定階段數(shù)量為6.
對(duì)于不同階段來說,中間生成的圖像的尺度差異是較大,因此采用學(xué)習(xí)率縮放是十分必要的.在早期階段的訓(xùn)練中,使用小的學(xué)習(xí)率有助于減少過擬合,即早期大的學(xué)習(xí)率會(huì)導(dǎo)致模型迅速崩潰.所以使用一個(gè)在學(xué)習(xí)率η上需要加上一個(gè)縮放因子δ.對(duì)于階段n的生成器Gn來說,學(xué)習(xí)率為δnη.階段n以學(xué)習(xí)率δ0η進(jìn)行訓(xùn)練,階段n-2以學(xué)習(xí)率δ1η進(jìn)行培訓(xùn),階段n-2使用δ2η等,在實(shí)驗(yàn)中設(shè)置δ=0.1在圖像保真度和多樣性之間取得了良好的權(quán)衡.
ConSinGAN網(wǎng)絡(luò)共有6個(gè)階段的迭代,每個(gè)階段的迭代共包含3個(gè)全連接的卷積層和相應(yīng)的激活和池化層.但是每個(gè)階段對(duì)應(yīng)的空間特征圖的尺度都有等比例的縮放.由多尺度縮放系數(shù)要求可求得參數(shù)量約在66萬個(gè).
在引入自注意力機(jī)制后,雙通道注意力只經(jīng)過平均池化和最大池化操作后拼接在一起.并且為了和每個(gè)階段的特征圖尺度對(duì)應(yīng),增加的模塊參數(shù)量約為原ConSinGAN模型的18.2%,達(dá)到了78萬個(gè).引入SSIM結(jié)構(gòu)相似度Loss后,模型的結(jié)構(gòu)沒有變化,損失函數(shù)的計(jì)算相較于原函數(shù)只有常數(shù)時(shí)間的提高,因此對(duì)模型的計(jì)算量的增加可以忽略,訓(xùn)練時(shí)間最多延長了3%.
CBAM模塊是一個(gè)對(duì)齊特征圖輸入輸出即可成功引入的自注意力模塊,可以放入判別器網(wǎng)絡(luò)結(jié)構(gòu)中.該模塊其具有一定的靈活性,可以放入判別器的頭部、中間或尾部.
為了獲取該模塊的最佳性能表現(xiàn),將對(duì)該模塊分別放置在判別器的頭中尾三個(gè)部分分別進(jìn)行對(duì)比實(shí)驗(yàn).具體的實(shí)驗(yàn)結(jié)果見表3.
表3 CBAM插入位置對(duì)應(yīng)缺陷生成情況表Tab.3 Defect generation corresponding to CBAM placement position
訓(xùn)練成功率表現(xiàn)了模型的訓(xùn)練穩(wěn)定性,鑒于輸入圖像為單樣本,所以訓(xùn)練失敗的最主要原因是損失函數(shù)值過小導(dǎo)致的梯度消失問題,而自注意力機(jī)制的成功引入增強(qiáng)了模型對(duì)工業(yè)樣本中缺陷域特征的識(shí)別能力.模型的訓(xùn)練成功率有了顯著上升,對(duì)于紋理樣本來說,最好情況下提升了41.3%,物件樣本提升了15.1%.紋理樣本的顯著提升是因?yàn)樵械哪P陀?xùn)練效果極差(訓(xùn)練成功率20.4%),缺陷區(qū)域邊緣過于模糊,對(duì)比度低.而注意力機(jī)制對(duì)缺陷區(qū)域進(jìn)行了自學(xué)習(xí)權(quán)重特征提取,增強(qiáng)了模型的特征識(shí)別能力.
此外,CBAM模塊的放置位置對(duì)模型訓(xùn)練效果也有較大影響.從表3中可以看出,自注意力模塊越靠近判別器的頭部,模型的訓(xùn)練效果會(huì)更好.究其原因在于,輸入的單張樣本只有尺度和位置轉(zhuǎn)換的差異,自注意力模塊在特征圖的頭部,獲取的缺陷頻域和空間信息特征強(qiáng)度更高,得到的自注意力表達(dá)能力更好.
在圖像生成任務(wù)上來說,常見的評(píng)估指標(biāo)從兩個(gè)方面著手.一個(gè)是生成圖像同原始圖像的相似度,該數(shù)值越小更能表明生成的圖像“真實(shí)性”越高.另一個(gè)是圖像中物體的類別豐富度,該指標(biāo)越大說明模型的效果越好,在同一相似度下,分布越高說明生成模型的表示能力更多樣.
在本次實(shí)驗(yàn)中使用了以下兩種評(píng)估指標(biāo).
Fréchet Inception Distance(FID[23]),F(xiàn)ID是一種用于評(píng)估生成模型創(chuàng)建的圖像質(zhì)量指標(biāo),較低的分?jǐn)?shù)與較高質(zhì)量的圖像有很高的相關(guān)性.
FID度量是兩個(gè)多維高斯分布之間的平方Wasserstein度量公式(10)為:
因?yàn)閳D像為單張采樣生成,所以使用SIFID(Single FID)作為改進(jìn)后的評(píng)估標(biāo)準(zhǔn).此處計(jì)算出的值為訓(xùn)練成功后模型生成的多張圖像平均而來.公式(11)為
其中,原真實(shí)多張圖像和生成圖像的數(shù)據(jù)的統(tǒng)計(jì)分布被單樣本與其訓(xùn)練后的模型產(chǎn)生的多張生成圖像進(jìn)行一對(duì)一分布比較后求和取平均,得到了評(píng)估指標(biāo)SIFID.
NIQE指標(biāo)[24]是一個(gè)客觀的評(píng)價(jià)指標(biāo),一般來是提取自然景觀中的特征來對(duì)測試圖像進(jìn)行測試,這些特征是擬合成一個(gè)多元的高斯模型.
在本次實(shí)驗(yàn)中,自然景觀圖像分布被替換為該類別某特定種類特定缺陷圖片總的分布,而不再是具體的某單張圖像,公式(12)為:
其中v1、v2、Δ1與Δ2分別是樣本MVG模型和圖像的MVG模型的平均向量和協(xié)方差矩陣,詳細(xì)關(guān)于MVG模型介紹見文獻(xiàn)[24].該指標(biāo)反映生成圖像多樣性,因此越大越優(yōu).
實(shí)驗(yàn)參數(shù)和耗時(shí)開銷見表4.從表4中可以看出雖然自注意力機(jī)制使模型的大小和訓(xùn)練用時(shí)同ConSinGAN相比都有增加,但是模型的穩(wěn)定性和生成效果都有顯著提高.模型開銷仍顯著小于提出單張樣本生成的網(wǎng)絡(luò)SinGAN.
表4 不同模型訓(xùn)練情況表Tab.4 Models Training Table
對(duì)于物體類缺陷樣本,加入自注意力模塊提高模型的生成能力,F(xiàn)ID指標(biāo)有一定的下降,這是因?yàn)镾SIM模塊對(duì)相似性的制約.對(duì)紋理表面圖像來說,SSIM模塊顯著提高了模型訓(xùn)練的成功率,相比與原始SinGAN模型提升了59%,并且因?yàn)樵撃K對(duì)紋理的自適應(yīng)能力,模型訓(xùn)練出的圖像紋理更加豐富.因?yàn)閷?duì)抗生成網(wǎng)絡(luò)產(chǎn)生的圖像是現(xiàn)實(shí)生活中不存在的圖像,并且該實(shí)驗(yàn)為單張樣本采樣,因此產(chǎn)生的圖像有一定的失真.
在紋理樣本生成中,單張樣本生成的第一個(gè)神經(jīng)網(wǎng)絡(luò)SinGAN訓(xùn)練成功率很低,并且即使訓(xùn)練成功,模型生成的圖像明顯失真.木板上的紋理特征學(xué)習(xí)能力很差,容易產(chǎn)生模糊或者褪色情況,而對(duì)較小目標(biāo)的缺陷部分很難學(xué)習(xí)到.而ConSinGAN網(wǎng)絡(luò)具有一定的紋理提取能力但是仍同真實(shí)紋理有一定的差異,并且對(duì)缺乏對(duì)缺陷的學(xué)習(xí)能力.這主要是因?yàn)?,這兩個(gè)網(wǎng)絡(luò)的設(shè)計(jì)沒有考慮到前景區(qū)域?qū)Ρ榷鹊颓倚〉那闆r,而又缺乏一定前景定位指導(dǎo)能力.
表5為生成模型生成圖像較為穩(wěn)定的4類樣本的量化統(tǒng)計(jì)情況,每種都生成50張樣本進(jìn)行量化分析.從表5可以看出,從綜合四類樣本計(jì)算得到的參數(shù)來看,最終改進(jìn)的模型相比于SinGAN量化指標(biāo)SIFID降低了,NIQE提高了.相比于SinGAN模型SIFID降低82.3%,NIQE提高10%.而具體的紋理表現(xiàn)需要在消融對(duì)比試驗(yàn)上看出.
表5 不同模型量化指標(biāo)表Tab.5 Table of quantitative indicators of models
在原ConSinGAN實(shí)驗(yàn)中,原作者只對(duì)風(fēng)景圖像進(jìn)行了生成,而風(fēng)景圖像具有前景和背景差異較大的特點(diǎn),因此原模型[8]在公開缺陷樣本數(shù)據(jù)集[22]型訓(xùn)練效果較差.
考慮到缺陷部分提取困難、且要達(dá)到端到端的無指導(dǎo)單張樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),因此加入了自注意力網(wǎng)絡(luò)模塊CBAM.
圖5中反映了不同的模型訓(xùn)練特定樣本產(chǎn)生的圖像的典型情況.本文引入的CBAM模塊較為成功給缺陷區(qū)域加上了權(quán)重,使得缺陷不僅沒有被池化過程過濾掉,而且成功學(xué)習(xí)到缺陷的特征,因此能較高概率的產(chǎn)生缺陷,但是仍然存在一定的失真和模糊的情況.此外,圖像的邊緣因?yàn)榫矸e核邊緣填充的原因容易出現(xiàn)明顯的四個(gè)隱框線的情況.
從圖5紅色矩形框中可以明顯看出,加入了SSIM區(qū)域自適應(yīng)損失函數(shù)后,網(wǎng)絡(luò)的紋理自然程度較高,并且缺陷的銳度明顯提高,邊緣更加清晰,并有概率出現(xiàn)單缺陷圖像訓(xùn)練訓(xùn)練的網(wǎng)絡(luò)模型,模型可以產(chǎn)生多個(gè)缺陷的情況.
本文選取了4個(gè)代表性生成圖像效果構(gòu)成圖5,并進(jìn)行如下分析:
圖5 生成模型產(chǎn)生的圖像比較Fig.5 Examples of images generated by the generation model
(1)第1個(gè)樣本為帶有劃痕的木板圖片.SinGAN在網(wǎng)絡(luò)成功完訓(xùn)練的情況下,仍無法學(xué)習(xí)到表面紋理和缺陷特征,而ConSinGAN網(wǎng)絡(luò)學(xué)習(xí)到了大部分紋理和缺陷特征,但是因?yàn)橛?xùn)練中的卷積核填充機(jī)制,導(dǎo)致圖像四周存在不符合原圖像的像素虛線.而最終改進(jìn)的模型不論是紋理真實(shí)感還是缺陷的分布都更加自然.
(2)第2個(gè)樣本為帶有水漬的木板圖片.SinGAN模型雖然能成功訓(xùn)練,但是生成圖像的紋理和缺陷模糊程度很高,實(shí)際效果很差.而ConSinGAN在沒有加入注意力機(jī)制前對(duì)缺陷學(xué)習(xí)能力差.沒有加入結(jié)構(gòu)相似度之前,紋理特點(diǎn)不夠豐富,而最后采用的改進(jìn)模型在兩者上都有好的表現(xiàn).
(3)第3個(gè)樣本為損毀三角管圖片.在ConSinGAN網(wǎng)絡(luò)會(huì)出現(xiàn)明顯的失真,圖像會(huì)有較大面積的模糊扭曲.比如三角管主體和背景中黑色孔同色,但是SinGAN難以區(qū)分前景和背景,極易導(dǎo)致學(xué)習(xí)后的網(wǎng)絡(luò)出現(xiàn)問題.而ConSinGAN因?yàn)殡S機(jī)噪聲和正則化過程沒有受到約束,模型的生成圖像有一定的改善但是仍存在部分區(qū)域的失真.
(4)第4個(gè)樣本為內(nèi)部開裂電纜圖片.SinGAN網(wǎng)絡(luò)學(xué)習(xí)到的物體結(jié)構(gòu)破壞嚴(yán)重,不論是外殼還是內(nèi)膠皮都存在不真實(shí)的表現(xiàn)(開裂過深,外殼邊緣模糊).ConSinGAN網(wǎng)絡(luò)無法解決圓形物體的生成約束,而最后改進(jìn)的模型最終在開裂形變的生成和物體本身特點(diǎn)上取得較為優(yōu)異的生成能力.
總之,從以上代表性樣本示例可以看出,本文改進(jìn)的兩個(gè)方式從類間(三極管和背板,電纜外膠、內(nèi)殼與芯體,缺陷和非缺陷部分)和物體紋理特征(SSIM)兩個(gè)角度,顯著提高了生成圖像的真實(shí)性.
本文將單樣本生成引入工業(yè)生產(chǎn)缺陷圖像樣本,解決了工業(yè)采樣中缺陷頻率低導(dǎo)致的圖像正負(fù)樣本量不平衡問題.通過結(jié)合結(jié)構(gòu)相似度損失函數(shù)和自注意力機(jī)制模塊,極大改進(jìn)了原網(wǎng)絡(luò)無法解決了工業(yè)缺陷圖像失真和紋理訓(xùn)練困難的問題.
該模型具有訓(xùn)練樣本?。▎螐垼?,訓(xùn)練時(shí)間優(yōu)異(30 min左右)和穩(wěn)定性較強(qiáng)的優(yōu)點(diǎn).實(shí)驗(yàn)結(jié)果表明本文的改進(jìn)模型具有良好的性能和效果,具有很好的實(shí)用意義.
本文工作還有待于加強(qiáng)和改進(jìn),例如對(duì)于圖5中第四行最右邊紅色矩形框?qū)?yīng)的線纜內(nèi)層絕緣膠皮,因?yàn)槠湓瓨訄D片拍照效果不佳,邊緣模糊程度接近與某些隨機(jī)分布,導(dǎo)致生成器學(xué)習(xí)效果欠缺,需要在后續(xù)工作中考慮到進(jìn)一步消除缺陷邊緣的失真效果.