姚 超, 劉桂華, 趙 森, 林 杰
(1.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽 621010; 2.特殊環(huán)境機器人技術(shù)四川省重點試驗室,四川 綿陽 621010;3.電子科技大學(xué) 公共管理學(xué)院,四川 成都 611731)
中國剪紙的設(shè)計、畫樣、開版在過去發(fā)展的幾百年以來一直都是行業(yè)創(chuàng)新發(fā)展的瓶頸,為解決剪紙設(shè)計耗時長、成本高和效率低等關(guān)鍵性問題。國內(nèi)外目前已有一些學(xué)者對自動化剪紙設(shè)計開展了一些研究,但大多數(shù)研究都采用傳統(tǒng)分割算法[1~3]來解決剪紙設(shè)計問題,而在深度學(xué)習(xí)[4]領(lǐng)域,圖像檢測[5]和語義分割[6]大多采用深度卷積神經(jīng)網(wǎng)絡(luò)[7]。2015年Long J等人[8]提出的全卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了能突顯細節(jié)的圖像分割,然而多層的卷積和池化會導(dǎo)致丟失上下文信息;Chen L C等人[9]提出來的DeepLab網(wǎng)絡(luò),加入空洞卷積使得分割精度大幅提升,然而剪紙設(shè)計任務(wù)訓(xùn)練格外耗時。2018年王能玉等人[10]設(shè)計了基于深度學(xué)習(xí)和圖像處理的圖像剪紙平臺,具有重要的探索意義。但是并未對深度學(xué)習(xí)算法以及剪紙設(shè)計作品效果進行深入研究。
通過對上述問題的綜合考慮,本文改進Unet[11]神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在編碼階段的激活層用LeakyReLU激活函數(shù),解決網(wǎng)絡(luò)在人物特征較弱區(qū)域無法提取弱特征的問題。編碼階段末端將傳統(tǒng)的卷積組合替換為空洞卷積,并對人物特征進行多尺度提取與融合,以此獲得更強表現(xiàn)力的特征描述。
在剪紙設(shè)計任務(wù)中,人物原圖包含的特征信息和像素之間的關(guān)系都對最后的剪紙設(shè)計效果具有顯著影響,同時人物剪紙分割任務(wù)與Unet的醫(yī)學(xué)細胞分割任務(wù)都是二分類。因此PC-Unet算法在Unet的基礎(chǔ)上進行改進,整體框架如圖1所示。PC-Unet的網(wǎng)絡(luò)架構(gòu)保持了原有的U形狀架構(gòu),即“編碼器—解碼器”結(jié)構(gòu),其中主要用到了卷積、反卷積、空洞卷積、池化層、激活函數(shù)等模塊。為了提升模型訓(xùn)練效率,網(wǎng)絡(luò)的輸入為灰度化的人物圖像,輸出的分割圖像也為灰度圖,再改變像素顏色最終生成剪紙風格圖像。該網(wǎng)絡(luò)在自制的人物剪紙數(shù)據(jù)集上達到了95.4 %的準確率(accuracy)。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
在PC-Unet網(wǎng)絡(luò)中的編碼結(jié)構(gòu)中,前八層采用的是類似于VGG[12]的卷積層,使用多個連續(xù)的3×3的卷積層來加深網(wǎng)絡(luò),并在激活層使用LeakyReLU函數(shù),在下采樣過程中使用了步長為2,核大小 2×2的最大池化;接下來進行三層不同系數(shù)的空洞卷積與Add方法[13]的特征融合,以獲取圖像中更豐富的組合特征信息和更大的感受野。在解碼過程中,本文采用反卷積進行4次上采樣,同時每一層反卷積的輸入都合并了對應(yīng)位置的下采樣的輸出,這樣可以使編碼階段提取的底層特征與解碼階段提取的高層特征相融合,以此形成更豐富的特征描述。
本文采用、ReLU激活函數(shù)改良、的LeakyReLU函數(shù)、
(1)
式中α為偏移量。
本文在PC-Unet的編碼階段采用了LeakyReLU函數(shù)作為激活函數(shù),使得模型較弱特征的提取能力達到最佳,也解決了神經(jīng)元在負區(qū)間存在梯度不更新的問題,解碼階段采用了ReLU函數(shù)作為激活函數(shù);而在分類中使用Sigmoid 函數(shù)作為激活函數(shù)。
二維空間的空洞卷積(dilated convolution)的定義如下
(F*lk)(P)=∑s+lt=PF(s)k(t)
(2)
式中F為輸入的圖像(二維信號),s為其定義域;l,P分別為空洞卷積的系數(shù)與定義域;k為核函數(shù),t為其定義域。圖2為感受野與空洞卷積之間的關(guān)系。
在圖2中,卷積核大小都為3×3,圖(c)感受野相比于圖(a),(b)增加了數(shù)倍。在空洞卷積操作中,當卷積核變大時,其感受野大小呈指數(shù)級增加。這種特點很適合在圖像分割任務(wù)中使用,同時因為本文的剪紙設(shè)計包含人物臉部等相對較復(fù)雜的特征,所以,將空洞卷積加入到本文的圖像分割模型中以獲取更大的感受野,使得模型訓(xùn)練中精確的提取人物特征。
圖2 空洞卷積
在PC-Unet網(wǎng)絡(luò)中,在編碼階段末端,本文對下采樣獲取的特征分別進行系數(shù)為1,2,4的空洞卷積,更大程度提取尺度不同的特征,再通過Add方式來融合這些尺度不同的特征,得到更強表現(xiàn)力的人物特征。在參數(shù)不增加的情況下,實驗表明加入空洞卷積后圖像的分割效果會更佳。
本次實驗在64位Windows10+python3.5+TenSorflow1.10.0的軟件環(huán)境下實現(xiàn),所用到的設(shè)備硬件信息:CPU型號i5-9300H,顯卡芯片GTX1660Ti,6G,cuda-v9.0。本文所研究方法屬于圖像二分類任務(wù),因此損失函數(shù)采用二進制交叉熵損失(binary cross entropy loss)函數(shù)。LeakyReLU激活函數(shù)偏移量α為0.02,此時模型的弱特征提取能力最好的。
本文選擇河北剪紙風格為基礎(chǔ)制作數(shù)據(jù)集,通過收集剪紙藝人的已有剪紙設(shè)計作品以及為滿足實驗需求而特意委托剪紙藝人借助Photoshop等軟件進行人工設(shè)計,以滿足人物剪紙數(shù)據(jù)集的需要。所收集的數(shù)據(jù)集分為人物原圖(images)與剪紙設(shè)計圖(label),數(shù)量共9 422對,其中,人物的姿勢、表情種類豐富,人物年齡跨度大。部分人物剪紙數(shù)據(jù)集如圖3所示。
圖3 人物剪紙數(shù)據(jù)集部分示例
數(shù)據(jù)集分為訓(xùn)練集(80 %)和測試集(20 %),訓(xùn)練時將原圖大小縮放至256×256,同時進行灰度化處化處理。訓(xùn)練或測試時,對加載的數(shù)據(jù)都通過除以255來歸一化,以利于網(wǎng)絡(luò)的優(yōu)化。由于數(shù)據(jù)集數(shù)量較小,因此通過翻轉(zhuǎn)和隨機裁剪的數(shù)據(jù)增強方式來擴充訓(xùn)練樣本數(shù)量。
本文采用交并比(IoU)和平均像素精度(PA)值作為算法的主要定量評價指標,網(wǎng)絡(luò)訓(xùn)練時長作為輔助評價指標。有
(3)
式中 本文的分類目標只有兩類,記為正、負例,TP為被正確地劃分為正例的個數(shù),F(xiàn)P,FN分別為被錯誤地劃分為正和負例的個數(shù);k為目標的類別數(shù)(包含空類),pii,pij分別為真實像素類別為的像素被預(yù)測為類別i和j的的總數(shù)量。在定量對比實驗中,為確保公平性,所有實驗的訓(xùn)練周期都為100次,用本文自制剪紙數(shù)據(jù)集進行訓(xùn)練與測試。本文算法與其他算法對比如表1所示??梢钥闯?,在訓(xùn)練時長相近的FCN,Unet和PC-Unet中,本文提出的PC-Unet的IoU和PA值明顯高于其他兩類網(wǎng)絡(luò)。由于PC-Unet加入了空洞卷積模塊,因此,將DeepLab v3網(wǎng)絡(luò)也進行相同訓(xùn)練策略的對比實驗。在IoU和PA指標上,DeepLab v3與PC-Unet表現(xiàn)都很優(yōu)良,但是前者的訓(xùn)練時長明顯不具備優(yōu)勢。傳統(tǒng)手工剪紙設(shè)計平均耗時2 h,而本文算法在設(shè)計一幅剪紙作品所耗時間均在10 min內(nèi),極大提高了剪紙設(shè)計效率。
表1 與其他網(wǎng)絡(luò)的比較
表2中列出了在剪紙數(shù)據(jù)集上的消融實驗的實驗數(shù)據(jù),PC-Unet(l)表示只改用LeakyReLU激活函數(shù),PC-Unet(d)表示只加入空洞卷積。可以看出,本文所提出的兩個改進模塊都加入網(wǎng)絡(luò)結(jié)構(gòu)中后,IoU值增加3 %~5 %,PA值增加1 %~2 %。改用LeakyReLU激活函數(shù)和加入空洞卷積模塊,可以使得網(wǎng)絡(luò)提取較弱特征的能力加強,同時能夠提取更加豐富的人物特征。實驗表明,兩個模塊都對剪紙設(shè)計任務(wù)的分割精度有明顯提升。
表2 消融實驗
如圖4所示,將PC-Unet和其他優(yōu)秀的圖像分割方法在主觀視覺上進行對比。
圖4 可視化實驗對比
在圖4中,同一幅圖在不同算法中生成的人物剪紙設(shè)計圖,從左之至右依次為(a)人物原圖;(b)圖像閾值分割法;(c)FCN;(d)Unet;(e)DeepLab;(f)DeepLab v3;(g)PC-Unet;(h)手工剪紙設(shè)計圖。可以看出,傳統(tǒng)算法生成的人物剪紙設(shè)計圖效果較差,噪聲大,邊緣模糊,人臉處理能力低;而U-Net網(wǎng)絡(luò)生成的人物剪紙設(shè)計圖有明顯改善,能較為清楚的分割出人物輪廓,但存在細節(jié)模糊和噪聲大的問題;本文所提出的PC-Unet網(wǎng)絡(luò)生成的人物剪紙設(shè)計圖效果較為理想,人物輪廓清晰,五官都能準確分割,且整體噪聲極小。
在西南科技大學(xué)隨機邀請100名測試者,對4種不同算法分別生成的30張人物剪紙設(shè)計圖(此30張圖皆對應(yīng)有由專業(yè)剪紙設(shè)計公司藝人設(shè)計的手工設(shè)計圖)進行分組排序,要求測試者隨機抽取一組實驗圖片,在觀看手工設(shè)計圖后對實驗圖打分,1分表示測試圖與手工設(shè)計圖風格差距最大,5分則表示測試圖與手工設(shè)計圖風格最接近,測評數(shù)據(jù)如圖5??梢钥吹?,在FCN與Unet網(wǎng)絡(luò)中,給出1~3分的人數(shù)高達99和82,給出5分的人數(shù)卻為0和5;而在DeepLab v3和本文提出的PC-Unet網(wǎng)絡(luò)中,給出5分的人數(shù)為44和46。通過整體數(shù)據(jù)來看,4種網(wǎng)絡(luò)中,得分情況最好的為PC-Unet,數(shù)據(jù)表明PC-Unet的剪紙設(shè)計圖與手工設(shè)計圖風格最為接近。
圖5 網(wǎng)絡(luò)得分數(shù)據(jù)
本文提出了一種基于圖像分割算法與空洞卷積相結(jié)合的算法。通過制作人物剪紙設(shè)計圖數(shù)據(jù)集,對Unet模型進行激活函數(shù)改進,在此基礎(chǔ)上,結(jié)合空洞卷積和特征融合模塊得到新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最終訓(xùn)練模型學(xué)習(xí)特征,生成較為接近真實剪紙風格的人物剪紙設(shè)計圖。但是也存在一些缺點,例如當圖像背景過于密集復(fù)雜時,生成的人物輪廓就會產(chǎn)生邊緣模糊粗糙的情況,后續(xù)可考慮擴充數(shù)據(jù)集以訓(xùn)練更好的網(wǎng)絡(luò)模型。