劉建民 陸萍 張小雪
摘要:對(duì)黑白或灰度照片進(jìn)行著色處理可以給寶貴的歷史影像資料帶來更好的視覺效果。當(dāng)前的圖像著色處理方法存在需要用戶交互、需要提供參考圖像等諸多局限。該文設(shè)計(jì)了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像著色模型,該模型采用了端到端的編碼與解碼架構(gòu),能夠從大規(guī)模數(shù)據(jù)學(xué)習(xí)顏色的分布,實(shí)現(xiàn)顏色傳播與預(yù)測,從而把灰度圖像映射為彩色圖像。實(shí)驗(yàn)結(jié)果表明該模型具有良好的圖像著色效果。
關(guān)鍵詞:圖像著色;灰度圖像;顏色分布;深度卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)28-0021-02
Abstract: Better visualization can be obtained by applying colorization to valuable historical image data which are usually in grayscale. However, there are a few shortcomings in traditional colorization methods, such as heavy human interactions and exemplar image dependency. In this paper, we propose an automatic colorization model on the basis of deep convolutional neural networks. The model employs the classical encoder-decoder framework, it can learn the color distribution from large scale data and then propagate and predict the colors in a point-point way. Experiments show that favorable colorization can be achieved.
Key words:colorization;grayscale image; color distribution;deep convolutional neural networks
1背景
色彩信息是彩色圖像蘊(yùn)含的一種重要視覺信息,它與圖像中各類事物的形狀、紋理等共同展現(xiàn)場景的語意信息。對(duì)圖像著色是數(shù)字圖像處理的一項(xiàng)重要任務(wù),它通過數(shù)字化方法為黑白或灰度圖像添加色彩,能夠使得給寶貴的歷史影像資料帶來更好的視覺效果,提高圖像的表現(xiàn)力及使用價(jià)值。在對(duì)圖像進(jìn)行著色處理時(shí),傳統(tǒng)的著色方法嚴(yán)重依賴于處理人員的個(gè)人經(jīng)驗(yàn)與技巧,存在一定的局限性。在數(shù)字化圖像處理中,對(duì)圖像著色可以大致分為以下三種方法:1)基于用戶引導(dǎo)的顏色傳播[1];2)基于指定函數(shù)或參數(shù)的顏色映射[2];3)基于參考圖像的著色方法[3]。這三類方法中用戶引導(dǎo)的顏色傳播方法需要用戶對(duì)部分圖像區(qū)域進(jìn)行指導(dǎo)性著色,需要較多的用戶交互;第二類方法需要建立顏色映射關(guān)系或變換函數(shù);第三類方法需要提供內(nèi)容相似的參考圖像作為匹配模板,在使用上均具有一定的局限性。
隨著深度學(xué)習(xí)技術(shù)在圖像處理與計(jì)算機(jī)視覺中獲得廣泛應(yīng)用,利用深度學(xué)習(xí)模型強(qiáng)大的擬合能力來獲得灰度空間與圖像色彩之間的映射關(guān)系,捕捉圖像顏色的分布,進(jìn)而實(shí)現(xiàn)對(duì)灰度或黑白圖像的著色,為處理圖像著色問題開辟了新的方向[4-5]。本文基于深度學(xué)習(xí)技術(shù),使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了編碼-解碼的圖像著色網(wǎng)絡(luò),構(gòu)造了著色網(wǎng)絡(luò)的損失函數(shù),訓(xùn)練后的深度模型能夠取得比較優(yōu)秀的圖像著色效果,使得圖像的視覺顯示效果得到明顯改善。
2深度殘差網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)現(xiàn)已在圖像識(shí)別、場景理解、語音分析等諸多領(lǐng)域中獲得廣泛應(yīng)用。與全連接網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù)具有局部共享、參數(shù)量較少等優(yōu)點(diǎn),適合處理二維的圖像。在圖像分析應(yīng)用中,可以直接將圖像輸入到網(wǎng)絡(luò)中實(shí)現(xiàn)特征提取與分類過程中的融合,構(gòu)建端到端的網(wǎng)絡(luò)架構(gòu)。當(dāng)前在通用的深度卷積網(wǎng)絡(luò)架構(gòu)上,已經(jīng)設(shè)計(jì)出VGG、GoogLeNet、ResNet與DenseNet等多種優(yōu)秀的網(wǎng)絡(luò)模型,在圖像分類、特征提取中廣泛應(yīng)用。在本文設(shè)計(jì)的著色網(wǎng)絡(luò)中采用了ResNet作為骨架網(wǎng)絡(luò)。
在深度網(wǎng)絡(luò)架構(gòu)中,隨著網(wǎng)絡(luò)層數(shù)的加深,極易發(fā)生梯度消失或梯度爆炸問題,使得靠近輸入層的各隱藏層無法獲得有效的更新,學(xué)習(xí)不到有效的模式。為了解決這一問題,ResNet使用了如圖1所示的短路連接,使得整體網(wǎng)絡(luò)具有至少不弱于恒等變換的效果,有效地抑制了網(wǎng)絡(luò)層次加深時(shí)的梯度消失問題。
3圖像著色網(wǎng)絡(luò)結(jié)構(gòu)
本文創(chuàng)建的圖像著色網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。由于CIE Lab顏色空間與人眼視覺特性非常接近,而且其色域比較廣且又具有設(shè)備無關(guān)性,能夠有效地彌補(bǔ)RGB色彩模型中顏色分布不足的局限,因此本文選擇了將RGB圖像轉(zhuǎn)換Lab顏色空間后,選用其中亮度通道圖像作為訓(xùn)練數(shù)據(jù),而其色通道用作為GroundTruth標(biāo)簽數(shù)據(jù)。
在著色網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)上,本文采用了典型的編碼器-解碼器結(jié)構(gòu)。在編碼器結(jié)構(gòu)中采用了ResNet-18的網(wǎng)絡(luò)結(jié)構(gòu)來提取圖像的特征。ResNet-18使用了如圖1所示短路模塊進(jìn)行堆疊,整體結(jié)構(gòu)可以被分為5組。第1組為基本卷積模塊,輸入圖像為224×224像素大小,分別經(jīng)過7×7,步幅為2與3×3步幅為2的卷積;第2組至第5組均采用了兩個(gè)圖1短路模塊形成的組合,卷積核大小均為3×3大小,卷積后的特征圖分別為64、128、256、512。與標(biāo)準(zhǔn)的ResNet框架不同,本文使用的框架中取消了最后的全局池化層與分類網(wǎng)絡(luò)中的全連接層。編碼器中ResNet18的整體結(jié)構(gòu)如表1所示。
本文采用了在ImageNet數(shù)據(jù)集訓(xùn)練好的RestNet-18分類器網(wǎng)絡(luò),而不是從頭重新訓(xùn)練。在ImageNet數(shù)據(jù)集訓(xùn)練的ResNet-18可以獲得近80%的分類準(zhǔn)確率。在本文模型中采用丟棄最后全局平均池化層與全連接層的方式接入后續(xù)的解碼器網(wǎng)絡(luò)。由于使用訓(xùn)練好的編碼器網(wǎng)絡(luò),不僅可以借用遷移學(xué)習(xí)帶來更快的訓(xùn)練效果,還能夠利用學(xué)習(xí)參數(shù)中的顏色模式。
網(wǎng)絡(luò)編碼器經(jīng)過編碼器處理獲得的特征圖將被進(jìn)一步送入反卷積網(wǎng)絡(luò)處理。在著色網(wǎng)絡(luò)的解碼器反卷積網(wǎng)絡(luò)中,對(duì)接收的特征圖作了5層卷積-上采樣操作處理,每層的卷積核大小均為3×3大小,移動(dòng)步幅為1,padding為1。在每個(gè)卷積-上采樣層中的處理順序?yàn)椋壕矸e-批歸一化-ReLU激活-上采樣,上采樣的尺度均為2倍。這樣即保證了經(jīng)過反卷積網(wǎng)絡(luò)后的圖像大小與原始圖像大小一致。各層的特征圖數(shù)量上分別被設(shè)置為:128、64、64、32、2。反卷積網(wǎng)絡(luò)的具體結(jié)構(gòu)如表2所示。
在網(wǎng)絡(luò)損失函數(shù)的選擇上,本文選擇了均方誤差損失函數(shù),通過最小化預(yù)測的顏色值與真實(shí)的顏色值之間的平方距離來約束網(wǎng)絡(luò)。
4實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中采用了MIT Places205Database數(shù)據(jù)集中的數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,該數(shù)據(jù)集中含有205個(gè)場景的250多萬張圖片。由于本文的網(wǎng)絡(luò)架構(gòu)相對(duì)較小,這里僅采用了MIT Places數(shù)據(jù)集中的places、landscapes與buildings三個(gè)子集進(jìn)行訓(xùn)練。
本文選擇了PyTorch深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)的訓(xùn)練與測試。在創(chuàng)建訓(xùn)練與測試數(shù)據(jù)時(shí),所有的圖片先被縮放到統(tǒng)一的256×256大小并轉(zhuǎn)入CIELab顏色空間。在數(shù)據(jù)擴(kuò)增上使用了隨機(jī)水平翻轉(zhuǎn)與隨機(jī)中心裁切,最終送入網(wǎng)絡(luò)的張量大小為224×224。實(shí)驗(yàn)采用的批次大小為64,即每個(gè)批次中包含有64張圖片。在訓(xùn)練模型時(shí)采用了Adam優(yōu)化器,學(xué)習(xí)率為0.01,權(quán)重衰減系數(shù)為0.5,訓(xùn)練時(shí)設(shè)置了最大epoch數(shù)量為100。
在圖像著色效果的評(píng)價(jià)上,當(dāng)前還沒有比較好的度量方案,因?yàn)閳D像著色是一個(gè)病態(tài)的任務(wù),即在圖像著色時(shí)可以有很多種著色方案。不過可以采用著色圖像與原始圖像的像素值間的均方誤差來衡量兩者之間的差異。表3給出了在訓(xùn)練不同階段中的均方誤差變化,實(shí)驗(yàn)中發(fā)在迭代的epoch數(shù)達(dá)到50次后,模型訓(xùn)練基本上進(jìn)入穩(wěn)定階段,著色圖與原始圖像像素均方誤差基本上維持不變。
在完成圖像著色模型的訓(xùn)練后,使用獲得的模型對(duì)灰度處理后的圖像進(jìn)行著色的部分示例如圖3所示:其中最右列為原始彩色圖像,最左列為去除了顏色的灰度圖,中間為使用本文模型的上色圖像。從圖中可以看出本文模型取得了比較不錯(cuò)的著色效果,著色后的圖像在色彩上豐富了許多,能夠比灰度圖像具有更好的表現(xiàn)力。但由于模型較為簡單,獲得的著色圖像與原始圖像的色彩相比在細(xì)節(jié)上還具有一定的不足,在整體顏色相差較大的情況下著色效果不夠理想(如第2行)。
5結(jié)束語
本文設(shè)計(jì)了一個(gè)基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像著色模型,該模型能夠從大規(guī)模的彩色圖像數(shù)據(jù)中自動(dòng)學(xué)習(xí)顏色的分布,在應(yīng)用于黑白或灰度圖像時(shí)能夠?qū)崿F(xiàn)顏色傳播與預(yù)測,即完成圖像的自動(dòng)著色工作。該深度著色模型結(jié)構(gòu)簡單易于實(shí)現(xiàn),在下一步工作將進(jìn)一步引入其他引導(dǎo)信息,實(shí)現(xiàn)更優(yōu)的著色效果。
參考文獻(xiàn):
[1] Levin A,Lischinski D,Weiss Y,et al.Colorization using optimization[C]//International conference on computer graphics and interactive techniques,2004,23(3):689-694.
[2] ShahA A,GandhiM,ShahK M.Medical image colorization using optimization technique[J].Acta Medica Okayama,2013,62(141):235-248.
[3] Liu Y M,Cohen M,Uyttendaele M,et al.AutoStyle:automatic style transfer from image collections to users' images[J].Computer Graphics Forum,2014,33(4):21-31.
[4] 張娜,秦品樂,曾建潮,等.基于密集神經(jīng)網(wǎng)絡(luò)的灰度圖像著色算法[J].計(jì)算機(jī)應(yīng)用,2019,39(6):1816-1823.
[5] 徐中輝,呂維帥.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像著色[J].電子技術(shù)應(yīng)用,2018,44(10):19-22.
[6] Deshpande A,Rock J,F(xiàn)orsyth D.Learning large-scale automatic image colorization[C]//2015 IEEE International Conference on Computer Vision (ICCV).7-13 Dec.2015,Santiago,Chile.IEEE,2015:567-575.
【通聯(lián)編輯:謝媛媛】