国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于長(zhǎng)短時(shí)記憶單元和卷積神經(jīng)網(wǎng)絡(luò)混合神經(jīng)網(wǎng)絡(luò)模型的視頻著色方法

2019-10-31 09:21張政何山賀靖淇
計(jì)算機(jī)應(yīng)用 2019年9期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

張政 何山 賀靖淇

摘 要:視頻可以看作是連續(xù)的視頻幀圖像組成的序列,視頻彩色化的實(shí)質(zhì)是對(duì)圖像進(jìn)行彩色化處理,但由于視頻的長(zhǎng)期序列性,若直接將現(xiàn)有的圖像著色方法應(yīng)用到視頻彩色化上極易產(chǎn)生抖動(dòng)或閃爍現(xiàn)象。針對(duì)這個(gè)問題,提出一種結(jié)合長(zhǎng)短時(shí)記憶(LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的混合神經(jīng)網(wǎng)絡(luò)模型用于視頻的著色。該方法用CNN提取視頻幀的語(yǔ)義特征,同時(shí)使用LSTM單元學(xué)習(xí)灰度視頻的時(shí)序信息,保證視頻的時(shí)空一致性,然后融合局部語(yǔ)義特征和時(shí)序特征,生成最終的彩色視頻幀序列。通過對(duì)實(shí)驗(yàn)結(jié)果的定量分析和用戶研究表明,該方法在視頻彩色化上實(shí)現(xiàn)了較好的效果。

關(guān)鍵詞:視頻彩色化;長(zhǎng)短時(shí)記憶;卷積神經(jīng)網(wǎng)絡(luò);時(shí)空一致性

中圖分類號(hào):TP391.4

文獻(xiàn)標(biāo)志碼:A

Video colorization method based on hybrid neural network model of long short term memory and convolutional neural network

ZHANG Zheng*, HE Shan, HE Jingqi

School of Computer Science, Southwest Petroleum University, Chengdu Sichuan 610500, China

Abstract:

A video can be seen as a sequence formed by continuous video frames of images, and the colorization process of video actually is the colorization of images. If the existing image colorization method is directly applied to video colorization, it tends to cause flutter or twinkle because of long-term sequentiality of videos. For this problem, a method based on Long Short Term Memory (LSTM) cells and Convolutional Neural Network (CNN) was proposed to colorize the grayscale video. In the method, the semantic features of video frames were extracted with CNN and the time sequence information of video was learned by LSTM cells to keep the time-space consistency of video, then local semantic features and time sequence features were fused to generate the final colorized video frames. The quantitative assessment and user study of the experimental results show that this method achieves good performance in video colorization.

Key words:

video colorization; Long Short Term Memory (LSTM); Convolutional Neural Network (CNN); time-space consistency

0 引言

圖像的彩色化是根據(jù)灰度圖像將矢量RGB(Red Green Blue)分配給圖像的每個(gè)像素,該技術(shù)在歷史相片處理、視頻處理、藝術(shù)品修復(fù)等方面有著廣泛的應(yīng)用前景。目前,著色算法主要分為三種類型:基于用戶涂鴉的方法、基于參考圖的方法和基于深度學(xué)習(xí)的方法。

由于傳統(tǒng)方法需要用戶的干預(yù),增加了實(shí)現(xiàn)的復(fù)雜度。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在物體識(shí)別和檢測(cè)任務(wù)上取得的巨大成功,它對(duì)圖像深層語(yǔ)義特征的表達(dá)能力引起了研究人員的廣泛關(guān)注,為彩色化提供了巨大的幫助。因?yàn)閳D像的語(yǔ)義特征可以提供與顏色相關(guān)的附加信息,所以近幾年提出的著色算法[1]都使用卷積神經(jīng)網(wǎng)絡(luò)來提取灰色圖像的語(yǔ)義特征,并參考圖像的語(yǔ)義特征進(jìn)行著色。如Despande等[2]提出一種針對(duì)大規(guī)模圖像的自動(dòng)著色算法;Iizuka等[3]提出利用卷積神經(jīng)網(wǎng)絡(luò)獲取圖像的全局特征和局部特征,對(duì)于戶外景觀照片取得了許多令人滿意的結(jié)果;Cheng等[4]提出一種通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像深層特征進(jìn)行自動(dòng)著色的算法,并結(jié)合雙邊濾波來改善著色結(jié)果;Larsson等[5]提出利用深度網(wǎng)絡(luò)提取圖像的底層細(xì)節(jié)特征和高層語(yǔ)義特征,實(shí)現(xiàn)圖像自動(dòng)著色,生成的彩色圖像能夠讓大多數(shù)人感到真實(shí);Zhang等[6]利用VGG(Visual Geometry Group)卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)灰度圖像提取特征,并通過預(yù)測(cè)每個(gè)像素的顏色分布直方圖來為灰度圖像著色。

然而,在Iizuka等[3]的著色算法中,該方法采用兩路神經(jīng)網(wǎng)絡(luò)模型來得到圖片的顏色信息和對(duì)象類別,并結(jié)合兩個(gè)損失函數(shù)來進(jìn)行訓(xùn)練。由于網(wǎng)絡(luò)模型中包含大量訓(xùn)練參數(shù),所以訓(xùn)練時(shí)間相當(dāng)長(zhǎng);另外盡管作者已經(jīng)使用了共享權(quán)值的技巧來降低復(fù)雜度,雙路卷積網(wǎng)絡(luò)仍然面臨權(quán)值平衡問題;并且目標(biāo)函數(shù)只是簡(jiǎn)單的線性結(jié)合,如果將該方法直接擴(kuò)展到視頻的著色,容易產(chǎn)生抖動(dòng)和閃爍現(xiàn)象。本文針對(duì)這些問題,提出了結(jié)合長(zhǎng)短時(shí)記憶(Long Short Term Memory, LSTM)單元[7]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的混合神經(jīng)網(wǎng)絡(luò)模型用于視頻的彩色化,并結(jié)合視頻的時(shí)序信息來指導(dǎo)著色,使得模型的訓(xùn)練時(shí)間減少并且模型準(zhǔn)確度相對(duì)提高。

1 網(wǎng)絡(luò)模型

本文方法采用的視頻著色網(wǎng)絡(luò)模型如圖1所示。首先,使用經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型VGG-19[8]作為編碼器來提取視頻幀的局部語(yǔ)義特征和全局特征。然后,將在編碼器中提取到的特征圖進(jìn)行規(guī)模調(diào)整,再輸入循環(huán)神經(jīng)網(wǎng)絡(luò)中。本文采用LSTM結(jié)構(gòu)作為循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶單元來學(xué)習(xí)視頻序列的時(shí)序信息,同時(shí)進(jìn)一步細(xì)化提取到的特征。最后,將LSTM的結(jié)果輸入到視頻的著色網(wǎng)絡(luò)中進(jìn)行基于反卷積的解碼過程[9],通過解碼操作合成為所需要的彩色視頻序列{Ct|t=1,2,…,n}。整個(gè)網(wǎng)絡(luò)的訓(xùn)練過程將VGG-19網(wǎng)絡(luò)提取特征圖的過程看作一個(gè)黑箱操作,學(xué)習(xí)時(shí)序特征的LSTM結(jié)構(gòu)的輸入數(shù)據(jù)是VGG-19輸出的高維抽象特征數(shù)據(jù)。通過訓(xùn)練這些特征數(shù)據(jù),就能得到本文的著色模型。

1.1 基于卷積的視頻幀語(yǔ)義特征編碼器

基于卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)視頻幀語(yǔ)義特征的提取,也叫作編碼操作,本文采用的是基于預(yù)訓(xùn)練的VGG-19模型來實(shí)現(xiàn)對(duì)視頻序列的編碼。

在本文中的視頻著色模型中,首先通過VGG-19對(duì)輸入的視頻序列進(jìn)行編碼,提取視頻幀圖像的局部語(yǔ)義特征。該模型將灰度視頻序列作為輸入,由一系列卷積操作對(duì)灰度視頻幀進(jìn)行編碼,并輸出對(duì)應(yīng)的特征表示f=(f1, f2,…, ft),對(duì)灰度視頻幀的操作可以抽象為如下的編碼過程:

fi=encoder([xi,Ci]); i∈{1,2,…,t}(1)

然后將經(jīng)過編碼操作得到的特征表示f=(f1, f2,…, ft)送入LSTM結(jié)構(gòu)中,用于學(xué)習(xí)視頻序列的時(shí)序特征。

1.2 基于LSTM的時(shí)序特征融合器

本文方法采用將LSTM結(jié)構(gòu)作為記憶單元的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來提取視頻的時(shí)序特征,學(xué)習(xí)時(shí)序特征的主要目的是提取連續(xù)視頻幀之間的時(shí)序信息,并且保證特征表示的時(shí)序一致性。同時(shí)將時(shí)序特征和由基于VGG-19的編碼器得到的局部語(yǔ)義特征進(jìn)行融合[10],進(jìn)一步細(xì)化時(shí)序特征。

圖2展示了本文基于VGG-19預(yù)訓(xùn)練模型的語(yǔ)義特征提取過程,VGG-19使用了級(jí)聯(lián)結(jié)構(gòu),網(wǎng)絡(luò)模型的卷積層之間將多個(gè)3×3的卷積核和1×1的卷積核相結(jié)合,網(wǎng)絡(luò)級(jí)聯(lián)使得上層提取的所有彩色圖像特征融合在一起,傳遞到下一層進(jìn)一步提取高維特征。VGG-19對(duì)本文使用的數(shù)據(jù)集具有很好的泛化能力,能夠提取到視頻幀圖像的深度特征。這里灰度視頻的第一幀是作為單獨(dú)的圖像進(jìn)行著色的,其后的視頻幀則需要共享前面視頻幀著色過程中的時(shí)序信息和著色網(wǎng)絡(luò)中的參數(shù),來實(shí)現(xiàn)保持視頻的時(shí)空一致性。

LSTM是門限循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)中最著名的一種[11],門限RNN允許在不同時(shí)刻改變連接間的權(quán)重系數(shù),且允許網(wǎng)絡(luò)忘記當(dāng)前已經(jīng)累積的信息。LSTM結(jié)構(gòu)的關(guān)鍵在于引入了一個(gè)判斷信息是否有用的處理單元,這個(gè)處理單元稱為“cell”,單個(gè)cell的結(jié)構(gòu)如圖3所示。

LSTM實(shí)現(xiàn)添加或者刪除信息是通過一種叫作門的結(jié)構(gòu)來實(shí)現(xiàn)的,通過增加門限使得自循環(huán)的權(quán)重是變化的,這樣一來在模型參數(shù)固定的情況下,不同時(shí)刻的積分尺度可以動(dòng)態(tài)改變,從而避免了梯度消失或者梯度膨脹的問題。本文采用的視頻著色模型的工作原理可以簡(jiǎn)化為如圖4所示,使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻的時(shí)序信息,其中的記憶單元采用了LSTM神經(jīng)單元,其結(jié)構(gòu)在圖3中進(jìn)行了詳細(xì)的描述,采用LSTM結(jié)構(gòu)的原因是LSTM神經(jīng)元中的門限結(jié)構(gòu)可以更好地學(xué)習(xí)連續(xù)視頻的長(zhǎng)期一致性。

LSTM的遺忘門決定了上一時(shí)刻的“cell”單元狀態(tài)Pt-1有多少保留到當(dāng)前時(shí)刻Pt。本文方法中,遺忘門會(huì)讀取上一視頻幀的隱含層特征ht-1和xt,然后由Sigmoid層處理輸出一個(gè)在0到1之間的數(shù),其中0表示全部舍棄,1表示全部保留。在視頻著色過程中,對(duì)于從VGG-19中獲取的視頻幀局部特征和語(yǔ)義特征,如果相鄰視頻幀中出現(xiàn)了相同的特征,那么這個(gè)特征將被保留,并且在著色后該特征在相鄰視頻幀中會(huì)得到相同的色度值;否則該特征將在遺忘門被舍棄。遺忘門的表達(dá)式如下:

ft=Sigmoid(Wf·[ht-1,xt]+bf)(2)

其中:ht-1是上一視頻幀cell的輸出,xt是當(dāng)前cell的輸入,Wf和bf是網(wǎng)絡(luò)訓(xùn)練得到的遺忘門的權(quán)重和偏置。

LSTM的輸入門決定讓多少新的信息加入到cell狀態(tài)中來。實(shí)現(xiàn)這個(gè)操作需要兩個(gè)步驟:首先,Sigmoid層決定哪些信息需要更新,也就是需要提取的新的特征;其次,tanh層生成一個(gè)向量,也就是備選的用來更新的內(nèi)容。然后通過結(jié)合這兩部分信息,更新cell的狀態(tài)。本文視頻著色方法過程中,相鄰視頻幀之間新的特征便是通過輸入門輸入,并在cell狀態(tài)中被記錄更新。輸入門的操作如下:

it=Sigmoid(Wi·[ht-1,xt]+bi)(3)

t=tanh(WC·[ht-1,xt]+bC)(4)

其中:it表示輸入的需要更新的信息,t是用來更新的備選內(nèi)容,Ct是更新之后的cell狀態(tài),Wi,WC,bi,bC分別是輸入門中的權(quán)重和偏置。當(dāng)前狀態(tài)Ct是由上一次單元狀態(tài)Ct-1與ft相乘,舍棄需要舍棄的特征信息,再加上新的候選值itt,如下式:

Ct=ftCt-1+itt(5)

這樣就把LSTM關(guān)于當(dāng)前的記憶t和長(zhǎng)期的記憶Ct-1組合到了一起,形成了新的cell狀態(tài)。由于遺忘門的控制,它可以保存很久之前的信息,同時(shí)由于輸入門的控制,它又可以避免當(dāng)前無(wú)關(guān)緊要的內(nèi)容進(jìn)入記憶。

最后,LSTM的輸出門確定要輸出哪些信息。首先運(yùn)行一個(gè)Sigmoid層來確定細(xì)胞狀態(tài)的哪個(gè)部分將輸出;其次,把細(xì)胞狀態(tài)通過tanh進(jìn)行處理,得到一個(gè)在-1~1之間的值,并將它和輸入門的輸出相乘。最終僅會(huì)輸出LSTM在輸出門中確定輸出的那部分特征信息,輸出門的過程如下:

ot=Sigmoid(Wo·[ht-1,xt]+bo)(6)

ht=ottanh(Ct)(7)

特征提取時(shí),在前向傳播階段,網(wǎng)絡(luò)對(duì)于輸入的視頻幀序列從時(shí)間節(jié)點(diǎn)1到時(shí)間節(jié)點(diǎn)t,正向計(jì)算一遍,并保存每個(gè)時(shí)間節(jié)點(diǎn)向前隱藏層的輸出。正向計(jì)算完成后,再由時(shí)間節(jié)點(diǎn)t到時(shí)間節(jié)點(diǎn)1反向計(jì)算一遍,同時(shí)保存每個(gè)時(shí)間節(jié)點(diǎn)的向后隱藏層的輸出。當(dāng)正向傳播階段和反向傳播階段都完成計(jì)算之后,融合各時(shí)間節(jié)點(diǎn)向前和向后隱藏層的輸出作為最后的輸出。反向傳播過程中,模型通過基于時(shí)間的反向傳播(Back Propagation Through Time, BPTT)算法更新所有輸出層的信息。另外,所有傳播過程中隱藏層參數(shù)的更新都是通過LSTM門限結(jié)構(gòu)進(jìn)行控制,用hLi和hRi分別表示前向傳播階段向前和向后的隱藏層,基于LSTM的特征融合過程如下:

hLi=hLi+1+g(WLf·fi+WLh·hLi+1+bL)(8)

hRi=hRi-1+g(WRf·fi+WRh·hRi-1+bR)(9)

式中:hLi和hRi分別是前向和后向的隱藏層狀態(tài),g(·)是用于跟記憶單元傳輸信息的函數(shù),這里指LSTM(),h(·)表示激活函數(shù),本文使用的是tanh()。為了提取視頻的時(shí)序特征并保持時(shí)空一致性,采用了結(jié)合LSTM結(jié)構(gòu)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),用e=(e1,e2,…,et)來表示融合之后的特征,并作為融合后的結(jié)果輸出。

ei=h(W[hLi;hRi]+b),i∈{1,2,…,t}(10)

通過將融合之后的視頻幀序列e=(e1,e2,…,et)輸入基于反卷積的解碼器中進(jìn)行著色操作,得到最后的彩色視頻幀序列。

1.3 基于反卷積的視頻著色解碼器

在視頻時(shí)序特征融合階段,已經(jīng)得到了融合之后的優(yōu)化特征序列e=(e1,e2,…,et),而我們的最終目標(biāo)是要通過基于反卷積的解碼器[12]來生成彩色視頻序列C=(C1,C2,…,Ct)。前面已經(jīng)提到,視頻的處理需要考慮保持連續(xù)視頻序列之間的時(shí)空一致性以及連續(xù)性,在解碼器階段,其輸入是優(yōu)化之后的融合特征表示e=(e1,e2,…,et),這便很好地保證了視頻的時(shí)空一致性,將該特征序列送入解碼器中基于下式進(jìn)行解碼即可得到彩色化的視頻幀序列。

Ci=decoder(ei); i∈{1,2,…,t}(11)

本文參考Shelhamer等[12]的思想,采用的方法是將反卷積層作為解碼器,反卷積和卷積互為逆過程,也叫卷積轉(zhuǎn)置,利用反卷積可以實(shí)現(xiàn)特征序列的可視化。本文選用反卷積操作是因?yàn)榉淳矸e跟卷積操作類似,反卷積常被用于對(duì)CNN的輸出進(jìn)行上采樣回到原始圖像分辨率,這樣能夠更好地保留圖像的原始結(jié)構(gòu),另外反卷積操作在圖像分類、圖像分割、圖像生成、邊緣檢測(cè)等領(lǐng)域有廣泛應(yīng)用。

在解碼器過程中,通過一系列反卷積操作來實(shí)現(xiàn)將融合的后時(shí)序特征e=(e1,e2,…,et)進(jìn)行解碼。在基于反卷積的解碼器中,本文使用6個(gè)反卷積層作為解碼器,設(shè)置卷積核大小為3×3,并在第4個(gè)池化層后插入了一個(gè)1×1的卷積層以獲得額外的輸出,這將被添加到第二個(gè)反卷積層的輸出。最終視頻幀序列經(jīng)過解碼后轉(zhuǎn)換成彩色的視頻幀序列輸出。

本文方法選擇交叉熵?fù)p失函數(shù)作為網(wǎng)絡(luò)的訓(xùn)練目標(biāo)函數(shù),采用交叉熵的原因是交叉熵作為損失函數(shù)時(shí)在使用Sigmoid函數(shù)在梯度下降時(shí)其學(xué)習(xí)速率可以被輸出的誤差所控制,而且收斂速度更快,能夠有效地避免均方誤差損失函數(shù)學(xué)習(xí)速率降低的問題,也更不容易陷入局部最優(yōu)解。

Lt=-lg p(∑Ni=0exp(C))(12)

其中:C表示的是網(wǎng)絡(luò)模型數(shù)據(jù)的實(shí)際輸出值;p表示概率,它與訓(xùn)練集上的負(fù)對(duì)數(shù)相同。

本文采用的是基于預(yù)訓(xùn)練的VGG-19模型用于提取局部語(yǔ)義特征,訓(xùn)練數(shù)據(jù)采用的是DAVIS數(shù)據(jù)集[13]中的視頻序列作為訓(xùn)練集,數(shù)據(jù)集中包含50段10s左右的視頻序列,色彩豐富,類別多樣,常用于視頻的處理;訓(xùn)練過程中設(shè)置學(xué)習(xí)速率為0.0001,批處理數(shù)據(jù)量大小設(shè)置為10,同樣本文選取ReLU作為激活函數(shù),優(yōu)化方法采用隨機(jī)梯度下降法,目標(biāo)函數(shù)采用交叉熵?fù)p失函數(shù),LSTM節(jié)點(diǎn)設(shè)置為64個(gè)。

2 實(shí)驗(yàn)結(jié)果與對(duì)比分析

2.1 視頻幀圖像著色結(jié)果

實(shí)驗(yàn)表明,用本文模型對(duì)單幀圖像的著色時(shí)間達(dá)到了秒級(jí),對(duì)驗(yàn)證集里的單幀視頻幀圖像的著色時(shí)間約為3s,而Iizuka等[3]以及Raj等[8]的方法,單幀圖像的處理時(shí)間均在5s以上,說明本文方法在效率上已經(jīng)有較大提升。圖5展示了從數(shù)據(jù)集中隨機(jī)選取的3段視頻的第5、15、25、35、45幀視頻圖像及其彩色化過后的視頻圖像,圖中第1、3、5行是灰度視頻幀,第2、4、6行是彩色化后的視頻幀。

關(guān)于視頻幀的對(duì)比度保留,從圖5可以看到,奶牛和草原的背景色彩存在明顯的對(duì)比度,著色后的視頻幀也能夠很好地區(qū)分;同樣,灰熊和石頭的顏色對(duì)比度也被很好地保持;第6行行人和背景以及長(zhǎng)椅的色彩對(duì)比度也被較好地保持。可以看出,本文方法得到的視頻圖像很好地保持了視頻序列的對(duì)比度。所以本文基于VGG-19的編碼器能夠很好地提取圖片幀的深層特征,并用于指導(dǎo)視頻幀著色。綜上,本文結(jié)合LSTM和CNN的混合神經(jīng)網(wǎng)絡(luò)模型能夠很好地實(shí)現(xiàn)對(duì)視頻序列的彩色化,驗(yàn)證了方法的有效性。

2.2 視頻幀圖像著色對(duì)比

除了展示本文方法對(duì)視頻幀的彩色化效果,還跟Iizuka等[3]、Cheng等[4]以及Larsson等[5]的經(jīng)典著色算法對(duì)視頻幀圖像進(jìn)行著色的結(jié)果進(jìn)行對(duì)比。選取了5段視頻中的第20幀圖像進(jìn)行著色,對(duì)比實(shí)驗(yàn)結(jié)果如圖6所示,圖中從左至右依次為灰度視頻幀、Iizuka等[3]、Cheng等[4]、Larsson等[5]、本文結(jié)果以及原始彩色視頻幀圖像??梢钥吹奖疚姆椒ǖ玫降膯螏曨l幀圖像的彩色化結(jié)果對(duì)包含不同場(chǎng)景的多個(gè)實(shí)體都有很好的圖像著色效果,生成的彩色視頻幀看起來更真實(shí)、更自然。

2.3 視頻序列時(shí)空一致性保持

除了對(duì)單獨(dú)的視頻幀進(jìn)行著色展示以外,還對(duì)彩色化后的視頻序列的視頻時(shí)空一致性進(jìn)行了評(píng)估。視頻的時(shí)空一致性含義主要考慮視頻序列在相鄰視頻幀的相同局部特征在彩色化后的色度值是否相同。如果在整個(gè)視頻序列中,相同局部特征的色度值越相似,表明時(shí)空一致性保持越好,保持時(shí)空一致性能有效避免視頻出現(xiàn)閃爍或卡頓等現(xiàn)象。

追蹤了一段視頻的4幅視頻幀圖像,同Gupta等[14]的方法進(jìn)行對(duì)比,并將著色圖像的局部放大以觀察其效果,圖7展示了本文方法和Gupta等[14]的方法對(duì)視頻圖像的著色效果,圖中第1行為灰度視頻幀,第2、4行分別為本文方法和Gupta等[14]方法的結(jié)果,第3、5行分別是放大后結(jié)果。矩形方框內(nèi)是放大的局部,可以更好地看到本文方法得到的汽車顏色更準(zhǔn)確,并且顏色飽和度優(yōu)于Gupta等[14]的結(jié)果。

使用歸一化色差(Normalized Color Difference, NCD)[15]來評(píng)估視頻序列的連續(xù)性和時(shí)空一致性, NCD的值越小,說明連續(xù)視頻幀之間的歸一化色差越小,即彩色視頻序列的顏色值越平滑,從而更好地保持視頻序列的連續(xù)性和時(shí)空一致性。NCD的定義如下:

NCD=∑Hh=1∑Ww=1∑Qq=1[Zq(h,w)-Z′q(h,w)]2∑Hh=1∑Ww=1∑Qq=1[Zq(h,w)]2(13)

其中:Q代表顏色通道,H和W代表圖像大小,Z和Z′分別代表相鄰的視頻幀圖像,q1、q2、q3分別代表L、a、b三個(gè)顏色通道。

選取了兩段視頻中的連續(xù)五幀圖像并分別計(jì)算它們之間的NCD值然后求出其平均值,將本文方法的結(jié)果和Iizuka等[3]、Zhang 等[6]以及Gupta等[14]的方法得到的結(jié)果進(jìn)行對(duì)比,結(jié)果記錄于表1中。

從實(shí)驗(yàn)結(jié)果可以看到,相對(duì)于Iizuka等[3] 和Zhang等[6]以及Gupta等[14]的結(jié)果,本文方法得到的NCD值較小,表明連續(xù)視頻幀圖像之間的歸一化色差越小,也說明了本文方法較好地保持了視頻的連續(xù)性和時(shí)空一致性。

2.4 實(shí)驗(yàn)結(jié)果評(píng)估

為了驗(yàn)證本文方法的有效性,本文選取了定量評(píng)估指標(biāo)峰值信噪比PSNR、均方根誤差RMSE以及結(jié)構(gòu)相似性SSIM對(duì)視頻幀圖像的彩色化效果進(jìn)行評(píng)估,定量評(píng)估的目標(biāo)主要是對(duì)本文方法得到的彩色視頻序列和原始彩色視頻序列進(jìn)行比較,主要考慮本文方法是否引入更多噪聲以及兩幅圖像的誤差大小。隨機(jī)選取了一段視頻中的第10、20、30、40幀圖像進(jìn)行評(píng)估,表2是評(píng)估結(jié)果。

從表2中可以看出,本文方法對(duì)視頻幀的著色后定量評(píng)價(jià)指標(biāo)PSNR和RMSE以及SSIM在一定程度上都優(yōu)于現(xiàn)有方法,驗(yàn)證了本文方法的可行性。

2.5 用戶研究

為更進(jìn)一步測(cè)試本文方法的結(jié)果,本文進(jìn)行了一組用戶研究來評(píng)估視頻彩色化效果,這里用戶研究主要是視頻的彩色化質(zhì)量測(cè)試。邀請(qǐng)了50名年齡在20~30歲的用戶參與用戶研究,主要考慮視頻幀圖像的顏色飽和度、自然度,以及視頻序列的時(shí)空一致性和人眼視覺感官的效果。用戶研究評(píng)分指標(biāo)如表3所示。

讓用戶觀看5組視頻序列的彩色化效果然后統(tǒng)計(jì)出結(jié)果如表4所示,結(jié)果表明本文方法得到的彩色視頻序列無(wú)論是在顏色自然度還是飽和度上都優(yōu)于Gupta等[14]提出的方法。

從用戶研究結(jié)果可以看出,本文方法得到的彩色視頻幀和視頻序列的效果優(yōu)于現(xiàn)有方法,在色彩自然度和飽和度方面都展現(xiàn)了更好的效果,充分驗(yàn)證了本文方法的有效性。

3 方法推廣—?jiǎng)赢嬈尾噬?/p>

為了對(duì)比實(shí)驗(yàn)效果,將本文方法應(yīng)用到動(dòng)畫類片段的彩色化上,并取得了較好的效果。圖8是對(duì)動(dòng)畫題材片段《熊出沒》(版權(quán)歸屬:華強(qiáng)方特(深圳)動(dòng)漫有限公司)的彩色化效果,截取了某一段視頻的8幅視頻幀,并用本文方法對(duì)其進(jìn)行彩色化,可以看到整體彩色化效果較好地保留了顏色信息,并且實(shí)體和背景之間的區(qū)分度被很好地展現(xiàn)出來。

4 結(jié)語(yǔ)

本文將圖像著色方法擴(kuò)展到視頻的彩色化上來,并針對(duì)現(xiàn)有方法存在的問題,提出了一種結(jié)合CNN和LSTM混合神經(jīng)網(wǎng)絡(luò)模型的方法對(duì)視頻序列進(jìn)行彩色化處理,在保持視頻序列幀著色飽和度和著色自然度的前提下,同時(shí)采用LSTM結(jié)構(gòu)用作雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶單元,以保證視頻序列的長(zhǎng)期一致性。實(shí)驗(yàn)結(jié)果表明,本文方法無(wú)論是在單幀視頻幀著色還是在視頻序列的著色上都優(yōu)于現(xiàn)有方法,達(dá)到了先進(jìn)的性能。

參考文獻(xiàn)

[1]CHENG Z, YANG Q, SHENG B . Colorization using neural network ensemble [J]. IEEE Transactions on Image Processing, 2017, 26(11): 5491-5505.

[2]DESHPANDE A, ROCK J, FORSYTH D. Learning large-scale automatic image colorization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 567-575.

[3]IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Let there be color!: joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification [J]. ACM Transactions on Graphics, 2016, 35(4): Article No. 110.

[4]CHENG Z, YANG Q, SHENG B. Deep colorization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 415-423.

[5]LARSSON G, MAIRE M, SHAKHNAROVICH G. Learning representations for automatic colorization [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9908. Berlin: Springer, 2016: 577-593.

[6]ZHANG R, ISOLA P, EFROS A A. Colorful image colorization [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9907. Berlin: Springer, 2016: 649-666.

[7]HOCHREITER S, SCHMIDHUBER J. LSTM can solve hard long time lag problems [C]// Proceedings of the 9th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 1996: 473-479.

[8]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C]// Proceedings of the 2014 International Conference of Learning Representation. Las Vegas, 2014: 1–14.

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2019-01-03]. https://arxiv.org/pdf/1409.1556.pdf.

[9]KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732.

[10]ULLAH A, AHMAD J, MUHAMMAD K, et al. Action recognition in video sequences using deep bi-directional LSTM with CNN features [J]. IEEE Access, 2018, 6: 1155-1166.

[11]SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [EB/OL]. [2019-01-20]. https://arxiv.org/pdf/1409.3215.pdf.

HOCHREITER S, SCHMIDHUBER J. LSTM can solve hard long time lag problems [C]// Proceedings of the 9th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 1996: 473-479.

[12]SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

[13]PERAZZI F, PONT-TUSET J, McWILLIAMS B, et al. A benchmark dataset and evaluation methodology for video object segmentation [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 724-732.

[14]GUPTA R K, CHIA Y S, RAJAN D, et al. A learning-based approach for automatic image and video colorization [J]. Computer Graphics International, 2017, 23(3): 369-378.

GUPTA R K, CHIA A Y-S, RAJAN D, et al. A learning-based approach for automatic image and video colorization [EB/OL]. [2019-01-20]. https://arxiv.org/pdf/1704.04610.pdf.

[15]RUSSO F. Performance evaluation of noise reduction filters for color images through Normalized Color Difference (NCD) decomposition [J]. ISRN Machine Vision, 2014, 2014: Article No. 579658.

ZHANG Zheng, born in 1994, M. S. candidate. His research interests include deep learning, image processing.

HE Shan, born in 1972, M. S., associate professor. His research interests include data mining, machine learning.

HE Jingqi, born in 1993, M. S. candidate. His research interests include embedded system.

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)
基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型研究
基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
页游| 武鸣县| 潞城市| 清徐县| 辽宁省| 肃南| 南开区| 红原县| 霍山县| 玛沁县| 龙川县| 嘉兴市| 垫江县| 堆龙德庆县| 克东县| 嘉善县| 南城县| 和平县| 隆安县| 鄢陵县| 华蓥市| 大港区| 绍兴县| 蒲城县| 古蔺县| 都匀市| 晋宁县| 新干县| 神池县| 延川县| 万源市| 凤城市| 阿图什市| 九寨沟县| 湘潭市| 河北省| 卓资县| 宿州市| 北票市| 镶黄旗| 吉木萨尔县|