王洋 高文
摘要:高效視頻編碼標(biāo)準(zhǔn)HEVC是最新的數(shù)字視頻編碼標(biāo)準(zhǔn),其中,幀間預(yù)測在去除時域相關(guān)性方面扮演重要角色。在傳統(tǒng)的幀間預(yù)測方法中,因為僅僅利用了時域信息,所以幀間預(yù)測的準(zhǔn)確性是有限的。在本文中,提出了利用時域-空域信息的基于神經(jīng)網(wǎng)絡(luò)的HEVC幀間預(yù)測算法。具體來講,在本文提出的算法中,首先設(shè)計了一個包含全連接網(wǎng)絡(luò)(fully connected network,F(xiàn)CN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。其次,時域相鄰像素和空域相鄰像素輸入到FCN網(wǎng)絡(luò),F(xiàn)CN網(wǎng)絡(luò)輸出的結(jié)果和當(dāng)前預(yù)測塊輸入到CNN網(wǎng)絡(luò)中,CNN網(wǎng)絡(luò)生成最終的當(dāng)前塊的更準(zhǔn)確的預(yù)測塊。實驗結(jié)果表明,與HEVC參考軟件HM 16.9在通用測試條件Low Delay P(LDP)下編碼,本文提出的算法能夠帶來平均1.7%(高達(dá)8.6%)的BD-rate節(jié)省。
關(guān)鍵詞: HEVC; 幀間預(yù)測; 神經(jīng)網(wǎng)絡(luò); 卷積神經(jīng)網(wǎng)絡(luò); 全連接網(wǎng)絡(luò)
【Abstract】 HEVC is the latest video coding standard, in which inter prediction plays an important role to reduce the temporal redundancy. The accuracy of inter prediction is limited since only temporal information is used in conventional algorithms. This paper proposes a neural network based inter prediction algorithm for HEVC by using the spatial-temporal information. In the proposed algorithm, first a neural network architecture is designed consisting of a fully connected network (FCN) and a convolutional neural network (CNN). Then the spatial neighboring pixels and the temporal neighboring pixels are inputted into FCN. The output of FCN and the prediction of current block are inputted into CNN, which will generate the more accurate prediction of current block. Experimental results demonstrate that the proposed method can achieve average 1.7% (up to 8.6%) BD-rate reduction in low delay P test condition compared to HM 16.9.
【Key words】 ?HEVC; inter prediction; neural network; CNN; FCN
0 引 言
隨著通信技術(shù)、互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動終端、智能設(shè)備的普及,作為信息載體的視頻在人們生活的方方面面都扮演著不可或缺的角色。數(shù)字廣播電視、互聯(lián)網(wǎng)視頻、視頻會議、遠(yuǎn)程醫(yī)療、遠(yuǎn)程教育等傳統(tǒng)多媒體應(yīng)用一直影響和改變著人們的工作學(xué)習(xí)和生活娛樂的方式。視頻數(shù)據(jù)呈爆炸式增長,給數(shù)據(jù)存儲和網(wǎng)絡(luò)傳輸帶來巨大挑戰(zhàn),如何穩(wěn)定高效地存儲和傳輸海量的視頻數(shù)據(jù)成為目前亟待解決的問題。為了高效地壓縮高清和超高清數(shù)字視頻,國際標(biāo)準(zhǔn)組織制定了相應(yīng)的數(shù)字視頻編碼標(biāo)準(zhǔn)。國際的視頻編碼聯(lián)合協(xié)作組JCTVC制定的高效視頻編碼標(biāo)準(zhǔn)HEVC于2013年1月正式發(fā)布,相比于上一代數(shù)字視頻編碼標(biāo)準(zhǔn)H.264/AVC,在獲得相同主觀質(zhì)量的條件下,HEVC能夠節(jié)省大約50%的碼率,極大地提高了視頻編碼的壓縮性能。HEVC中的幀間預(yù)測方法中,能夠很好的處理視頻中的平移運動。然而,自然視頻中的運動類型種類多樣、復(fù)雜性高,簡單的平移運動并不能涵蓋所有的情況。自然視頻中會包含許多復(fù)雜的運動,如非線性的亮度變化、縮放和模糊等。
1 提出的基于神經(jīng)網(wǎng)絡(luò)的HEVC幀間預(yù)測算法
在本節(jié)中,將詳述本次研究所提出的基于神經(jīng)網(wǎng)絡(luò)的HEVC幀間預(yù)測算法。首先,簡要討論了HEVC的幀間預(yù)測和本文所用的基礎(chǔ)網(wǎng)絡(luò)VRCNN;其次,介紹提出的算法的網(wǎng)絡(luò)結(jié)構(gòu);再次,給出了本文設(shè)計的網(wǎng)絡(luò)的訓(xùn)練策略;最后,將本文提出的算法集成到HEVC以提高其壓縮性能。
1.1 HEVC幀間預(yù)測及VRCNN
幀間預(yù)測在HEVC中發(fā)揮著重要作用,可以通過提高幀間預(yù)測的準(zhǔn)確性,從而提高HEVC的壓縮性能。編碼單元(Coding Unit,CU)是HEVC中編碼的基本單位,每個CU都被設(shè)定為一種預(yù)測模式:幀內(nèi)預(yù)測或幀間預(yù)測。每個CU都包含了一個或多個預(yù)測單元(Prediction Unit,PU)。 如圖1所示,對于幀間編碼的CU,一共有8種PU劃分模式。
HEVC中使用幀間預(yù)測進(jìn)行編碼和解碼的簡化框圖如圖2所示。在編碼端,幀間預(yù)測用于生成當(dāng)前塊的預(yù)測,或者使用常規(guī)的幀間預(yù)測模式,或者使用Merge模式。常規(guī)的幀間預(yù)測模式中,運動估計用來獲取運動矢量(motion vector,MV),這個MV在運動補償中用來生成最終的預(yù)測值。之后,變換、量化、熵編碼用來生成最終的碼流。在解碼端,從熵解碼階段獲取MV和殘差,通過將殘差與預(yù)測值相加獲取重構(gòu)視頻。
本文的網(wǎng)絡(luò)結(jié)構(gòu)中利用了文獻(xiàn)[1]提出的VRCNN網(wǎng)絡(luò),VRCNN用來去除HEVC幀內(nèi)編碼產(chǎn)生的噪聲。研究可知,VRCNN的結(jié)構(gòu)。見表1。VRCNN中有4個全卷積層,其中第二層和第三層采用了可變?yōu)V波尺寸,不同的濾波尺寸卷積層產(chǎn)生的特征圖聚合到一起,并輸入到下一層。第一層和最后一層不使用可變的濾波尺寸。VRCNN采用了最近發(fā)明的殘差學(xué)習(xí)技術(shù)[2],因此網(wǎng)絡(luò)的輸出加上網(wǎng)絡(luò)輸入為最終的結(jié)果。
由圖5(a)可知,在HEVC編碼的過程中,NNIP用在幀間預(yù)測之后。研究發(fā)現(xiàn),與相鄰像素、時域相鄰像素和當(dāng)前塊的預(yù)測值輸入到NNIP網(wǎng)絡(luò),NNIP網(wǎng)絡(luò)的輸出是提升后的當(dāng)前塊的預(yù)測值。由圖5(b)可知,在HEVC的解碼過程中,NNIP也是應(yīng)用在幀間預(yù)測后用來生成當(dāng)前塊更加準(zhǔn)確的預(yù)測塊。
本文提出的NNIP算法能夠提高HEVC幀間預(yù)測的準(zhǔn)確性。首先,空域相鄰像素和是與相鄰像素通過FCN學(xué)習(xí)得到相互之間的相關(guān)性;其次,這個結(jié)果和當(dāng)前塊的預(yù)測值相加,相加的結(jié)果用CNN進(jìn)一步提升性能。在本文中,只有HEVC的亮度分量用NNIP來提升性能,NNIP算法僅應(yīng)用在常規(guī)幀間預(yù)測、Merge模式和Skip模式的2N×2N的PU劃分的CU上??紤]到一些簡單的紋理使用傳統(tǒng)的幀間預(yù)測方法能夠很好地獲取當(dāng)前塊的預(yù)測值,因此對于使用一個CU級別的標(biāo)志位來表示這個CU是否使用NNIP方法,是否使用NNIP方法通過率失真優(yōu)化(rate distortion optimization,RDO)來決定。
2 實驗結(jié)果及分析
在本節(jié)中,研究進(jìn)行了大量的實驗來驗證提出的基于神經(jīng)網(wǎng)絡(luò)的HEVC幀間預(yù)測算法的有效性。對此可做研究分述如下。
2.1 實驗配置
本文提出的NNIP算法集成到HEVC的參考軟件HM 16.9中,實驗中遵循HEVC的通用測試條件[4]配置編解碼器,使用LDP配置來驗證NNIP在HEVC上的性能。一共18個8位深的視頻測試序列用來驗證結(jié)果,編碼其中的前64幀,用到的測試序列為:Class A (2 560×1 080,4 K×2 K)、Class B ,(1 920×1 080,1 080P)、Class C(832×480,WVGA)、Class D(416×240,QWVGA)、Class E(1 280×720,720P)。實驗中使用的QP為22、27、32、37。使用的機(jī)器的配置是主頻為3.4 GHz的Intel i7-6700QP處理器和64 GB的內(nèi)存,操作系統(tǒng)為Microsoft Windows Server 2012 R2。HM 16.9和提出的NNIP算法都使用Microsoft Visual Studio 2013編譯,當(dāng)把NNIP集成到HEVC時,NNIP網(wǎng)絡(luò)的前饋操作使用GPU版本的Caffe來實現(xiàn)。
2.2 NNIP的壓縮性能
使用雙三次插值的Bjontegaard失真率(BD-rate)[15]來評估NNIP的壓縮性能。對于BD-rate,負(fù)數(shù)表示相同質(zhì)量下比特率節(jié)省,正數(shù)表示相同質(zhì)量下比特率增加。和HM 16.9相比,NNIP的壓縮性能見表2。由表2可知,本文提出的算法在亮度分量上,能夠獲得平均1.7%(最大達(dá)8.6%)的性能提升,驗證了本文算法的有效性。
由表2可知,對于所有的測試序列,本文提出的NNIP算法都能夠帶來性能的提升。但是,對于不同的測試序列,壓縮性能的提升變化比較明顯,表明提出的NNIP的算法受視頻序列內(nèi)容的影響比較大。本文提出的NNIP算法對于運動劇烈或者紋理豐富的視頻序列能夠帶來比較好的壓縮性能,如BasketballDrive、BQTerrace、BQMall。此外,對于會議視頻,如Class E,NNIP的壓縮性能也是十分可觀的。盡管研究中使用了3個HEVC的視頻序列來訓(xùn)練網(wǎng)絡(luò),但是這三個序列的壓縮性能并沒有比其它序列的性能獲得顯著提升。在將來的工作中,研究會擴(kuò)展訓(xùn)練集并且去除HEVC的測試序列,用以有效驗證提出的NNIP算法的有效性。
為了進(jìn)一步驗證提出的NNIP算法的壓縮性能,研究也比較NNIP和傳統(tǒng)幀間預(yù)測方法的主觀視覺效果。如圖6所示,無論對于低碼率視頻QP = 37、還是高碼率視頻QP = 27,本文提出的NNIP算法都能夠獲得更好的主觀視覺效果。
由表3可知,使用NNIP算法時,編碼時間平均增加了3 444%,解碼時間平均增加了2 022%。如此高的計算復(fù)雜度主要來源于2個方面,對此則可表述如下:
(1)對于所有不同尺寸的CU的所有幀間預(yù)測模式都要進(jìn)行率失真代價決策計算,會導(dǎo)致計算復(fù)雜度數(shù)倍地增加。
(2)相比HEVC本身算法來講,提出的網(wǎng)絡(luò)的前饋操作具有較高的計算復(fù)雜度。在未來的研究工作中,將會考慮開展降低算法計算復(fù)雜度方面的研究。
3 結(jié)束語
在本文中,設(shè)計研發(fā)了一種基于神經(jīng)網(wǎng)絡(luò)的HEVC幀間預(yù)測算法。研究中,提出了一種融合全連接網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中空域相鄰像素、時域相鄰像素、當(dāng)前塊的預(yù)測值作為網(wǎng)絡(luò)的輸入。本文提出的網(wǎng)絡(luò)能夠提高HEVC中幀間預(yù)測的準(zhǔn)確性。實驗表明,所提出的NNIP算法可以獲得平均1.7%(高達(dá)8.6%)的BD-rate節(jié)省。在未來的研究工作中,將探索NNIP算法在其他幀間模式的效果以及降低網(wǎng)絡(luò)的計算復(fù)雜度。
參考文獻(xiàn)
[1] DAI Y, LIU D, WU F. A convolutional neural network approach for post-processing in HEVC intra coding[M]// AMSALEG L, GUMUNDSSON G, GURRIN C,et al.MultiMedia Modeling. MMM 2017. Lecture Notes in Computer Science. Cham: Springer, 2017,10132:28.
[2]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition( CVPR). Las Vegas, Nevada, USA:IEEE, 2016:710.
[3] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Delving deep into rectifiers surpassing human-level performance on ImageNet classification[C]//2015 IEEE International Coference on Computer Vision(ICCV). Santiago, Chile: IEEE, 2015:1026.
[4] BOSSEN F. HM10 Common test conditions and software reference configurations[C]// 12th Joint Collaborative Team on Video Coding Meeting.Geneva:[s.n.], 2013:JCTVC-L1100.
[5]JIA Yangqing, SHELHMER E, CONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[J]. ACM Multimedia, 2014,2:675.
[6]KINGMA D P, BA J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980,2014.
[7]BJNTEGAARD G. Improvements of the BD-PSNR Model, document VCEG-AI11, ITU-TVideo Coding Experts Group (VCEG)[Z].Berlin, Germany:Heinrich-Hertz-Institute, 2008.
[8] ?SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12):1649.
[9]WIEGAND T, SULLIVAN G J, BJNTEGAARD G, et al. Overview of the H.264/AVC video coding standard[J].IEEE Transactions on Circuits and Systems for Video , 2006, 13(7):560.
[10]YIN P, TOURAPIS A M, BOYCE J. Localized weighted prediction for video coding[C]//International Sysmposium on Circuits and Systems(ISCAS 2005). Kobe, Japan:dblp,2005,5:4365.
[11]JEONG S, PARK H. Offset compensation method for skip mode in hybrid video coding[J].IEEE Transactions on Circuits and Systems for Video Technology ,2014, 24(10):1825.
[12]ZHANG Na, LU Yiran, FAN Xiaopeng, et al.Enhanced inter prediction with localized weighted prediction in HEVC[C]//2015 Visual Communications and Image Processing (VCIP). Singapore:IEEE,2015:1.
[13]DONG C, LOY C C, HE Kaiming,et al. Learning a deep convolutional network for image super-resolution[C]// European Conference on Computer Vision. Cham:Springer, 2014:184.
[14]DONG C, DENG Y, LOY C,et al.Compression artifacts reduction by a deep convolutional network[C]// 2005 IEEE International Conference on Computer Vision(ICCV). Santiago, Chile:IEEE, 2015:576.
[15]WANG Zhongyang, LIU Dong, CHANG Shiyu, et al. D3: Deep dual-domain based fast restoration of JPEG compressed images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV, USA:IEEE, 2016:2764.