尹文斌 范曉鵬
摘 要:隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,無線視頻廣播越來越受到人們的歡迎,成為流行的多媒體應(yīng)用之一。然而,傳統(tǒng)的數(shù)字編碼和傳輸方法很難適應(yīng)于向多個具有不同信道質(zhì)量的用戶同時發(fā)送視頻的場景,通常會遭遇懸崖效應(yīng)。近期,一種新穎的無線視頻廣播方法稱為SoftCast被提出,其保存在信道中傳輸?shù)男盘柵c視頻像素值之間所具有線性關(guān)系并利用有效的能量分配方法,使得視頻重構(gòu)質(zhì)量隨著信道噪聲的增加而平緩下降。在本文中,提出了一種新型的無線視頻廣播方法,其利用深度卷積網(wǎng)絡(luò)和基于圖像組的稀疏表示模型,通過解碼端估計的信道質(zhì)量,優(yōu)化視頻的解碼過程并減輕多種由信源編碼和信道噪聲造成的視覺失真。通過視頻軟傳輸技術(shù),本文提出的方法具有出色的視頻廣播質(zhì)量可伸縮性并避免了懸崖效應(yīng)的發(fā)生,同時還能提供視覺友好的主客觀重構(gòu)質(zhì)量。實驗結(jié)果表明,本文提出的方法在視頻廣播場景下能夠獲得優(yōu)于傳統(tǒng)SoftCast最高1.2 dB的重建質(zhì)量。
關(guān)鍵詞: 無線視頻廣播; 卷積神經(jīng)網(wǎng)絡(luò); 基于圖像組的稀疏表示; 視頻軟廣播
【Abstract】 With the continuous development of information technology and Internet technology, video broadcasting is becoming more and more popular in wireless networks. However, the existing digital coding and transmission approaches can hardly accommodate users with diverse channel conditions, which is called the cliff effect. Recently, a novel video broadcasting method called SoftCast has been proposed. It achieves graceful degradation with increasing noise by making the magnitude of the transmitted signal proportional to the pixel value and using a novel power allocation scheme. This paper proposes a novel video broadcast method that exploits deep convolutional networks and group based sparse representation. They utilize the channel condition information generated from decoder to optimize the decoding process and reduce the various artifacts caused by source and channel coding. By utilizing soft video broadcast transmission, it achieves good broadcasting performance, avoids the cliff effect, and also can provide visually friendly subjective and objective reconstruction quality. The experimental results show that the proposed scheme provides better performance compared with the traditional SoftCast with up to 1.2 dB coding gain.
【Key words】 ?wireless video broadcasting; Convolutional Neural Networks; group based sparse representation; soft video broadcast
0 引 言
隨著科技的不斷發(fā)展,人們開始更多地使用圖片或者視頻來交流和分享信息。在無線通信技術(shù)進(jìn)步的推動下,關(guān)于無線視頻廣播技術(shù)研究已然成為當(dāng)前學(xué)界熱點,其研發(fā)成果也在陸續(xù)涌現(xiàn)。與此同時,3G、4G技術(shù)的逐漸應(yīng)用和近年來智能手機(jī)與平板電腦的處理能力越來越強(qiáng)而且日趨普及,人們也越來越青睞使用這些移動終端來觀看視頻,因為這樣做更方便、更智能、也更快捷。
傳統(tǒng)數(shù)字視頻廣播標(biāo)準(zhǔn)[1]中主要包含2部分。一部分是分層傳輸方法[2-3],另一部分則是可伸縮視頻編碼技術(shù)(SVC)[4-5]。其中,可伸縮編碼技術(shù)是指編碼端將視頻信號編碼為一個基本層(BL)和多個增強(qiáng)層(EL)。分層調(diào)制(HM)[6]可用于將基本層和增強(qiáng)層的比特流疊加到一個需要傳輸?shù)臒o線信號中,如此一來也就實現(xiàn)了同一編碼端對于信道質(zhì)量不同的用戶進(jìn)行視頻廣播的目的。傳統(tǒng)偽模擬傳輸應(yīng)用Softcast[7-8]軟廣播技術(shù)的主要貢獻(xiàn)是將所要傳輸?shù)男盘柕木€性變換直接在模擬信道上進(jìn)行傳輸,這些信號只需要執(zhí)行能量分配而不需要進(jìn)行量化、編碼和調(diào)制。因此信道噪聲也就直接轉(zhuǎn)化為了重構(gòu)噪聲,具有質(zhì)量可伸縮性。為了緩解塊效應(yīng),學(xué)者們提出了很多去塊效應(yīng)的后處理方案,大體上可分為2類[9-10],即:基于圖像增強(qiáng)的去塊效應(yīng)方法和基于圖像恢復(fù)的去塊效應(yīng)方法。總地來說,對于圖像增強(qiáng)類的方法,其基本思路是將去塊效應(yīng)視為一種圖像增強(qiáng)過程,通過在空域和頻域進(jìn)行濾波來平滑可見的失真效應(yīng)。對于圖像復(fù)原類的方法,去塊效應(yīng)通常被表述為一個病態(tài)圖像優(yōu)化問題并利用一些圖像先驗知識和觀測數(shù)據(jù)進(jìn)行求解。全變差[11]、基于塊的稀疏表示[12-14]以及馬爾科夫隨機(jī)場(MRF)均被作為圖像先驗?zāi)P陀糜趯ふ以紙D像的MAP估計。在各類研究中,文獻(xiàn)[15]將量化失真作為高斯噪聲,使用FoE作為圖像先驗來建立圖像去塊效應(yīng)最優(yōu)化問題。深度神經(jīng)網(wǎng)絡(luò)在圖像處理、視頻分析、自然語義理解等方面取得了可觀進(jìn)展。深度神經(jīng)網(wǎng)絡(luò)是一種多層的神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)學(xué)習(xí),從原始數(shù)據(jù)中提取不同層級的抽象信息。這種方法自然地體現(xiàn)了底層視覺特征到高層語義特征的演變。使用深度學(xué)習(xí)方法可以自適應(yīng)地捕獲到目標(biāo)的多層次表示特征,相比于人工設(shè)計的特征,通常有著更好的應(yīng)用性能。以圖像去噪為例,文獻(xiàn)[16]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪方法并證明卷積神經(jīng)網(wǎng)絡(luò)具有對馬爾科夫隨機(jī)場相近、甚至更高的表達(dá)能力。文獻(xiàn)[17]成功地將多層感知器應(yīng)用于圖像去噪問題。文獻(xiàn)[18]利用稀疏去噪自編碼器來處理高斯噪聲去除問題,并取得了與K-SVD相近的結(jié)果。文獻(xiàn)[19]中,提出了一個可訓(xùn)練的非線性映射傳遞模型,而且可以通過一個前饋神經(jīng)網(wǎng)絡(luò)得以實現(xiàn)。
1 提出的基于卷積神經(jīng)網(wǎng)絡(luò)的無線視頻廣播方案
時下,無線視頻廣播面臨3個主要問題就是可伸縮性、魯棒性和重建視頻質(zhì)量。傳統(tǒng)的SoftCast無線視頻廣播系統(tǒng)雖然能夠避免懸崖效應(yīng)的發(fā)生,但是由于其采用基于塊的編碼方式且信道噪聲直接疊加在傳輸信號上,所以其重構(gòu)視頻中不可避免地含有編碼失真和傳輸失真,極大地降低了重構(gòu)視頻的主客觀質(zhì)量,因此如何去除編碼與傳輸失真是亟待解決的研究課題。針對圖像復(fù)原問題,稀疏表示理論利用先驗知識和重構(gòu)圖像進(jìn)行稀疏表示優(yōu)化求解;深度網(wǎng)絡(luò)模型可以通過強(qiáng)大的特征提取能力對自然圖像的深層次特征進(jìn)行學(xué)習(xí),提取降質(zhì)圖像中的有效信息。根據(jù)稀疏表示理論,本文擬利用視頻幀的局部稀疏性和非局部自相似性,通過基于組的稀疏表示模型減輕信重構(gòu)視頻中的編碼失真?;谏疃壬窠?jīng)網(wǎng)絡(luò)特性,利用卷積神經(jīng)網(wǎng)絡(luò)對視頻幀進(jìn)行緊致而高效的表達(dá),從而區(qū)分重構(gòu)幀中的信道噪聲與有效視頻信息,以便于提升重構(gòu)幀質(zhì)量。實驗結(jié)果表明,本文提出的方案不僅具有良好的視頻廣播可伸縮性,還能提供視覺友好的主客觀重構(gòu)質(zhì)量。
1.1 編碼框架
基于卷積神經(jīng)網(wǎng)絡(luò)的無線視頻廣播框架如圖1所示。本文提出的基于深度神經(jīng)網(wǎng)絡(luò)的無線視頻傳輸方案的編碼框架主要包含:視頻壓縮、視頻軟傳輸、基于圖像組的稀疏表示以及深度卷積網(wǎng)絡(luò)。
在編碼端,通過BDCT (Block based DCT) 去除視頻幀中的冗余,對視頻進(jìn)行壓縮處理。利用對視頻的頻域系數(shù)的伸縮來最小化信號在信道傳輸中的總體失真。編碼后的信號直接經(jīng)過稠密的64K-QAM星座圖發(fā)送給具有不同信道質(zhì)量的多個用戶。傳統(tǒng)的數(shù)字視頻傳輸方案中,懸崖效應(yīng)嚴(yán)重影響了各用戶的解碼體驗。在本文提出的方案中,通過軟傳輸?shù)姆绞街苯訉⒕幋a后的信號發(fā)送給客戶端,為用戶提供具有良好的視頻質(zhì)量可伸縮性。在解碼端,其利用LLSE對接收到的信號進(jìn)行解碼?;趫D像組的稀疏表示模型能夠同時利用視頻幀的局部稀疏性和非局部自相似性,本文利用基于圖像組的稀疏表示模型降低由BDCT編碼所造成的塊效應(yīng)。由于深度神經(jīng)網(wǎng)絡(luò)可以通過學(xué)習(xí)的方式提取不同程度的信道噪聲特征,在獲得具有平滑屬性的解碼視頻幀后,本文利用卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化由軟傳輸中信道噪聲引起的失真。
1.2 基于塊的變換
由于視頻幀內(nèi)通常具有較強(qiáng)的空域相關(guān)性,本文的方法利用這一性質(zhì),通過BDCT變換的方式對視頻幀內(nèi)信息進(jìn)行緊致表達(dá)。傳統(tǒng)的視頻編碼方法需要已知信道條件,根據(jù)信道條件選擇碼率并對頻域系數(shù)進(jìn)行量化。這類的量化方案會迫使所有的用戶觀看質(zhì)量一致的解碼視頻。
本文提出的方案將視頻幀劃分為圖像塊,再利用BDCT變換將視頻幀由空域轉(zhuǎn)換到頻域。通常來說,DCT系數(shù)具有能量集中的特性,也就是具有較高重要性的低頻系數(shù)集中的變換系數(shù)矩陣的左上角,而具有較低重要性的高頻系數(shù)集中在系數(shù)矩陣的右下角,數(shù)值通常是接近或等于零。由于高頻DCT系數(shù)對于視頻幀內(nèi)信息的影響較輕微,所以采用丟棄DCT系數(shù)中的零值的方式對視頻數(shù)據(jù)進(jìn)行壓縮。當(dāng)帶寬受限時,本文的方案會根據(jù)DCT系數(shù)的分布特性,根據(jù)帶寬要求進(jìn)一步丟棄當(dāng)前最不重要的DCT系數(shù)。然而這樣的方式需要面臨的問題是編碼端不得不發(fā)送大量的元數(shù)據(jù)來標(biāo)識丟棄的DCT系數(shù)所在的位置。
為了減少傳輸被丟棄頻域系數(shù)位置所需的元數(shù)據(jù),本文的方法將不同塊的頻域系數(shù)按照頻率劃分為band,以band為單元對視頻進(jìn)行壓縮。具體來說,可將不同塊的同一位置系數(shù)放入一個band。而后根據(jù)壓縮率及帶寬需求,以band為單位判別是否丟棄其中的DCT系數(shù)。不同圖像塊變換系數(shù)的高頻信息通常處于接近或者一致的區(qū)域,所以對band進(jìn)行丟棄操作與對獨立的DCT系數(shù)進(jìn)行丟棄操作具有接近的壓縮性能,卻大幅減少了元數(shù)據(jù)規(guī)模。
1.3 能量分配與傳輸
1.6 深度神經(jīng)網(wǎng)絡(luò)去噪
傳統(tǒng)的軟傳輸方案直接將信號通過raw OFDM信道進(jìn)行發(fā)送,可以取得良好的可伸縮性能,為不同用戶提供與其信道質(zhì)量相一致的重構(gòu)視頻。但是由于信道噪聲直接疊加在接收的噪聲中,會導(dǎo)致重構(gòu)視頻中存在噪聲模糊效應(yīng)。借助于深度神經(jīng)網(wǎng)絡(luò)從原始數(shù)據(jù)中提取不同層級的抽象信息的能力。研究利用卷積神經(jīng)網(wǎng)絡(luò)提取由不同信道噪聲所形成的特征,對解碼端重構(gòu)的視頻進(jìn)行復(fù)原。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。
由圖3中可以看出,所有基于H.264的傳統(tǒng)視頻廣播方案,無論信道編碼率如何,都會遭遇嚴(yán)重的懸崖效應(yīng)。舉例來說,H.264+BPSK方案在CSNR為3~5 dB時表現(xiàn)良好,但是當(dāng)CSNR低于3 dB時,會導(dǎo)致信道保護(hù)編碼失效,視頻無法解碼;而當(dāng)CSNR高于10 dB時,由于信源編碼率的限制,導(dǎo)致CSNR上升時用戶的視頻質(zhì)量無法進(jìn)一步提升。
相反地,SoftCast與本文的方案都較好地避免了懸崖效應(yīng),為用戶提供了具有良好可伸縮性的平滑性能曲線。隨著CSNR的提高,用戶解碼的視頻質(zhì)量也有相應(yīng)的提升。但是由于本文利用GSR以及卷積神經(jīng)網(wǎng)絡(luò)對重構(gòu)幀中的失真進(jìn)行了優(yōu)化,本文方案的重構(gòu)質(zhì)量在全部CSNR范圍內(nèi)都優(yōu)于SoftCast。
2.3.2 視覺質(zhì)量
本文方法的主觀質(zhì)量對比如圖4所示。在相同CSNR條件下,可以清晰看到本文提出的方案具有更好的重建質(zhì)量。SoftCast的重構(gòu)幀中有較為明顯的塊效應(yīng)和噪聲干擾,而本文方案的重構(gòu)幀中幾乎沒有塊效應(yīng)。實驗證明,基于GSR的方法表現(xiàn)出優(yōu)秀的去塊效應(yīng)性能。在相似PSNR條件下,本文方案的重構(gòu)幀具有平滑的紋理以及清晰的邊界,在主觀視覺感受上更易于被接受。
本文方案與SoftCast在不同序列上的測試結(jié)果如圖5所示。由于GSR需要在視頻幀內(nèi)尋找相似塊,使得當(dāng)視頻內(nèi)容運動劇烈時,會在一定程度上影響去塊效應(yīng)結(jié)果,例如bus.cif中的測試結(jié)果。但是從圖5中可以看出,本文的方案具有良好的魯棒性,對于不同的視頻序列都取得了高于SoftCast的重構(gòu)質(zhì)量。
2.3.3 多播性能
文中使用3種方案服務(wù)一組客戶(3個具有不同信道質(zhì)量的客戶),每個客戶的CSNR分別為5 dB、10 dB和20 dB。傳統(tǒng)的數(shù)字視頻廣播方案采用H.264+BPSK的組合。多播性能的效果對比即如圖6所示。由于3個客戶中信道最差的CSNR只有5 dB,所以傳統(tǒng)方案將必須采用BPSK進(jìn)行調(diào)制,否則會導(dǎo)致CSNR為5 dB的客戶無法做到正確解碼。在SoftCast與本文方案的對比中,發(fā)送端可以同時適應(yīng)多種信道條件。而在本文方案的測試結(jié)果中,雖然客戶1的重構(gòu)質(zhì)量略低于傳統(tǒng)方案,但是其余客戶均獲得了高于傳統(tǒng)方案的視頻質(zhì)量。從圖6中可以看出,本文較傳統(tǒng)方案具有更好的可伸縮性,較SoftCast有著更好重構(gòu)質(zhì)量。
3 結(jié)束語
在本文中,提出了基于深度神經(jīng)網(wǎng)絡(luò)的無線視頻傳輸方案。針對傳統(tǒng)視頻軟傳輸系統(tǒng)中存在的不足,利用深度神經(jīng)網(wǎng)絡(luò)、基于圖像組的稀疏表示和軟傳輸技術(shù)設(shè)計了一種高效的無線視頻廣播方案。利用基于圖像組的稀疏表示對基于塊的編碼方案進(jìn)行低質(zhì)圖像復(fù)原處理。充分發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)對于數(shù)據(jù)深層特征的挖掘能力,對信道噪聲引起失真進(jìn)行優(yōu)化。通過軟傳輸?shù)姆绞?,本文方案在廣播場景下避免了懸崖效應(yīng)的發(fā)生,并展示了出色的質(zhì)量可伸縮性。實驗結(jié)果表明本文提出的基于深度神經(jīng)網(wǎng)絡(luò)的無線視頻廣播方案在性能上明顯優(yōu)于傳統(tǒng)數(shù)字視頻廣播系統(tǒng)。
參考文獻(xiàn)
[1]Digital Video Broadcasting (DVB)[EB/OL].[2009]. http://www.etsi.org/deliver /etsien/300700300799/300744/01.06.0160/en300744v010601p.pdf.
[2]SHACHAM N. Multipoint communication by hierarchically encoded data [C]//INFOCOM '92. Eleventh Annual Joint Conference of the IEEE Computer and Communications Societies.Florence, Italy: IEEE, 1992:2107-2114.
[3]MCCANNE S, JACOBSON V, VETTERLI M. Receiver-driven layered multicast[M]//Readings in multimedia computing and networking.San Francisco, CA, USA: Morgan Kaufmann Publishers Inc, 2001:593-606.
[4]WU Feng, LI Shipeng, ZHANG Yaqin. A framework for efficient progressive fine granularity scalable video coding[J]. IEEE Trans. Circuits and Systems for Video Technology,2001,11(3):332-344.
[5]SCHWARZ H, MARPE D, WIEGAND T. Overview of the scalable video coding extension of the H.264/AVC standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007,17(9):1103-1120.
[6]JAKUBCZAK S, KATABI D. A cross-layer design for scalable mobile video[C]//Proceedings of the 17th Annual International Conference on Mobile Computing and Networking, MOBICOM 2011. Las Vegas, Nevada, USA: ACM, 2011: 289-300.
[7]JAKUBCZAK S, KATABI D. SoftCast: One-size-fits-all wireless video[J].ACM SIGCOMM Computer Communication Review,2010,41(4):449-450.
[8]DONOHO D L. Compressed sensing[J]. IEEE Transactions on Information Theory, 2006, 52(4):1289-1306.
[9]SHEN Meiyin, KUO C C J. Review of postprocessing techniques for compression artifact removal[J]. Journal of ?Visual Communication and Image Representation, 1998, 9(1):2-14.
[10]YEH C H, KANG Liwei, CHIOU Yiwen, et al. Self-learning-based post-processing for image/video deblocking via sparse representation[J]. Journal of Visual Communication and Image Representation, 2014,25(5): 891-903.
[11]BREDIES K, HOLLER M. A totao variation based JPEG decompression model[J]. SIAM Journal on Imaging Science, 2012, 5(1):366-393.