宋曉煒, 蔡文靜, 楊 蕾, 王曉寧, 劉洲峰
(中原工學院, 鄭州 450007)
基于人體區(qū)域深度信息的HEVC快速分割算法
宋曉煒, 蔡文靜, 楊 蕾, 王曉寧, 劉洲峰
(中原工學院, 鄭州 450007)
為了降低新一代視頻編碼的計算復雜度,減少不必要的CU(Coding Unit )劃分,同時保證較好的視頻質(zhì)量,提出一種基于深度信息的快速分割算法。該算法根據(jù)深度信息區(qū)分人體區(qū)域,將人體區(qū)域作為感興趣區(qū)域(ROI),在CU分割過程中,依據(jù)分割的不同區(qū)域快速做出抉擇,以減少率失真計算量,從而降低CU深度劃分的計算復雜度。實驗結(jié)果表明,在輸出比特率增加4.84%的情況下,采用該算法的HEVC(High Efficiency Video Coding)編碼器比傳統(tǒng)編碼器平均編碼時間降低63%,而編碼后的視頻質(zhì)量基本保持不變。
HEVC;CU;感興趣區(qū)域;深度信息
隨著高清和超高清視頻技術(shù)的快速發(fā)展,視頻存儲數(shù)據(jù)量越來越大,圖像編碼的比特數(shù)、傳輸帶寬也隨之增加,給視頻的存儲和傳輸帶來了嚴峻考驗。新一代高效視頻編碼器HEVC(High Efficiency Video Coding)[1]于2013年4月正式成為國際標準。它采用基于四叉樹循環(huán)分層結(jié)構(gòu)的編碼單元、預測單元和變換單元[2]。其編碼性能和效率比傳統(tǒng)編碼器顯著提高,但編碼復雜度卻明顯增加。為了實現(xiàn)HEVC編碼器的應用,在保證編碼視頻主、客觀質(zhì)量的前提下,必須加快編碼速度。
當前CU(Coding Unit )的深度值范圍取決于先前已編碼Slices和相鄰CU的深度值[3-4]。為了快速得到高質(zhì)量的視頻,需要進行感興趣區(qū)域編碼,利用運動估計方法確定感興趣區(qū)域。對感興趣區(qū)域優(yōu)先傳輸,雖然可提高碼流的伸縮性能,但是視頻恢復的質(zhì)量較差[5]。林國川等利用Sobel算子檢測分析紋理復雜區(qū)域和運動區(qū)域來區(qū)分感興趣區(qū)域[6]。但是這并不完全符合人類視覺系統(tǒng)的識別習慣,容易錯失某些重要部分的信息。現(xiàn)有改進方法雖然在很大程度上減少了CU遍歷區(qū)間,但考慮到視頻內(nèi)容及其序列的差異性,仍有較大的改善空間。
本文在單一視頻序列編碼的基礎上,首先通過加入深度圖信息[7]對視頻中人體區(qū)域進行區(qū)分,提取人體區(qū)域作為感興趣區(qū)域,生成區(qū)分二值表;然后,利用感興趣區(qū)域的二值信息進行不同深度的分割處理,通過提前終止分割來加速編碼。
在視頻傳輸及播放過程中,人眼最關(guān)注的往往是其中某一部分。該部分通常被稱為感興趣區(qū)域(ROI,Region of Interest)[8-9]。在視頻傳輸過程中,如果該區(qū)域出現(xiàn)錯誤或者大范圍失真,就會嚴重影響視頻的觀看質(zhì)量。在感興趣區(qū)域編碼中,通常人工劃定或者采用規(guī)則形狀(矩形或圓形)給出一個大致的區(qū)域,但并不能精確地給出人眼真正感興趣的區(qū)域。在本研究中,設定感興趣區(qū)域為人體區(qū)域,并從深度圖像中獲取之??紤]到素材本身因素,實驗采用兩種方式獲得人體區(qū)域,并進行驗證。
深度圖像是指從觀察者視角看去所包含信息與場景物體表面距離相關(guān)的一種圖像或一個圖像通道,也稱為距離圖像[10]。與彩色圖像相比,深度圖像不受光照、陰影和色度等因素的影響而直接反映物體表面的三維特征。深度視頻可以由基于飛行時間或結(jié)構(gòu)光原理的深度相機獲取。目前能夠獲取深度圖像且性價比高的Kinect設備由微軟公司在2010年發(fā)布[11]。其二代產(chǎn)品在2013年發(fā)布,本文采用的即為該設備。它能同時獲取彩色圖像、紅外圖像、深度圖像,準確識別人體區(qū)域并進行標記。本文提到的Material1、Material2就是由該設備獲取的。由圖1可知,通過該設備準確提取人體區(qū)域作為感興趣區(qū)域,不受外部環(huán)境的干擾。與其他選擇人體區(qū)域的方法相比,該方法具有更高的區(qū)域選擇準確性。
3D-HEVC[12]編碼實驗序列包含許多深度視頻圖像示例。根據(jù)深度圖像的定義可知,深度圖像的像素代表物體與攝像機位置的距離信息,人體區(qū)域應存在于某個像素范圍。根據(jù)這個像素范圍可對人體所處位置做出判斷和分析。但是,這個判斷也會將距離人體較近的物
圖1 第二代Kinect提供的素材
體識別為人體區(qū)域,對實驗結(jié)果造成影響。在圖2中,圖2(a)表示圖2(b)中小方形區(qū)域的深度像素值,可以看出,深度圖像中像素有不同的區(qū)間,故可以根據(jù)深度圖像的信息設置參數(shù)來識別人體區(qū)域。在圖3中,與圖3(a)彩色圖像相比,在設置參考閾值后識別出的人體區(qū)域(圖3b)中,最近和最遠的兩個人體并沒有被識別出來,這是因為在選取測試視頻時僅選擇了動態(tài)人體。在視頻播放過程中,人們對運動的物體更為關(guān)心,故本實驗僅對運動人體區(qū)域進行識別。由于視頻含有與人體一樣距離的桌子和椅子,因此這部分也被誤認為人體區(qū)域,這將對實驗結(jié)果的精確度造成影響。為驗證本文算法的通用性,可暫時忽略這種方式所存在的誤差。
(a)深度像素值 (b)深度圖像圖2 深度圖像像素信息
(a)彩色圖像 (b)提取的人體區(qū)域圖3 彩色圖像與提取人體區(qū)域的比較
從以上分析可以看出,通過深度圖像處理,能夠簡單有效地識別人體區(qū)域,為視頻編碼的快速傳輸提供條件。這正是本文提出的快速算法的基礎。在以上兩種方法中,由第二代Kinect提供的素材更為準確,是本文實驗驗證的前提,而根據(jù)3D-HEVC提供的示例深度圖像提取的人體區(qū)域在某些視頻中存在較大誤差。這里對示例測試序列中人體區(qū)域的提取,只用于驗證本文提出算法的有效性及通用性。
在HEVC中,一幅圖像被分割為若干互不重疊的編碼樹單元(CTU)。在CTU內(nèi)部,可采用基于四叉樹的循環(huán)分層結(jié)構(gòu)。一個CTU可能包含一個或者多個CU。CU最大為64×64,最小為8×8。這種大小可變的CU在圖像編碼過程中具有極大的靈活性。CU的大小由不同的深度決定。圖4所示為CU四叉樹結(jié)構(gòu)的劃分過程[13]。在HEVC編碼器中,每一幀圖像都是從根節(jié)點編碼樹單元(LCU)的劃分開始的。作為CU劃分的根節(jié)點,LCU起始大小為64×64,深度Depth=0。通過CU預測編碼,可得到當前率失真代價RD-Cost(Rate Distortion Cost);接著將CU進一步分割,得到4個子CU,其大小縮減為原來CU的1/4,深度增加1;再次進行預測編碼,可得到RD-Cost。按遞歸方式劃分,直到CU大小為8×8,劃分深度Depth=3時結(jié)束。在HEVC中,可采用拉格朗日率失真優(yōu)化決策決定最終四叉樹結(jié)構(gòu)的劃分形式。在HEVC的官方標準測試模型HM中,想要確定最終的CU劃分模式,需要完成四叉樹的全遍歷,即要進行85次RD-Cost計算,以及預測單元(PU)、變換單元(TU)的預測計算,使得編碼器計算復雜度非常高。
圖4 CU劃分過程
通常,并不是圖像的全部信息都受到同樣關(guān)注,對圖像進行整體處理會增加大量多余的計算量,延長編碼時間。實際上,CU塊大小的選擇取決于圖像的復雜度和運動的劇烈程度。對于背景靜止或平穩(wěn)區(qū)域,采用較大的CU塊能夠較好地表達圖像信息,并且不會顯著增加比特數(shù);而對于不同目標背景或者復雜的運動區(qū)域,較小的CU塊能夠更好地表達圖像的細節(jié)信息。為了降低計算復雜度,在HM中采用了多種快速優(yōu)化方法,如提前終止策略、早期跳出策略、快速CBF策略、縮減AMP策略等[14]。
鑒于以上分析,本文提出一種基于深度圖像感興趣區(qū)域的優(yōu)化改進算法,即從CU分割部分讀取深度圖信息,利用區(qū)分后的深度圖信息對不同區(qū)域分配不同的深度值,并根據(jù)不同的深度值提前終止對CU的分割,從而降低整體計算的復雜度。
改進后的CU分割算法需要添加之前已經(jīng)對人體區(qū)域進行分析的二值信息,將其中的人體區(qū)域作為感興趣區(qū)域進行判斷。其流程如圖5所示。對CU進行編碼之前,要判斷CU是否在感興趣區(qū)域之內(nèi),確定當前CU的深度值,并用Dcur表示當前CU的深度值。在這里,設定感興趣區(qū)域的最大CU為16×16,深度值為2,不感興趣區(qū)域的最小CU為32×32,深度值為1。其具體步驟為:①若當前CU在感興趣區(qū)域之內(nèi),則對圖像進行細化處理,即首先判斷Dcur是否小于2,若Dcur<2,則設置Dcur=2;若Dcur不小于2,判斷Dcur的值是否為3,若Dcur=3,則當前CU直接設定為最佳CU,否則需要通過比較Dcur=2和Dcur=3時率失真代價來確定Dcur的最終值;②若當前CU不在感興趣區(qū)域之內(nèi),則對其采用大的CU分塊進行編碼,即首先判斷Dcur是否大于1,若Dcur>1,設置Dcur=1;若Dcur不大于1,判斷Dcur的值是否為0,若Dcur=0,則采用當前CU的大小,否則需要通過比較Dcur=0和Dcur=1時率失真代價來確定Dcur的最終值。
圖5 改進后CU分割算法流程圖
當編碼深度值確定后,大小最佳的CU也隨之確定。在比較率失真代價時,通過HEVC編碼器設定的比較算法確定編碼深度值,從而獲取最佳CU。這種方法避免了HEVC編碼器導致的計算復雜度增加,同時可確保在視頻壓縮過程中感興趣區(qū)域(即本文設定的人體區(qū)域)的圖像質(zhì)量不下降。
將改進算法在HM10.0中實現(xiàn),以標準測試序列和制作的素材序列為編碼對象,測試其有效性。這里主要從峰值信噪比與編碼碼率增益以及付出的相應時間代價來衡量本文提出算法的性能,包括ΔPSNR、ΔBR、ΔT[15]。其中:ΔPSNR表示相對于標準算法峰值信噪比的差值;ΔBR表示相對于標準算法比特率差值的百分比;ΔT表示相對于標準算法時間差值的百分比。相應的正值和負值分別表示與HM10.0原始算法相比各類性能指標的增大和減小。
本實驗對3個不同清晰度的6個視頻序列進行編碼。其中Material2、Kendo、Cafe視頻序列識別的人體區(qū)域為2人,另外3個視頻序列識別的人體區(qū)域為1人。本文算法的目的是通過減少CU分割來減少計算復雜度,然而相應的編碼性能必然受到損失,特別是視頻中感興趣區(qū)域較少的情況。表1為相對于HM10.0編碼的本文算法性能實驗數(shù)據(jù)。
表1 本文算法性能實驗數(shù)據(jù)
由表1可知,識別人體區(qū)域為2人時,損失的比特率較大,Balloons視頻序列的比特率增量較大。這是由于對指定深度圖像進行人體識別時,其畫面較為復雜,包含較多不屬于人體區(qū)域的其他區(qū)域,這對實驗結(jié)果造成了一定的影響。Material2視頻序列的比特率增量相對于其他2人區(qū)域序列較小,可以認為,人體區(qū)域識別精度對本文算法有較大的影響。測試數(shù)據(jù)表明,本文算法在平均編碼時間減少63.17%的同時,比特率增加了4.84%,ΔPSNR只降低了0.359 6 dB??梢?,對于時間的減少量來說,編碼效率和圖像失真的損失是可以忽略不計的。此外,感興趣區(qū)域的精度也會影響實驗結(jié)果??傮w來說,本文算法對于CU的快速分割是有效的。
圖6給出了各測試序列在編碼30幀條件下所需的編碼時間。從圖6可以看出,在編碼條件相同時,相對于HEVC HM10.0編碼器,改進算法的編碼速度提高很多,顯著降低了編碼復雜度。
圖6 各測試序列編碼30幀所需時間比較
為了更加直觀地說明本文算法對視頻編碼圖像質(zhì)量的影響,圖7給出了Dancer視頻序列的主觀質(zhì)量比較。從圖7可以看出,本文算法和HEVC算法相比,圖像質(zhì)量并沒有明顯下降,只是非人體區(qū)域的圖像質(zhì)量較為模糊,但對于視頻播放過程中人眼的舒適度影響較小,保留了視頻本身的觀賞信息。
(a)改善前(HEVC) (b)改善后(本文算法)圖7 主觀質(zhì)量比較
圖8給出了Material2視頻序列感興趣區(qū)域和非感興趣區(qū)域在相同編碼條件下相對于原始序列在不同幀下的PSNR值比較。從圖8可以看出,感興趣區(qū)域的PSNR值在本文算法中相對于原編碼器有所提高,但在非感興趣區(qū)域卻下降,從而驗證了本文算法的合理性。相對于整幅圖像來說,感興趣區(qū)域一般都占用較小區(qū)域,故整幅圖像在編碼時PSNR值下降。
(a)感興趣區(qū)域
(b)非感興趣區(qū)域圖8 Material2序列ROI與nROI區(qū)域PSNR值的比較
為了降低HEVC的計算復雜度,在視頻編碼過程中,本文利用深度圖像對人體區(qū)域精細編碼,使得編碼后的圖像序列在保證人眼舒適度的前提下顯著減少CU深度劃分復雜度。實驗結(jié)果表明,本文提出的算法在保證比特率增加幅度較小、視頻失真微弱的情況下,有效地提高了視頻編碼的效率。這說明,此算法可以推廣到其他感興趣區(qū)域而不僅限于人體區(qū)域。本文算法在面對較為復雜畫面時,還有一些不足需要下一步改進。
[1] Sullivan G, Ohm J, Han W, et al. Overview of the High Efficiency Video Coding (HEVC) Standard[J]. IEEE Trans.Circuits Syst. Video Technol., 2012, 22 (12): 1649-1668.
[2] 趙耀,黃晗,林春雨,等. 新一代視頻編碼標準HEVC的關(guān)鍵技術(shù)[J]. 數(shù)據(jù)采集與處理,2014,29(1):1-10.
[3] 周承濤,田翔,陳耀武. HEVC編碼單元尺寸快速選擇算法[J].浙江大學學報(工學版),2014,48(8): 1451-1460.
[4] 王超超,王萬良,岑躍峰,等. HEVC快速編碼深度選擇算法[J]. 計算機工程與應用,2016(5):204-208.
[5] 朱金秀,郝文瑞. 基于感興趣區(qū)域的可伸縮性容錯編碼[J].計算機工程與設計,2009,30(21): 4901-4903,4920.
[6] 林國川,何小海,李向群,等. 基于感興趣區(qū)域的HEVC壓縮性能優(yōu)化[J].電訊技術(shù),2016,56(1):38-43.
[7] 斯曉華,王國中,趙海武,等. 深度圖的快速自適應幀內(nèi)預測模式選擇算法[J].上海大學學報(自然科學版), 2015,21(2):197-205.
[8] Meddeb M, Cagnazzo M, Pesquet P B. Region-of-Interest Based Rate Control Scheme for High Efficiency Video Coding[C]//Proceed of IEEE Intern. Conf. Acoust., Speech and Sign. Florence: IEEE, 2014.
[9] Murshed M, Siddique M, Islam S, et al. High Quality Region-of-Interest Coding for Video Conferencing Based Remote General Practitioner Training[C]// The Fifth International Conference on Health,Telemedicine and Social Medicine.Nice:IARIA, 2013:240-245.
[10] 斯曉華,王國中,彭建華.面向繪制質(zhì)量的深度圖像快速幀內(nèi)編碼[J].電視技術(shù),2015,39(5):9-12.
[11] 余濤. Kinect應用開發(fā)實踐[M]. 北京:機械工業(yè)出版社,2013:200-202.
[12] Dmytro R, Miska M H. Description of 3D Video Coding Technology Proposal by Nokia[C]//ISO/IEC JTC1/SC29/WG11 MPEG2012/M22552. Geneva: ISO, 2011.
[13] 樊春曉,李甫,石光明,等.一種HEVC幀內(nèi)預測編碼CU結(jié)構(gòu)快速選擇算法[J].光電子·激光,2015(9):1740-1746.
[14] 萬帥,楊付正. 新一代高效視頻編碼H.264/HEVC:原理、標準與實現(xiàn)[M]. 北京: 電子工業(yè)出版社,2014.
[15] Bjontegaard G. Calculation of Average PSNR Differences Between RD Curves[C]// VCEG-M33 ITU-T Q6/16. Austin:ITU,2001.
(責任編輯:王長通)
Fast Partition Algorithm for HEVC Based on Human Region Depth Information
SONG Xiao-wei, CAI Wen-jing, YANG Lei, WANG Xiao-ning, LIU Zhou-feng
(Zhongyuan University of Technology, Zhengzhou 450007, China)
To reduce the computational complexity of the latest video coding scheme while maintaining video compression performance, in this paper the depth information is utilized to reduce unnecessary partition and calculation. The proposed algorithm makes use of the body area distinguished by the depth information to reduce the calculation cost. The body area is set to the region of interest (ROI). The rate-distortion calculation cost could be reduced by quick decision based on the ROI partition during the process of CU partition. At the same time, the complexity of CU partition could be decreased. Experimental results show that the proposed algorithm can save 63% time at the cost of 4.84% average bit rate increase when compared with standard HEVC Codec.
high efficiency video coding;coding unit;region of interest;depth information
2016-10-10
國家自然科學基金項目(61440031, 61379113, 60902063);河南省基礎與前沿技術(shù)研究項目(152300410132);河南省科技計劃國際合作項目(144300510062)
宋曉煒(1978-),男,山西大同人,教授,博士,主要研究方向為立體圖像/視頻處理。
宋曉煒:博士,教授,碩士生導師,中原工學院青年拔尖人才,河南省學術(shù)技術(shù)帶頭人。2007年博士畢業(yè)于天津大學信號與信息處理專業(yè),2012年至2013年,美國Texas A&M大學公派訪問學者。主要研究方向為立體圖像/視頻處理。主持國家自然科學基金青年基金1項、國家科技重大專項子課題1項、河南省科技創(chuàng)新杰出青年1項。出版譯著3部,授權(quán)發(fā)明專利6項,發(fā)表學術(shù)論文20余篇。
1671-6906(2016)06-0001-05
TN919.81
A
10.3969/j.issn.1671-6906.2016.06.001