陶新宇,解 蓉,張 良
(上海交通大學電子工程與電氣信息學院,上海200240)
責任編輯:魏雨博
隨著信息時代的快速發(fā)展,對視頻應用的要求也提高了很多,低延時的高分辨率、高比特率視頻應用廣泛。正因為如此,從20世紀90年代以來,數(shù)字視頻編碼技術迅速發(fā)展,也導致了一系列幀內(nèi)編碼的配置在國際視頻編碼標準中被定義。MPEG-4 AVC[1-3]對于從 DVD 到廣播的各種分辨率和比特率的視頻均可以提供很高的視頻質(zhì)量。
對于高分辨率視頻(720p/1 080p),MPEG-4 AVC High profiles中定義的16×16像素的宏塊的大小以及4×4像素和8×8像素的幀內(nèi)預測子宏塊的大小顯得不夠大,一個顯而易見的解決方案就是擴大宏塊和預測子宏塊的尺寸。但是對于更大尺寸的宏塊和幀內(nèi)子宏塊,幀內(nèi)預測又顯得并不十分高效,大尺寸的宏塊和幀內(nèi)子宏塊會減弱預測的像素與參考像素點之間的相關性。針對這個矛盾,文獻[4]提出了一個新的預測算法,這種新的預測算法被稱為Node-Cell預測算法,該算法在MPEG-4 AVC中得到應用并被證明十分有效。
本文中,將Node-Cell編碼結(jié)構與HEVC幀內(nèi)編碼結(jié)合起來,為Angular預測模式實現(xiàn)了雙線性預測。與原始的Angular預測模式相比,這個編碼算法能夠為高分辨率視頻應用提供更加精準的預測。
HEVC作為最新的視頻編碼標準,與先前的編碼標準中使用一個固定尺寸的宏塊,不同的是將每一幀圖像分成一個編碼樹單元(CTU)的集合。每一個編碼樹單元被圖1所示的四叉樹結(jié)構迭代地分裂成更小的編碼單元(CU)。每個編碼樹單元中的編碼單元都扮演一個與H.264/AVC中宏塊類似的作用?,F(xiàn)時的HEVC HM參考代碼定義CTU的最大尺寸為64×64像素。在每個CTU中,一個編碼單元可以是以下4種不同尺寸中1種,它們分別是64×64,32×32,16×16,或者8×8像素。其中8×8的編碼單元還可以繼續(xù)分為4個4×4像素點的預測單元。
圖1 HEVC四叉樹結(jié)構
HEVC HM參考代碼中對于每個編碼單元的預測模式有35種[5-6],其中33 種為圖2所示的角度預測,另外兩種分別為DC模式和planar模式,本文是對33種角度預測模式做的改進,DC模式和planar模式不變。宏塊幀內(nèi)預測的參考像素點是之前已經(jīng)重建的相鄰宏塊的像素點。它們分別是現(xiàn)時編碼單元上面的編碼單元,在左邊的以及左上等,當它距離參考像素點越遠,它們之間的相關性也越差,這也使得預測越不準確。所以這也體現(xiàn)了HEVC中引入四叉樹編碼的重要性,也即自適應地解決了編碼單元越來越大帶來的預測不準確和越來越多的高清視頻為了降低碼流需要擴大編碼單元之間的矛盾。
圖2 Angular預測方向(截圖)
Node-Cell結(jié)構中每個編碼單元的像素點都分成兩種,一種是node像素點,另一種則是cell像素點。node像素尺寸為4×4的編碼結(jié)構如圖3所示。node像素點在圖中由灰色點表示,均勻分布在編碼單元的所有像素點上,而cell像素點則是除了node像素點的其他像素點。Node像素點的尺寸大小與該編碼單元的內(nèi)容復雜度相關,對于一個大小為32×32的編碼單元,node像素點的個數(shù)可以是4×4,8×8,16×16,32×32,node像素點越多表明該編碼單元內(nèi)容越多。需要由node重建像素預測的cell像素點,距離其參考node像素點越近,由此也可以得到更加精確的預測插值。node像素點被編碼之后,cell像素點由node重建值預測得到,它們共同的殘差值分別進行變換編碼。
圖3 CU的4×4 Node-Cell結(jié)構
現(xiàn)有的HEVC HM參考代碼定義編碼樹單元(CTU)為最大的64×64像素,且編碼單元大小的不確定性,源于HEVC的改變,與此對應,Node-Cell編碼模式的node像素點尺寸隨著編碼單元的不同而不同,可以分別為64×64,32×32,16×16,8×8,以及4×4。對于CTU中固定尺寸的編碼單元,只有一部分Node-Cell編碼模式適用于此編碼單元。表1顯示了定義的被用于每種不同尺寸的編碼單元的Node-Cell編碼模式的子集合。例如,對于16×16像素的編碼單元,存在3種不同的Node-Cell編碼模式的尺寸,分別是16×16,8×8,以及4×4。有了node像素點,cell像素點則由node像素點的重建值預測得到。
表1 不同尺寸的編碼單元的Node-Cell編碼模式的子集合
在幀內(nèi)預測編碼中[7],為了判斷最優(yōu)幀內(nèi)模式,以下式作為判斷依據(jù)
式中:Jm表示在幀內(nèi)模式m的率失真;Dm表示其重建失真度;λ是與量化參數(shù)QP相關的拉格朗日算子;Rcm與Rhm的和代表了碼率的總和,Rcm是變換系數(shù)的碼流大小,Rhm包括了宏塊頭的邊信息的大小。因為新增的node像素點的DCT,將基于Node-Cell結(jié)構的幀內(nèi)預測的率失真表示為
式中:k代表下采樣子塊的次序;K是所有子塊的個數(shù)。在Node-Cell結(jié)構中因為所有的像素點分為node像素點和cell像素點,它們分別做變換編碼,所以K=2。另外,對于不同size的LCU塊,整個宏塊的率失真的總和應該考慮如下
式中:JES表示整個編碼單元的率失真;RHES表示宏塊頭的比特信息,比如幀內(nèi)預測模式等;U表示幀內(nèi)預測塊的個數(shù),而這由LCU的劃分策略有關;DES和RCES(u)分別代表每個做幀內(nèi)預測的編碼單元重建失真和變換參數(shù)碼流大小。
為了將HEVC中原來的Angular預測模式變成雙向預測,編碼端的預測編碼過程最大的不同之處在于預測cell像素點的過程需要得到node像素點的重建值。同時為了使得編碼和解碼過程中供cell像素點預測的node像素點的重建值值相同,node像素點的殘差和cell像素點的殘差都需要編碼后傳輸?shù)浇獯a端以保證編解碼兩端的預測值相同。新增的模式信息表示下采樣率,也即決定了node和cell像素點的分布情況,在下采樣率為1時所有的像素點均為node像素點,該模式與Angular預測模式相同。在其他任一下采樣率情況下,編解碼流程圖如圖4所示。圖4略去了node像素點分布以及模式選擇等過程,是在node像素點和cell像素點分布確定以及模式選擇尚未開始的預測流程圖。
圖4 編碼端流程
1)node像素點預測與編碼
高效的node像素點編碼會降低了編碼的比特流,node像素在CU上均勻分布,如圖5a中灰色方塊所示,參考像素點是該編碼單元上方和左方已編碼重建的像素點,即圖5a中灰色像素點。預測模式沿用Angular預測,有33個方向預測。
設待預測像素為 Px,y,則
式中:Ri表示參考像素行中第i個參考像素;Ri+1表示第i+1個參考像素;wy表示分數(shù)精度的參考像素在這兩個參考像素間相對應的權值,由移位投影y與預測方向d確定,各預測方向d如圖2所示,各方向角的正切值以1/32為單位遞增。
圖5 Node-Cell像素點預測過程
得到的殘差單獨進行編碼,編解碼端重建后作為cell像素點預測的依據(jù)。對于node的殘差碼流,由于大部分時候它的尺寸總是只有cell像素點的1/2甚至1/4甚至1/8,同時為了降低編碼時間,所以不使用四叉樹迭代求解變換單元劃分,而是直接使用不劃分的變換單元,也即直接進行node尺寸大小的DCT變換編碼。
2)cell像素點預測與編碼
cell像素點的預測同樣有33個方向,不同之處在于它的雙向插值,參考像素點使用兩點內(nèi)插預測,而不是如node像素點預測那樣外推得到。
預測方法大體分為兩個步驟完成,步驟1由左邊已編碼單元和上方已編碼單元的重建像素點和本單元已重建node像素點得到cell像素點的預測,為步驟2像素點預測參考像素點。步驟2中預測cell像素點,根據(jù)它周圍的像素點插值預測出來。圖5c展示了cell像素點是怎么使用參考像素點插值得到的 。如,在方向17的情況下,待預測像素點o由(3/8×d+5/8×e)和(3/8×l+5/8×k)插值得到,得到的cell像素點殘差矩陣作為一個變換單元,選擇最優(yōu)DCT方案進行編碼。
解碼端過程與編碼端相反,先是進行得到的node像素點的系數(shù)的反變換,從而得到各像素點的殘差值,重建node像素點,得到cell像素點的預測值,再重建cell像素點。
這種新的Node-Cell編碼結(jié)構是基于版本HM8.0rc2的HEVC參考代碼實現(xiàn)的??紤]到視頻中亮度信息占據(jù)大部分碼率,將Node-Cell結(jié)構實現(xiàn)在視頻的亮度分量,實驗結(jié)果也是基于亮度信息。2個Class A視頻序列,分別是PeopleOnStreet和Traffic,它們的分辨率是2 560×1 600像素,3個 Class B視頻序列,分別是Kimono和Parkscene,Tennis,它們的分辨率是1 920×1 080像素,總共5個視頻序列被用于測試。圖6a、圖6b分別展示了2個序列的不同預測模式的RD性能。表2是5個序列在不同QP情況下不同的預測模式組合的RD性能。表3、表4則表示了Tennis,Kimono序列中不同下采樣率的比例分布??梢钥吹诫S著QP的增大,選擇下采樣率不為1的比例上升,也即下采樣模式比較適用于碼率較低的情況。同時視頻序列越簡單,采用下采樣率不為1的概率也會越大。
新引入的算法是基于HEVC中的Angular Intra Prediction(AIP)實現(xiàn)的,增加了下采樣的模式信息,預測模式增多了。為了更有效提高編碼效率,接下來的工作可慮將node像素點的量化與cell像素點的量化獨立出來,從而得到更高效的node像素點編碼,也可以考慮提高cell像素點的預測精度等。
圖6 不同序列不同預測模式RD曲線
表2 5個序列在不同QP情況RD性能
表3 Tennis序列中不同下采樣率的比例分布
表4 Kimono序列中不同下采樣率的比例分布
[1] Recommendation ITU-T H.264:Advanced video coding for generic audiovisual services[EB/OL].[2014-01-01].http://www.itu.int/rec/T-REC-H.264/e.
[2] WIEGAND T,SULLIVAN G J,BJONTEGAARD G,et al.Overview of the H.264/AVC video coding standard[J].IEEE Trans.Circuits and Systems for Video Technology,2003,13(7):560-576.
[3] Richardson I.H.264 and MPEG-4 video compression:video coding for next-generation multimedia[M].New York:Wiley,2003.
[4] JCT-VC.Draft Test Model under Consideration[C]//Proc.2nd JCT-VC Meeting.Geneva:[s.n.],2010:62-63.
[5] JCTVC-HM software[EB/OL].[2014-01-01].http://hevc.kw.bbc.co.uk/git/w/jctvc-h(huán)m.git.
[6] ZHENG Dong,WANG Deming,ZHANG Liang.High definition video intra-only coding based on Node-Cellmacro-block pixel structure and 2-D interleaved DCT[J].IEEE International Conference on Image Processing,2011(9):496-501.
[7] WU Qingbo,LI Hongliang.Mode dependent down-sampling and interpolation scheme for high effiency video coding[J].Signal Processing:Image Communication,2013(28):581-596.