基于視覺感知的高效視頻編碼標(biāo)準(zhǔn)幀內(nèi)量化矩陣優(yōu)化方法

2014-06-02 04:22鄭明魁蘇凱雄王衛(wèi)星楊秀芝蘭誠棟

電子與信息學(xué)報(bào) 2014年12期

鄭明魁蘇凱雄王衛(wèi)星楊秀芝蘭誠棟

鄭明魁蘇凱雄*王衛(wèi)星楊秀芝蘭誠棟

(福州大學(xué)物理與信息工程學(xué)院福州350108)

該文使用一種基于離散余弦變換(DCT)的調(diào)制傳遞函數(shù)(MTF)改進(jìn)高效視頻編碼標(biāo)準(zhǔn)(HEVC)幀內(nèi)量化矩陣，并在計(jì)算過程中采用一種新的空間頻率計(jì)算方法。HEVC整數(shù)DCT變換是在DCT變換的基礎(chǔ)上經(jīng)過伸縮擴(kuò)展以及微調(diào)后得到的，與DCT變換有所區(qū)別，因此針對(duì)這種差別進(jìn)一步優(yōu)化校正量化矩陣。仿真過程中設(shè)計(jì)一種基于結(jié)構(gòu)相似性(SSIM)的Bjontegaard比特率差值(BDBR)方法來測試量化矩陣的編碼性能，結(jié)果表明在相同的視頻質(zhì)量下，該文設(shè)計(jì)的量化矩陣能進(jìn)一步降低碼率。該方法在編碼過程中只需要簡單地改變量化矩陣，沒有影響編碼模型的算法結(jié)構(gòu)，也不會(huì)增加編碼的復(fù)雜度。

高效視頻編碼標(biāo)準(zhǔn)；視覺感知；調(diào)制傳遞函數(shù)；量化矩陣

1 引言

與H.264/AVC相比，新一代高效視頻編碼標(biāo)準(zhǔn)(High Efficiency Video Coding, HEVC)在相同的視覺質(zhì)量下能使比特率降低一半[1,2]。HEVC仍然采用混合編碼框架，在正交變換環(huán)節(jié)，它對(duì)預(yù)測殘差采用四叉樹狀的多尺寸整數(shù)離散余弦變換(Discrete Cosine Transform, DCT)，變換尺寸可以為32×32, 16×16, 8×8等[3]；此外，對(duì)有些4×4的幀內(nèi)預(yù)測亮度分量則可以采用離散正弦變換(Discrete Sine Transform, DST)[4,5]。正交變換后的殘差系數(shù)主要采用均勻量化的方法[3]，同一變換塊中的不同頻率系數(shù)使用相同的量化步長。實(shí)際上，人眼對(duì)不同頻率分量的敏感度是不同的，因此HEVC同時(shí)支持并提供了一種基于視覺感知特性的量化矩陣[6]，通過這個(gè)缺省的量化矩陣使得不同系數(shù)可以用不同的量化步長進(jìn)行量化。

視覺感知特性的量化矩陣設(shè)計(jì)主要基于調(diào)制傳遞函數(shù)(Modulation Transfer Function, MTF)進(jìn)行，MTF體現(xiàn)了人眼對(duì)不同空間頻率的敏感程度。目前有多個(gè)文獻(xiàn)提出了不同的MTF模型，Mannos等人[7]最早將MTF特性用于圖像編碼，但所提出的MTF函數(shù)主要面向離散傅里葉變換(Discrete Fourier Transform, DFT); Daly[8]則在此基礎(chǔ)上對(duì)MTF函數(shù)進(jìn)行微調(diào)，該模型被延續(xù)到HEVC量化矩陣的設(shè)計(jì)[6]。因此HEVC缺省量化矩陣所采用的感知模型實(shí)際上最初是針對(duì)DFT變換的。人眼對(duì)DFT系數(shù)與DCT系數(shù)的頻率感知不完全相同，因此使用基于DFT變換的MTF函數(shù)設(shè)計(jì)DCT系數(shù)的量化矩陣，具有一定的局限性。此外，HEVC視頻編碼采用的是整數(shù)DCT變換，需要將生成的DCT量化矩陣經(jīng)過校正后才能用于整數(shù)DCT系數(shù)的量化，而HEVC則沒有經(jīng)過調(diào)整就直接將其用于量化，這也是該缺省量化矩陣的另一個(gè)局限性。

本文使用一種基于DCT變換的MTF函數(shù)設(shè)計(jì)HEVC幀內(nèi)量化矩陣；在MTF函數(shù)中提出一種新的空間頻率計(jì)算方法；此外，HEVC視頻編碼采用的是整數(shù)DCT變換，這種變換是在DCT變換的基礎(chǔ)上對(duì)各個(gè)基矢量進(jìn)行伸縮擴(kuò)展以及微調(diào)后形成的，與DCT變換還有所區(qū)別，因此本文還對(duì)所設(shè)計(jì)的量化矩陣進(jìn)行校正處理，以適應(yīng)HEVC整數(shù)DCT變換的特點(diǎn)。由于峰值信噪比(Peak Signal to Noise Ratio, PSNR)在評(píng)價(jià)視頻質(zhì)量時(shí)沒有體現(xiàn)人眼的感知特性，本文在仿真時(shí)設(shè)計(jì)了一種基于結(jié)構(gòu)相似性(Structural SIMilarity, SSIM)的Bjontegaard比特率差值(Bjontegaard Delta Bit Rate, BDBR)方法來測試量化矩陣的編碼性能。最后的仿真和分析結(jié)果表明，本文所提出的基于視覺感知特性優(yōu)化的幀內(nèi)量化矩陣與HEVC缺省矩陣相比，在相同的視頻質(zhì)量下進(jìn)一步降低了碼率。

2 基于DCT變換的調(diào)制傳遞函數(shù)MTF模型與空間頻率計(jì)算

2.1 基于DFT變換的MTF模型與HEVC缺省量化矩陣

調(diào)制傳遞函數(shù)MTF體現(xiàn)了人眼對(duì)不同空間頻率的敏感度。Mannos和Sakrison最早將MTF特性用于圖像編碼，其模型如式(1)所示[7]。

文獻(xiàn)[9]將文獻(xiàn)[8]的Daly模型用于設(shè)計(jì)靜止圖像編碼標(biāo)準(zhǔn)JPEG的量化矩陣，獲得了較好的視覺質(zhì)量與壓縮效果。JCTVC-G880提案則進(jìn)一步將這個(gè)量化矩陣作為HEVC的缺省幀內(nèi)量化矩陣[6]。實(shí)際上由以上的分析可知式(2)模型最初的設(shè)計(jì)是針對(duì)基于DFT變換的圖像編碼，并被延續(xù)到HEVC的缺省量化矩陣的設(shè)計(jì)。對(duì)于同一圖像信號(hào)，DFT系數(shù)與DCT系數(shù)是不同的，但人眼接收到的圖像信息卻完全相同，因此人眼對(duì)DFT系數(shù)與DCT系數(shù)的頻率感知不應(yīng)該完全相同，也不能簡單的使用基于DFT變換的MTF函數(shù)設(shè)計(jì)DCT的量化矩陣。

2.2 基于DCT變換的MTF模型與空間頻率計(jì)算

許多視頻圖像編碼標(biāo)準(zhǔn)都采用DCT變換，Nill將人眼視覺感知特性與DCT變換相結(jié)合，通過利用加權(quán)函數(shù)，提出了一種基于DCT變換的MTF函數(shù)(Nill模型)[10]。Nill模型函數(shù)在緩解圖像的方塊效應(yīng)方面有一定的改善[11]，對(duì)于2維的圖像，其調(diào)制傳遞函數(shù)表達(dá)式如式(5)所示[10]。

由于HEVC采用了整數(shù)DCT變換去除像素空間域的相關(guān)性，而Nill模型更能體現(xiàn)人眼在DCT變換域的視覺特性，基于這種分析，本文結(jié)合該模型用式(6)來表示人眼對(duì)不同頻率DCT系數(shù)的響應(yīng)并將其用于設(shè)計(jì)量化矩陣。

將文獻(xiàn)[9]基于Daly模型的人眼頻率響應(yīng)曲線與本文采用Nill模型得到的人眼頻率響應(yīng)曲線進(jìn)行對(duì)比，如圖2所示。橫坐標(biāo)為空間頻率，縱坐標(biāo)體現(xiàn)了人眼對(duì)不同空間頻率的敏感度。從曲線上可以看出，實(shí)際上人眼對(duì)DCT系數(shù)與DFT系數(shù)在低頻位置的視覺感知響應(yīng)非常相似，但是在中頻位置，人眼對(duì)DCT系數(shù)相對(duì)更敏感一些，而高頻則衰減的更多。

3 基于視覺感知特性的DCT變換編碼量化矩陣設(shè)計(jì)

圖1 1 mm圖像在距離dis處觀察到的周期數(shù)和夾角示意圖

圖2 文獻(xiàn)[9]與本文的人眼頻率響應(yīng)曲線對(duì)比

4 HEVC整數(shù)DCT變換幀內(nèi)量化矩陣優(yōu)化校正

圖3 HEVC及本文提出的DCT幀內(nèi)量化矩陣

0000-1-1-2-2 0000-1-2-2-1 00-1-2-2-2-2-1 00-2-2-2-1-10 -1-1-2-2-2024 -1-2-2-104710 -2-2-2-1271320 -2-1-104102034

圖5 歸一化后的HEVC整數(shù)DCT與DCT 8×8變換矩陣對(duì)比

對(duì)于4×4 HEVC整數(shù)DCT幀內(nèi)量化矩陣，也是采用類似的計(jì)算方法，獲得的4×4幀內(nèi)量化矩陣如圖6(b)所示。由圖6可知，實(shí)際上4×4的HEVC量化矩陣內(nèi)嵌于8×8矩陣內(nèi)，16×16以及32×32的整數(shù)DCT量化矩陣之間也存在這種內(nèi)嵌關(guān)系。HEVC為了節(jié)省數(shù)據(jù)量，16×16以及32×32的幀內(nèi)量化矩陣由8×8幀內(nèi)量化矩陣插值得到，每2×2或者4×4的子塊都共用8×8量化矩陣對(duì)應(yīng)位置上的量化步長。

5 性能仿真與分析

5.1 壓縮碼率與重構(gòu)視頻質(zhì)量仿真

為了仿真本文設(shè)計(jì)的幀內(nèi)量化矩陣的性能，將HEVC設(shè)置成幀內(nèi)編碼模式。本文使用HEVC參考軟件HM 10.0作為測試平臺(tái)，并分別設(shè)置QP值為22, 27, 32, 37[13]，對(duì)幾種常見的不同分辨率的測試序列進(jìn)行仿真驗(yàn)證，如表1所示。

不同測試序列進(jìn)行編碼后的壓縮碼率與視頻質(zhì)量對(duì)比如表1前兩列所示。為了進(jìn)一步分析對(duì)比，本文對(duì)不同QP下生成的碼率和視頻質(zhì)量進(jìn)行曲線擬合，繪制碼率-結(jié)構(gòu)相似性(Rate-Structural Similarity, R-SSIM)曲線。如圖8所示，分別為RaceHorses序列與BQSquare測試序列使用HEVC缺省量化矩陣以及本文方法編碼后對(duì)應(yīng)的R-SSIM曲線。由圖8可知，在相同的碼率下，本文所提出的量化矩陣能獲得更高的質(zhì)量；而在相同的視頻質(zhì)量下，本文的方法能更有效的壓縮視頻，獲得更低的碼率。

分析其性能改善的原因，主要是由于本文的量化矩陣更符合HEVC整數(shù)DCT系數(shù)的頻率感知特性。本文方法對(duì)低頻分量的量化與缺省矩陣一樣，但中頻系數(shù)的步長要低于缺省矩陣，由于人眼對(duì)中頻也有一定的敏感度，同時(shí)視頻圖像在中頻位置的能量分布也相對(duì)較多，因此中頻系數(shù)量化步長的減少有利于避免能量的損失，減少量化誤差的引入，對(duì)提高視頻圖像的質(zhì)量具有積極影響。此外，高頻系數(shù)量化步長的增加則提高了圖像的壓縮率，通常情況下DCT的高頻系數(shù)都較小，圖像能量較少分布在該區(qū)域，人眼對(duì)其敏感度也低，因此在高頻位置增加量化步長對(duì)圖像的質(zhì)量影響不大，同時(shí)進(jìn)一步提高了壓縮率。正是由于中頻與高頻量化步長的同步調(diào)整，使得本文提出的量化矩陣具有更好的視頻質(zhì)量與壓縮性能。

5.2 基于SSIM的BDBR編碼性能計(jì)算與分析

對(duì)于Flower測試序列，基于SSIM的BDBR值為-3.55%，即本文提出的量化矩陣與HEVC缺省量化矩陣相比，在相同圖像質(zhì)量下能平均減少3.55%的碼率。其他測試視頻平均碼率減少的情況如表1最后一列所示，由表中可知不同測試序列的碼率都得到改善。對(duì)于某些序列，如BQTerrace與Foreman序列，在QP為37時(shí)，使用本文量化矩陣得到的比特率會(huì)稍大一些，其主要原因是由于當(dāng)量化步長較大時(shí)大多數(shù)高頻系數(shù)被量化為零，而本文量化矩陣對(duì)應(yīng)的中頻系數(shù)量化步長相對(duì)較小，因此獲得的比特率稍大一些，但這也同時(shí)增強(qiáng)了圖像質(zhì)量。綜合比特率與圖像質(zhì)量這兩個(gè)因素，這兩個(gè)序列在相同質(zhì)量下比特率還是分別減少了2.07% 與1.19%。不同分辨率的測試序列在相同視頻質(zhì)量下平均的碼率減少值為2.03%。

圖7 RaceHorses測試序列不同量化矩陣幀內(nèi)編碼重構(gòu)視頻對(duì)比

圖8 幀內(nèi)編碼RaceHorses序列與BQSquare序列的R-SSIM曲線

表1不同序列在不同量化矩陣進(jìn)行幀內(nèi)編碼時(shí)的對(duì)比

測試序列QP比特率(kbps)SSIM基于SSIM的BDBR (%) 缺省矩陣本文方法缺省矩陣本文方法 BQTerrace1920×1080600幀221740781618460.963070.95852-2.07 2776269735920.910590.91002 3239833394600.881410.88146 3721518215490.845050.84529 RaceHorses832×480300幀2215217145660.974350.97306-1.22 27912587480.955840.95411 32512049630.921970.92050 37255025280.857260.85750 BQSquare416×240600幀2213134123690.974340.97012-2.13 27822178100.936670.93422 32505948240.889300.88731 37300528800.836470.83374 Foreman352×288300幀22374335780.975560.97416-1.19 27217020900.951150.94989 32118311550.913410.91271 376086100.861090.86162 Flower352×288250幀22816077630.992450.99105-3.55 27588654610.983400.98071 32394736270.961930.95814 37241022670.915400.91219

6 結(jié)束語

本文使用一種基于DCT變換的MTF函數(shù)來改進(jìn)HEVC的幀內(nèi)量化矩陣，在計(jì)算過程中使用一種新的空間頻率計(jì)算方法。并在此基礎(chǔ)上，進(jìn)一步對(duì)其進(jìn)行校正調(diào)整，以符合整數(shù)DCT變換的特點(diǎn)。在分析編碼性能時(shí)，使用SSIM進(jìn)行視頻質(zhì)量評(píng)價(jià)，并設(shè)計(jì)一種基于SSIM的BDBR方法測試量化矩陣的性能改善情況。仿真結(jié)果表明，本文方法更適用于HEVC的變換系數(shù)，在相同的視頻質(zhì)量下，本文提出的量化矩陣能平均降低比特率2.03%左右。由于在編碼過程中只需要簡單地改變量化矩陣，并不要改變編碼模型的結(jié)構(gòu)，也沒有增加編碼復(fù)雜度，卻可以因此降低碼率，這對(duì)于每個(gè)比特都彌足珍貴的視頻編碼方法研究具有一定的參考價(jià)值。本文所設(shè)計(jì)的量化矩陣不僅可以用于HEVC編碼標(biāo)準(zhǔn)，經(jīng)過適當(dāng)調(diào)整也可以作為H.264/AVC, AVS2或者其他基于DCT變換的視頻編碼標(biāo)準(zhǔn)的參考量化矩陣。此外，本文設(shè)計(jì)的是幀內(nèi)量化矩陣，在后續(xù)的工作中可以將其推廣到幀間量化矩陣，以進(jìn)一步提高HEVC的編碼效率。

[1] Sullivan G J, Ohm J, Han Woo-jin,. Overview of the High Efficiency Video Coding (HEVC) standard[J]., 2012, 22(12): 1649-1668.

[2] Ohm J and Sullivan G J. High efficiency video coding: the next frontier invideo compression[J]., 2013, 30(1): 152-158

et al.IEEE Journal of Selected Topics in Signal Processing

[3] Saxena A and Fernandes F C. Mode dependent DCT/DST for intra prediction in block-based image/video coding[C]. Proceedings of the 2011 18th IEEE International Conference on Image Processing (ICIP), Brussels, Belgium, 2011: 1685-1688.

[4] Yeo Chuo-hao, Tan Yih-han, Li Zheng-guo,. Mode dependent transforms for coding directional intra prediction residuals[J].2012, 22(4): 545-554.

[5] Haoqe M, Tabatabai A, and Morigami Y. HVS model based default quantization matrices[C].JCTVC-G880, 7th The Joint Collaborative Team on Video Coding Meeting, Geneva, Switzerland, 2011: 1-14.

[6] Mannos J L and Sakrison D J. The effect of a visual fidelity criterion on the encoding of images[J]., 1974, 20(4): 525-536.

[7] Daly S. Subroutine for the generation of a two dimensional human visual contrast sensitivity function[R]. Eastman Kodak, 1987.

[8] Wang Ching-yang, Lee Shiuh-ming, and Chang Long-wen. Designing JPEG quantization tables based on human visual system[J]., 2001, 16(5): 501-506.

[9] Nill N B. A visual model weighted cosine transform for image compression and quality assessment[J].1985, 33(6): 551-557.

[10] Chitprasert B and Rao K R.Human visual weighted progressive image transmission[J].1990, 38(7): 1040-1044.

[11] Sullivan J, Ray L, and Miller R. Design of minimum visual modulation halftone patterns[J].1991, 21(1): 33-38.

[12] Bossen F. Common test conditions and software reference configurations[C]. JCTVC-J1100, 10th The Joint Collaborative Team on Video Coding Meeting, Stockholm, Sweden, 2012: 1-3.

[13] Wang Zhou, Bovik A C, Sheikh H R,. Image quality assessment: from error measurement to structural similarity[J].,2004, 13(4): 600-612.

[14] Bjontegaard G. Calculation of average PSNR differences between RD-curves[C]. VCEG-M33, 13th Video Coding Experts Group Meeting, Austin, USA, 2001: 1-4.

鄭明魁：男，1976 年生，講師，博士生，研究方向?yàn)槎嗝襟w通信與視頻編碼.

蘇凱雄：男，1959 年生，教授，博士生導(dǎo)師，研究方向?yàn)槎嗝襟w通信、數(shù)字電視廣播.

王衛(wèi)星：男，1959 年生，教授，博士生導(dǎo)師，研究方向?yàn)閳D像處理與融合.

An Improved Intra Quantization Matrix for High EfficiencyVideo Coding Based on Visual Perception

Zheng Ming-kui Su Kai-xiong Wang Wei-xing Yang Xiu-zhi Lan Cheng-dong

(,,350108,)

A Discrete Cosine Transform (DCT) based Modulation Transfer Function (MTF) is used to improve the intra quantization matrix for the High Efficiency Video Coding (HEVC) standard. A new method is used to calculate the spatial frequency in the calculation process. The integer DCT for the HEVC is achieved by scaling and hand-tuning the DCT matrix. Due to difference between these two transforms, the quantization matrices are optimized. The experimental results show that the proposed HEVC intra quantization matrix based on the visual perception can reduce more bit rate at the similar video quality by using a Structural SIMilarity (SSIM) based Bjontegaard Delta Bit Rate (BDBR) performance evaluation. Since only the quantization matrices are changed in the encoding process, the proposed algorithm does not affect the structure of the encoding algorithm and does not add the coding complexity.

High Efficiency Video Coding(HEVC); Visual perception; Modulation Transfer Function (MTF); Quantization matrix

TN919.8

1009-5896(2014)12-2861-08

10.3724/SP.J.1146.2014.00318

蘇凱雄 skx@fzu.edu.cn

2014-03-10收到，2014-06-09改回

國家自然科學(xué)基金(61170147)，福建省高校產(chǎn)學(xué)合作重大項(xiàng)目(2012H6012)和福建省自然科學(xué)基金(2013J01234)資助課題

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于視覺感知的高效視頻編碼標(biāo)準(zhǔn)幀內(nèi)量化矩陣優(yōu)化方法

1 引言

2 基于DCT變換的調(diào)制傳遞函數(shù)MTF模型與空間頻率計(jì)算

2.1 基于DFT變換的MTF模型與HEVC缺省量化矩陣

2.2 基于DCT變換的MTF模型與空間頻率計(jì)算

3 基于視覺感知特性的DCT變換編碼量化矩陣設(shè)計(jì)

4 HEVC整數(shù)DCT變換幀內(nèi)量化矩陣優(yōu)化校正

5 性能仿真與分析

5.1 壓縮碼率與重構(gòu)視頻質(zhì)量仿真

5.2 基于SSIM的BDBR編碼性能計(jì)算與分析

6 結(jié)束語