張 瑋,宋 利,楊小康
(上海交通大學圖像通信與網絡工程研究所,上海200240)
隨著電子產品的多樣化,各類終端上呈現的多媒體內容也在日常生活中激增。以數字圖像和視頻為代表的多媒體內容,經過拍攝、壓縮和傳輸等處理后呈現在人眼面前,滿足人們對視聽享受的要求。近年來生活水平的提高,人們對用戶體驗質量(QoE)提出了更高的要求。為此,服務提供商需要對系統(tǒng)進行全面的評測和研究,視頻質量對QoE的重要影響使得視頻質量評價成為系統(tǒng)性能評估的重要手段,在多媒體的發(fā)展中具有重要意義。
視頻質量評價方法分為主觀和客觀質量評價方法??陀^質量評價方法是模擬或是預測人眼對視頻質量的評價。然而,這些客觀質量評價方法與人眼主觀質量評價之間的準確性和一致性卻不盡相同。這樣的局面是多方面的原因造成的。首先,到目前為止,人們對人眼視覺系統(tǒng)(HVS)[1]的認識有限;其次,造成視頻質量下降的表現很多,諸如模糊、噪聲和塊效應等;再者,視頻質量與本身的內容有很大關系,任何一個客觀質量方法都不可能在所有的視頻內容上得到驗證;最后,缺少對客觀評價方法進行大規(guī)模的、可靠的比較。結果,主觀質量評價方法仍然是最可靠的質量評價方法。
壓縮編碼對視頻傳輸來說是必不可少的,此過程由視頻編碼器實現,目的是把數據量很大的視頻流壓縮成為適應不同帶寬信道的文件。在這個過程中要實現在碼流速率以及視覺感知失真之間的折中,即率失真優(yōu)化過程。具體可以描述為在比特率R滿足小于定制的碼率R[2]0這樣一個限制下,使得壓縮后的視頻感知失真D最小。
這是一個典型的最優(yōu)化問題,其中視覺感知失真D用客觀質量評價來衡量。因此,客觀評價算法的選取對率失真優(yōu)化過程乃至最終編碼器的性能都有很大的影響。
國際標準化組織——運動圖像專家組(ISO MPEG)和國際電信聯盟電信標準化部門——視頻編碼專家組(ITU-T VCEG)聯合開發(fā)的新一代的視頻編碼標準——HEVC[3]在2013年1月25日國際電信聯盟電信標準化會議上通過后,許多專家學者對HEVC編碼性能進行了研究。J.R.Ohm等[4]通過用峰值信噪比(PSNR)和主觀評價結果計算出的 Bjontegaard 比特率差量(BD-Rate)[5],來比較HEVC測試模型HM8.0與之前存在的編碼標準之間的編碼效率。Y.Zhao 等[6]用 PSNR,SSIM[7]和圖像質量指數(PQI)[8]評價HM5.0的性能,但只給出了不同指標的平均BD-Rate,沒有針對不同客觀評價方法進行進一步的分析。
本文針對1 080p的視頻序列,首先,把BD-Rate的概念推廣到12個常用的全參考客觀質量評價方法,來對HEVC的測試模型HM9.0和H.264/AVC的開源編碼軟件x264的編碼效率進行對比。然后,對視頻材料進行主觀質量評價,進而得出主觀評價的BD-Rate。反過來通過比較主客觀評價所得到的BD-Rate在不同視頻序列之上的接近程度、皮爾遜相關系數(PLCC)和斯皮爾曼等級相關系數(SROCC)來評估客觀質量評價方法的性能。
VCEG建議用Bjontegaard測度來計算兩種編碼方式的編碼增益。由于PSNR指標具有計算簡單等特點,被廣泛用來評價編碼器的性能。最初的Bjontegaard也測度模型中選擇PSNR去評價兩種編碼方式對視頻的編碼損傷。Bjontegaard測度包括BD-Rate和Bjontegaard PSNR差量(BDPSNR)兩個指標。BD-Rate表示在同樣的客觀質量下,較優(yōu)的編碼方法可以節(jié)省的碼率百分比;而BD-PSNR表示了同等碼率下,兩種編碼條件下壓縮后視頻PSNR值的差異。
考慮到在率失真曲線上,高比特率區(qū)域在相同的百分比下的范圍比低比特率區(qū)域大,如33%的碼率節(jié)省在1 500~2 000 kbit/s范圍是375~500 kbit/s范圍的4倍[5]。所以,率失真曲線圖的比特率坐標軸取了對數。
不失一般性,以某一測度為例,通過率失真曲線圖,闡明Bjontegaard測度值的計算方法,如圖1所示。
圖1 兩種編碼方式在同一質量評價方法下的率失真曲線圖
具體步驟如下[9-11]:
第一步,壓縮好視頻后,用客觀評價方法評價視頻,然后給每個視頻序列描繪出不同的率失真點系列。
第二步,觀察畫出的率失真點系列,確定積分區(qū)間,如水平方向[a,b],垂直方向[c,d]。
第三步,對點序列進行多項式擬合,用確定的多項式表示,如s1和s2。
第四步,對擬合后的多項式在積分區(qū)間上積分。根據積分的結果,計算Bjontegaard測度值
在式(2)和式(3)中,s1和s2有區(qū)別,式(2)中是比特率的函數,而式(3)中是質量指標的函數。BD-Rate一般為負值,代表在兩種編碼方式中較優(yōu)的一種比較差的一種節(jié)省的碼率百分比。
在本文中,把Bjontegaard測度中的PSNR推廣到常用的圖像質量評價方法,以用HEVC測試軟件HM9.0和H.264/AVC開源軟件x264壓縮的1 080p的視頻材料為載體,來估計這些圖像質量評價方法在評價由壓縮帶來的損傷時的性能。
視頻質量評價算法往往由圖像質量評價方法推廣而來,通過對視頻中的每一幀進行評價后整合得出對視頻質量的評價結果,如SSIM,視覺信息保真度(VIF)[12]和視覺信號噪聲比(VSNR)[13]等經常用于視頻質量評價。本文選取了一組常用的全參考圖像質量評價算法,具體介紹如下:
PSNR由于計算簡單等特點被廣泛用來評價圖像和視頻質量,是參考圖像和損傷圖像二者均方差的函數。
圖像質量等級(PQR)由泰克公司的PQA序列計算出。其融合了HVS特點,對比參考圖像,計算出被測圖像的質量等級。關于PQR的更多信息可參考[14]。
SSIM根據圖像的結構相似度來對圖像質量進行評價,是目前使用最多的算法之一。
多尺度SSIM(MSSIM)[15]是在SSIM上改進而來的一種算法。
信息保真度準則(IFC)[16]表示圖像信息保真度,理論上其值范圍為0(表示圖像無保真)到無窮大。
信噪比(SNR)類似于PSNR,用信號的實際大小代替PSNR中的峰值即可得到。
視覺信噪比(VSNR)是基于小波變換來計算視覺信息信噪比。
加權信噪比(WSNR)模擬人類視覺注意模型,用加權的方法計算SNR,加大了對圖像中的某些區(qū)域的權重。
通用質量指數(UQI)[17]把圖像損傷度歸結為3個因素:相關度降低、亮度和對比度失真。
噪聲質量指標(NQM)[18]揭示了加性噪聲對信噪比的非線性權重影響。
那可不行,小白說:“你才脫離危險期,還得好好觀察觀察。要知道,這兩天光搶救費就花了三萬,現在出院,那不前功盡棄了。”
VIF是通過在小波變換域中計算視覺信息保真度來對圖像進行評價。
像素域的VIF(VIFP)[19]類似于 VIF,但是在像素域中計算得出。
以上質量評價算法除了PQR指標由泰克公司的PQA600測試得到外,其余算法均可以從圖像質量評價工具箱中[20]獲得。
在實驗中,選取了12個全高清的視頻序列,這些視頻序列均從慕尼黑工業(yè)大學的網站[21]上下載得到。表1列出了所有視頻序列的基本信息。
表1 編碼參數設置
所選取的視頻序列在時間和空間復雜度均不相同。根據文獻[22]中計算視頻序列時間(TI)和空間信息(SI)的方法進行了分類。選取的視頻序列的時間和空間信息分布如圖2所示。
圖2 視頻序列的空間信息和時間信息
表2 編碼參數設置
對視頻序列的壓縮完成后,用第3部分中介紹的客觀質量評價算法對編碼后的視頻進行評價,所有的視頻質量評價值都是通過逐幀計算視頻的亮度分量,然后再取平均得出。然后對每一個客觀質量評價算法、每一個視頻序列畫出兩條率失真曲線的圖。基于視頻序列的率失真曲線圖,進一步計算出Bjontegaard測度指標值。
在主觀質量評價中,選用 ITU-R BT.500-13[24]推薦的雙激勵失真方法(DSIS II))。在這種評測方法中,首先播放參考序列,接著播放測試序列。這樣的過程重復一次后,提示評估者對測試視頻序列進行評分。評分采用5分制,用1,2,3,4,5 分代替非常差(Bad)、差(Poor)、一般(Fair)、好(Good)和非常好(excellent)5個質量等級。共有16個評估人員參加了此次視頻質量評價。
另外,在主觀質量評價中,在正式評測之前有一個訓練過程,使評估人員熟悉具體的評價步驟。用來訓練的視頻序列損傷程度與5級評分制對應,組織人員向評測人員解釋了二者的對應關系。整個主觀評價環(huán)境按照ITU-R BT.500-11[24]來布置,評測人員的觀看距離為電視屏幕的3倍。
對每一個客觀質量評價算法,每一個視頻序列均可計算出一個對應的BD-Rate。對同一客觀質量評價算法在不同的視頻序列上計算出的BD-Rate取平均后,將最終結果作為此客觀質量評價算法對兩種編碼條件下產生的BD-Rate。同樣,主觀質量評價結果也可以計算出一個BD-Rate,見表3。
表3 客觀質量評價方法與主觀質量評價對應的平均BD-Rate以及主客觀評價之間的相關系數
首先,從表3主觀質量評價結果可以看出,對于選取的視頻序列,HEVC的編碼效率要比H.264的高檔次高出43%。HEVC標準在提出之時的目標是與H.264/AVC高檔次相比,在視覺感知質量一致的情況下,比特率節(jié)省50%。在文獻[4]的主觀評價結果中,HEVC比H.264/AVC的高檔次相比,在不同視頻序列上比特率可以節(jié)省30%到67%,平均節(jié)省49.3%。文中未能達到50%,可能與選取的視頻序列有關。另一方面,HEVC編碼標準剛剛通過,很多編碼算法還有待于進一步的優(yōu)化和改進。就編碼效率來說,HM9.0還有很大的空間來提升。
其次,由主觀質量評價得到的平均BD-Rate是最可靠的。而由不同的客觀評價算法計算得到的平均BDRate各不相同,通過計算這些值與主觀結果的接近程度、一致性、精確性,就可以體現不同客觀評價方法的性能,這一點也恰恰是本文的目的所在。圖3給出了不同的客觀評價算法計算出的平均BD-Rate與主觀評價的平均BD-Rate的差的絕對值,可以更清楚地看出客觀評價算法與主觀評價結果之間的差異??梢钥吹?,SSIM與主觀評價結果的差只有0.126 072,是所選的客觀評價算法中是最小的。也就是說,SSIM是在文中選擇的客觀評價算法中對壓縮編碼造成的損傷的評價最準確的一個,MSSIM緊跟其后。由 UQI、UQI、VIFP、PSNR、SNR、IFC 和 WSNR計算得到的平均BD-Rate與主觀評價的結果差值在2~4以內,因此,從視頻編碼器的編碼效率角度來說,可以認為它們的性能比較接近。而用來做很多編碼器性能測試指標的PQR得到的結果與主觀得到的結果差距最大。
圖3 客觀評價方法與主觀評價方法的平均BD-Rate差的絕對值,反映與主觀評價結果的接近程度
從與每個序列主觀評價得到的BD-Rate的準確性和一致性角度來分析不同的客觀質量評價算法性能,每個客觀算法在每個序列上計算出的BD-Rate與主觀評價結果在每個序列上計算出的BD-Rate之間的PLCC,SPOCC值在表3中給出。從表中可以看出,SSIM仍然是本文所選的客觀算法中性能最好的一個。
本文以12個全高清視頻序列為載體,經過HEVC和H.264/AVC編碼標準的編碼器壓縮后,用客觀質量評價算法對壓縮后的視頻進行質量評價,計算出每一個客觀評價算法對每一個視頻序列的BD-Rate。分別從與主觀評價得出的平均BD-Rate的接近程度、精確性和一致性程度角度,對選取的客觀質量評價算法進行了分析與比較。這樣從一個新的角度對不同的客觀質量評價方法的性能有新的認識。主要反映的是不同的客觀質量評價算法對有壓縮編碼帶來的損傷的敏感程度以及對特定的編碼損傷的評價是否符合人眼感知。SSIM對編碼帶來的圖像降質的評價從編碼效率角度與人眼感知比較接近,與很多對客觀質量評價算法性能評價的結果一致,這也從某種程度上論證了本文方法的合理性。
本文通過計算視頻編碼增益反過來評價一些常用的視頻質量評估方法。文中呈現的結論對評估HEVC視頻編碼提供了很多有用的信息。在對視頻的視覺優(yōu)化編碼中,目前很多客觀質量評價方法與對一些視頻失真的性能不太如人意,在未來HEVC的算法設計過程中,SSIM可能取代傳統(tǒng)的PSNR來進行優(yōu)化編碼。
:
[1] KOTEVSKI Z.Analysis of quality and performance of MPEG-2 video compression techniques[D].Bitola,Macedonia:[s.n.],2007.
[2] SULLIVAN G,WIEGAND T.Rate-distortion optimization for video compression[J].IEEE Signal Process.Magazine,1998,15(6):74-90.
[3] SULLIVAN G,OHM J,HAN W,et al.Overview of the high efficiency video coding(HEVC)standard[J].IEEE Trans.Circuits and Systems for Video Technology,2012,22(12):1649-1668.
[4] OHM J,SULLIVAN G,SCHWARZ H,et al.Comparison of the coding effciency of video coding standards—including high efciency video coding(HEVC)[J].IEEE Trans.Circuits and Systems for Video Technology,2010,22(12):1669-1683.
[5] BJONTEGAARD G.Calculation of average PSNR differences between RD-curves,VCEG-M33[S].2001.
[6] ZHAO Y,YU L.Coding efficiency comparison between HM5.0 and JM16.2 based on PQI,PSNR and SSIM,JCTVC-H0063[S].2012.
[7] WANG Z,BOVIK A,SHEIKH H,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans.Image Process.,2004,13(4):600-612.
[8] ZHAO Y,YU L,CHEN Z,et al.Video quality assessment based on measuring perceptual noise from spatial and temporal perspectives[J].IEEE Trans.Circuits and Systems for Video Technology,2011,21(12):1890-1902.
[9] BJONTEGAARD G.Improvements of the BD-PSNR model,VCEG-AI11[S].2008.
[10] SENZAKI K.BD-PSNR/rate computation tool for five data points,JCTVC-B055[S].2012.
[11] PATEUX S.Tools for proposal evaluations,JCTVC-A031[S].2010.
[12] SHEIKH H,BOVIK A.Image information and visual quality[J].IEEE Trans.Image Process.,2006,15(2):430-444.
[13] CHANDLER D,HEMAMI S.VSNR:a wavelet-based visual signal-tonoise ratio for natural images[J].IEEE Trans.Image Processing,2007,16(9):2284-2298.
[14] Tektronix[EB/OL].[2013-08-25].http://www.tek.com/picturequality-analyzer/.
[15] WANG Z,SIMONCELLI E,BOVIK A,et al.Multiscale structural similarity for image quality assessment[C]//Proc.Conference Record of the Thirty-Seventh Asilomar Conference on Signals,Systems and Computers,2004.[S.l.]:IEEE Press,2004:1398-1402.
[16] SHEIKH H,BOVIK A,DE VECIANA G.An information fidelity criterion for image quality assessment using natural scene statistics[J].IEEE Trans.Image Processing,2005,14(12):2117-2128.
[17] WANG Z,BOVIK A.A universal image quality index[J].IEEE Signal Processing Letters,2002,9(3):81-84.
[18] DAMERA-VENKATA N,KITE T,GEISLER W.et al.Image quality assessment based on a degradation model[J].IEEE Trans.Image Processing,2002,9(4):636-650.
[19] SHEIKH H,BOVIK A.Image information and visual quality[J].IEEE Trans.Image Processing,2006,15(2):430-444.
[20] GAUBATZ M.Metrix mux visual quality assessment package[EB/OL].[2013-08-25].http://foulard.ece.cornell.Edu/gaubatz/metrix_mux.
[21] Tech.Univ.Munich[EB/OL].[2013-08-25].ftp://ftp.ldv.ete.chnik.tumuenchen.de/pub test_sequences/.
[22] ITU-T.Recommendation ITU-R P.910,Subjective video quality assessment methods for multimedia applications[S].2008.
[23] JCT-VC.High efficiency video coding(HEVC)test model 9(HM 9)encoder description,JCTVC-K1002-v1[S].2012.
[24] ITU-T.Recommendation ITU-R BT.500,Methodolgy for the subjective assessment of the quality of television pictures[S].2012.