蘭誠棟,楊秀芝,陳 建
(福州大學(xué)物理與信息工程學(xué)院,福建 福州350108)
隨著3D電視的興起和發(fā)展,立體視頻技術(shù)引起了廣泛的關(guān)注.立體視頻增加了深度效果,使觀眾體驗更加生動的視覺觀感,但實際應(yīng)用中存在立體視頻數(shù)據(jù)量大、資源缺乏和立體感知效果差等問題,因此立體視頻的壓縮編碼和處理技術(shù)成為3D電視能否成功的關(guān)鍵,而這些算法性能的改進(jìn)提高,都需要通過評價立體圖像質(zhì)量的優(yōu)劣來確定.評價立體圖像質(zhì)量的方法分為主觀評價和客觀評價2種.主觀評價方法的結(jié)果更加準(zhǔn)確,但需要組織專門人員進(jìn)行觀測,價格昂貴且耗時.客觀質(zhì)量評價方法通過構(gòu)建數(shù)學(xué)模型對圖像質(zhì)量進(jìn)行計算,不僅過程簡單方便,而且還可作為權(quán)衡優(yōu)化結(jié)果的代碼加入到算法中,從而提高編碼和處理算法的性能,是評價立體圖像質(zhì)量的重要方法.目前國際上,2D圖像客觀質(zhì)量評價方法已經(jīng)發(fā)展了二十幾年,而3D圖像客觀質(zhì)量評價方法還處于初期研究階段.2008年,Benoit等[1]擴(kuò)展了傳統(tǒng)2D圖像客觀質(zhì)量評價方法,引入表示左右兩圖差異的視差圖,將視差圖的失真值與左右圖客觀質(zhì)量的平均值進(jìn)行線性結(jié)合,最終的值表示立體圖像質(zhì)量.該方法在傳統(tǒng)2D圖像客觀質(zhì)量基礎(chǔ)上增加考慮了深度質(zhì)量,但是沒有討論視差圖對于深度質(zhì)量的影響.2009年,Yang等[2]提出將圖像質(zhì)量和立體感知分開評價,通過左右圖相減得到的絕對視差圖來判斷圖像立體感,用視差圖的失真表示立體感知客觀質(zhì)量.該方法計算簡單,但是僅僅用實驗表明絕對視差圖對立體感的作用,缺乏相關(guān)理論分析.2010年,Yasakethu等[3]通過將深度圖分割成不同的深度平面,結(jié)合了相鄰深度平面相對距離失真、深度平面內(nèi)容感知的一致性和深度圖的結(jié)構(gòu)誤差3個方面來評價立體客觀質(zhì)量.該方法利用了深度圖中不同深度平面的特性及相互關(guān)系,但對深度平面與立體質(zhì)量的相關(guān)性沒有具體分析.2011年,Sarikan等[4]同樣將深度圖分割成不同的深度平面,利用SSIM對層、幀、序列3個級別進(jìn)行了加權(quán)計算,將深度圖的評價擴(kuò)展到了立體視頻質(zhì)量評價.2012年,韓國延世大學(xué)的Kim等[5]認(rèn)為運(yùn)動索引因素和深度因素是立體圖像質(zhì)量的重要信息,因此將兩者結(jié)合起來產(chǎn)生權(quán)重圖,加入到均方誤差(MSE)公式中來計算最終的客觀質(zhì)量值.同年,Lebreton等[6]深入分析了產(chǎn)生立體感知的原理,對視差圖的生成,深度圖分割和空時域信息的運(yùn)用都做出具體討論分析,從而提出了立體視頻深度感知評價算法.
從上述文獻(xiàn)分析可知,當(dāng)前對于立體圖像客觀質(zhì)量的評價可分為左右視圖的2D圖像質(zhì)量和深度感知質(zhì)量.傳統(tǒng)2D圖像質(zhì)量評價方法比較成熟,不做討論,本文主要關(guān)注立體圖像的深度感知質(zhì)量評價方法.對于深度的評價主要利用視差圖或深度圖來進(jìn)行,目前對于視差圖的生成,視差圖分割以及運(yùn)動信息的結(jié)合都做出了詳細(xì)討論.但是,目前的評價方法直接利用視差圖或深度圖失真來計算客觀質(zhì)量值,而事實上深度圖與立體感并非簡單線性關(guān)系,本文從最小可覺察誤差 (just noticeable difference,JND)模型和深度值映射角度,建立深度圖像素值與立體質(zhì)量的關(guān)系,在前沿深度質(zhì)量評價模型基礎(chǔ)上增加映射關(guān)系,從而更精確地評價立體圖像的深度感知質(zhì)量.
在傳統(tǒng)立體圖像和視頻的深度感質(zhì)量評價中,以視差作為評價深度感的依據(jù),視差反映了左右眼觀看同一目標(biāo)物時產(chǎn)生的差異,觀測者可以依據(jù)視差感知到目標(biāo)物距離,它是引起深度感的主要因素.在實際應(yīng)用中,視差往往轉(zhuǎn)化成8位的深度值,以深度圖的形式保存.顏色附加深度(MVD)的視頻格式[7]正是以這種方式保留深度信息,它是MPEG和ITU聯(lián)合組織目前正在制定的視頻標(biāo)準(zhǔn),在這種視頻格式中的每個顏色圖(或稱紋理圖)都附帶自身的深度圖,深度圖表示對應(yīng)顏色圖的深度信息.因此,深度圖將存在于未來的視頻數(shù)據(jù)中,以它作為立體圖像的深度質(zhì)量評價依據(jù)是合適的選擇,深度圖像素值的特性可以反映立體感知的質(zhì)量.
深度圖像素值與深度感知之間不是簡單的線性關(guān)系,簡單的像素值計算并不能反映深度質(zhì)量,像素的位置和像素值的幅度都會影響人眼深度立體感判斷.首先,人眼對視網(wǎng)膜中央凹的內(nèi)容最清晰[8],也就是對關(guān)注區(qū)域深度感最強(qiáng);其次,人眼對不同的景深距離的敏感度是不同的[9],感知的目標(biāo)對象距離屏幕越遠(yuǎn),人眼的深度敏感度越弱而深度感越強(qiáng);最后,對于出屏(負(fù)視差)和入屏(正視差)的感知程度也不同,出屏部分舒適性范圍比入屏部分?。?0].前沿的立體視頻質(zhì)量評價方法[6]認(rèn)為整幀圖像的深度感主要取決于人眼感興趣區(qū)域,在評價之前進(jìn)行了區(qū)域分割,通過計算人眼關(guān)注區(qū)域的深度值特性來評價圖像深度感.但是,該方法對于感興趣區(qū)域內(nèi)的像素值到深度感質(zhì)量值的過程使用線性映射,沒有區(qū)分對待不同像素值的敏感度特點,這導(dǎo)致該方法獲得的深度感評價值與實際人眼感知不一致.由于深度圖像素值到人眼深度感之間是非線性映射關(guān)系,深度值并不能直接代表深度感知,它與深度值所包含的敏感度信息是相關(guān)的.因此,本文引入人眼對深度的JND來構(gòu)建敏感度模型.文獻(xiàn)[9]指出在不同模擬深度級的JND深度(Just noticeable difference in depth,JNDD)值不一樣:模擬深度級離屏幕越遠(yuǎn),JNDD值越大,人眼的深度敏感性越弱;模擬深度級離屏幕越近,JNDD值越小,人眼的深度敏感性越強(qiáng).這里JNDD是指人眼可以感覺到深度變化的閾值.如果深度值的變化落在原始深度的JNDD范圍內(nèi),不會影響人眼深度感知的變化.因此,本文根據(jù)JNDD值與人眼深度敏感性之間的關(guān)系,在深度感質(zhì)量評價中,利用原始深度的可覺察閾值,并構(gòu)建代表人眼深度感知程度的敏感性因子,進(jìn)而反映視差值和實際深度感評價值之間的非線性對應(yīng)關(guān)系.
在立體圖像的客觀質(zhì)量評價方法中,分析影響立體圖像視覺效果的因素,準(zhǔn)確地提取反映立體圖像深度質(zhì)量的特征信息,是建立有效質(zhì)量評價方法的前提和基礎(chǔ).當(dāng)前MVD視頻格式是MPEG標(biāo)準(zhǔn)制定的方向,因此,本文方法首先利用左右視圖提取了表征立體視覺信息的深度圖作為評價依據(jù).接著,對深度圖運(yùn)用圖像分割算法進(jìn)行聚類分割,挑選人眼關(guān)注的區(qū)域,然后對所選區(qū)域的深度值做特征統(tǒng)計處理,并且在這一過程考慮了人眼深度敏感特性對深度感的影響,最后,結(jié)合時域的特征信息計算視頻序列深度質(zhì)量值.因此,模型的總體框架包含以下4個主要步驟:1)生成深度圖;2)深度相關(guān)區(qū)域的分割;3)所選擇區(qū)域的特征統(tǒng)計;4)視頻深度質(zhì)量值計算.下面我們主要討論前3個具體步驟,視頻質(zhì)量評價方法可以將連續(xù)相鄰多幀圖像的深度質(zhì)量估計值進(jìn)行平均[6].
深度圖的生成.這個模塊的目標(biāo)是提取一個表示雙眼線索的差異,稱為雙眼視差.最精確的方式是在拍攝期間從攝像機(jī)采集視差信息.但是目前,很少原始視頻中包含深度圖的信息,必須從2個視圖中去估計.MPEG提供的深度估計參考軟件(DERS)可以估計深度圖.該軟件需要至少3種不同的視點輸入,才可以提供精確的深度圖.如果我們通過圖割[11]算法先對圖像進(jìn)行對象分割,則兩個視點輸入也可以半自動生成較精確的深度圖.
深度相關(guān)區(qū)域分割.由于人眼的深度線索需要結(jié)合相關(guān)對象在左右圖中的位置,該步驟假定觀測者使用吸引他們注意力的區(qū)域或?qū)ο髞砼袛?D圖像的深度.該步驟提取圖像中視差和面積都較大的區(qū)域,這些區(qū)域提供更多相對深度信息,更可能被人眼用來判斷場景的深度.在實踐中,引入均值漂移[12]算法對前后背景區(qū)域進(jìn)行聚類分割,根據(jù)景深距離閾值和區(qū)域大小選取前景區(qū)域作為深度相關(guān)性區(qū)域.
提取雙目特性用于整個序列深度感估計.由于深度的層次性有助于以相對的方式評價立體視覺感知,因此場景中不同對象間的視差變化可用于深度估計.本算法用標(biāo)準(zhǔn)差表示深度層次性,公式定義為:
其中,X表示圖像區(qū)域像素值組成的向量,#X表示X向量元素個數(shù),Xi表示第i個元素,ˉX表示向量元素的平均值.為了標(biāo)準(zhǔn)化深度質(zhì)量評價值的單位,假設(shè)深度變化范圍不超過全深度的一半(全深度范圍是0~255),并將數(shù)值范圍設(shè)在主觀評價值的相同區(qū)間[0,100]內(nèi),那么標(biāo)準(zhǔn)差結(jié)果需乘以標(biāo)準(zhǔn)化因子因此,對于深度相關(guān)區(qū)域像素值組成的向量sq,序列第n幀的深度質(zhì)量預(yù)估值Fn如下:
圖1 深度質(zhì)量估計算法框圖Fig.1 The diagram of depth quality estimation algorithm
為了提高深度圖用于立體感質(zhì)量評價的精確性,我們引入一種基于深度敏感特性的處理方法,整體算法描述如圖1所示.標(biāo)準(zhǔn)差是計算每個深度值與平均深度值的差異,但是當(dāng)深度值變化小于JNDD閾值時,人眼無法判別到立體感變化,因此,標(biāo)準(zhǔn)差計算之前需要將每個深度值依據(jù)JNDD閾值進(jìn)行預(yù)處理,則公式(1)變?yōu)椋?/p>
其中:
在不同深度級,人眼的深度敏感性不同.深度值離屏幕越近,人眼對該深度值的變化越敏感,該深度變化對立體感的貢獻(xiàn)也越大,而這時JNDD越小.因此,我們在立體感質(zhì)量評價模型中增加表示深度級影響人眼深度敏感性的權(quán)重因子,假設(shè)該權(quán)重因子與JNDD成反比,則深度質(zhì)量可表示為:
其中,
k表示比例系數(shù),JNDDi表示在深度Di的最小可覺察誤差,它受觀看距離和初始模擬深度的影響[9].模擬深度是指觀看到的對象與顯示器屏幕的實際距離.近切平面和遠(yuǎn)切平面是立體顯示器的2個特性,它們定義了在顯示器的前面和后面最大可能的模擬深度.考慮到觀看距離和初始模擬深度級對JNDD的影響,JNDD通用模型如公式(6)所示.根據(jù)公式(6),雙眼視差的JNDD定義為,它是觀看距離對JND影響和 模 擬 深 度 級 對 JND 影 響2個 值之和:
JNDD與雙眼差異的感知變化隨著觀看距離而呈線性變化[9].文獻(xiàn)[9]基于實驗數(shù)據(jù)近似給出了公式(7):
其中,Δdd=0JND表示當(dāng)初始模擬深度為零(d=0)時的JNDD值,v表示觀看距離,單位為m.
可見,Δdd=0JND與觀看距離成正比.根據(jù)公式(7),JNDD隨著觀看距離而變化,觀看距離越遠(yuǎn),JNDD值越大.此外,初始深度d和JNDD之間的關(guān)系為:
其中,Δd|d|>0JND表示當(dāng)初始深度不為零時的JNDD,Kω表示韋伯常數(shù),該值可以通過深度恰可覺察的實驗來確定經(jīng)驗值.韋伯定律指出在一個更大的原始刺激下,需要更大的刺激差異用于感知刺激改變,這里雙眼差異被視為刺激,它表明了一個原始刺激和感知明顯改變的刺激之間的關(guān)系.
為了驗證基于深度敏感性立體質(zhì)量評價算法的有效性,本實驗以主觀質(zhì)量評價值作為比較參考目標(biāo),判斷該模型預(yù)測結(jié)果與人眼主觀感知的一致程度.
考慮測試序列的標(biāo)準(zhǔn)、權(quán)威和公開,本文利用瑞士洛桑理工大學(xué)(EPFL)的3D立體視頻庫[13],該庫包含了不同深度的立體視頻,這些視頻經(jīng)過嚴(yán)格的主觀測試得出了視頻庫的主觀質(zhì)量值.本次實驗考慮測試序列的差異性和算法的適用性,選取了立體視頻庫中的室內(nèi)和室外場景Feet、Bike和Hallway的15種不同立體感的測試序列,我們生成出不同的深度圖,并在計算客觀質(zhì)量值時選取深度相關(guān)區(qū)域.測試序列的左視圖、深度圖和深度相關(guān)區(qū)域如圖2所示.
圖2 場景左視圖、深度圖和深度相關(guān)區(qū)域2 The left view image and the depth map of scenes
EPFL實驗室的主觀實驗是按照ITU組織制定的ITU-R BT.500-11[14]建議書來進(jìn)行操作的.具體的實驗環(huán)境為:顯示屏:46寸偏振立體顯示器(Hyundai S465D),觀看距離:2m,評測等級:5級(優(yōu)、良、中、差、劣),測試人數(shù):20人,年齡分布:24~37歲,平均年齡27歲,評測方法:單刺激方法.
本實驗主觀結(jié)果采用EPFL實驗室給出的實驗結(jié)果,可參見表1中測試序列的主觀值(DMOS).客觀質(zhì)量的評價對具有不同深度感的測試視頻序列,首先使用深度圖生成方法獲得深度圖,接著分別采用立體視頻深度感知評價算法和基于深度敏感性的客觀質(zhì)量評價模型來計算得出測試序列的客觀質(zhì)量值.相比于上述傳統(tǒng)方法,本文方法將人眼對深度圖像素值的深度敏感性加入計算質(zhì)量值.在實驗中,我們通過主觀驗證測試最小可覺察閾值,取得模型中Kw經(jīng)驗值為0.15,k取2.
通過以上實驗,獲得的實驗數(shù)據(jù)如表1所示,其中分別列出了15個測試序列的立體感主觀質(zhì)量值、傳統(tǒng)方法預(yù)測客觀值和本文方法預(yù)測的客觀值.
圖3為不同測試序列的2種評價算法的散點圖.從圖3可以看出,相比于傳統(tǒng)方法,本文方法的結(jié)果更靠近對角直線,說明客觀模型與主觀感知的相關(guān)性更好,客觀評價值越接近主觀值,更符合人眼看到的視覺效果.
圖4為不同測試序列的主觀質(zhì)量值和客觀質(zhì)量值的折線圖.可以看出,相比于傳統(tǒng)方法,本文方法預(yù)測的客觀質(zhì)量值的變化趨勢與主觀值更為相符.
表1 Feet測試序列的主觀值和客觀值Tab.1 The subjective and objective values of the Feet test sequences
圖3 主觀和客觀質(zhì)量值比較的散點圖Fig.3 The scatter diagram of comparison of subjective and objective quality values
為了更好地考察所提出模型的性能,本文采用2個評價指標(biāo)來定量比較傳統(tǒng)方法和本文方法的性能:
1)線性相關(guān)系數(shù)(CC),用Pearson線性相關(guān)系數(shù)[15]來反映客觀評價模型預(yù)測的精確性,其表達(dá)式為:
圖4 測試序列立體質(zhì)量折線圖Fig.4 The broken line graph of stereoscopic quality values of the test sequences
Pearson相關(guān)系數(shù)是用來表明客觀評價模型所得的預(yù)測值與主觀質(zhì)量評價實驗得到的DMOS之間的相關(guān)性強(qiáng)弱,其取值范圍為[-1,1],絕對值越接近1,客觀評價模型的評價值越接近主觀值.
2)均方根誤差(RMSE),在評價客觀模型性能時還經(jīng)常用RMSE來衡量,其表達(dá)式為:
RMSE是用來衡量客觀質(zhì)量值和主觀質(zhì)量值之間的偏差.RMSE值越小,客觀評價值和主觀評價值越一致,則客觀算法模型的性能就越好.
如表2所示,實驗結(jié)果表明本文的客觀評價模型相比于傳統(tǒng)方法在相關(guān)性和均方誤差上都有了較大提高,尤其是室外場景的結(jié)果與主觀質(zhì)量值非常接近,其準(zhǔn)確性取得了較大改善,因此本文的客觀評價模型在評價立體視頻質(zhì)量時具有較大優(yōu)勢.
表2 客觀評價模型的性能比較Tab.2 The performance comparison of objective evaluation methods
本文描述了一種基于深度敏感度的立體視頻評價方法.該方法針對前沿深度質(zhì)量評價模型對于像素值到深度感質(zhì)量值過程使用線性映射,沒有區(qū)分對待不同像素值的敏感度特點,導(dǎo)致獲得的深度感評價值與實際人眼感知不一致的問題,提出引入深度最小可覺察誤差反映人眼的深度敏感性,進(jìn)而根據(jù)敏感度模型映射不同像素值對人眼深度感的作用.該方法通過實驗測試有效,結(jié)果顯示所提出的方法比傳統(tǒng)方法有較大提高,該方法可進(jìn)一步應(yīng)用于視頻壓縮和處理算法中.另外,本文深度相關(guān)區(qū)域的選取是依據(jù)景深距離和區(qū)域大小,而實際相關(guān)區(qū)域主要是人眼關(guān)注的感興趣區(qū)域,人眼關(guān)注度模型等方法可被引入進(jìn)一步提高評價結(jié)果的精確性.
[1]Benoit A,Le Callet P,Campisi P,et al.Using disparity for quality assessment of stereoscopic images[C]∥Proceedings of the 15th IEEE International Conference on Image Processing.San Diego:IEEE,2008:389-392.
[2]Yang J,Hou C,Zhou Y,et al.Objective quality assessment method of stereo images[C]∥3DTV Conference:The True Vision-Capture,Transmission and Display of 3DVideo.Potsdam:IEEE,2009:1-4.
[3]Yasakethu S L P,De Silva D,F(xiàn)ernando W A C,et al.Predicting sensation of depth in 3Dvideo[J].Electronics letters,2010,46(12):837-839.
[4]Sarikan S S,Olgun R F,Akar G B.Quality evaluation of stereoscopic videos using depth map segmentation[C]∥Quality of Multimedia Experience,2011Third International Workshop on.Mechelen:IEEE,2011:67-71.
[5]Kim D,Ryu S,Sohn K.Depth perception and motion cue based 3Dvideo quality assessment[C]∥Broadband Multimedia Systems and Broadcasting,2012IEEE International Symposium on.Seoul:IEEE,2012:1-4.
[6]Lebreton P,Raake A,Barkowsky M,et al.Evaluating depth perception of 3Dstereoscopic videos[J].IEEE Journal of Selected Topics in Signal Processing,2012,6(6):710-720.
[7]Fehn C.A 3D-TV system based on video plus depth information[C]∥Signals,Systems and Computers,2004.Conference Record of the Thirty-Seventh Asilomar Conference on.[S.l.]:IEEE,2003:1529-1533.
[8]Ho C C,Wu J L,Cheng W H.A practical foveation-based rate-shaping mechanism for MPEG videos[J].Circuits and Systems for Video Technology,IEEE Transactions on,2005,15(11):1365-1372.
[9]De Silva V,F(xiàn)ernando A,Worrall S,et al.Sensitivity analysis of the human visual system for depth cues in stereoscopic 3-D displays[J].Multimedia,IEEE Transactions on,2011,13(3):498-506.
[10]International Telecommunication.Subjective methods for the assessment of stereoscopic 3dtv systems[EB/OL].[2012-03-11].http:∥www.itu.int/rec/R-REC-BT.2021/cn
[11]Kolmogorov V,Zabin R.What energy functions can be minimized via graph cuts[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2004,26(2):147-159.
[12]Comaniciu D,Meer P.Mean shift:a robust approach toward feature space analysis[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002,24(5):603-619.
[13]Goldmann L,De Simone F,Ebrahimi T.Impact of acqui-sition distortions on the quality of stereoscopic images[C]∥Fifth International Workshop on Video Processing and Quality Metrics for Consumer Electronics-VPQM 2010.Scottsdale:[s.n.],2010:13-15.
[14]Recommendation I.Methodology for the subjective assessment of the quality of television pictures[EB/OL].[2013-12-11].http:∥office.kbs.co.kr/tri/wp-content/uploads/sites_20101117.pdf.
[15]Chikkerur S,Sundaram V,Reisslein M,et al.Objective video quality assessment methods:A classification,review,and performance comparison[J].Broadcasting,IEEE Transactions on,2011,57(2):165-182.