姚軍財,湯浩威,申靜
(1.南京工程學(xué)院 計算機工程學(xué)院 江蘇 南京 211167;2.西安交通大學(xué) 信息與通信工程學(xué)院 陜西 西安 710049)
客觀視頻質(zhì)量評價(Video Quality Assessment,VQA)在通信、網(wǎng)絡(luò)和多媒體等技術(shù)中發(fā)揮著非常重要的作用,特別是無參考(No Reference,NR)VQA,一個性能優(yōu)異的NR-VQA模型不僅可以自動準(zhǔn)確評估視頻質(zhì)量,還可以對其進行實時監(jiān)控,優(yōu)化其傳輸效果,從而更好地服務(wù)于視頻通信[1-2]。迄今為止,已經(jīng)報道了較多的NR-VQA模型;然而,由于視頻內(nèi)容的復(fù)雜性、網(wǎng)絡(luò)的不穩(wěn)定性、不同的編解碼器、傳輸條件的不確定性以及人類視覺系統(tǒng)(Human Visual System,HVS)特性的復(fù)雜性等因素[2-5],目前沒有一個性能優(yōu)越的客觀NR-VQA方法能夠?qū)崟r準(zhǔn)確有效地衡量失真視頻的質(zhì)量。因此,亟待研究一種簡單、有效、實用且盡可能符合主觀感受的VQA方法和模型。
前人對NR-VQA已經(jīng)做了大量的研究[6-7],提出了諸如V-BLIINDS(Blind VQA Algorithm)[8]、V-CORNIA(Video Codebook Representation for NR Image Assessment)[9]和VQAUCA(NR VQA using Codec Analysis)[10]等方法和模型,但其真正能應(yīng)用的非常少,其主要問題仍然是在精度、復(fù)雜性和泛化性能上,具體如下。
(1)特征選擇問題。在當(dāng)前主流視頻傳輸模式下,其可能會遭受許多類型的失真;在NR-VQA研究中,為了提高評估精度,往往盡可能的提取更多的視頻失真特征,但它同時也增 加VQA模 型 的 復(fù) 雜 性[4,10-12]。因 此,需 要 提取少量但有效的失真特征來構(gòu)建NR-VQA模型。
(2)視頻內(nèi)容感知問題?,F(xiàn)有NR-VQA往往只關(guān)注由傳輸而引起的視頻失真[11],考慮視頻內(nèi)容及其視覺感知效果的較少[3,13]。然而,視頻內(nèi)容及其視覺感知對VQA的影響往往較大,因此,所構(gòu)建的VQA模型的精度相關(guān)性參數(shù)PLCC(Pearson Linear Correlation Coefficient)和SROCC(Spearman Rank Order Correlation Coefficient)值往往不高。
(3)HVS特性問題。引入適當(dāng)且有效的HVS特性及其感知模型,可以極大地提高VQA精 度[1,4,14],如V-BLIINDS[8]和RIRNet[13]模 型。然而,如果使用從比特流中提取的失真特征構(gòu)建模型,則可能很難在模型中有效地引入HVS特性[5,11,14]。因此,目前的做法是將VQA-B(VQA Metric based Bit-streaming)和VQA-P(VQA Metric based Visual Perception)方法結(jié)合起來構(gòu)建NR-VQA模型[11],其能夠較好地利用HVS特性,因此其模型的精度可能得到較大的提高;但如何結(jié)合也是目前的難點。
(4)模型復(fù)雜性問題。在視頻通信中,VQA需要較強的實時性,要求模型盡可能簡單但有效。然而,VQA模型經(jīng)常引入許多HVS特性并依賴于更多視頻失真特征[6,15],而且,還常常融入機器學(xué)習(xí)方法,因此,目前報道的VQA模型往往非常復(fù)雜[6-7]。所以,在構(gòu)建模型時,有必要對這些特征和方法進行適當(dāng)?shù)倪x擇,并進一步優(yōu)化相應(yīng)的參數(shù)。
(5)泛化性問題?,F(xiàn)有較多VQA方法使用機器學(xué)習(xí)工具來獲得視頻質(zhì)量結(jié)果;然而,機器學(xué)習(xí)需要訓(xùn)練樣本,樣本的選擇、數(shù)量、比例等對精 度 和 泛 化 性 能 均 有 較 大 影 響[7,16]。目 前,在NR-VQA中,許多模型采用同一視頻數(shù)據(jù)庫中的樣本進行訓(xùn)練和測試,結(jié)果表明其所提VQA精度非常高;但當(dāng)采用的測試視頻樣本來自其他數(shù)據(jù)庫時,其PLCC和SROCC顯著下降。這些結(jié)果表明,基于機器學(xué)習(xí)方法的VQA模型的泛化特性通常不高[6-7,16],因此,有必要優(yōu)化VQA模型并增強其泛化性能。然而,在泛化性能上,采用傳統(tǒng)方法構(gòu)建的VQA模型的效果往往好于基于機器學(xué)習(xí)方法構(gòu)建的VQA模型的效果。所以,綜合考慮精度、復(fù)雜性和泛化性能,傳統(tǒng)VQA建模方法仍然值得進行大量研究。
基于以上分析,本文提出一種綜合考慮視頻內(nèi)容、傳輸失真及其視覺感知的NR-VQA度量方法,其基本思路為:首先提出僅基于比特率的初始VQA模型,以探討比特率對視頻質(zhì)量的影響;其次,盡管不同視頻的比特率相同,但由于視頻內(nèi)容的不同,主觀MOS(Mean Opinion Score)亦明顯不同,因此,基于圖像的紋理復(fù)雜性、局部對比度、時間信息及其視覺感知來設(shè)計視頻內(nèi)容的視覺感知模型,且結(jié)合內(nèi)容感知模型探討視頻內(nèi)容及其感知對VQA的影響,并構(gòu)建其模型;同時結(jié)合視頻傳輸中時延特征,構(gòu)建由于傳輸失真而產(chǎn)生的視頻質(zhì)量下降的質(zhì)量評價模型;最后,采用凸優(yōu)化方法綜合、加權(quán),糅合3個模型,從而提出一種綜合考慮視頻內(nèi)容和傳輸失真的NRVQA度量方法。
主觀VQA實驗結(jié)果表明,在低比特率條件下,視頻質(zhì)量受比特率的影響最為顯著[5,11,16];而且,即使它們的比特率相同,不同內(nèi)容的視頻,主觀VQA分?jǐn)?shù)也存在很大的差異[3,13];另外,視頻播放過程中,視頻播放卡頓延時對視頻質(zhì)量體驗同樣產(chǎn)生較大影響[6-7,17]。因此,視頻編碼后的比特率、視頻內(nèi)容及其視覺感知、以及卡頓延時是對VQA結(jié)果的主要影響?;诖耍岢鲆环N基于內(nèi)容視覺感知和傳輸失真的NR-VQA模型,其研究思路為:首先結(jié)合視覺特性,分別單獨探討比特率、視頻內(nèi)容和傳輸時延對VQA的影響,再綜合三種情況,提出VQA模型,最后實驗驗證、對比分析。為此,本章探討了VQA的影響因素及其與視頻質(zhì)量之間關(guān)系。
在視頻通信中,視頻編碼后的比特率對視頻質(zhì)量的影響非常大[5,11,16];特別是在低比特率時,由于編碼而帶來的大面積塊狀效應(yīng),其影響程度遠(yuǎn)遠(yuǎn)超過其他因素,嚴(yán)重影響了視頻的質(zhì)量。為此,在忽略其他質(zhì)量影響因素前提下,通過分析不同比特率下的主觀VQA實驗的MOS分?jǐn)?shù)及其分布規(guī)律,提出了一種僅考慮比特率影響的VQA模型,其表達如式(1):
其中:BR是比特率;a,b,c,d和e為參數(shù),其通過大量主觀MOS擬合獲得。其中,進行的主觀實驗為:針對210個H.264壓縮的失真視頻,選擇20名具有正?;虺C正視力的非專業(yè)觀察者(平均年齡為21歲)進行主觀測試,得到視頻主觀質(zhì)量分?jǐn)?shù)MOS。其中,在本實驗中,觀察條件、設(shè)施設(shè)置和數(shù)據(jù)篩選遵循參考文獻[18]中的規(guī)定。將得到的MOS分?jǐn)?shù)和對應(yīng)視頻的BR值作為樣本進行訓(xùn)練,采用非線性回歸方法得到式(1)的參數(shù),其結(jié)果為5.505 4,0.580 2,5.255,-0.156 3和-19.78[4]。式(1)能較好地反映BR與視頻質(zhì)量之間的關(guān)系,從而描述量化比特率對視頻質(zhì)量的影響。
在主觀VQA中,視頻內(nèi)容和視覺感知在較大程度上影響著VQA結(jié)果;因此,非常有必要討論視頻內(nèi)容及其視覺感知對VQA的影響[13]。為了更好的體現(xiàn)視頻內(nèi)容特征,采用圖像的紋理特征、局部對比度、時域信息及其視覺感知來設(shè)計視頻內(nèi)容的視覺感知模型。其中,視頻采用時域和空域分開描述方法[1,4,7,9],即視頻的空域信息可以用所有幀的靜態(tài)圖像表示,并且兩幀之間的所有像素的運動矢量被視為視頻的時域信息。因此,在提出的NR-VQA模型設(shè)計中,采用視頻幀圖像的紋理特征、局部對比度和運動矢量來描述視頻內(nèi)容。結(jié)合HVS特性,則視頻內(nèi)容感知模型需從圖像紋理及其視覺感知,圖像局部對比度以及視頻時域信息及其視覺感知3個方面來描述[4]。
2.2.1 圖像紋理及其視覺感知
采用圖像的梯度和灰度的統(tǒng)計來描述圖像的紋理特征。該方法如下:首先,計算每幀圖像f的灰度和梯度,得到歸一化灰度圖gray和梯度圖grad,以 及 共生矩 陣H(gray(i,j),grad(i,j)),并對H做歸一化處理;然后將所有梯度乘以歸一化共生矩陣中的對應(yīng)值;最后,基于霍夫曼編碼思想,對所有值求和,求和的結(jié)果記為圖像梯度期望值。其被描述為圖像的紋理復(fù)雜度的大小,其表示如式(2):
式中:L為灰度級,一般取256;Lg為梯度級別,文中取32個級別;m×n為每幅圖像的像素數(shù);H是灰度梯度共生矩陣,其定義如式(3):
其中:H(x,y)定義為集合{(x,y)|gray(i,j)=x,grad(i,j)=y;i=0,1,2,…,m-1,j=0,1,2,…,n-1}中的元素數(shù)目。
根據(jù)HVS特征[19-20],分析主觀實驗結(jié)果,通過分析和擬合,HVS感知圖像復(fù)雜紋理的結(jié)果隨著等式(4)中的分段實驗規(guī)律而變化,其中,K1,K2,K3是常數(shù)。則得出的結(jié)果描述為視頻內(nèi)容影響VQA結(jié)果的因素之一。
2.2.2 圖像局部對比度
HVS感知圖像亮度和顏色的對比敏感度對VQA有很大影響,且圖像的局部對比度可以更好地描述圖像內(nèi)容的特征,如圖像的更多區(qū)域具有相似的亮度和顏色,或者圖像中的目標(biāo)是否豐富等等[21-22]。因此,需要計算每幀圖像的局部亮度和顏色的對比度。同時,為了說明局部亮度和顏色的人眼刺激,采用韋伯對比度定義,即C=ΔI/I的形式;且將所有局部對比度值乘以相應(yīng)局部區(qū)域中心的亮度或顏色的強度值(其值歸一化),然后計算它們的平均值;其被描述為圖像內(nèi)容的特征值之一,亦被視為視頻內(nèi)容影響VQA結(jié)果的另一個重要因素,其表示如式(5):
其中:
式中:f(xi,yj)是圖像上任意點的亮度或顏色強度值(I),m×n為圖像的像素數(shù)。
圖像局部對比度是整個圖像的所有局部對比度的平均結(jié)果,其計算方法為:先計算局部(即對應(yīng)圖像子塊上)所有目標(biāo)點與其最近鄰的8個點之間的對比度的平均值,再按照子塊上的像素數(shù)目求其平均值,其平均值為該子塊所對應(yīng)局部的對比度,再將其按照圖像子塊的數(shù)目求平均,其平均值即作為圖像局部對比度。以其反映整個圖像的所有局部對比度對VQA的平均貢獻。
2.2.3 視頻時域信息及其視覺感知
在VQA中,時域信息及其視覺感知對VQA的影響較大,如視頻中的場景切換、目標(biāo)的劇烈運動和位置的變換等等,這些都可能會帶來VQA結(jié)果的大幅波動[2,7,10-11]。分析這些情況在視頻中的特征,主要體現(xiàn)在運動矢量上有較大變化;則基于VQA需要,結(jié)合在視頻時域和空域的描述方法,將所有像素的運動矢量作為視頻的時域信息。根據(jù)此說明,結(jié)合人眼對運動目標(biāo)感知特性及其數(shù)學(xué)模型MCSFst(如式(6)[23]),視頻時域信息及其視覺感知結(jié)果可以通過式(7)來量化計算。其計算方法為:首先利用MCSFst,計算每一運動矢量Mv(i,j)所對應(yīng)的人眼敏 感 值(記 為MCSFst(fθ(i,j),ft(i,j)));然后,將MCSFst(fθ(i,j),ft(i,j))×Mv(i,j)結(jié)果作為HVS感知該運動矢量所在區(qū)域的時域信息的量化結(jié)果,并將其歸一化;最后,對所有運動矢量求平均值。該平均值作為視頻內(nèi)容貢獻視頻質(zhì)量的第3個影響因子或增益因子,其表示如式(7):
式中,fθ為角頻率,ft為時間頻率。
式中:Mv(i,j)為運動矢量大小,w×v為任意相鄰兩幅幀圖像中運動矢量的數(shù)目。
基于以上3個方面,視頻內(nèi)容感知模型(人眼感知到的視頻內(nèi)容)可采用式(8)描述:
其中,k1,k2,k3都是常數(shù)。
視頻通信過程中,受信道條件的限制,其對終端視頻質(zhì)量產(chǎn)生較多的負(fù)面影響[2,10,17]。其中影響終端視頻質(zhì)量的主要因素是丟包和時延。對于丟包,由于在LTE通信系統(tǒng)中采用有保障的TCP協(xié)議,在此過程中,丟包產(chǎn)生的影響主要體現(xiàn)在超時重傳上。所以,在LTE通信系統(tǒng)中,信道導(dǎo)致視頻質(zhì)量下降的主要原因是時延。通過實時分析,其時延對視頻質(zhì)量的影響因素主要包括初始時延(Initial Delay,ID)、中間單次(每次)中斷時延時長(Middle Buffer,MB)、中斷(次數(shù))頻率(Number of Buffer,NB)、多次中斷平均時長(Average Buffer Delay,ABD)。則在本文中,主要探討此4個方面對視頻通信中質(zhì)量的影響。
2.3.1 方法基本框架和數(shù)據(jù)庫構(gòu)建
此方面主要探討時延與視頻質(zhì)量之間的關(guān)系,其基本思路為:首先建立兩個視頻數(shù)據(jù)庫,并對數(shù)據(jù)庫中的視頻進行主觀實驗,得到主觀質(zhì)量評價分?jǐn)?shù);再依據(jù)其中之一數(shù)據(jù)庫中的數(shù)據(jù),對其進行分析和回歸擬合,構(gòu)建每一時延情況下的視頻質(zhì)量與該時延參量之間的關(guān)系模型;最后,對4種情況的模型進行綜合,并采用另外一個數(shù)據(jù)庫中的數(shù)據(jù)進行驗證測試和優(yōu)化,最終得出綜合考慮4種時延的視頻質(zhì)量評價模型。其基本框架如圖1。
圖1 基于4種時延失真的視頻質(zhì)量評價模型構(gòu)建流程圖Fig.1 Flow chart of building video quality evaluation model based on four kinds of delay distortion
由于目前沒有相關(guān)研究內(nèi)容的開源視頻數(shù)據(jù)庫,為此,實驗采用LIVE和VIPSL數(shù)據(jù)庫中的源視頻作為參考視頻,并進行處理,建立兩個數(shù)據(jù)庫,分別記為LIVEour和VIPSLour視頻數(shù)據(jù)庫。結(jié)合視頻的幀率分別為25 fps和30 fps,其失真視頻參數(shù)相關(guān)設(shè)置和說明如表1~表3;同時進行主觀質(zhì)量評價,獲得了所有視頻的主觀質(zhì)量分?jǐn)?shù)。
表1 視頻初始時延和中間單次中斷時延時長設(shè)置Tab.1 Duration setting of video initial delay and middle single buffer delay (s)
表3 中斷頻率(次數(shù))設(shè)置Tab.3 Buffer frequency(number)setting
表2 多次中斷平均時長設(shè)置Tab.2 Average duration setting of multiple buffer delay
2.3.2每類時延因素與視頻質(zhì)量之間的關(guān)系
時延對視頻質(zhì)量的影響主要為4個因素,即初始時延、中間單次(每次)中斷時延時長、中斷(次數(shù))頻率、多次中斷平均時長。通過主觀實驗和質(zhì)量評價分?jǐn)?shù)的分析表明,初始時延和中間單次中斷時延對視頻質(zhì)量的影響效果非常相近,為了使VQA模型更加簡單,在保證模型性能的前提下,將二者因素綜合為一個因素來考慮。則其時延因素與質(zhì)量之間的關(guān)系如下。
(1)初始時延和中間單次中斷時延與視頻質(zhì)量之間的關(guān)系。
依據(jù)初始時延和單次中斷時延失真對應(yīng)的視頻主觀質(zhì)量評價分?jǐn)?shù)及其變化分布特征,分別采用邏輯函數(shù)、線性函數(shù)、最小二乘法中的多項式函數(shù)對數(shù)據(jù)庫中的部分主觀MOS分?jǐn)?shù)進行數(shù)據(jù)回歸擬合,并以模型復(fù)雜性、RMSE和相對誤差值作為標(biāo)準(zhǔn),對比3個函數(shù)的效果,選擇其中最好的一種函數(shù)作為構(gòu)建的模型結(jié)果。通過實驗發(fā)現(xiàn),采用最小二乘法的多項式回歸模型綜合效果最佳。其中,為了提高回歸模型的泛化性能,采用LIVEour數(shù)據(jù)庫中中間單次中斷時延失真的視頻的主觀MOS分?jǐn)?shù)(MOSLMB)作為訓(xùn)練樣本,采用LIVEour數(shù)據(jù)庫中初始時延和VIPSLour庫中的初始時延和單次中斷時延失真視頻的主觀MOS分?jǐn)?shù)(分別記為MOSLID,MOSVMB和MOSVID)數(shù)據(jù)進行測試。其回歸模型記為VQAID(VQAInitial_Delay)或VQAMB(VQAMiddle_Buffer),其表達如式(9):
式中:x和y分別表示初始時延時長(Initial Delay Time,ID)和單次中斷時延時長(Middle Buffer Time,MB);ScoresID/MB表示由于不同初始時延時長或單次中斷時延時長而引起的視頻質(zhì)量下降時的質(zhì)量評價分?jǐn)?shù)。
(2)平均中斷時長與視頻質(zhì)量之間的關(guān)系。
中斷次數(shù)和平均中斷時長均對視頻質(zhì)量有較大影響,則通過分析不同中斷次數(shù)下不同平均中斷時延時長對視頻質(zhì)量的影響后得出的主觀質(zhì)量評價分?jǐn)?shù)MOS及其分布特點,對其采用3次二元多項式擬合,其關(guān)系模型VQAABD如式(10):
其中:p00=92.59,p10=-27.89,p01=-0.958 8,p20=4.568,p11=-0.019 04,p30=-0.245 4,p21=-0.001 898。x為 平 均 中 斷 時長(Average buffer delay,ABD),y為 中斷次 數(shù)(Number of buffer,NB),參數(shù)采用LIVEour視頻庫中數(shù)據(jù)為訓(xùn)練樣本獲得,實驗中采用VIPSLour庫中的數(shù)據(jù)為樣本對模型進行測試。
(3)中斷頻率與視頻質(zhì)量之間的關(guān)系。
中斷頻率(次數(shù))對視頻質(zhì)量同樣有較大的影響,但同時也需要考慮每次的中斷時長。為了研究中斷頻率對視頻質(zhì)量的影響,需要將中斷平均時長設(shè)為規(guī)定的數(shù)值,即在某一平均中斷時長下設(shè)置不同的中斷次數(shù)來研究其對視頻質(zhì)量的影響。通過分析兩個數(shù)據(jù)庫中5種平均中斷時延時長下不同中斷次數(shù)時失真視頻主觀質(zhì)量評價分?jǐn)?shù)MOS及其分布特點,中斷(次數(shù))頻率與視頻質(zhì)量之間的關(guān)系模型如式(11):
其中:p00=98.42,p10=-2.433,p01=-6.175,x為平均中斷時長(Average buffer delay,ABD),y為中斷次數(shù)(Number of buffer,NB),模型參數(shù)采用LIVEour視頻庫中數(shù)據(jù)為訓(xùn)練樣本訓(xùn)練獲得。
2.3.3 4種時延與視頻質(zhì)量之間的綜合關(guān)系模型
(1)模型構(gòu)建。
在實際視頻傳輸過程中,上述4種時延情況均有可能均出現(xiàn),則需要一種考慮4種情況的綜合模型,即需要擬合一種z=f(x1,x2,x3)的4維函數(shù)。由于在4維函數(shù)的擬合中,常常存在不穩(wěn)定解的問題,需要轉(zhuǎn)化為三維解。則結(jié)合視頻時延失真的特征:初始時延(和單次中斷時長)可以單獨作為一個因子影響視頻的質(zhì)量,即在其引起視頻失真時可能沒有中斷次數(shù)和平均中斷時延時長對視頻質(zhì)量的影響,則即一個初始時延值對應(yīng)一個視頻質(zhì)量分?jǐn)?shù)ScoresID;而對于中斷次數(shù)和平均中斷時延時長,雖然可以沒有初始時延,但在對視頻質(zhì)量影響時,是二者共同的作用的結(jié)果,即中斷次數(shù)和平均中斷時延時長二者共同對應(yīng)于一個質(zhì)量分?jǐn)?shù)ScoresABD_NB,且綜合分析二者的關(guān)系模型式(10)和(11),式(10)的形式剛好可以描述中斷次數(shù)和平均中斷時延時長二者共同影響因子與質(zhì)量之間的函數(shù)關(guān)系?;诖朔治觯Y(jié)合降維求解的思想,以及前面的3種單獨時延情況時的關(guān)系模型的特點,采用凸優(yōu)化的形式,提出了一種考慮4種傳輸時延時的綜合關(guān)系模型VQAbuffer,其表達如式(12)~(14):
式中:x1為初始時延時長ID或單次中斷時長MB(x1=ID/MB),x2為 平 均 中 斷 時 長ABD(x2=ABD),y為中斷次數(shù)NB(y=NB);式(12)中參數(shù)p和1-p的設(shè)置原因為ScoresABD_NB和ScoresID是相互獨立的兩個影響因子,保證其中之一可以不影響或全部影響視頻質(zhì)量(即p=0或1時的情形),其p值采用LIVEour視頻庫中的初始時延、中斷次數(shù)、平均中斷時長3者對應(yīng)的MOS(以上單獨擬合3者時的MOS)來擬合得到;其中斷次數(shù)和平均中斷時長對應(yīng)的MOS分?jǐn)?shù)(MOSNB和MOSABD)均作為訓(xùn)練集來訓(xùn)練得到式(14)中的參數(shù)p00,p10,p01,p20,p11,p30和p21。式(12)亦即是一種僅考慮傳輸時延時多種時延情況綜合的VQA模型。
(2)實驗測試和結(jié)果分析。
為了說明所提VQA模型的性能,一般采用主觀和客觀評估的方法對其進行性能分析。對于主觀評估,一般采用主客觀質(zhì)量分?jǐn)?shù)之間的散點圖的離散程度來直觀分析兩分?jǐn)?shù)之間的相關(guān)性,從而來說明所提模型的精度。對于客觀評估,需要從兩質(zhì)量分?jǐn)?shù)之間的單調(diào)性和一致性上分析,即分析主觀VQA分?jǐn)?shù)(MOS/DMOS)與所提模型計算的客觀VQA分?jǐn)?shù)之間的相關(guān)度,其相關(guān)度越高,則模型精度越高,模型性能越好,否則反之。相關(guān)度可以用相關(guān)性參數(shù)來度量,依據(jù)國際視頻質(zhì)量專家組的說明[1,18],相關(guān)性參數(shù)有:Pearson線性相關(guān)系數(shù)PLCC,Spearman秩相關(guān)系數(shù)SROCC,均方根誤差RMSE(Root Mean Square Error,RMSE),背 離 率(Outlier Ratio,OR)。其中,PLCC和SROCC值越大,越接近于1,則模型精度越高,表明模型預(yù)測質(zhì)量效果越好,反之則越差;RMSE和OR越小,表明散點圖中散點的離散程度越小,模型精度越高,否則反之。
為了說明所提綜合多種時延影響時的VQA模型式(12)~式(14)的性能,需要對同時遭受初始時延、不同平均中斷時長和不同中斷次數(shù)失真的視頻進行測試。則須進行以下實驗:首先,需要另外建立視頻庫,并進行主觀實驗,即:任意選取初始時延、中斷次數(shù)和平均中斷時長中的一組數(shù)值作為參數(shù),對參考視頻進行加時延處理,得到不同初始時延、中斷次數(shù)和平均中斷時長的失真視頻,并對其進行主觀實驗,得到MOS分?jǐn)?shù);接著,采用所提綜合時延影響的VQA模型,對失真視頻進行計算,得出客觀質(zhì)量評價分?jǐn)?shù)Scoresbuffer;最后,計算主客觀質(zhì)量評價分?jǐn)?shù)之間的相關(guān)性參數(shù)值,作出散點圖,分析所提模型的精度和泛化性能。
基于以上實驗,采用80組參數(shù)(ID,ABD,NB)分別對LIVE和VIPSL中18個參考視頻 進行處理(每幅參考視頻加8種或10種時延),得到160個失真視頻,并采用15名觀察者對其進行主觀評價,得出其MOS分?jǐn)?shù),再對其求平均,其值作為此160個失真視頻的主觀評價分?jǐn)?shù),并采用所提模型計算其客觀質(zhì)量評價分?jǐn)?shù),最后計算主客觀質(zhì)量分?jǐn)?shù)之間的相關(guān)性參數(shù),并做散點圖,其結(jié)果如圖2。
圖2中的測試結(jié)果表明:①所提綜合考慮多種時延影響的VQA模型在不同數(shù)據(jù)庫中的評價效果均能夠?qū)崿F(xiàn)PLCC和SROCC都超過0.9,精度比較高;②對于兩個數(shù)據(jù)庫中的PLCC和SROCC,均比較高,其泛化性能比較好。
圖2 基于兩個數(shù)據(jù)庫采用所提綜合多種時延影響的VQA模型評價的分?jǐn)?shù)與主觀MOS之間的相關(guān)性分析Fig.2 Analyzing the correlation between the scores of evaluating videos in two databases by the proposed VQA model integrating multiple delay effects and the subjective MOS
基于第2節(jié)的分析,影響視頻質(zhì)量的因素主要為:視頻內(nèi)容、視覺感知、比特率和傳輸緩沖時延。綜合分析各影響因素與視頻質(zhì)量之間的關(guān)系模型及其MOS分?jǐn)?shù)分布特征,采用凸優(yōu)化方法,提出一種綜合考慮視頻內(nèi)容及其視覺感知、比特率和傳輸時延的NR-VQA模型,記為MCPBD(NR-VQA Model that Comprehensively Considers Video Content and its Visual Perception,Bit Rate and Transmission Delay),其表達如式(15):
式中:α采用建立的數(shù)據(jù)庫中的部分?jǐn)?shù)據(jù)進行 擬 合 得 到;ScoresID、ScoresABD_NB,ScoresBR,Valuecomplexity-sensitivity,Valuecontrast和Valuetemporal分 別 采用式(13)、式(14)、式(1)、式(4)、式(5)和式(7)來計算獲得;參數(shù)k1,k2,k3采用式(8)中的結(jié)果。為了使得模型精度更高,每一個參數(shù)都采用不同比例的樣本數(shù)據(jù)反復(fù)實驗、測試和優(yōu)化,盡量 使 其 達 到 最 優(yōu)。其 中,[ScoresID+(1-p)·ScoresABD_NB]表示視頻在受傳輸時延影響下的質(zhì)量貢獻,ScoresBR表示在編解碼影響下對視頻質(zhì)量的貢獻,(1+k1·Valuecomplexity_sensitivity+k2·Valuecontrast+k3·Valuetemporal)表示受視頻內(nèi)容及其視覺感知效果影響下,對視頻質(zhì)量的貢獻。
為了更好地說明所提綜合VQA模型MCPBD的性能,分別采用建立的數(shù)據(jù)庫和3個開源數(shù)據(jù)庫(即LIVE[24],VQEG[5]和IRCCyN[4])中的視頻和數(shù)據(jù)進行仿真實驗和測試驗證。
3.2.1 基于建立的數(shù)據(jù)庫的實驗測試驗證
視頻數(shù)據(jù)庫建立:分別對LIVE和VIPSL數(shù)據(jù)庫中的10幅和8幅參考視頻分別進行處理,其處理包括:①對每幅參考視頻采用H.264壓縮,其壓縮后比特率分別為200,300,500,800,1 000,1 500,2 000和3 000 kbps;②對壓縮后的視頻分別加緩沖時延處理,時延參數(shù)采用上述的80組參數(shù)(ID,ABD,NB);則分別得到80幅(源自LIVE庫)和64幅(源自VIPSL庫)失真視頻。
實驗測試:采用11位觀察者對上述失真視頻進行主觀實驗,得到其MOS分?jǐn)?shù),并采用所提模型MCPBD(式(15))對其進行計算,得到客觀質(zhì)量評價分?jǐn)?shù)。最后進行主客觀質(zhì)量評價分?jǐn)?shù)相關(guān)性分析,計算描述性能的4個相關(guān)性參數(shù)值,即PLCC,SROCC,RMSE和OR,并做兩分?jǐn)?shù)之間的散點圖,從而分析所提模型的性能。其結(jié)果如圖3。
從圖3中的實驗結(jié)果可得,無論是從散點圖上的直接主觀分析,還是分析4個參數(shù)上的數(shù)據(jù)結(jié)果,均表明實驗得出了較好的視頻質(zhì)量評價效果,其精度較高,其PLCC和SROCC值均在0.9以上。則表明,所提模型是一種較優(yōu)的VQA模型。
圖3 采用所提的MCPBD模型對建立的數(shù)據(jù)庫視頻進行質(zhì)量評價的分?jǐn)?shù)與主觀MOS之間的相關(guān)性分析Fig.3 Analyzing the correlation between the scores of evaluating videos built two databases by the MCPBD model and the subjective MOS
以上涉及的主觀實驗,為了減小誤差,所有觀察者首先按照視頻序號測試一遍所有待測視頻,再反序測試一遍,最后隨意挑選序號測試一遍,按3遍所有觀察者質(zhì)量評價分?jǐn)?shù)求平均,其平均值即為每個視頻的MOS值。如上述11位觀察者,即每個視頻的MOS值是33個質(zhì)量評價分?jǐn)?shù)的平均值。
3.2.2 基于開源數(shù)據(jù)庫的實驗測試驗證
為了更有效的說明所提模型的性能,采用3個開源數(shù)據(jù)庫中的視頻進行測試和驗證,其選擇的視頻分別如下。LIVE:LIVE Stall Mobile VQ DatabaseⅡ[24],共174個 失真視頻 數(shù)據(jù);VQEG:VQEG HDTV,共168個失真視頻數(shù)據(jù)[5];IRCCyN:SD視頻,共100個失真視頻數(shù)據(jù)[4]。實驗得到視頻質(zhì)量客觀評價分?jǐn)?shù),結(jié)合數(shù)據(jù)庫中的主觀視頻質(zhì)量評價分?jǐn)?shù)MOS,作出散點圖,并計算4個參數(shù)值,其結(jié)果如圖4。
圖4 采用所提方法MCPBD評價3個開源數(shù)據(jù)庫中視頻的分?jǐn)?shù)與主觀VQA分?jǐn)?shù)之間的相關(guān)性分析Fig.4 Analyzing correlation between the subjective VQA scores and the scores of evaluating videos in three open source databases by the proposed MCPBD method
實驗測試中,由于在3個數(shù)據(jù)庫中選用不同參數(shù)的失真視頻,如LIVE和VQEG是HD視頻,IRCCyN中選用的是SD視頻,而所提模型構(gòu)建時是采用標(biāo)清視頻中的相關(guān)參數(shù),則需要通過兩類視頻參數(shù)之間的關(guān)系,將待評價視頻中的相關(guān)參數(shù)對應(yīng)到所提VQA模型中所需的特征參數(shù),從而得出其質(zhì)量分?jǐn)?shù),如BR需要按照BR=BRHD/((1 920×1 080)/(768×432))的方法來換算;中斷次數(shù)需要先轉(zhuǎn)換為中斷頻率,再計算在10 s內(nèi)的中斷次數(shù)來代入所提模型中;中斷平均時長需要相對于整個視頻時長而言來量化大??;對于沒有中斷的視頻,取其中斷參數(shù)為零;對于transmission errors視頻失真,VQEG中按照丟包率和誤碼率模擬,則在計算其質(zhì)量時,將其丟包和誤碼率設(shè)置為卡頓中斷占該段視頻的比例。另外,在作圖4(a)的過程中,LIVE Stall Mobile DatabaseⅡ數(shù)據(jù)庫中提供的視頻質(zhì)量分?jǐn)?shù)為DMOS值;為了與圖3的結(jié)果一一對應(yīng),按照數(shù)據(jù)庫中給定的最大DMOS值為100,最小為0,將DMOS按照MOS=100-DMOS的形式轉(zhuǎn)換為MOS值。圖中的曲線經(jīng)過logistic和非線性擬合回歸分析,結(jié)果表明采用3次方的非線性回歸時效果最佳。
圖4的實驗結(jié)果表明,采用所提模型MCPBD對3個視頻庫中的視頻進行的質(zhì)量評價,其精度完全可以達到PLCC值0.877 3以上,SROCC值0.833 6以上,而且從主觀上,散點圖的一致性同樣表現(xiàn)較好。則表明,所提模型不僅精度較高,而且具有較好的泛化性能。
在VQA研究中,VQA模型的性能分析非常重要,關(guān)系到其應(yīng)用價值;要求其模型不僅具有較高的精度,而且還要求具有較好的泛化性能和較低的復(fù)雜性。為此,對所提MCPBD模型的精度、復(fù)雜性和泛化性能進行分析,并與多種現(xiàn)有常見VQA模型的性能進行對比。
為了說明所提模型的精度及其優(yōu)勢,基于精度參數(shù)PLCC和SROCC值,將所提模型與常見的和最近提出的全參考(Full Reference,F(xiàn)R)和無參考的共17種VQA模型的評價精度進行對比分析,其結(jié)果如表4和表5。
表4 所提模型MCPBD與6種現(xiàn)有FR-VQA模型的精度參數(shù)PLCC和SROCC值的對比Tab.4 Comparing the accuracy PLCC and SROCC values of the proposed model MCPBD with those of 6 existing FRVQA models
表5 所提模型MCPBD與11種現(xiàn)有NR-VQA模型的精度參數(shù)PLCC和SROCC值的對比Tab.5 Comparing the accuracy PLCC and SROCC values of the proposed model MCPBD with those of 11 existing NRVQA models
17種 模 型 中,PSNR,MS-SSIM[25],VSNR[26],VQM[27],MOVIE[28]和ST-MAD[29]是全參考VQA(FR-VQA)模 型,V-BLIINDS[8],VCORNIA[9],VQAUCA[10],NVSM[30],3DDCT[31],C-VQA[32],NR-DCT[33],TRR-QoE[34],QAIWV[35],COME[4]和BRVPVC[4]為 無 參 考VQA(NR-VQA)模型。
表4和表5中,QAIWV[35]是針對LIVE視頻數(shù)據(jù)庫中LIVE-Qualcomm子庫的實驗結(jié)果,其余16種現(xiàn)有模型的精度值均來自于LIVE數(shù)據(jù)庫 中 的150幅 開 源 視 頻 評 價 后 的 結(jié) 果[4,8-10,25-35]。從兩個表中的結(jié)果可以得出,3D-DCT,VBLINDS,VQAUCA及文中所提模型MCPBD的精度是該18種方法中最高的4種方法,但3DDCT,V-BLINDS和VQAUCA是基于機器學(xué)習(xí)的VQA方法,其精度雖高,但其中間擬合過程、物理意義、模型構(gòu)建方式等不詳,完全是黑匣子形式,存在一定弊端。所提模型MCPBD是結(jié)合視覺特性、視頻內(nèi)容和傳輸特征所提出的方法,具有明確的意義,且精度同樣較高,所以更具有參考價值。對于最近提出的QAIWV和TRRQoE模型,QAIWV主要針對野外視頻的質(zhì)量評估,其目前是一個具有挑戰(zhàn)性的問題,但其精度PLCC值能達仍到0.732;TRR-QoE主要在結(jié)合深度神經(jīng)網(wǎng)絡(luò)、視頻內(nèi)容和視覺感知方面做了深入探討,其精度PLCC值達到0.839;其研究工作對VQA的研究具有較好的指導(dǎo)意義。
泛化性能即要求所提VQA模型針對不同數(shù)據(jù)庫的視頻質(zhì)量評價,仍能具有較高的評價精度[1,4,6-7,36-37]。為此通過兩個方面進行說明:(1)不同數(shù)據(jù)庫的VQA評價精度對比分析,(2)模型擬合和驗證過程理論分析。
4.2.1 不同數(shù)據(jù)庫的VQA評價精度對比分析
結(jié) 合4個 開 源 數(shù) 據(jù) 庫,即LIVE[24],VQEG[5],IRCCyN[4]和Lisbon[4],基于精度參數(shù)PLCC和SROCC,將所提模型MCPBD評價結(jié)果的精度與以上現(xiàn)有17種模型中精度較高的7種模型的精度進行對比,每個模型對比的精度至少來自于2個數(shù)據(jù)庫的評價結(jié)果,其結(jié)果如表6。
表6 在4個開源數(shù)據(jù)庫中所提模型與7種現(xiàn)有VQA模型的精度參數(shù)PLCC和SROCC值的對比Tab.6 Comparing the accuracy PLCC and SROCC values of the proposed model with those of seven existing models in four open source databases
結(jié)合表4和表5,分析表6的對比結(jié)果,可得:(1)精度上,所提模型在3個開源數(shù)據(jù)庫LIVE,IRCCyN,VQEG,以及自建的數(shù)據(jù)庫Our Database中 的 精 度PLCC和SROCC均 在0.87和0.83以上;對于3個開源數(shù)據(jù)庫中的評價,所提模型的VQA精度參數(shù)值均是8種模型中的最高或次高,且其是17種現(xiàn)有VQA模型中精度最高或次高。(2)評價結(jié)果穩(wěn)定性上,所提VQA模型在3個開源數(shù)據(jù)庫中的精度均表現(xiàn)出了較好的結(jié)果,3個數(shù)據(jù)庫中評價精度較高,且波動不大;而VQM,MOVIE,ST-MAD,D-DCT,V-BLIINDS,VQAUCA模型在不同數(shù)據(jù)庫中評價的精度參數(shù)值變化較大,表現(xiàn)了不穩(wěn)定性,泛化性能稍差;相對于所提模型,BRVPVC模型的泛化性能和精度次之。從不同數(shù)據(jù)庫中的評價精度和評價穩(wěn)定性上看,所提模型表現(xiàn)了較好的泛化性能。
4.2.2 模型擬合和驗證過程理論分析
通過分析第2和第3節(jié)中的模型擬合和驗證測試過程可得,所提模型MCPBD的精度是在訓(xùn)練樣本和測試樣本不同數(shù)據(jù)庫或同一數(shù)據(jù)庫不同比例情況下得出的結(jié)果,對于所構(gòu)建的兩個數(shù)據(jù)庫,其VQA精度PLCC和SROCC值均在0.9以上;而且在模型的擬合過程中,對其子模型(延時部分)進行了不同數(shù)據(jù)庫的測試驗證,其精度均能超過0.9以上。綜合擬合過程和驗證結(jié)果表明,所提VQA模型具有較好的泛化性能。
4.2.3 復(fù)雜性
模型復(fù)雜性要求所提模型盡可能簡單方便、實用性強。在VQA研究中,一般采用VQA模型算法運算時間來度量其復(fù)雜性[1,6-7,38]。則對所提MCPBD模型進行評價實驗,取其算法平均耗時大小描述其復(fù)雜性;同時將其結(jié)果與9種現(xiàn)有VQA模型的復(fù)雜性進行對比,其9種模型為:PSNR,MS-SSIM[25],VSNR[26],VQM[27],MOVIE[28],ST-MAD[29],V-CORNIA[9],V-BLIINDS[8]和COME[4]。為了對比的需要,采用每種VQA模型平均評價10幀時的算法運行耗時來比較。其中,實驗環(huán)境為:64位操作系統(tǒng)的筆記本,其處理 器 為Intel(R)Core(TM)i7-8550U CPU@1.8 Ghz 1.99 GHz;為了避免分辨率的問題,采用相同數(shù)據(jù)庫中的視頻進行實驗,其結(jié)果如圖5。
圖5 所提模型MCPBD與9種現(xiàn)有VQA模型的運算耗時對比Fig.5 Comparing the operation time of the proposed model MCPBD with that of 9 VQA models
從模型復(fù)雜性對比的結(jié)果上看,所提模型的算法復(fù)雜性處于10種模型中的較好水平,其明顯低于VSNR,VQM,MOVIE,ST-MAD,V-CORNIA和V-BLIINDS的算法復(fù)雜性,但比PSNR,SSIM和COME的 復(fù) 雜 性 高。
從理論上分析,所提MCPBD模型要求提取視頻幀圖像的紋理、對比度和運動矢量3個特征量以及3種時延信息,從總體上看,所提取的信息和特征量數(shù)目并不多;且實際應(yīng)用中只需要計算提取幀圖像紋理(及其視覺感知)、對比度和運動矢量3個特征值;時延值只需要依據(jù)視頻傳輸?shù)臅r間戳,就可獲得時延數(shù)據(jù),且代入模型中,其計算量非常小,所以時延特征的計算幾乎不占時間。另外,對于幀圖像紋理、對比度和運動矢量3個特征,在實際視頻傳輸中,相鄰幾幀或更多幀的圖像的紋理特征、對比度和運動矢量非常接近,特別是對于新聞類、報道類以及娛樂類等節(jié)目視頻,所以,在多數(shù)情況下,可以認(rèn)為相鄰多幀圖像具有相同或相近的內(nèi)容復(fù)雜度、對比度和運動矢量,所以如此處理,不需要計算每一幀的3個特征值,從而能大大減小計算量,降低模型算法的復(fù)雜性。
本文主要研究了考慮視頻內(nèi)容、編解碼比特率和傳輸時延影響時的視頻質(zhì)量評價方法。在該方法中,首先探討了編解碼比特率對視頻質(zhì)量的影響,構(gòu)建了僅考慮比特率時的VQA模型;然后,采用視頻幀圖像紋理復(fù)雜性、圖像的局部對比度、時域信息及其視覺感知來描述視頻內(nèi)容,構(gòu)建了視頻內(nèi)容感知模型,并以此探討了視頻內(nèi)容及其視覺感知對視頻質(zhì)量的影響;接著,結(jié)合視頻傳輸中時延特征,構(gòu)建由于傳輸時延失真而產(chǎn)生的視頻質(zhì)量下降的質(zhì)量評價模型;最后,采用凸優(yōu)化方法,通過一定的權(quán)重系數(shù)綜合3個模型,從而提出了一種綜合考慮視頻內(nèi)容和傳輸失真的NR-VQA模型MCPBD。并采用多個建立的視頻數(shù)據(jù)庫和開源數(shù)據(jù)庫LIVE StallⅡ中的數(shù)據(jù)和視頻進行了測試驗證,且與17種現(xiàn)有VQA模型從精度、復(fù)雜性和泛化性能上進行了對比分析;結(jié)果表明,所提模型的精度PLCC值均超過0.88,SROCC值均超過0.83,表現(xiàn)出了較好的泛化性能,且復(fù)雜度比較低。綜合模型精度、泛化性能、復(fù)雜性3個方面的性能參數(shù)表明,所提模型是一個性能比較優(yōu)異的視頻質(zhì)量評價模型。