陳 慧,李朝鋒
江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122
立體圖像的附加維度(深度和視差)[1],使得在評(píng)價(jià)其質(zhì)量時(shí)不能只簡(jiǎn)單地考慮左視圖和右視圖。人類的眼睛作為圖像的最后接受者,主觀評(píng)價(jià)被認(rèn)為是最可靠的感知圖像質(zhì)量的評(píng)價(jià)方法[2]。主觀評(píng)價(jià)是由觀察者對(duì)立體圖像的主觀感受進(jìn)行評(píng)價(jià),準(zhǔn)確性較高,但費(fèi)時(shí)費(fèi)力,且易受到觀察者的情緒、疲勞度和測(cè)試環(huán)境等因素的影響,在實(shí)際應(yīng)用中受到嚴(yán)重的限制,為此客觀質(zhì)量評(píng)價(jià)必不可少。
客觀立體圖像質(zhì)量評(píng)價(jià)根據(jù)是否有原始圖像作為參考,可以分為3類:全參考(full reference,F(xiàn)R)立體圖像質(zhì)量評(píng)價(jià)方法、半?yún)⒖迹╮educed reference,RR)立體圖像質(zhì)量評(píng)價(jià)方法和無參考(no reference,NR)/盲(blind)立體圖像質(zhì)量評(píng)價(jià)方法。
全參考立體圖像質(zhì)量評(píng)價(jià)需要原始圖像的全部信息。Benoit等人[3]提出了一種立體圖像質(zhì)量評(píng)價(jià)方法,采用一些2D的全參考質(zhì)量評(píng)價(jià)算法計(jì)算左參考圖像和左失真的圖像、右參考圖像和右失真圖像以及參考圖像和失真圖像之間的視差圖的圖像質(zhì)量得分。然后將這些得分組合得到立體圖像的質(zhì)量得分。You等人[4]將多種2D圖像質(zhì)量評(píng)價(jià)方法應(yīng)用在評(píng)價(jià)立體圖像的圖像對(duì)和視差圖中,并采用了多種方法計(jì)算視差圖。證明了視差是立體視覺的重要因素。Geng等人[5]提出了一種基于獨(dú)立成分分析和雙目組合的全參考度量,計(jì)算參考圖像和失真圖像的圖像特征相似度和局部亮度一致性。
半?yún)⒖紙D像質(zhì)量評(píng)價(jià)方法僅需要參考圖像的部分信息。Hewage等人[6]通過利用深度圖的邊緣信息提出了半?yún)⒖紙D像質(zhì)量評(píng)價(jià)方法。Ma等人[7]通過評(píng)估重組離散余弦變換域中的失真,提出了用于立體圖像的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)方法。Wang等人[8]依賴于輪廓域中的自然圖像統(tǒng)計(jì)來設(shè)計(jì)用立體圖像的半?yún)⒖荚u(píng)價(jià)方法。
在實(shí)際應(yīng)用中,由于參考圖像通常難以獲得,無參考的圖像質(zhì)量評(píng)價(jià)方法顯然更有價(jià)值。Chen等人[1]從立體圖像的獨(dú)眼圖中提取2D自然場(chǎng)景統(tǒng)計(jì)特征,從視差圖和不確定性圖中提取3D的特征,將這些特征組合預(yù)測(cè)得分,取得了能和全參考圖像質(zhì)量評(píng)價(jià)相提并論的性能。Sazzad等人[9]使用立體圖像對(duì)的局部特征的感知差異,開發(fā)了基于時(shí)空分割的無參考立體圖像質(zhì)量評(píng)價(jià)方法。Akhter等人[10]從立體圖像對(duì)和視差圖中提取特征,采用邏輯回歸模型來預(yù)測(cè)質(zhì)量得分。Ryu和Sohn[11]提出了一種基于雙目質(zhì)量感知的無參考立體圖像質(zhì)量評(píng)價(jià)算法。對(duì)在模糊性和塊效應(yīng)的情況下人類視覺系統(tǒng)的雙目質(zhì)量感知進(jìn)行建模。Shao等人[12]構(gòu)造了雙目導(dǎo)引質(zhì)量查詢和視覺碼本,通過簡(jiǎn)單的合并過程實(shí)現(xiàn)無參考圖像質(zhì)量評(píng)價(jià)。Lv等人[13]提出了一種基于雙目自相關(guān)和雙目合成的無參考立體圖像質(zhì)量評(píng)價(jià)算法。Tian等人[14]對(duì)立體圖像的左右視圖進(jìn)行Gabor濾波提取單目特征,對(duì)獨(dú)眼圖提取雙目特征,將這些特征放入深度信念網(wǎng)絡(luò)預(yù)測(cè)立體圖像的質(zhì)量得分。Li等人[15]提出了一種基于雙目特征聯(lián)合的無參考立體圖像質(zhì)量評(píng)價(jià)算法,在對(duì)稱失真和非對(duì)稱失真庫上都有較好的主觀一致性。
這些無參考質(zhì)量度量大多基于手工制造的特征來表示立體圖像的特性,手工設(shè)計(jì)圖像特征困難復(fù)雜,需要豐富的經(jīng)驗(yàn)和知識(shí)。Kang等人[16]在討論CNN(convolution neural network)用于評(píng)價(jià)2D圖像質(zhì)量的能力方面做了開創(chuàng)性的工作,將特征提取和學(xué)習(xí)過程結(jié)合在一起。Bosse等人[17]設(shè)計(jì)了一種深度的CNN,用于對(duì)2D圖像進(jìn)行質(zhì)量評(píng)價(jià),并且取得了很好的結(jié)果。Zhang等人[18]設(shè)計(jì)了一個(gè)CNN模型,將亮度對(duì)比度歸一化后的左視圖、右視圖和視差圖作為網(wǎng)絡(luò)的輸入,用于評(píng)價(jià)立體圖像質(zhì)量。不同于文獻(xiàn)[18],采用切塊后的彩色圖像直接作為網(wǎng)絡(luò)的輸入,設(shè)計(jì)了12層的深度CNN模型,用于無參考的立體圖像質(zhì)量評(píng)價(jià)。
立體圖像與2D圖像不同,除了要同時(shí)考慮左右視圖的質(zhì)量,還需要將立體的深度信息考慮進(jìn)去。因此,本文的模型將切塊后的立體圖像的左視圖、右視圖和視差圖作為網(wǎng)絡(luò)的輸入,以便網(wǎng)絡(luò)能夠更好地感知立體信息。本文提出的深度CNN模型結(jié)構(gòu)如圖1所示。三通道的CNN分別輸入切塊后彩色的左視圖、右視圖和視差圖,每個(gè)通道后面接有12個(gè)卷積層來提取特征,在每?jī)纱尉矸e后進(jìn)行一次池化層操作,以降低特征圖的維數(shù)。然后將3個(gè)通道得到的特征向量進(jìn)行線性拼接,得到的拼接向量與一個(gè)具有512個(gè)節(jié)點(diǎn)全連接層連接,最后在輸出節(jié)點(diǎn)預(yù)測(cè)圖像的質(zhì)量得分。
在立體圖像質(zhì)量評(píng)價(jià)算法中,視差圖像比立體圖像的左視圖和右視圖更重要,原因是視差圖像不僅考慮了圖像的內(nèi)容,而且還考慮了立體圖像的深度信息和視差信息[9]。在本文中,視差圖采用左右視圖直接相減獲得:
Fig.1 Framework of proposed deep CNN圖1 本文提出的深度CNN模型結(jié)構(gòu)圖
Fig.2 Stereoscopic image sample圖2 失真圖像示例
其中,Il和Ir分別為左視圖和右視圖;Id為左右圖像的視差圖。圖2為圖像庫中的一組左右視圖以及對(duì)應(yīng)的視差圖。對(duì)得到的視差圖和立體圖像的左視圖與右視圖進(jìn)行不重疊的切塊處理,圖像塊的大小取32×32。立體圖像的質(zhì)量得分作為每個(gè)圖像塊的質(zhì)量得分。然后將對(duì)應(yīng)的圖像塊分別作為3個(gè)通道的輸入同時(shí)輸入到網(wǎng)絡(luò)中進(jìn)行計(jì)算。
不同于文獻(xiàn)[18]中將切塊后的圖像進(jìn)行局部亮度對(duì)比度歸一化后再輸入網(wǎng)絡(luò),本文采用切塊后的彩色圖像直接作為網(wǎng)絡(luò)的輸入,這樣可以最大程度地保證圖像的所有信息都輸入到網(wǎng)絡(luò),使網(wǎng)絡(luò)更全面地學(xué)習(xí)到相應(yīng)的特征。
卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心,通過圖像與卷積核進(jìn)行卷積計(jì)算和特征提取,具有局部連接和權(quán)值共享特征的屬性。卷積核的大小就是對(duì)圖像的感受視野大小,當(dāng)卷積過小時(shí),無法提取有效的特征,而當(dāng)卷積核過大時(shí),提取的特征的復(fù)雜度可能會(huì)超過后面網(wǎng)絡(luò)的表示能力。因此設(shè)置適當(dāng)?shù)木矸e核對(duì)于提高卷積神經(jīng)網(wǎng)絡(luò)的性能至關(guān)重要。本文采用的卷積核的大小為3×3。卷積的計(jì)算過程定義如下:
其中,ωk和bk為第k個(gè)濾波器的卷積核與偏置;xij是與濾波器進(jìn)行卷積的局部圖像塊;hij是得到的第k個(gè)特征圖。
池化層是卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分,通過減少卷積層之間的連接,降低運(yùn)算復(fù)雜度。在本文中,采用最大池對(duì)特征圖進(jìn)行子采樣。最大池過程定義如下:
其中,Ω為最大池的局部窗口,模型中的池化窗口大小為2×2,這樣每一個(gè)特征圖經(jīng)過池化運(yùn)算后,數(shù)據(jù)量將減少一半;表示卷積后的第k個(gè)特征圖;表示第k個(gè)特征圖經(jīng)過池化運(yùn)算后的特征值。
在經(jīng)過多層的卷積池化操作后,3個(gè)通道分別可以得到3個(gè)一維的特征向量,將這3個(gè)特征向量進(jìn)行如下線性拼接:
其中,η表示組合后的特征向量;α、β、λ分別表示左視圖、右視圖、視差圖3個(gè)通道得到的特征向量。然后,將拼接后的向量與一個(gè)全連接層連接,用于計(jì)算圖像的質(zhì)量得分。
由于神經(jīng)網(wǎng)絡(luò)的輸入通常是固定尺寸大小的,而圖像庫中的圖像尺寸有時(shí)不一定相同,因此將原來的彩色圖像切塊為32×32大小的圖像塊作為輸入。因?yàn)長(zhǎng)IVE 3D圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫中的圖片失真為均勻失真,所以每個(gè)輸入塊被賦予與其原圖像相同的質(zhì)量分?jǐn)?shù),最后預(yù)測(cè)的圖像質(zhì)量得分為一幅圖像所有圖像塊質(zhì)量得分的均值。
網(wǎng)絡(luò)的參數(shù)配置如表1所示。在所有的卷積層中,采用的卷積核大小均為3×3,并且使用ReLUs(rectified linear units)作為激活函數(shù)。卷積過程的補(bǔ)零處理可以讓卷積層的輸入與輸出保持相同的尺寸大小。所有最大池的窗口大小為2×2。在全連接層,對(duì)輸出的值進(jìn)行dropout處理,將輸出的值按照50%的概率設(shè)置為0,通過對(duì)信號(hào)的隨機(jī)屏蔽處理,可以防止網(wǎng)絡(luò)訓(xùn)練出現(xiàn)過擬合現(xiàn)象。
Tabel 1 Parameters of CNN表1 網(wǎng)絡(luò)參數(shù)配置
對(duì)于一個(gè)質(zhì)量得分為qt的圖像,假設(shè)被切塊后共有Np個(gè)圖像塊。預(yù)測(cè)的圖像質(zhì)量得分q為所有圖像塊經(jīng)過CNN后輸出值yi的均值,即:
本文模型中的目標(biāo)函數(shù)定義為:
采用Adam算法優(yōu)化網(wǎng)絡(luò)參數(shù),最小化目標(biāo)函數(shù),其中學(xué)習(xí)率設(shè)置為r=0.000 1。每次迭代隨機(jī)從訓(xùn)練集中挑選32個(gè)圖像塊輸入網(wǎng)絡(luò)。動(dòng)量momentum設(shè)置為0.9。
本文采用LIVE實(shí)驗(yàn)室提供的立體圖像測(cè)試庫Ⅰ和Ⅱ作為實(shí)驗(yàn)數(shù)據(jù)。LIVE 3D PhaseⅠ數(shù)據(jù)庫包括20種圖像,5種失真類型,總共365組失真圖像和參考圖像。其中包括Gaussian blur(BLUR)失真45組,JPEG2000 compression(JP2K)、JPEG compression(JPEG)、white noise(WN)和fast fading(FF)失真各80組以及每組失真立體圖像的DMOS(difference mean opinion score)值。LIVE 3D PhaseⅡ數(shù)據(jù)庫包含8對(duì)原始立體圖像和360幅對(duì)稱失真和非對(duì)稱失真立體圖像對(duì),失真類型為Gblur、WN、JPEG、JP2K和FF共5種失真,并給出每組失真立體圖像的DMOS值。
為了評(píng)估模型的性能,選取兩種評(píng)價(jià)指標(biāo):斯皮爾曼等級(jí)相關(guān)系數(shù)SROCC(Spearman rank order correlation coefficient)和皮爾遜線性相關(guān)系數(shù)PLCC(Pearson linear correlation coefficient)。SROCC主要用于測(cè)量?jī)山M順序樣本的次序相關(guān)系數(shù),即質(zhì)量得分單調(diào)性的指標(biāo);PLCC主要用于客觀評(píng)價(jià)得分與主觀得分之間的線性相關(guān)性。SROCC和PLCC的值區(qū)間都為[-1,1],其絕對(duì)值越接近于1表明主客觀之間的相關(guān)性越好。
實(shí)驗(yàn)中隨機(jī)選取數(shù)據(jù)庫中80%的參考圖像對(duì)應(yīng)的所有失真圖像用于訓(xùn)練,剩余20%的參考圖像對(duì)應(yīng)失真圖像用來進(jìn)行測(cè)試,這樣保證學(xué)習(xí)訓(xùn)練圖像與測(cè)試圖像在內(nèi)容上是完全獨(dú)立的。
表2和表3列出了不同方法在LIVE 3D PhaseⅠ數(shù)據(jù)庫上得到的SROCC值和LCC值。為了使實(shí)驗(yàn)所得到的結(jié)果便于觀察和對(duì)比,將實(shí)驗(yàn)結(jié)果中的最高值進(jìn)行加粗顯示。表中的全參考度量方法用斜體標(biāo)出。
Table 2 SROCC on LIVE 3D PhaseⅠ表2 在LIVE 3D PhaseⅠ數(shù)據(jù)庫上的SROCC
Table 3 LCC on LIVE 3D PhaseⅠ表3 在LIVE 3D PhaseⅠ數(shù)據(jù)庫上的LCC
由表2和表3分析可以看出,本文模型在單一JP2K、WN、FF失真類型的結(jié)果最好,在JPEG失真類型表現(xiàn)較差。其他模型對(duì)于JPEG失真的預(yù)測(cè)結(jié)果也不是很理想,這是因?yàn)樵贚IVE 3D PhaseⅠ數(shù)據(jù)庫中,對(duì)于JPEG失真,其DMOS的范圍是-10到20,相比于其他失真類型范圍更窄,這就意味著更少的感知失真和較小的感知差異[9]。如何提高模型對(duì)JPEG失真圖像質(zhì)量預(yù)測(cè)的準(zhǔn)確性是將來需要研究的問題。
表4和表5列出了不同方法在LIVE 3D PhaseⅡ數(shù)據(jù)庫上得到的SROCC值和LCC值。由表4和表5可以看出,模型在LIVE 3D PhaseⅡ庫的JP2K和JPEG失真類型上的結(jié)果略低于其他算法,但在WN、BLUR和FF失真上效果比其他算法都好。圖3和圖4為本文算法在LIVE 3D PhaseⅠ和PhaseⅡ質(zhì)量評(píng)價(jià)預(yù)測(cè)值與DMOS的散點(diǎn)分布圖。由散點(diǎn)圖的分布可以看出,本文提出的算法具有較好的主觀一致性。
Table 4 SROCC on LIVE 3D PhaseⅡ表4 在LIVE 3D PhaseⅡ數(shù)據(jù)庫上的SROCC
Table 5 LCC on LIVE 3D PhaseⅡ表5 在LIVE 3D PhaseⅡ數(shù)據(jù)庫上的LCC
為了說明視差圖的有效性,將本文方法與只有兩通道的深度CNN進(jìn)行實(shí)驗(yàn)對(duì)比。兩通道的深度CNN模型結(jié)構(gòu)輸入只有左視圖和右視圖,沒有視差圖,其余結(jié)構(gòu)和三通道的CNN相同。表6和表7為兩通道模型在LIVE 3D PhaseⅠ數(shù)據(jù)庫上得到的SROCC值和LCC值。由表6和表7可以看出,有視差圖輸入的模型比沒有視差圖輸入的模型具有更好的主觀一致性,證明在立體圖像質(zhì)量評(píng)價(jià)算法中視差圖的重要性。
Fig.3 Result on LIVE 3D PhaseⅠ圖3 在LIVE 3D PhaseⅠ庫的預(yù)測(cè)散點(diǎn)圖
Fig.4 Result on LIVE 3D PhaseⅡ圖4 在LIVE 3D PhaseⅡ庫的預(yù)測(cè)散點(diǎn)圖
Table 6 SROCC comparison between 2-channel and 3-channel表6 兩通道和三通道CNN的SROCC對(duì)比
Table 7 LCC comparison between2-channel and 3-channel表7 兩通道和三通道CNN的LCC對(duì)比
對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模型來說,其訓(xùn)練時(shí)間與網(wǎng)絡(luò)的深度以及機(jī)器設(shè)備的型號(hào)密切相關(guān)。更深的網(wǎng)絡(luò)層數(shù)意味著更多的權(quán)重參數(shù),也就需要更多的時(shí)間進(jìn)行計(jì)算。本文提出的模型由3個(gè)通道構(gòu)成,每次每個(gè)通道輸入32張切塊后的圖片,即每次迭代輸入96張圖像塊。訓(xùn)練采用caffe框架,實(shí)驗(yàn)采用的GPU型號(hào)為GTX660,每進(jìn)行1 000次迭代需要耗時(shí)120 s。相比于其他算法耗時(shí)略長(zhǎng),但隨著計(jì)算機(jī)顯卡的計(jì)算能力的提升,其訓(xùn)練時(shí)間可以大大縮短從而提升算法的效率。
本文提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的立體圖像質(zhì)量評(píng)價(jià)模型。將立體圖像的左視圖、右視圖和視差圖的彩色圖像直接輸入網(wǎng)絡(luò),每個(gè)通道由12層的深度網(wǎng)絡(luò)結(jié)構(gòu)組成,通過卷積層與最大池的多層堆疊,直接學(xué)習(xí)到立體圖像的感知特征,避免了傳統(tǒng)方法對(duì)于左右視圖和視差圖的復(fù)雜處理,能有效度量立體圖像質(zhì)量。在LIVE 3D PhaseⅠ庫和LIVE 3D PhaseⅡ庫上的實(shí)驗(yàn)結(jié)果表明,該模型能夠較好地預(yù)測(cè)人眼對(duì)立體圖像的主觀感知。