李國濤,楊忠,張馳,朱儻,許昌亮
南京航空航天大學(xué) 自動化學(xué)院,江蘇 南京 211106
在過去的幾年里,隨著計算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展速度大大加快,多媒體技術(shù)的發(fā)展也有較大的進(jìn)步。然而,在多媒體系統(tǒng)中,數(shù)字圖像在采集、處理、壓縮、存儲和傳輸?shù)冗^程中存在的失真會導(dǎo)致圖像質(zhì)量的下降[1]。因此,在圖像處理領(lǐng)域中,對一張圖像的質(zhì)量進(jìn)行評分已然成為一個關(guān)鍵的課題研究。
圖像質(zhì)量評價( image quality assessment,IQA)可用于如圖像去噪、圖像重建、圖像合成和視頻編碼等許多圖像處理應(yīng)用當(dāng)中。根據(jù)利用參考圖信息的情況,IQA 分為全參考(full-reference)、半?yún)⒖迹╮educed-reference)和無參考(no-reference)3 種類型[2]。其中,第3 種無參考的圖像質(zhì)量評價(no-reference image quality assessment, NR-IQA)算法是最具有廣泛適用性的,原因是實際應(yīng)用中往往沒有無失真的圖像可供全參考或半?yún)⒖嫉乃惴ㄗ鳛閰⒖肌?/p>
早期的NR-IQA 方法利用從圖像中提取的一些基于經(jīng)驗觀察的特征[3-6]來評價圖像質(zhì)量,但這種方法效果一般,這就表明了這些手工特征存在著一定的局限性。而深度學(xué)習(xí)方法可以使用卷積層來提取圖像的特征,然后利用全連接層將特征映射到質(zhì)量分?jǐn)?shù)[7-9]。Kang 等[10]提出的IQA_CNN利用卷積神經(jīng)網(wǎng)絡(luò)獲取圖像特征,并將圖像分割成若干圖像塊來訓(xùn)練模型從而實現(xiàn)圖像質(zhì)量評價。Liu 等[11]提出RankIQA 對網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前,首先對失真圖像集的質(zhì)量進(jìn)行了排序,才用于網(wǎng)絡(luò)的訓(xùn)練,然后為了訓(xùn)練更深的網(wǎng)絡(luò),利用了遷移學(xué)習(xí)技術(shù)。通過生成圖像這一方式,RankIQA模型可以實現(xiàn)訓(xùn)練數(shù)據(jù)的增加。由于NR-IQA 沒有參考圖作對比,Ren 等[12]提出的RAN4IQA 首先生成未失真的原圖,然后用類似全參考的評價方式獲得質(zhì)量分?jǐn)?shù),即利用了生成式對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)的思想,也取得了不錯的效果。Su 等[13]提出了一個自適應(yīng)網(wǎng)絡(luò)架構(gòu)的hyperIQA,該方法為了提取圖像的深層語義特征,用到了ResNet50 網(wǎng)絡(luò),然后利用超網(wǎng)絡(luò)建立起感知規(guī)則,該感知規(guī)則又被應(yīng)用于質(zhì)量預(yù)測網(wǎng)絡(luò)。Yan 等[14]雖然也提出用2 個分流網(wǎng)絡(luò)來增強(qiáng)對圖像特征的提取,取得了一定的效果,但是由于其將圖像分割成32×32 的小圖像塊而過多忽略了整體圖像本身所含有的信息,且為了反映圖像結(jié)構(gòu)而使用的梯度圖在失真程度較弱時變化不明顯,因此存在一定的局限性。
基于以上分析,考慮到圖像質(zhì)量評價數(shù)據(jù)集的數(shù)據(jù)量不充足以及圖片失真非均勻性的問題,本文針對無參考圖像質(zhì)量評價的問題提出了一種基于Gabor 濾波的并行網(wǎng)絡(luò)深度學(xué)習(xí)算法,并在LIVE 和TID2013 數(shù)據(jù)集上進(jìn)行實驗,以證明該算法的有效性。
考慮圖像的失真可能存在著非均勻性,即在輸入圖像的不同部分中,失真類型和失真程度通常會有所不同。針對該問題,本文利用可提取空間局部頻域特征的Gabor 濾波器[15]來獲取邊緣圖片。同時,針對圖像數(shù)據(jù)量的不足,采取圖片切塊的方式增大數(shù)據(jù)量以便深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)。因此,在網(wǎng)絡(luò)訓(xùn)練之前,要對圖片進(jìn)行邊緣圖像的獲取以及切塊的預(yù)處理。
Gabor 濾波器實質(zhì)上是一種小波。早在1946 年,一維Gabor 函數(shù)便由英國物理學(xué)家Gabor 率先提出。直到1980 年,將Gabor 的一維形式擴(kuò)展到二維[16]才被DAUGMAN 提出。通過設(shè)置不同的參數(shù),Gabor 濾波器可以在不同尺度、不同方向上的進(jìn)行濾波,能有效地提取圖像的邊緣特征,感知紋理信息。文獻(xiàn)[17]中的生物研究表明,哺乳動物大腦皮層存在著用于實現(xiàn)視覺機(jī)制的感受細(xì)胞,而Gabor 小波也具有這樣的性質(zhì),這和NR-IQA 領(lǐng)域追求質(zhì)量評分與人類視覺系統(tǒng)一致的目的有了共同的特性。由復(fù)正弦波調(diào)制的橢圓高斯包絡(luò)線組成的二維Gabor 濾波器,不僅對輸入圖像局部區(qū)域的頻率有著一定的敏感程度,對空間頻率也有著一定的敏感性。Gabor 函數(shù)表達(dá)式如下:
式中:
實數(shù)部分表達(dá)式為
虛數(shù)部分表達(dá)式為
不同的Gabor 參數(shù)生成的濾波器不同。本文各參數(shù)取值如下: λ為濾波器波長,取值為3; θ為濾波器方向,取值范圍是0~π; ψ為正余弦因子參數(shù)的相位偏移,取值為0; σ為Gabor 函數(shù)的高斯因子標(biāo)準(zhǔn)差,取值為1.5; γ為空間縱橫比,取值為1.2。
從圖1 和圖2 可以看出,未失真圖片在經(jīng)過Gabor 濾波器之后,獲得的邊緣特征更為細(xì)致,而失真圖像的邊緣特征相對來說就缺失了許多,這就說明了Gabor 濾波對圖像失真引起的邊緣損失比較敏感。
圖1 失真圖及其邊緣圖
圖2 未失真圖及其邊緣圖
獲取灰度圖和邊緣圖片后,考慮深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要充足的數(shù)據(jù)量,對圖像進(jìn)行切塊處理,且一張圖上切塊形成的多張新圖像塊的對應(yīng)質(zhì)量分?jǐn)?shù)也取原圖像的分?jǐn)?shù),以此達(dá)到增強(qiáng)數(shù)據(jù)集的目的。同時為了保證原圖像的每一部分都能夠作為切塊后的數(shù)據(jù)集使用,并且切塊后的圖像相互之間沒有重疊的部分。那么,切塊圖像的尺寸大小應(yīng)該是原圖像長寬的公約數(shù),所以切塊后的尺寸設(shè)為128×128。圖像切塊方式如圖3 所示,若一個數(shù)據(jù)集的圖像大小為384×384,經(jīng)切塊處理得到128×128 大小的圖像塊,可使得整體數(shù)據(jù)量擴(kuò)為原來的9 倍,便于深度網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)。
訓(xùn)練完成的模型對一張圖片進(jìn)行分?jǐn)?shù)預(yù)測時,整張圖像的質(zhì)量分?jǐn)?shù)是取其所有圖像塊分?jǐn)?shù)的平均值,公式如下:
式中:q為預(yù)測圖片的分?jǐn)?shù),Np為該圖像切割的圖像塊數(shù),xi、gi分別為輸入圖像塊的灰度圖與邊緣圖,f為由圖像塊xi、gi到質(zhì)量分?jǐn)?shù)q的映射關(guān)系。
本文旨在通過一個并行網(wǎng)絡(luò)來學(xué)習(xí)視覺外觀與圖像質(zhì)量間的復(fù)雜關(guān)系。目前,大多數(shù)的NRIQA 方法只是使用圖片的灰度圖像或者RGB 圖像作為輸入。相比之下,本文考慮了大多數(shù)失真可能導(dǎo)致圖片邊緣結(jié)構(gòu)信息損失的問題,在以灰度圖片為輸入的分支網(wǎng)絡(luò)主要學(xué)習(xí)圖像各像素的強(qiáng)度等特征的同時,也利用另一個分支網(wǎng)絡(luò)去重點學(xué)習(xí)邊緣圖像的結(jié)構(gòu)特征。由于邊緣圖像更能反映圖片中高頻分量由于失真導(dǎo)致的損失情況,如此一來,利用并行網(wǎng)絡(luò)學(xué)習(xí)到的多重融合的特征則更能反映圖像質(zhì)量的情況,再回歸預(yù)測后得到的分?jǐn)?shù)也就更貼合人類的視覺感知。
本文的特征提取網(wǎng)絡(luò)是選取改進(jìn)后的VGG16。為了在提高網(wǎng)絡(luò)擬合能力的同時,進(jìn)一步減少參數(shù),經(jīng)典的VGG16 網(wǎng)絡(luò)[18]采用了多個較小卷積核(3×3)的卷積層來增加非線性映射的數(shù)量,但是其要求輸入圖片大小224×224,而本文圖像塊大小為128×128。因此,本文只采用VGG16網(wǎng)絡(luò)前面的圖像特征提取部分。
本文的特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。該網(wǎng)絡(luò)共包含了13 個卷積層和5 個最大池化層,針對輸入128×128 大小的圖像塊,充分提取其圖像特征,最終得到圖4 中4×4×512 的圖像特征。
針對并行的特征提取網(wǎng)絡(luò)獲得的多重融合的特征,需要將其映射到與人的視覺感觀相一致的質(zhì)量分?jǐn)?shù)。NR-IQA 并行網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示,針對特征提取網(wǎng)絡(luò)從灰度圖像塊和邊緣圖像塊獲得的2 個4×4×512 的特征量,將其擴(kuò)展成2 個1×1×8 192的特征向量后,分別各自通過1 個8 192×512 的全連接層獲得2 個1×1×512 的特征向量,將2 者連接起來形成1 個1×1×1 024 的特征向量;然后經(jīng)過1 個1 024×256 的全連接層,得到1×1×256 的特征向量;最后經(jīng)過256×1 的全連接層,獲得最終的圖像質(zhì)量預(yù)測分?jǐn)?shù)。
圖5 NR-IQA 并行網(wǎng)絡(luò)
本節(jié)將所提出的NR-IQA 并行網(wǎng)絡(luò)算法在公開數(shù)據(jù)集LIVE[19]和TID2013[20]上進(jìn)行實驗來驗證其有效性。
數(shù)據(jù)集LIVE 共包含779 張失真圖像,大多數(shù)圖像大小為768×512,這些失真圖像是由25 張未失真圖像經(jīng)過5 種不同類型失真在不同失真級別上所生成的,所有圖像質(zhì)量的平均意見得分(direrential mean opin-ion score,DMOS)都在一個[0,100]范圍,如圖6 所示。其中DMOS 越高,表示失真程度越高,也就說明圖像質(zhì)量越低。數(shù)據(jù)集TID2013 共有3 000 張失真圖像,大多數(shù)圖像大小為512×384,這些失真圖像是由25 張原始圖像通過非偏心圖像噪聲、壓縮失真(如JPEG)等24 類不同失真所形成的,如圖7 所示。每張圖像的平均意見得分(mean opin-ion score,MOS)值都在[0,9]內(nèi),其中較低的MOS 表示失真程度較高,也就說明圖像質(zhì)量越低。
圖6 LIVE 數(shù)據(jù)集圖像
圖7 TID2013 數(shù)據(jù)集圖像
評價指標(biāo)采用了用于評價模型預(yù)測準(zhǔn)確性的斯皮爾曼秩相關(guān)系數(shù)(Spearman rank order coefficient,SROCC)、評價單調(diào)性的皮爾森線性相關(guān)系數(shù)(Pearson linear correlation coefficient,PLCC)、評價相關(guān)一致性的肯德爾秩次相關(guān)系數(shù)(Kendall rankorder correlation coefficient,KROCC)和評價偏差程度的均方根誤差(root mean squared error,RMSE)。其中,SROCC 和PLCC 這2 點指標(biāo)最為重要,兩者取值范圍均為[0,1],值越接近1,表明模型效果與人眼主觀視覺的一致性越好。
本文實驗平臺的配置如表1 所示。
表1 實驗平臺相關(guān)配置
根據(jù)平臺硬件設(shè)備性能,本實驗將訓(xùn)練集與測試集比例設(shè)為8∶2,網(wǎng)絡(luò)輸入圖像大小設(shè)為128×128,將網(wǎng)絡(luò)訓(xùn)練的批尺寸(batch size)、迭代次數(shù)(epoch)和初始學(xué)習(xí)率(learning rate)分別設(shè)為32、150 和0.000 1,更新一次學(xué)習(xí)率的步長(step size)為30,更新學(xué)習(xí)率的乘法因子(gamma)為0.9。
利用所提出的基于Gabor 濾波的并行網(wǎng)絡(luò)NR-IQA 算法在LIVE 數(shù)據(jù)集上進(jìn)行消融實驗,以證明使用128×128 的圖像塊作為輸入、采用邊緣圖像的并行網(wǎng)絡(luò)以及利用Gabor 濾波獲取邊緣圖像這3 點對圖像質(zhì)量預(yù)測是積極有效的。
實驗數(shù)據(jù)如表2 所示。消融實驗一共分為4 組,分別為:1)G_Net_128:表示采用128×128 大小的灰度圖像塊作輸入的單分支網(wǎng)絡(luò)模型;2)GS_PNet_128:表示采用128×128 大小的灰度圖像塊和經(jīng)Sobel 算子所獲得的邊緣圖像塊作為輸入的并行網(wǎng)絡(luò)模型;3)GG_PNet_32:表示采用32×32 大小的灰度圖像塊和經(jīng)Gabor 濾波所得的邊緣圖像塊作為輸入的并行網(wǎng)絡(luò)模型;4)作為本文提出的GG_PNet_128:表示采用128×128 大小的灰度圖像塊和經(jīng)Gabor 濾波所得的邊緣圖像塊作為輸入的并行網(wǎng)絡(luò)模型。
表2 在LIVE 數(shù)據(jù)集上的消融實驗
從表2 實驗結(jié)果可知,采用本文所提算法的第4 組實驗GG_PNet_128 在4 個指標(biāo)上均獲得了消融實驗中最好的數(shù)值,這也證明了在本文所提算法中這3 點改進(jìn)均使得模型效果與人眼主觀視覺的一致性得到了提升。
實驗GG_PNet_128 的訓(xùn)練曲線如圖8 所示。由圖8 中的Loss 曲線可以看出,網(wǎng)絡(luò)訓(xùn)練過程中較快地達(dá)到了收斂,并且較為平穩(wěn)。
這一節(jié)選擇了基于深度學(xué)習(xí)的代表性算法在LIVE 數(shù)據(jù)集和TID2013 數(shù)據(jù)集上的性能表現(xiàn)來做對比實驗,如DIQaM-NR[9]、DIIVINE[5]、CORNIA[21]、BIQI[4]、RankIQA[11]、hyperIQA[13]等算法,實驗結(jié)果如表3 所示。
由表3 實驗結(jié)果可知,在LIVE 數(shù)據(jù)集和TID2013 數(shù)據(jù)集上,本文所提算法都基本取得最好的效果,雖然在LIVE 數(shù)據(jù)集上的SROCC 指標(biāo)比RankIQA 小了0.002,但是在TID2013 數(shù)據(jù)集上的SROCC 指標(biāo)卻高出其0.88。
要評估一個算法的好壞,算法的泛化能力也是一個很重要指標(biāo),為了評估模型性能,本文以SROCC 作為主要指標(biāo),并與以下多種經(jīng)典算法進(jìn)行比較:如BRISQUE[22]、BLIINDS-II[23]、DIIVINE[5]、CORNIA[21]和DIQaM-NR[9]。將在LIVE 數(shù)據(jù)集上訓(xùn)練的模型放在TID2013 數(shù)據(jù)集上進(jìn)行測試,以及將TID2013 數(shù)據(jù)集上訓(xùn)練得到的模型放在LIVE 數(shù)據(jù)集上進(jìn)行測試,實驗結(jié)果如表4 所示。
表4 跨數(shù)據(jù)集性能評估的SROCC 指標(biāo)
由表4 實驗結(jié)果可知,LIVE 上訓(xùn)練的模型在TID2013 數(shù)據(jù)集上的測試效果明顯不佳,而TID2013 上訓(xùn)練的模型在LIVE 數(shù)據(jù)集上的測試效果明顯較好。這是因為LIVE 數(shù)據(jù)集只有5 種失真類型,而TID2013 數(shù)據(jù)集卻有24 種失真類型。那么在數(shù)據(jù)更豐富且失真類型更多的TID2013數(shù)據(jù)集上進(jìn)行訓(xùn)練,所得模型自然泛化能力也要更優(yōu)秀。
在LIVE 數(shù)據(jù)集上,以SROCC 為評價指標(biāo),針對數(shù)據(jù)集單一失真類型進(jìn)行本文算法與主流算法的性能對比實驗,如DIIVINE[5]、BRISQUE[22]、NIQE[6]、HOSA[24]、MCNN[25]、BIECON[26]。實驗結(jié)果如表5 所示。
由表5 實驗結(jié)果可知,在LIVE 數(shù)據(jù)集中的5 種失真類型里,在JP2K、WN、BLUR 和FF 這4 個失真類型圖像上的質(zhì)量預(yù)測均取得最優(yōu)異的效果,而JPEG 這一失真類型圖像上的質(zhì)量預(yù)測也僅次于BIECON。
本文提出了一種基于Gabor 濾波的并行網(wǎng)絡(luò)無參考圖像質(zhì)量評價算法,該算法通過增加一個輸入大小為128×128 邊緣圖像的分支網(wǎng)絡(luò)提取圖像質(zhì)量特征,一定程度上彌補(bǔ)了以灰度圖像輸入的單支網(wǎng)絡(luò)提取圖像質(zhì)量特征不足的缺陷;同時,可提取空間局部頻域特征的Gabor 濾波器也在一定程度上解決了圖像失真非均勻性導(dǎo)致的質(zhì)量評價不準(zhǔn)確的缺陷。實驗結(jié)果也表明所提算法的圖像質(zhì)量評分與人類主觀視覺有較高的一致性。由于不同的失真有著不同的特性,圖像的失真類型也是多樣且復(fù)雜,因此,提高NR-IQA 算法的通用性是今后的研究重點。