基于Gabor 濾波的并行網(wǎng)絡(luò)無參考圖像質(zhì)量評價

2023-11-13 16:10李國濤楊忠張馳朱儻許昌亮

應(yīng)用科技 2023年5期

李國濤，楊忠，張馳，朱儻，許昌亮

南京航空航天大學(xué) 自動化學(xué)院，江蘇南京 211106

在過去的幾年里，隨著計算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展速度大大加快，多媒體技術(shù)的發(fā)展也有較大的進(jìn)步。然而，在多媒體系統(tǒng)中，數(shù)字圖像在采集、處理、壓縮、存儲和傳輸?shù)冗^程中存在的失真會導(dǎo)致圖像質(zhì)量的下降[1]。因此，在圖像處理領(lǐng)域中，對一張圖像的質(zhì)量進(jìn)行評分已然成為一個關(guān)鍵的課題研究。

圖像質(zhì)量評價（ image quality assessment，IQA)可用于如圖像去噪、圖像重建、圖像合成和視頻編碼等許多圖像處理應(yīng)用當(dāng)中。根據(jù)利用參考圖信息的情況，IQA 分為全參考（full-reference）、半?yún)⒖迹╮educed-reference）和無參考（no-reference）3 種類型[2]。其中，第3 種無參考的圖像質(zhì)量評價(no-reference image quality assessment， NR-IQA)算法是最具有廣泛適用性的，原因是實際應(yīng)用中往往沒有無失真的圖像可供全參考或半?yún)⒖嫉乃惴ㄗ鳛閰⒖肌?/p>

早期的NR-IQA 方法利用從圖像中提取的一些基于經(jīng)驗觀察的特征[3-6]來評價圖像質(zhì)量，但這種方法效果一般，這就表明了這些手工特征存在著一定的局限性。而深度學(xué)習(xí)方法可以使用卷積層來提取圖像的特征，然后利用全連接層將特征映射到質(zhì)量分?jǐn)?shù)[7-9]。Kang 等[10]提出的IQA_CNN利用卷積神經(jīng)網(wǎng)絡(luò)獲取圖像特征，并將圖像分割成若干圖像塊來訓(xùn)練模型從而實現(xiàn)圖像質(zhì)量評價。Liu 等[11]提出RankIQA 對網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前，首先對失真圖像集的質(zhì)量進(jìn)行了排序，才用于網(wǎng)絡(luò)的訓(xùn)練，然后為了訓(xùn)練更深的網(wǎng)絡(luò)，利用了遷移學(xué)習(xí)技術(shù)。通過生成圖像這一方式，RankIQA模型可以實現(xiàn)訓(xùn)練數(shù)據(jù)的增加。由于NR-IQA 沒有參考圖作對比，Ren 等[12]提出的RAN4IQA 首先生成未失真的原圖，然后用類似全參考的評價方式獲得質(zhì)量分?jǐn)?shù)，即利用了生成式對抗網(wǎng)絡(luò)(generative adversarial networks，GAN)的思想，也取得了不錯的效果。Su 等[13]提出了一個自適應(yīng)網(wǎng)絡(luò)架構(gòu)的hyperIQA，該方法為了提取圖像的深層語義特征，用到了ResNet50 網(wǎng)絡(luò)，然后利用超網(wǎng)絡(luò)建立起感知規(guī)則，該感知規(guī)則又被應(yīng)用于質(zhì)量預(yù)測網(wǎng)絡(luò)。Yan 等[14]雖然也提出用2 個分流網(wǎng)絡(luò)來增強(qiáng)對圖像特征的提取，取得了一定的效果，但是由于其將圖像分割成32×32 的小圖像塊而過多忽略了整體圖像本身所含有的信息，且為了反映圖像結(jié)構(gòu)而使用的梯度圖在失真程度較弱時變化不明顯，因此存在一定的局限性。

基于以上分析，考慮到圖像質(zhì)量評價數(shù)據(jù)集的數(shù)據(jù)量不充足以及圖片失真非均勻性的問題，本文針對無參考圖像質(zhì)量評價的問題提出了一種基于Gabor 濾波的并行網(wǎng)絡(luò)深度學(xué)習(xí)算法，并在LIVE 和TID2013 數(shù)據(jù)集上進(jìn)行實驗，以證明該算法的有效性。

1 圖像預(yù)處理

考慮圖像的失真可能存在著非均勻性，即在輸入圖像的不同部分中，失真類型和失真程度通常會有所不同。針對該問題，本文利用可提取空間局部頻域特征的Gabor 濾波器[15]來獲取邊緣圖片。同時，針對圖像數(shù)據(jù)量的不足，采取圖片切塊的方式增大數(shù)據(jù)量以便深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)。因此，在網(wǎng)絡(luò)訓(xùn)練之前，要對圖片進(jìn)行邊緣圖像的獲取以及切塊的預(yù)處理。

1.1 基于二維Gabor 濾波器的邊緣圖像獲取

Gabor 濾波器實質(zhì)上是一種小波。早在1946 年，一維Gabor 函數(shù)便由英國物理學(xué)家Gabor 率先提出。直到1980 年，將Gabor 的一維形式擴(kuò)展到二維[16]才被DAUGMAN 提出。通過設(shè)置不同的參數(shù)，Gabor 濾波器可以在不同尺度、不同方向上的進(jìn)行濾波，能有效地提取圖像的邊緣特征，感知紋理信息。文獻(xiàn)[17]中的生物研究表明，哺乳動物大腦皮層存在著用于實現(xiàn)視覺機(jī)制的感受細(xì)胞，而Gabor 小波也具有這樣的性質(zhì)，這和NR-IQA 領(lǐng)域追求質(zhì)量評分與人類視覺系統(tǒng)一致的目的有了共同的特性。由復(fù)正弦波調(diào)制的橢圓高斯包絡(luò)線組成的二維Gabor 濾波器，不僅對輸入圖像局部區(qū)域的頻率有著一定的敏感程度，對空間頻率也有著一定的敏感性。Gabor 函數(shù)表達(dá)式如下：

式中：

實數(shù)部分表達(dá)式為

虛數(shù)部分表達(dá)式為

不同的Gabor 參數(shù)生成的濾波器不同。本文各參數(shù)取值如下： λ為濾波器波長，取值為3； θ為濾波器方向，取值范圍是0～π； ψ為正余弦因子參數(shù)的相位偏移，取值為0； σ為Gabor 函數(shù)的高斯因子標(biāo)準(zhǔn)差，取值為1.5； γ為空間縱橫比，取值為1.2。

從圖1 和圖2 可以看出，未失真圖片在經(jīng)過Gabor 濾波器之后，獲得的邊緣特征更為細(xì)致，而失真圖像的邊緣特征相對來說就缺失了許多，這就說明了Gabor 濾波對圖像失真引起的邊緣損失比較敏感。

圖1 失真圖及其邊緣圖

圖2 未失真圖及其邊緣圖

1.2 圖像切塊

獲取灰度圖和邊緣圖片后，考慮深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要充足的數(shù)據(jù)量，對圖像進(jìn)行切塊處理，且一張圖上切塊形成的多張新圖像塊的對應(yīng)質(zhì)量分?jǐn)?shù)也取原圖像的分?jǐn)?shù)，以此達(dá)到增強(qiáng)數(shù)據(jù)集的目的。同時為了保證原圖像的每一部分都能夠作為切塊后的數(shù)據(jù)集使用，并且切塊后的圖像相互之間沒有重疊的部分。那么，切塊圖像的尺寸大小應(yīng)該是原圖像長寬的公約數(shù)，所以切塊后的尺寸設(shè)為128×128。圖像切塊方式如圖3 所示，若一個數(shù)據(jù)集的圖像大小為384×384，經(jīng)切塊處理得到128×128 大小的圖像塊，可使得整體數(shù)據(jù)量擴(kuò)為原來的9 倍，便于深度網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)。

訓(xùn)練完成的模型對一張圖片進(jìn)行分?jǐn)?shù)預(yù)測時，整張圖像的質(zhì)量分?jǐn)?shù)是取其所有圖像塊分?jǐn)?shù)的平均值，公式如下：

式中：q為預(yù)測圖片的分?jǐn)?shù)，Np為該圖像切割的圖像塊數(shù)，xi、gi分別為輸入圖像塊的灰度圖與邊緣圖，f為由圖像塊xi、gi到質(zhì)量分?jǐn)?shù)q的映射關(guān)系。

2 并行網(wǎng)絡(luò)結(jié)構(gòu)

本文旨在通過一個并行網(wǎng)絡(luò)來學(xué)習(xí)視覺外觀與圖像質(zhì)量間的復(fù)雜關(guān)系。目前，大多數(shù)的NRIQA 方法只是使用圖片的灰度圖像或者RGB 圖像作為輸入。相比之下，本文考慮了大多數(shù)失真可能導(dǎo)致圖片邊緣結(jié)構(gòu)信息損失的問題，在以灰度圖片為輸入的分支網(wǎng)絡(luò)主要學(xué)習(xí)圖像各像素的強(qiáng)度等特征的同時，也利用另一個分支網(wǎng)絡(luò)去重點學(xué)習(xí)邊緣圖像的結(jié)構(gòu)特征。由于邊緣圖像更能反映圖片中高頻分量由于失真導(dǎo)致的損失情況，如此一來，利用并行網(wǎng)絡(luò)學(xué)習(xí)到的多重融合的特征則更能反映圖像質(zhì)量的情況，再回歸預(yù)測后得到的分?jǐn)?shù)也就更貼合人類的視覺感知。

2.1 特征提取網(wǎng)絡(luò)

本文的特征提取網(wǎng)絡(luò)是選取改進(jìn)后的VGG16。為了在提高網(wǎng)絡(luò)擬合能力的同時，進(jìn)一步減少參數(shù)，經(jīng)典的VGG16 網(wǎng)絡(luò)[18]采用了多個較小卷積核（3×3）的卷積層來增加非線性映射的數(shù)量，但是其要求輸入圖片大小224×224，而本文圖像塊大小為128×128。因此，本文只采用VGG16網(wǎng)絡(luò)前面的圖像特征提取部分。

本文的特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。該網(wǎng)絡(luò)共包含了13 個卷積層和5 個最大池化層，針對輸入128×128 大小的圖像塊，充分提取其圖像特征，最終得到圖4 中4×4×512 的圖像特征。

2.2 回歸預(yù)測網(wǎng)絡(luò)

針對并行的特征提取網(wǎng)絡(luò)獲得的多重融合的特征，需要將其映射到與人的視覺感觀相一致的質(zhì)量分?jǐn)?shù)。NR-IQA 并行網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示，針對特征提取網(wǎng)絡(luò)從灰度圖像塊和邊緣圖像塊獲得的2 個4×4×512 的特征量，將其擴(kuò)展成2 個1×1×8 192的特征向量后，分別各自通過1 個8 192×512 的全連接層獲得2 個1×1×512 的特征向量，將2 者連接起來形成1 個1×1×1 024 的特征向量；然后經(jīng)過1 個1 024×256 的全連接層，得到1×1×256 的特征向量；最后經(jīng)過256×1 的全連接層，獲得最終的圖像質(zhì)量預(yù)測分?jǐn)?shù)。

圖5 NR-IQA 并行網(wǎng)絡(luò)

3 實驗結(jié)果與數(shù)據(jù)分析

本節(jié)將所提出的NR-IQA 并行網(wǎng)絡(luò)算法在公開數(shù)據(jù)集LIVE[19]和TID2013[20]上進(jìn)行實驗來驗證其有效性。

3.1 數(shù)據(jù)集與評估指標(biāo)

數(shù)據(jù)集LIVE 共包含779 張失真圖像，大多數(shù)圖像大小為768×512，這些失真圖像是由25 張未失真圖像經(jīng)過5 種不同類型失真在不同失真級別上所生成的，所有圖像質(zhì)量的平均意見得分（direrential mean opin-ion score，DMOS）都在一個[0,100]范圍，如圖6 所示。其中DMOS 越高，表示失真程度越高，也就說明圖像質(zhì)量越低。數(shù)據(jù)集TID2013 共有3 000 張失真圖像，大多數(shù)圖像大小為512×384，這些失真圖像是由25 張原始圖像通過非偏心圖像噪聲、壓縮失真（如JPEG）等24 類不同失真所形成的，如圖7 所示。每張圖像的平均意見得分（mean opin-ion score，MOS）值都在[0,9]內(nèi)，其中較低的MOS 表示失真程度較高，也就說明圖像質(zhì)量越低。

圖6 LIVE 數(shù)據(jù)集圖像

圖7 TID2013 數(shù)據(jù)集圖像

評價指標(biāo)采用了用于評價模型預(yù)測準(zhǔn)確性的斯皮爾曼秩相關(guān)系數(shù)（Spearman rank order coefficient，SROCC）、評價單調(diào)性的皮爾森線性相關(guān)系數(shù)（Pearson linear correlation coefficient，PLCC）、評價相關(guān)一致性的肯德爾秩次相關(guān)系數(shù)（Kendall rankorder correlation coefficient，KROCC）和評價偏差程度的均方根誤差（root mean squared error，RMSE）。其中，SROCC 和PLCC 這2 點指標(biāo)最為重要，兩者取值范圍均為[0,1]，值越接近1，表明模型效果與人眼主觀視覺的一致性越好。

3.2 實驗配置

本文實驗平臺的配置如表1 所示。

表1 實驗平臺相關(guān)配置

根據(jù)平臺硬件設(shè)備性能，本實驗將訓(xùn)練集與測試集比例設(shè)為8∶2，網(wǎng)絡(luò)輸入圖像大小設(shè)為128×128，將網(wǎng)絡(luò)訓(xùn)練的批尺寸(batch size)、迭代次數(shù)(epoch)和初始學(xué)習(xí)率（learning rate）分別設(shè)為32、150 和0.000 1，更新一次學(xué)習(xí)率的步長（step size）為30，更新學(xué)習(xí)率的乘法因子（gamma）為0.9。

3.3 消融實驗

利用所提出的基于Gabor 濾波的并行網(wǎng)絡(luò)NR-IQA 算法在LIVE 數(shù)據(jù)集上進(jìn)行消融實驗，以證明使用128×128 的圖像塊作為輸入、采用邊緣圖像的并行網(wǎng)絡(luò)以及利用Gabor 濾波獲取邊緣圖像這3 點對圖像質(zhì)量預(yù)測是積極有效的。

實驗數(shù)據(jù)如表2 所示。消融實驗一共分為4 組，分別為：1）G_Net_128：表示采用128×128 大小的灰度圖像塊作輸入的單分支網(wǎng)絡(luò)模型；2）GS_PNet_128：表示采用128×128 大小的灰度圖像塊和經(jīng)Sobel 算子所獲得的邊緣圖像塊作為輸入的并行網(wǎng)絡(luò)模型；3）GG_PNet_32：表示采用32×32 大小的灰度圖像塊和經(jīng)Gabor 濾波所得的邊緣圖像塊作為輸入的并行網(wǎng)絡(luò)模型；4）作為本文提出的GG_PNet_128：表示采用128×128 大小的灰度圖像塊和經(jīng)Gabor 濾波所得的邊緣圖像塊作為輸入的并行網(wǎng)絡(luò)模型。

表2 在LIVE 數(shù)據(jù)集上的消融實驗

從表2 實驗結(jié)果可知，采用本文所提算法的第4 組實驗GG_PNet_128 在4 個指標(biāo)上均獲得了消融實驗中最好的數(shù)值，這也證明了在本文所提算法中這3 點改進(jìn)均使得模型效果與人眼主觀視覺的一致性得到了提升。

實驗GG_PNet_128 的訓(xùn)練曲線如圖8 所示。由圖8 中的Loss 曲線可以看出，網(wǎng)絡(luò)訓(xùn)練過程中較快地達(dá)到了收斂，并且較為平穩(wěn)。

3.4 對比實驗

這一節(jié)選擇了基于深度學(xué)習(xí)的代表性算法在LIVE 數(shù)據(jù)集和TID2013 數(shù)據(jù)集上的性能表現(xiàn)來做對比實驗，如DIQaM-NR[9]、DIIVINE[5]、CORNIA[21]、BIQI[4]、RankIQA[11]、hyperIQA[13]等算法，實驗結(jié)果如表3 所示。

由表3 實驗結(jié)果可知，在LIVE 數(shù)據(jù)集和TID2013 數(shù)據(jù)集上，本文所提算法都基本取得最好的效果，雖然在LIVE 數(shù)據(jù)集上的SROCC 指標(biāo)比RankIQA 小了0.002，但是在TID2013 數(shù)據(jù)集上的SROCC 指標(biāo)卻高出其0.88。

要評估一個算法的好壞，算法的泛化能力也是一個很重要指標(biāo)，為了評估模型性能，本文以SROCC 作為主要指標(biāo)，并與以下多種經(jīng)典算法進(jìn)行比較：如BRISQUE[22]、BLIINDS-II[23]、DIIVINE[5]、CORNIA[21]和DIQaM-NR[9]。將在LIVE 數(shù)據(jù)集上訓(xùn)練的模型放在TID2013 數(shù)據(jù)集上進(jìn)行測試，以及將TID2013 數(shù)據(jù)集上訓(xùn)練得到的模型放在LIVE 數(shù)據(jù)集上進(jìn)行測試，實驗結(jié)果如表4 所示。

表4 跨數(shù)據(jù)集性能評估的SROCC 指標(biāo)

由表4 實驗結(jié)果可知，LIVE 上訓(xùn)練的模型在TID2013 數(shù)據(jù)集上的測試效果明顯不佳，而TID2013 上訓(xùn)練的模型在LIVE 數(shù)據(jù)集上的測試效果明顯較好。這是因為LIVE 數(shù)據(jù)集只有5 種失真類型，而TID2013 數(shù)據(jù)集卻有24 種失真類型。那么在數(shù)據(jù)更豐富且失真類型更多的TID2013數(shù)據(jù)集上進(jìn)行訓(xùn)練，所得模型自然泛化能力也要更優(yōu)秀。

在LIVE 數(shù)據(jù)集上，以SROCC 為評價指標(biāo)，針對數(shù)據(jù)集單一失真類型進(jìn)行本文算法與主流算法的性能對比實驗，如DIIVINE[5]、BRISQUE[22]、NIQE[6]、HOSA[24]、MCNN[25]、BIECON[26]。實驗結(jié)果如表5 所示。

由表5 實驗結(jié)果可知，在LIVE 數(shù)據(jù)集中的5 種失真類型里，在JP2K、WN、BLUR 和FF 這4 個失真類型圖像上的質(zhì)量預(yù)測均取得最優(yōu)異的效果，而JPEG 這一失真類型圖像上的質(zhì)量預(yù)測也僅次于BIECON。

4 結(jié)束語

本文提出了一種基于Gabor 濾波的并行網(wǎng)絡(luò)無參考圖像質(zhì)量評價算法，該算法通過增加一個輸入大小為128×128 邊緣圖像的分支網(wǎng)絡(luò)提取圖像質(zhì)量特征，一定程度上彌補(bǔ)了以灰度圖像輸入的單支網(wǎng)絡(luò)提取圖像質(zhì)量特征不足的缺陷；同時，可提取空間局部頻域特征的Gabor 濾波器也在一定程度上解決了圖像失真非均勻性導(dǎo)致的質(zhì)量評價不準(zhǔn)確的缺陷。實驗結(jié)果也表明所提算法的圖像質(zhì)量評分與人類主觀視覺有較高的一致性。由于不同的失真有著不同的特性，圖像的失真類型也是多樣且復(fù)雜，因此，提高NR-IQA 算法的通用性是今后的研究重點。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡