馬 暢,張選德
(陜西科技大學(xué) 電子信息與人工智能學(xué)院,陜西 西安 710021)
IQA是圖像處理領(lǐng)域的基本問題之一,且在圖像壓縮、視頻通訊、圖像恢復(fù)等眾多問題中有著十分重要的應(yīng)用。例如:圖像壓縮中需要在圖像質(zhì)量和壓縮率之間作均衡,視頻通訊中需要對圖像質(zhì)量進行實時監(jiān)控,而圖像恢復(fù)系統(tǒng)中也需要一個合適的圖像質(zhì)量指標對其性能進行評價。IQA的研究目標在于利用數(shù)學(xué)模型來模擬人類視覺系統(tǒng)(Human Vision System,HVS)對圖像質(zhì)量的感知和評價過程,構(gòu)建同主觀評價盡可能一致的客觀圖像質(zhì)量指標[1]。根據(jù)參考圖像的可用性,圖像質(zhì)量評價可以分為3種類型:全參考(Full-Reference,F(xiàn)R)、部分參考(Reduced-Reference,RR)和無參考(No-Reference,NR)[2]。本文針對全參考圖像質(zhì)量評價進行研究,構(gòu)建彩色圖像質(zhì)量評價模型。
當(dāng)前大多數(shù)圖像質(zhì)量評價算法都是針對灰度圖像設(shè)計的,如SSIM(Structure SIMilarity)[3],GMSD(Gradient Magnitude Similarity Deviation)[4]等,而彩色圖像質(zhì)量評價方面的工作相對較少。Li Leida等人提出了基于稀疏表示和重構(gòu)殘差的彩色圖像質(zhì)量評價(Sparse Representation and Reconstruction Residual,SRRR)算法[5],使用自然彩色圖像訓(xùn)練的過完備顏色字典表示參考圖像和失真圖像,構(gòu)造兩個特征圖度量圖像的結(jié)構(gòu)和顏色失真,計算重構(gòu)殘差度量圖像的對比度變化,還引入亮度相似性以得到彩色圖像的最終質(zhì)量得分。Jens Preiss等人[6]提出了一種使用彩色圖像差異(Color Image Difference,CID)作為目標函數(shù)來優(yōu)化色域映射的算法,在解決傳統(tǒng)色域映射算法生成圖像中包含各種視覺偽像問題的同時給出了改進的彩色圖像差異(Improved Color Image Difference,ICID)指標,提高了對彩色圖像質(zhì)量的預(yù)測性能。Dogancan Temel和Ghassan AlRegib提出基于多尺度和多通道誤差表示的頻譜理解的圖像質(zhì)量評價(Spectral Understanding of Multi-scale and Multi-channel Error Representations,SUMMER)算法[7],該方法關(guān)注誤差圖像(參考圖像與失真圖像之差)的幅度譜,解決了灰度圖像的光譜統(tǒng)計量忽略了的顏色信息以及HVS的選擇性和層次性的問題。Sun Wen等人提出基于超像素的圖像質(zhì)量評價(SuperPixel-Based SIMilarity,SPSIM)算法[8],基于感知上有意義的超像素圖像塊計算亮度、色度和梯度相似度,根據(jù)梯度區(qū)域一致性來進一步調(diào)整這3個特征,最后用紋理復(fù)雜度作為池化階段的加權(quán)函數(shù),得到了與主觀評分較高的一致性。
對于彩色圖像,我們不能將其簡單地轉(zhuǎn)到灰度域進行評價,而是要引入顏色特征來度量圖像的色彩變化,以提高算法對彩色圖像質(zhì)量的評價性能。一種直觀的彩色圖像質(zhì)量評價方法是在顏色通道中計算逐像素的保真度,如PerSIM(Perceptual SIMilarity)[9]和FSIMc(Feature SIMilarity extend to Color)[10],但是各個顏色通道之間的差異未必對應(yīng)于顏色之間的感知差異。從人類感知的角度來看,通常顏色空間不是均質(zhì)(Homogeneous)的度量空間[11],因此彩色圖像質(zhì)量評價研究中不應(yīng)對各個顏色通道作分離處理,而應(yīng)著眼于整體感知的顏色并計算顏色差異。從根本上講,彩色圖像質(zhì)量評價的關(guān)鍵在于建立與HVS色彩感知能力相一致的色彩描述與量化方法。但色彩的描述與量化是計算機視覺領(lǐng)域至今尚未完全解決的問題,這使得彩色圖像質(zhì)量評價成為了IQA領(lǐng)域的開放性問題。
CN[12]是近年來頗為知名的顏色描述方法,這種方法用11維概率向量來描述顏色,這個向量的每個分量表示了色彩屬于11個可被準確感知亦可用語義描述的顏色的概率。CN的獨到之處在于使用了顏色的語義描述,這些語義描述間接地反映了人類的色彩感知能力。本文利用CN構(gòu)建彩色圖像質(zhì)量模型,該模型將參考圖像和失真圖像的每個像素值映射為CN概率向量,并利用Wasserstein距離計算兩個向量分布之間的差異來度量兩幅圖像間的感知色差;然后將參考圖像與失真圖像轉(zhuǎn)換到各通道相互獨立的對抗顏色空間(Opponent Color Space)[13],并在其亮度通道中計算能夠表征圖像結(jié)構(gòu)信息的梯度特征。由于HVS對亮度變化感知比對顏色更敏感,且人眼對顏色的感知與亮度關(guān)系密切,所以我們在模型中加入亮度特征作為補充。在池化階段使用視覺顯著性作為加權(quán)函數(shù)來獲得圖像質(zhì)量得分。在幾個公開數(shù)據(jù)集上的實驗結(jié)果表明,提出的模型能夠獲得很好的評價效果。
人們通常使用顏色名稱(CN)輕而易舉地描述人眼所看到的世界。而在計算機視覺中,我們學(xué)習(xí)圖像像素值與CN之間的映射關(guān)系,以將語義顏色標簽分配給圖像像素來描述圖像的顏色信息。這里使用的11種基本顏色名稱包括黑色、藍色、棕色、灰色、綠色、橙色、粉紅色、紫色、紅色、白色和黃色[12]。
為了獲得圖像像素值與CN之間更準確的映射關(guān)系,我們使用概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)模型從Google圖像上搜索大量真實世界的圖像構(gòu)成的數(shù)據(jù)集中學(xué)習(xí)顏色名稱。PLSA是由Hofmann[14]提出的一種用于文檔分析的生成模型。給定一組文檔D={d1,…,dN},每個文檔都用單詞表W={w1,…,wM}描述,這些單詞是由潛在主題Z={z1,…,zK}產(chǎn)生的。在PLSA模型中,文檔d中單詞w的條件概率由式(1)計算:
(1)
其中:p(z|d)和p(w|z)都是離散多項式分布,可以使用EM算法[14]通過最大化對數(shù)似然函數(shù)L進行估算:
(2)
其中p(d,w)=p(d)p(d|w),n(d,w)是文檔d中出現(xiàn)單詞w的次數(shù)。
在學(xué)習(xí)顏色名稱的問題中,圖像對應(yīng)文檔,像素值對應(yīng)單詞,顏色名稱對應(yīng)潛在主題。我們將圖像中的像素值建模為由顏色名稱生成的顏色值,PLSA模型的目的是找到最能解釋所觀察數(shù)據(jù)(圖像像素)的潛在主題(顏色名稱)。該過程可以理解為將p(w|d)分解為單詞-主題分布p(w|z)和文檔-主題固定比例p(z|d),則在p(w|z)中可以得到主題(顏色名稱)在單詞(像素值)上的分布,如圖1所示。
圖1 用于學(xué)習(xí)顏色名稱的標準PLSA模型概述[12]
(3)
這里利用Wasserstein距離來計算參考圖像與失真圖像的CN概率向量之間的差異,度量兩幅圖像之間的感知色差。首先利用文獻[12]中提供的映射關(guān)系表將參考圖像和對應(yīng)的失真圖像中的每個像素映射為11維CN概率向量,然后利用兩個向量之間的距離來度量感知色差。如何度量兩個概率向量(分布)之間的距離呢?常用的方法有KL散度和Wasserstein距離,其中Wasserstein距離也被稱為推土機距離(Earth Mover Distance,EMD),是將一個直方圖轉(zhuǎn)換成為另一個直方圖所必須付出的最小代價。Wasserstein距離較之KL散度具有更好的數(shù)學(xué)性質(zhì),即使兩個分布的支撐集沒有重疊或者重疊非常少,仍然能反映兩個分布的遠近。因此選用Wasserstein距離來度量兩個CN概率向量的差異:
(4)
其中,fr表示參考圖像,fd表示失真圖像,i表示“圖像塊”索引,Y()表示圖像像素值到CN概率向量的映射,WS()表示W(wǎng)asserstein距離運算符,CND表示顏色名稱距離。圖2是參考圖像和失真圖像以及它們的CND圖的示例。
圖2 顏色名稱距離圖
Wasserstein距離是兩個概率分布或直方圖之間在感知上有意義的統(tǒng)計指標[15]。給定兩個概率分布P1和P2,則P1和P2之間的Wasserstein距離可定義為:
(5)
圖像梯度是IQA問題中最常用的特征之一,它對失真很敏感,并且可以反映圖像的對比度和結(jié)構(gòu)信息。有多種不同的算子可用于計算圖像梯度,這里使用Scharr算子[16]。首先,利用公式(6)將圖像轉(zhuǎn)換到對抗顏色空間(Opponent Color Space)中,該空間亮度與顏色信息完全分開,且各顏色通道相互獨立[13]。
(6)
其中,L表示亮度通道,M和N表示顏色通道。上述轉(zhuǎn)換中的權(quán)重針對HVS進行了優(yōu)化[17]。然后,我們從L通道計算圖像的水平和垂直梯度,分別用Gx(i)和Gy(i)表示,并計算其梯度幅度GM(i),其中i代表第i個像素。
圖像f(i)的水平和垂直梯度Gx(i)和Gy(i)計算為:
(7)
(8)
圖3 梯度幅度圖
參考圖像fr和失真圖像fd之間逐像素的梯
度幅度的相似度定義為:
(9)
其中GMr(i)和GMd(i)分別表示參考圖像fr和失真圖像fd中第i個像素的梯度幅度,C1是一個正常數(shù),以保持SG(i)的穩(wěn)定性。
與顏色信息相比,HVS對圖像的亮度變化更加敏感[18]。亮度總是對圖像的感知質(zhì)量有很大影響,因此在彩色圖像質(zhì)量評價的問題中,仍然需要考慮圖像的亮度特征。亮度相似度是基于每個圖像塊的平均值來計算的,參考圖像與失真圖像的每一組圖像塊對的平均值構(gòu)成一組平均值對。根據(jù)恰可察覺失真(Just Noticeable Distortion,JND)模型,我們知道人類視覺系統(tǒng)無法察覺到處于一定閾值以下的圖像內(nèi)容的變化[19]。因此,我們不必使用所有平均值對來度量亮度失真,因為一些差異較小的平均值對不會影響人類對圖像質(zhì)量的感知,甚至還會緩和人眼對亮度變化較大的圖像區(qū)域質(zhì)量的感知,因此,我們僅考慮亮度差異較大的平均值對,然后計算兩組選定平均值圖像塊對之間的相關(guān)性。
(10)
其中median()表示中位數(shù)計算。最后,亮度相似度的得分計算如式(11)所示:
(11)
以基于CN定義的感知色差為基礎(chǔ),以梯度幅值相似性和亮度相似性作為補充,我們構(gòu)建了一個全參考彩色圖像質(zhì)量評價模型,簡稱為CNCI(CN based Color image quality Index)。CNCI的總體框架如圖4所示。
圖4 CNCI模型總體框架圖
參考圖像fr和失真圖像fd之間的相似度圖S(i)包括兩個部分,一個是顏色名稱距離圖(CND),另一個是梯度相似度圖(SG)。我們用參考圖像和失真圖像之間的顏色名稱距離圖來表示兩幅圖像間的感知色差,用梯度相似度圖表示圖像的結(jié)構(gòu)變化,然后將二者融合,如公式(12)所示:
S(i)=(SG(i)α·(1-CND(i))β).
(12)
我們采用SDSP視覺顯著模型[20]來計算參考圖像的視覺顯著圖VSr和失真圖像的視覺顯著圖VSd,使用w(i)=max(VSr(i),VSd(i))來加權(quán)S(i),為圖像的不同區(qū)域賦予不同的權(quán)重大小,從而產(chǎn)生一個分數(shù):
(13)
其中,W和H表示相似度圖的大小??紤]亮度對感知質(zhì)量有很大影響,因此我們將該模型的最終質(zhì)量得分Q定義為QS和QL的線性組合:
Q=a·QS+b·QL,
(14)
其中a和b是用于調(diào)整兩個分量相對重要性的參數(shù),滿足a+b=1。
我們在5個數(shù)據(jù)集TID2008[21]、TID2013[22]、CSIQ[23]、LIVE[24]和KADID-10k[25]上測試所提出的彩色圖像質(zhì)量評價模型的性能。這些數(shù)據(jù)集中包含參考圖像、失真圖像以及針對失真圖像所收集的平均主觀分數(shù)(Mean Opinion Scores,MOS)或差異平均主觀分數(shù)(Differential Mean Opinion Scores,DMOS)。其中,TID2008包含1 700張失真圖像,17種失真類型和4個失真等級;TID2013包含3 000張失真圖像,24種失真類型和5個失真等級;CSIQ包含866張失真圖像,5種失真類型和4~5個失真等級;LIVE包含779張失真圖像,5種失真類型和4~5個失真等級;KADID-10k包含10 125張失真圖像,25種失真類型和5個失真等級。
圖像質(zhì)量評價模型的性能通常以主客觀評分之間的一致性來衡量。常用的評價指標有Spearman秩相關(guān)系數(shù)(SROCC)、Kendall秩相關(guān)系數(shù)(KROCC)、Pearson線性相關(guān)系數(shù)(PLCC)和均方根誤差(RMSE)。其中,SROCC和KROCC用來衡量主客觀評分之間的一致性,PLCC和RMSE用來衡量模型預(yù)測的準確性。SROCC、KROCC、PLCC越大或RMSE越小,代表模型性能越好。在計算PLCC和RMSE前需要先進行回歸分析,建立主客觀評分間的非線性映射。這里采用公式(15)中的logistic回歸函數(shù),其中Q代表IQA方法計算得到的客觀評分,P代表Q的回歸值,βi|i=1,2,3,4,5為要擬合的參數(shù)。
(15)
在本文方法中需要設(shè)置的參數(shù)有C1和C2、α和β、a和b。我們選取TID2008數(shù)據(jù)集中前8幅參考圖像和對應(yīng)的544幅失真圖像作為測試子集,在該子集上選取不同參數(shù)組進行數(shù)值實驗,通過最高的SROCC值來確定最佳參數(shù)組,最終分別取C1、C2、α、β、a和b的值為386,0.001,0.6,0.02,0.7,0.3。
實驗中采用的對比算法包括PSNR、SSIM[3]、MS-SSIM[26]、FSIM[10]、FSIMc[10]、GMSD[4]、SRRR[5]、RVSIM[27]和SUMMER[7]。這些算法均采用作者公布的代碼及其參數(shù)設(shè)置。表1列出了本文算法與9個對比算法在5個測試數(shù)據(jù)集上的評價結(jié)果,其中加粗顯示了排名前兩位的實驗結(jié)果。從表中可以看出,CNCI出現(xiàn)12次,SRRR出現(xiàn)10次,F(xiàn)SIMc出現(xiàn)8次,GMSD出現(xiàn)6次,F(xiàn)SIM出現(xiàn)4次。在TID2008數(shù)據(jù)集上,CNCI的SROCC和KROCC值均為最高,PLCC和RMSE值與SRRR相當(dāng),并優(yōu)于大多數(shù)算法,這表明其可以獲得與主觀評價較高的一致性。在TID2013和KADID-10k數(shù)據(jù)集上,CNCI的4個指標均為最高,具有很好的質(zhì)量評價能力,這是因為CNCI考慮了顏色信息,對于顏色失真類型的圖像能夠獲得更好的評價效果。而SRRR和SUMMER算法中也引入了顏色信息,但其總體性能并不突出,只在CSIQ數(shù)據(jù)集上SRRR算法的性能略高于CNCI。
表1 不同IQA模型在TID2008、TID2013、LIVE、CSIQ和KADID-10k數(shù)據(jù)集上的實驗結(jié)果比較
實驗進一步驗證了模型關(guān)于單一失真類型的評價效果。表2列出了本文算法與9個對比算法在TID2013數(shù)據(jù)集上對每一種失真類型關(guān)于SROCC指標的評價結(jié)果,并加粗顯示了排名前兩位的實驗結(jié)果。從表中可以看出,CNCI模型可以在TID2013中大部分失真類型上產(chǎn)生較好的效果,且在AGN、JPEG、JP2K、JGTE和J2TE失真類型上獲得最佳效果。就單一失真類型來看,CNCI能夠達到與GMSD和SUMMER相當(dāng)?shù)男阅堋?/p>
表2 不同IQA模型在TID2013數(shù)據(jù)集上單一失真性能(SROCC)的比較
為了驗證顏色名稱距離(CND)特征對彩色圖像質(zhì)量評價模型預(yù)測性能的提升作用,實驗在TID2008數(shù)據(jù)集上對CND特征、梯度特征和亮度特征進行消融實驗。表3列出了在TID2008數(shù)據(jù)集上,CNCI模型僅使用CND特征、梯度特征和亮度特征,3個特征之間兩兩組合以及同時使用3個特征時所能達到的SROCC值??梢钥闯?,同時使用3個特征能夠得到最高的SROCC值。由于HVS對亮度感知比對顏色感知更加敏感,因此僅使用亮度通道提取的梯度特征和僅使用亮度特征的效果要稍好于僅使用CND特征。但是從表3中可以看出,引入CND特征后,彩色圖像質(zhì)量評價模型的評價性能有明顯提升,這證明了顏色名稱距離對兩幅彩色圖像之間的感知色差度量的有效性。
表3 CNCI模型在TID2008數(shù)據(jù)集上的消融實驗性能(SROCC)比較
本文提出一個基于顏色名稱的彩色圖像質(zhì)量評價模型(CNCI),該模型采用顏色名稱距離度量圖像的整體感知顏色差異,同時結(jié)合梯度幅度相似性度量圖像的結(jié)構(gòu)變化。在質(zhì)量分數(shù)池化階段,將視覺顯著性用作加權(quán)函數(shù)來表示局部圖像區(qū)域的重要性,并加入亮度相似性作為補充,進一步提高算法的性能。在5個公開測試數(shù)據(jù)集上對CNCI和其他最新或著名的9個算法進行了比較,實驗結(jié)果表明,該模型能夠獲得與主觀評價更好的一致性,并且在TID2008、TID2013和最新的KADID-10k數(shù)據(jù)集中獲得最佳效果,其SROCC值分別為0.900 9,0.890 1,0.863 7。