崔 力
(西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西 西安 710072)
客觀圖像質(zhì)量評(píng)價(jià)算法[1-4]可分為全參考、半?yún)⒖己蜔o參考算法,它們之間的主要區(qū)別就是對(duì)原始(參考)圖像內(nèi)容/信息的依賴程度.具體來說,全參考、半?yún)⒖己蜔o參考算法分別需要完整的參考圖像、參考圖像部分信息,以及不需要任何參考信息.在實(shí)際應(yīng)用中,全參考算法無疑對(duì)使用條件要求最高,僅適用于參考圖像比較容易獲取的情況.它所占用的系統(tǒng)資源也是最高的.由于缺乏參考信息,無參考質(zhì)量評(píng)價(jià)算法是最難設(shè)計(jì)的,并且設(shè)計(jì)一種通用算法更加地困難.相對(duì)而言,半?yún)⒖假|(zhì)量評(píng)價(jià)代表了一種比較務(wù)實(shí)的解決方案.
當(dāng)前,半?yún)⒖紙D像質(zhì)量評(píng)價(jià)方法主要采用兩種設(shè)計(jì)方式:第一種就是,在全參考質(zhì)量評(píng)價(jià)算法的基礎(chǔ)上,開發(fā)半?yún)⒖假|(zhì)量評(píng)價(jià)算法.例如,半?yún)⒖妓惴≧R-SSIM[5]和RRED[6]分別是在全參考算法SSIM[7]和VIF[8]的基礎(chǔ)上發(fā)展出來的.第二種方式就是,從零開始設(shè)計(jì)半?yún)⒖紙D像質(zhì)量評(píng)價(jià)方法.這當(dāng)中又分為兩類:
第一類方法,就是基于自然場(chǎng)景統(tǒng)計(jì)(NSS).自然場(chǎng)景統(tǒng)計(jì)長(zhǎng)期被認(rèn)為是解決半?yún)⒖假|(zhì)量評(píng)價(jià)問題的核心問題.也就是說,借助于適當(dāng)?shù)臄?shù)學(xué)模型,帶有自然場(chǎng)景內(nèi)容的圖像就可以被數(shù)學(xué)模型的少量參數(shù)來描述.因此圖像質(zhì)量評(píng)價(jià)問題可以轉(zhuǎn)變?yōu)槟P蛥?shù)的比較問題.考慮到自然圖像小波分解子帶系數(shù)分布函數(shù)滿足廣義高斯分布,Wang等[9]提出一種基于小波域自然場(chǎng)景統(tǒng)計(jì)的方法.類似地,Ma等[10]提出一種基于離散余弦變換域自然場(chǎng)景統(tǒng)計(jì)的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)方法.Cheng等[11]提出一種基于梯度域自然場(chǎng)景統(tǒng)計(jì)的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)算法.它的主要依據(jù)就是到在垂直方向上,圖像梯度的概率密度函數(shù)滿足廣義拉布拉斯分布.
第二類方法,主要是利用人眼視覺系統(tǒng)(HVS,Human Vison System)的感知特點(diǎn)去設(shè)計(jì)半?yún)⒖紙D像質(zhì)量評(píng)價(jià)算法.Carnec等[12]提出一種通用的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)模型.根據(jù)人眼視覺系統(tǒng)的特點(diǎn),該算法首先對(duì)原始和待測(cè)圖像進(jìn)行預(yù)處理并在指定區(qū)域內(nèi)分別提取視覺特征,最后通過比較特征差異估計(jì)出圖像質(zhì)量.考慮到人眼視覺系統(tǒng)的對(duì)比度敏感函數(shù)(contrast sensitivity function)和僅可察覺差異(just noticeable difference)特性,Gao等[13]提出一種基于多尺度幾何分析的半?yún)⒖假|(zhì)量評(píng)價(jià)算法.最近, 部分半?yún)⒖假|(zhì)量評(píng)價(jià)算法提出將機(jī)器學(xué)習(xí)算法與傳統(tǒng)的人眼視覺信息處理相結(jié)合.其中,文獻(xiàn)[14-16]和文獻(xiàn)[17]分別提出利用支持矢量機(jī)和環(huán)狀極限學(xué)習(xí)機(jī)預(yù)測(cè)待測(cè)圖像質(zhì)量.
旨在體現(xiàn)人眼視覺系統(tǒng)多通道并行視覺信息處理的特點(diǎn),本文提出了一種半?yún)⒖假|(zhì)量評(píng)價(jià)算法.它首先在多個(gè)視覺通道中比較參考和待測(cè)圖像之間的視覺相似度,最終將這些視覺相似度合并成為一個(gè)圖像質(zhì)量指標(biāo).
基于此,本研究采用了一種計(jì)算簡(jiǎn)單、物理含義清晰的方法,用于視覺相似度融合.首先,展示了所提出的半?yún)⒖假|(zhì)量評(píng)價(jià)的框架,然后分析了所提出算法以及主流的全參考和無參考質(zhì)量評(píng)價(jià)算法,在三個(gè)流行圖像質(zhì)量數(shù)據(jù)庫(kù)的性能表現(xiàn).
如圖1所示,本文所提出的全參考質(zhì)量算法主要由三部分組成,他們分別是特征提取、視覺相似性計(jì)算以及多通道特征合并.本文首先分別從參考和待測(cè)圖像中,提取格狀顏色矩(GCM,Grid Color Moment)、Gabor小波紋理(GWT,Gabor Wavelet Texture)、LBP和GIST特征,隨后采用不同的策略計(jì)算特征相似度,最終將在多個(gè)并行通道上獲得的相似性度量合并為圖像整體質(zhì)量.
圖1 本文所提出算法的總體架構(gòu)
1.1.1 格狀顏色矩特征
格狀顏色矩(GCM)特征[18]首先將給定圖像的顏色分量(即R、G、B),劃分為MxN大小的格狀闌珊.在格狀闌珊的每一個(gè)基本單元中,提取三個(gè)矩(統(tǒng)計(jì)值),即均值、方差以及斜度(skewness)的立方根.最終,這些提取的特征被串接起來成為一個(gè)大小為9MN的一維矢量.可采用公式(1)、(2)去比較參考和待測(cè)圖像的GCM特征:
(1)
式(1)中:s(i)代表GCM特征之間的視覺相似度;|s|代表GCM特征的維度.
(2)
式(2)中:g(i)和h(i)分別代表參考和待測(cè)圖像的GCM特征.
1.1.2 Gabor小波紋理特征
Gabor小波紋理(GWT)特征[18]首先利用小波變換,將原始圖像(和待測(cè)圖像)分解為多個(gè)尺度和方向的小波子帶.在每個(gè)小波子帶中,分別提取三個(gè)矩(統(tǒng)計(jì)值),即均值、方差以及斜度(skewness)的立方根.最終,這些特征被串接獲得一個(gè)長(zhǎng)度為3UV的動(dòng)量(U,V分別是小波分解的尺度和方向數(shù)).可采用公式(3)、(4)計(jì)算GWT特征的相似度:
(3)
式(3)中:t(j)代表格GWT特征之間的視覺相似度;|t|代表GWT特征的維度.
(4)
式(4)中:p(j)和q(j)分別代表參考和待測(cè)圖像的GWT特征.
1.1.3 LBP特征
LBP特征[19]是一種具有亮度不變性的圖像紋理特征描述方法.對(duì)圖像中每個(gè)3×3領(lǐng)域,分別比較中間像素和它的鄰近像素,如果鄰近像素的亮度值大于中間像素,該點(diǎn)被標(biāo)記為“1”否則為“0”.因此,對(duì)于每個(gè)領(lǐng)域來說,所有鄰近像素就可以用8個(gè)二進(jìn)制數(shù)字來表示(也叫二進(jìn)制模式),通過計(jì)算這256個(gè)二進(jìn)制模式出現(xiàn)的頻率,可以得到256維的特征.但是,這256個(gè)模式當(dāng)中,只有58個(gè)二進(jìn)制模式是最常見的,也是最有價(jià)值的.因此,將其他剩余的二進(jìn)制模式合并為一類,最終獲得了59(58+1)維的特征.可采用公式(5)計(jì)算LBP特征的一致程度:
(5)
1.1.4 GIST特征
GIST特征[20]通過空間封套的方式來描述場(chǎng)景的結(jié)構(gòu).首先它將原始圖像與一組濾波器(尺度和方向數(shù)分別為X和Y)進(jìn)行卷積,每個(gè)子帶被分為ZxZ大小的方形格柵.在每個(gè)格柵單元,提取它的均值作為當(dāng)前位置的特征點(diǎn).因此GIST特征的總維度為XYZ2.GIST特征的視覺相似性可按照公式(6)進(jìn)行計(jì)算:
(6)
式(6)中:GISTr(k)和GISTt(k)分別是參考和待測(cè)圖像的第k個(gè)GIST特征值.
特征合并部分主要是將多個(gè)視覺相似性度量合并為一個(gè)總體的圖像質(zhì)量指標(biāo).由于視覺相似性度量指標(biāo)可以被看作是獨(dú)立的圖像質(zhì)量預(yù)測(cè)模型,因此特征合并問題可以某種程度上等價(jià)于集成學(xué)習(xí)中的專家意見合并問題.將不同專家的意見進(jìn)行合并,可以有效地提高做出合理準(zhǔn)確判斷的概率.在眾多的意見合并規(guī)則當(dāng)中,算術(shù)規(guī)則是最簡(jiǎn)單的,其物理含義也是最清晰的,并且最有并行化執(zhí)行的潛質(zhì).相較于連加法則,本文采用了連乘法則.這是因?yàn)?,連乘法則在圖像質(zhì)量評(píng)價(jià)領(lǐng)域更加廣泛地被采用且具有更好的性能表現(xiàn)(例如SSIM[7]、IWSSIM[21]和FSIM[22]).因此,圖像整體質(zhì)量Q被定義為:
Q=SGCM×SGWT×CLBP×SNRGIST
(7)
本部分將MFSIQ與主流的圖像質(zhì)量評(píng)價(jià)算法進(jìn)行性能比較.這些圖像質(zhì)量評(píng)價(jià)算法包含了兩個(gè)全參考算法(PSNR、SSIM[7])和兩個(gè)半?yún)⒖妓惴?WNISM[9]、WIQM[13]).本文所采用的測(cè)試平臺(tái)包括三個(gè)主流的圖像質(zhì)量數(shù)據(jù)庫(kù)(分別是LIVE[23]、IVC[24]和MICT[25]).由于這些圖像質(zhì)量數(shù)據(jù)庫(kù)分別采用了不同的主觀質(zhì)量評(píng)價(jià)協(xié)議、失真類型、參考圖像內(nèi)容,因此綜合利用這三個(gè)數(shù)據(jù)庫(kù)能夠公平比較出圖像質(zhì)量評(píng)價(jià)算法的總體性能表現(xiàn).
在本實(shí)驗(yàn)中,所采用的算法評(píng)價(jià)標(biāo)準(zhǔn)包括:Pearson線性相關(guān)系數(shù)(PLCC)、Spearman排序相關(guān)系數(shù)(HRCC)、Kendal排序相關(guān)系數(shù)(KRCC)以及均方根誤差(RMSE).在計(jì)算這些指標(biāo)之前,本文首先將待測(cè)算法估計(jì)得到的圖像質(zhì)量值映射為算法所能預(yù)測(cè)的MOS(Mean Opinion Score)值.通過比較預(yù)測(cè)的MOS值和實(shí)際MOS值之間的一致性程度,可以準(zhǔn)確測(cè)量算法的性能表現(xiàn).在本實(shí)驗(yàn)中,所提出算法參數(shù)(M,N,U,V,X,Y,Z)設(shè)為(2,2,2,8,4,8,2).算法參數(shù)設(shè)定標(biāo)準(zhǔn)是,在保證算法性能最優(yōu)的前提下,使所采用視覺特征的數(shù)量最小.
本實(shí)驗(yàn)采用的仿真環(huán)境為:Windows7操作系統(tǒng),MATLAB編程語言,E3-1230v2處理器,16G內(nèi)存,4T硬盤.
如表1所示,對(duì)于圖像質(zhì)量評(píng)價(jià)算法的性能分析可以分為:(1)針對(duì)單一失真類型的性能表現(xiàn);(2)針對(duì)所有失真類型的綜合性能表現(xiàn).在單個(gè)失真類型上,本文所提出算法與主流的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)算法(WNISM和WIQM)的性能相仿甚至表現(xiàn)更好;在針對(duì)所有失真類型的總體表現(xiàn)上,本文所提出的算法優(yōu)于PSNR,并且與SSIM性能表現(xiàn)類似.由于PSNR和SSIM都是全參考算法,故均需要完整的原始參考圖像.
因此,本文所提出的算法無論在有效性還是效率上都是有顯著優(yōu)勢(shì)的.僅使用少量原始圖像視覺特征,MFSIQ可以獲得與SSIM相似的性能表現(xiàn).在所有這些算法中,MFSIQ和SSIM的綜合性能表現(xiàn)最好.
表1 圖像質(zhì)量評(píng)價(jià)算法在LIVE數(shù)據(jù)庫(kù)上表現(xiàn)
表2列出了所有這些算法,在IVC和MICT數(shù)據(jù)庫(kù)上性能指標(biāo)的數(shù)值.在所有數(shù)據(jù)庫(kù)上,MFSIQ的性能表現(xiàn)都優(yōu)于主流的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)方法以及全參考質(zhì)量評(píng)價(jià)方法PSNR.在MICT數(shù)據(jù)庫(kù)上它的性能表現(xiàn)甚至要優(yōu)于SSIM.考慮到它僅需要原始圖像的少量視覺特征,MFSIQ相對(duì)于全參考圖像質(zhì)量評(píng)價(jià)算法的優(yōu)勢(shì)是很明顯的.
表2 圖像質(zhì)量評(píng)價(jià)算法在IVC和MICT數(shù)據(jù)庫(kù)上表現(xiàn)
半?yún)⒖夹畔⒌木幋a方式如下:首先對(duì)實(shí)值的視覺特征進(jìn)行量化,隨后利用霍夫曼編碼[26]完成視覺信息的無損壓縮.本實(shí)驗(yàn)比較了LIVE圖像數(shù)據(jù)庫(kù)中的所有原始圖像經(jīng)過JPEG2000無損壓縮后的體積以及原始圖像對(duì)應(yīng)視覺特征經(jīng)過無損壓縮后的體積.
實(shí)驗(yàn)表明:視覺特征經(jīng)過無損壓縮后的體積僅僅是原始圖像無損壓縮體積的[0.032%~0.061%].平均來說,視覺特征的體積是原始參考圖像體積的0.045%.這對(duì)于信息傳輸來說已經(jīng)是相當(dāng)小的負(fù)擔(dān).
本文提出了一種基于多個(gè)視覺特征的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)算法.這些視覺特征不但能夠高效地完成許多常見的視覺任務(wù)(例如圖像檢索),而且具有傳輸負(fù)擔(dān)小和計(jì)算用時(shí)少的特點(diǎn).因此,它們可以直接被用于產(chǎn)生原始圖像的部分參考信息描述.這里特征融合部分負(fù)責(zé)將在多個(gè)特征域比較參考和待測(cè)圖像所獲得的相似性度量合并為圖像的整體質(zhì)量.
在多個(gè)主流圖像質(zhì)量數(shù)據(jù)庫(kù)(LIVE、IVC和MICT)上所進(jìn)行的實(shí)驗(yàn)表明:本文所提出的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)算法要優(yōu)于主流的半?yún)⒖紙D像質(zhì)量評(píng)價(jià)算法以及全參考質(zhì)量評(píng)價(jià)算法PSNR.它的性能完全能夠和全參考圖像質(zhì)量評(píng)價(jià)算法SSIM相媲美.就半?yún)⒖紙D像質(zhì)量評(píng)價(jià)算法來說,它的表現(xiàn)是很難得的.