曹 欣李戰(zhàn)明胡文瑾
(1.蘭州理工大學(xué)電氣工程與信息工程學(xué)院 蘭州 730050)(2.西北民族大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院 蘭州 730000)
借助最近推出的設(shè)備(例如攝像機,電腦,手機),人們可以輕松地分享他們的生活照片。然而,捕獲,壓縮和發(fā)布圖像到網(wǎng)站的過程中,會不可避免地造成原始圖像質(zhì)量不同程度的下降。為了能夠保持令人滿意的數(shù)字圖像感知質(zhì)量[1],我們必須首先確定每個階段的失真水平,然后提高質(zhì)量。判斷圖像質(zhì)量(或失真度)的過程稱為圖像質(zhì)量評估。此外,人們希望找到一種省時的方法,可以自動評估圖像質(zhì)量而無需人工干預(yù)。因此,客觀的圖像質(zhì)量評價被引入以滿足需要??陀^IQA方法可分為三類:全參考(Full-Reference,F(xiàn)R)、部分參考(Reduce-Reference,RR)、無參考(No-Reference,NR)。
然而,在許多實際應(yīng)用中,圖像質(zhì)量評價系統(tǒng)不能或很難獲取參考圖像。因此,有必要建立一種可對圖像質(zhì)量進(jìn)行盲評價的方法,即無參考圖像質(zhì)量評價方法。現(xiàn)有的圖像質(zhì)量評價方法主要分為特定應(yīng)用型評價和通用型評價。特定應(yīng)用評價是專門為了處理特定的失真類型而設(shè)計的,一般不能處理其他類型的失真。而通用型評價與失真類型無關(guān),因此近幾年越來越多的通用型評價方法被提出。
通用型無參考圖像質(zhì)量評價方法分為基于學(xué)習(xí)的方法和基于距離的方法?;趯W(xué)習(xí)的方法沒有參考圖像作為對比,需要通過學(xué)習(xí)特征為模型提供經(jīng)驗,然后借助學(xué)習(xí)的經(jīng)驗預(yù)測圖像質(zhì)量。目前最為經(jīng)典的無參考圖像質(zhì)量評價方法有BIQI[2]和DIIVINE[3],其相同之處都是在空間或時間域的基礎(chǔ)上,分析待評價圖像的統(tǒng)計特征,建立統(tǒng)計特征與主觀評價之間的映射關(guān)系,進(jìn)而對圖像質(zhì)量進(jìn)行評價。隨后基于DIIVINE的算法被提出,Saad等[4]開發(fā)了一種有效的、通用的、無參考圖像質(zhì)量評價算法BLIINDS-II,通過提取離散余弦變換系數(shù)的自然場景統(tǒng)計特征,利用貝葉斯模型預(yù)測圖像質(zhì)量。Mittal等[5]提出了基于圖像空間域的盲圖像質(zhì)量評估(BRISQE)算法,該模型不計算失真特定的特征,而是使用來自局部歸一化亮度系數(shù)的場景統(tǒng)計作為特征,以量化由于失真的存在而在圖像中自然損失的可能性。此外,該方法不需要將圖像變換到另一個域,這可以大大降低計算復(fù)雜度,使其適合于實時應(yīng)用。Mittal還推出另一種無參考圖像質(zhì)量評價模型,該模型僅使用自然圖像中觀察到的統(tǒng)計規(guī)律性的可測量偏差,而不需要在人為失真的圖像上進(jìn)行訓(xùn)練。我們稱之為自然圖像質(zhì)量評估器(NIQE)[6],它基于從空間域自然場景統(tǒng)計模型中提取統(tǒng)計特征。DLIQA[7]是另一種基于自然場景統(tǒng)計的無參考圖像質(zhì)量評價模型。該方法與其他方法的主要區(qū)別在于其是基于分類的框架,而不是回歸模型。首先,圖像由自然場景統(tǒng)計特征表示,可以分為5個等級,分別對應(yīng)5個定性描述(優(yōu)秀,良好,一般,差)通過一個深度分類器,然后將質(zhì)量標(biāo)簽及其相應(yīng)的概率置信度通過質(zhì)量池轉(zhuǎn)換為數(shù)值評分。Zhang等利用五種類型的自然圖像統(tǒng)計特征,從原始的自然圖像集學(xué)習(xí)圖像塊的多元高斯模型。利用所學(xué)習(xí)的多元高斯模型,采用類巴氏距離來度量每個圖像塊的質(zhì)量,然后通過平均池得到整體質(zhì)量分?jǐn)?shù)。這種方法不需要任何失真圖像和訓(xùn)練的主觀質(zhì)量評分,稱為IL-NIQE[8]。近年,Ghadiyaram等[9]開發(fā)了一種無參考圖像質(zhì)量評價模型FRIQUEE,它結(jié)合了多個域上的大量統(tǒng)計特征來訓(xùn)練一個能夠盲目預(yù)測圖像質(zhì)量的回歸器。雖然這兩種方法使用高度多樣化的特征集,并且可以對具有多個失真或真實失真的圖像進(jìn)行良好的處理,但是它們不能準(zhǔn)確地估計具有多種失真類型的數(shù)據(jù)庫的圖像質(zhì)量。隨后Ye等[11]提出了另一種基于特征學(xué)習(xí)的方法,稱為CORNIA。首先,使用原始圖像塊局部描述符。其次,他們使用基于碼本的方法自動學(xué)習(xí)功能。碼本是通過對從未標(biāo)記訓(xùn)練圖像提取的局部特征進(jìn)行K均值聚類而構(gòu)建的。第三,他們使用軟編碼和最大的編碼池。該過程無參數(shù)且計算效率高。最后,采用線性核的SVR進(jìn)行質(zhì)量評估。與之前的方法(CBIQ[10])相比,CORNIA不需要標(biāo)簽來構(gòu)建密碼本。它還能夠通過使用較小的碼本更準(zhǔn)確地估計質(zhì)量。Liu等[12]利用curvelet子帶系數(shù)的非對稱廣義高斯分布模型參數(shù)、子帶方向及子帶尺度能量分布作為特征進(jìn)行圖像質(zhì)量評價。Li等[13]利用Shearlet子帶系數(shù)的振幅均值評價圖像質(zhì)量。綜上所述,雖然現(xiàn)有的無參考圖像質(zhì)量評價已取得顯著的效果,但是對于各種復(fù)雜的失真類型還有很大的提升空間。
在前人工作的基礎(chǔ)上,本文提出以提取梯度特征與多尺度能量來衡量圖像的清晰度,首先提取圖像的梯度特征,然后進(jìn)行多尺度小波分解,進(jìn)而提取各尺度高頻系數(shù),并將低頻系數(shù)進(jìn)行量化編碼作為高頻系數(shù)的一部分,根據(jù)高頻系數(shù)計算能量。此外,考慮到人眼的視覺特性,提取圖像的LBP以及Lαβ色彩空間的顏色特征;最后通過支持向量回歸建立評價模型。
圖像的清晰度是指人眼宏觀看到的圖像的清晰程度,是衡量圖像質(zhì)量的重要指標(biāo)之一。當(dāng)人眼主觀感覺對一幅圖像進(jìn)行定量測試時,往往會被明亮和引人注目的區(qū)域吸引,也就是說對于圖像清晰度的判斷取決于圖像中清晰區(qū)域,如果圖片中的局部區(qū)域足夠清晰則認(rèn)為該圖像質(zhì)量很好。所以在計算圖像質(zhì)量時,我們會選取圖像中清晰度高的區(qū)域作為基準(zhǔn),這樣不僅可以突出顯著性對象,還能夠表達(dá)出圖片中的重要信息。而清晰度由高頻區(qū)域的空間細(xì)節(jié)內(nèi)容和邊緣決定。
2.1.1 梯度特征提取
邊緣是圖像最基本的特征,是人眼識別目標(biāo)的重要信息。為了突出圖像的邊緣來更好地評價圖像清晰度,本文利用Prewitt邊緣檢測算子提取圖像邊緣信息,Prewitt濾波器沿水平方向(x)和垂直方向(y)被定義為如下式:
計算梯度幅值GM1,定義如下式:
其中Hx是水平方向濾波器,Hy是垂直方向濾波器,f(x)是待評價圖像,?是線性卷積運算。
梯度幅值GM1的特征由其均值ave_grad1和標(biāo)準(zhǔn)差std_grad1來表示。
圖像的一階與二階導(dǎo)數(shù)在圖像邊緣提取中十分重要。圖像中大部分邊緣都不是突變的而是慢慢變化的,一階導(dǎo)數(shù)將斜坡(斜坡區(qū)域是圖像中最常見的區(qū)域)變成了粗線,二階導(dǎo)數(shù)將斜坡變成了細(xì)線;二階導(dǎo)數(shù)比一階導(dǎo)數(shù)有更好的細(xì)節(jié)增強,基于此,本文在一階導(dǎo)數(shù)的基礎(chǔ)上提取二階導(dǎo)數(shù)如下:梯度幅值GM2的特征由其均值ave_grad2和標(biāo)準(zhǔn)差std_grad2來表示。
雖然二階導(dǎo)數(shù)對精細(xì)細(xì)節(jié),如細(xì)線、孤立點有更好的增強表現(xiàn)但是對噪聲也有較強的響應(yīng),雖然本文選取了對噪聲有抑制作用的Prewitt算子,但是為了進(jìn)一步減少噪聲的影響,我們提取三階導(dǎo)數(shù)對圖像進(jìn)行處理如下:
梯度幅值GM3的特征由其均值ave_grad3和標(biāo)準(zhǔn)差std_grad3來表示。
綜合以上可以得到待測圖像的梯度特征即:
2.1.2 能量計算
圖像的清晰程度一般可由高頻信息反映出來,圖像的高頻信息占比越大,能量也越大,則表示圖像清晰度越高,反之圖像越模糊,則包含的高頻信息就越少,能量就越低,則清晰度就低。而小波變換可將一幅圖像分解成近似(低頻成分)和細(xì)節(jié)(高頻成分)圖像?;诖?,本文提出以小波變換為基礎(chǔ)計算能量來判斷圖像清晰度,其具體計算過程如下:
1)對待評價圖像f(x)進(jìn)行灰度化;
2)利用二維離散小波對灰度化后的圖像進(jìn)行3層分解;
3)得到3個不同尺度的高頻系數(shù)和低頻系數(shù);
4)接下來對高頻系數(shù)進(jìn)行放大處理,并抑制低頻系數(shù);
5)最后對各部分高頻信息進(jìn)行能量計算,利用加權(quán)融合方法得到總的能量Fish_feat。
最終,待測圖像的清晰度用如下特征來表示:
局部二進(jìn)制模式(Local Binary Pattern,LBP)是一種有效的描述圖像局部紋理特征的算子。對任意空間給定位置(xc,yc),將其與相鄰的8個像素的灰度值進(jìn)行比較,可產(chǎn)生8位二進(jìn)制數(shù),該二進(jìn)制數(shù)對應(yīng)的十進(jìn)制數(shù)被定義為LBP如下所示:
其中ic表示中心像素(xc,yc)的灰度值,in是其8個相臨位置的灰度值。
我們知道8bit的LBP的特征維數(shù)為2^8=256,向量維數(shù)非常高,使其計算和存儲受到限制。
為了解決這種問題,對LBP算子擴展為統(tǒng)一模式,這里的統(tǒng)一化模式就是一種降維方式。所謂統(tǒng)一模式是指一個二進(jìn)制序列從0到1或者是從1到0的變換最多只包含兩次,通過二進(jìn)制數(shù)首尾相連,所有8位二進(jìn)制數(shù)中共有58種變化,將58種變化即58維等價模式歸為一類,除了58維等價模式以外的模式都?xì)w為另外一類,稱之為混合類,即將值分為59維,58維為一類,其它的所有值為第59維。
這樣原始的直方圖從256維減少為59維,大大的降低了其特征維數(shù),且不會丟失重要的紋理信息,同時減少了高頻噪聲的影響,與其它的LBP算子相比,統(tǒng)一化模式LBP算子具有明顯的優(yōu)勢。
最終,待測圖像的59維紋理特征通過LBP直方圖表示如下式所示:
其中,n等于59,表示含有59個bin的直方圖。
色彩空間將顏色從人們的主觀感受量化為具體的表達(dá),因此,色彩空間的選取要符合人眼的視覺感知,本文選擇在lαβ空間進(jìn)行圖像的處理,lαβ色彩空間各通道具有最小的相關(guān)性,而且能夠?qū)D像的灰度信息和顏色信息分離開,這樣以便于對三個通道進(jìn)行獨立運算,且不會影響原圖像的效果。我們需要將圖像從RGB空間轉(zhuǎn)換到lαβ空間。從RGB空間到lαβ空間的轉(zhuǎn)換如下:
為了使數(shù)據(jù)分布更加聚斂,且更符合人類對顏色的感知,進(jìn)一步將LMS空間轉(zhuǎn)換到以10為底的對數(shù)空間。
從LMS空間到lαβ空間的轉(zhuǎn)換可由下式得到。
其中,l表示亮度分量,α表示黃一藍(lán)通道,β表示紅一綠通道。
經(jīng)過以上步驟就完成了從RGB空間到lαβ空間的轉(zhuǎn)換,對藍(lán)黃通道和紅綠通道進(jìn)行非對稱廣義高斯分布擬合,其表達(dá)式如下:
式中:
提取到形狀參數(shù)υ,左右方差σl2,σr2,另外也提取其峰態(tài)(Kurtosi)和偏態(tài)參數(shù)(Skewness)。
最終,待測圖像的色度統(tǒng)計特征可用如下特征向量表示:
本文所提算法由清晰度(7維,其中包含梯度特征6維,不同尺度能量1維),以及統(tǒng)一化模式的LBP直方圖(59維)和lαβ顏色空間下紅綠通道和藍(lán)黃通道系數(shù)分布參數(shù)(10維),共76維特征。然后以76維特征作為輸入,利用支持向量回歸得到預(yù)測模型,對待評價圖像進(jìn)行質(zhì)量預(yù)測。
支持向量機是由Vapnik首先提出的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋找最佳的預(yù)測模型。通過引入核函數(shù),將低維原始特征映射到高維特征空間中有效地進(jìn)行非線性分類,從而避免了高維空間中的復(fù)雜運算。
本文選擇在LIVE數(shù)據(jù)庫上驗證所提無參考圖像質(zhì)量評價模型的有效性。LIVE數(shù)據(jù)庫中包含29張參考圖像和779張失真圖像,其包含5種(JPEG壓縮、JPEG2000壓縮、白噪聲、高斯模糊、快速衰落)失真類型,每張圖片存在5~6個失真等級。數(shù)據(jù)庫中都給出了每幅圖像相應(yīng)DMOS值,這些DMOS值是由161個觀察者主觀評價方法得出的,取值范圍為0~100,其值越大相應(yīng)圖像的失真程度越大。
為了評價預(yù)測結(jié)果,視頻質(zhì)量專家組提出了皮爾森線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)、斯皮爾曼秩相關(guān)系數(shù)(Spearman’s Rank Correlation Coefficient,SROCC)。SROCC用來反映客觀評價方法的單調(diào)性,其值越接近于1,算法的單調(diào)性越好。計算PLCC之前需要先對客觀質(zhì)量評價算法與DMOS進(jìn)行非線性回歸分析。PLCC用于反映客觀評價方法的預(yù)測精度,其值越接近于1表示,則算法的精確性越高。
非線性回歸采用logistic回歸函數(shù)。logistic回歸函數(shù)公式如下式:
式中β1、β2、β3、β4和β5是回歸模型的參數(shù)。
為了與目前的無參考圖像質(zhì)量評價方法BRISQUE、BLIINDS-II、DIIVINE、C-DIIVINE、CORNIA、IL-NIQE、BIQI、MIQA、GRNN及SHANIA等進(jìn)行比較。本文采用支持向量回歸進(jìn)行測試。測試方法主要步驟如下:
1)提取LIVE數(shù)據(jù)庫中所有圖像的特征及其相應(yīng)的主觀評分(DMOS);
2)將LIVE數(shù)據(jù)庫中29張參考圖像隨機分為80%和20%,從而找到相應(yīng)失真圖像80%的訓(xùn)練集和20%的測試集,以此訓(xùn)練集和測試集中沒有任何重合的圖像;
3)利用訓(xùn)練集對應(yīng)的特征及其相應(yīng)DMOS訓(xùn)練評價模型,并利用測試集中各圖像提取的特征預(yù)測圖像質(zhì)量得分;
4)計算測試集中所預(yù)測得分與其相應(yīng)DMOS之間的SROCC和PLCC值;
5)重復(fù)以上2),3),4)步驟1000次,保證了不會因為訓(xùn)練的空域內(nèi)容導(dǎo)致的偏差,然后以1000次測試結(jié)果SROCC和PLCC的中值作為本文所提算法最終評價指標(biāo)。
表1~2為各無參考質(zhì)量評價方法1000次迭代測試中SROCC及PLCC的中值。
表1 1000次迭代測試中各評價方法SROCC中值
表2 1000次迭代測試中各評價方法PLCC中值
由表1和表2可以看出,不同無參考圖像質(zhì)量評價方法的評價結(jié)果在各種失真類型上的性能比較結(jié)果。在這里用SROCC和PLCC做比較,從各失真類型評價結(jié)果看,本文在大多數(shù)失真類型上都取得較好效果,但對不同失真類型的評價結(jié)果稍有差別,總體上對JP2K、WN、FF失真類型評價中優(yōu)勢比較明顯。
由于訓(xùn)練集和測試集的不同劃分會影響圖像質(zhì)量評價模型最終的評價和識別效果。為了分析不同劃分比例對不同失真類型的識別以及對模型整體預(yù)測精度的影響,將LIVE數(shù)據(jù)庫按照表3和表4所示的比例分為訓(xùn)練集和測試集。圖像質(zhì)量評價模型以及不同失真類型識別模型在不同測試集和訓(xùn)練集下的實驗結(jié)果如表3和表4所示。
表3 不同訓(xùn)練和測試比例情況下的1000次迭代測試的SROCC中值
表4 不同訓(xùn)練和測試比例情況下的1000次迭代測試的PLCC中值
從上述表3和表4可以看出,隨著訓(xùn)練集比例的減少,不同失真類型以及整體的評價結(jié)果SROCC和PLCC在該模型上同時也出現(xiàn)了下降,但下降的幅度并不顯著。當(dāng)訓(xùn)練集的比例僅為50%時,對整個LIVE圖像庫的評價結(jié)果SROCC及PLCC依然可達(dá)到0.9以上,該測試表明本文所提模型評估結(jié)果與主觀評價間可以保持較高的一致性。
實際應(yīng)用中我們在設(shè)計或選用評價模型時往往希望具有比較低的復(fù)雜度,以便于應(yīng)用于實時系統(tǒng)中。在這里我們只統(tǒng)計各方法在提取兩張分辨率為512×512的圖像特征時所花費的時間。從表5可知本文算法具有較低的復(fù)雜度。
表5 各無參考圖像質(zhì)量評價算法運行時間比較
從表5可以看出,在上述5種評價方法中,本文方法的計算復(fù)雜性雖優(yōu)于BLIINDS-Ⅱ和DIIVINE,但稍差于BRISQUE和CurveletQA。其原因如下:1)BRISQUE僅僅在空間域進(jìn)行簡單的廣義高斯函數(shù)擬合提取統(tǒng)計特征,中間沒有太多的計算環(huán)節(jié);2)CurveletQA只有12個特征,只需要進(jìn)行Curvelet分解和計算方向能量及子帶能量分布。
為了提高無參考圖像質(zhì)量評價方法與人眼視覺感知結(jié)果的一致性,本文介紹了一種結(jié)合清晰度來評價圖像質(zhì)量的模型。首先提取梯度特征及其多尺度下的子帶能量;進(jìn)而提取統(tǒng)一化模式的LBP直方圖特征;然后提取lαβ顏色空間下藍(lán)黃通道和紅綠通道系數(shù)分布參數(shù);最后運用支持向量回歸建立圖像質(zhì)量評價模型。梯度特征和紋理特征可以互相補充,多尺度能量和顏色空間下紅綠通道和藍(lán)黃通道系數(shù)分布參數(shù)可以互相補充,比較全面地反映各種失真對圖像結(jié)構(gòu),視覺等信息的影響,實驗結(jié)果表明本文所提評價模型在LIVE數(shù)據(jù)庫上基本和人類主觀評價相一致,另外在評價效果以及算法復(fù)雜度上同樣取得了比較理想的結(jié)果。但是,該算法在紋理特征提取上還存在很大的改進(jìn)空間,所以,在后面的研究中,可以在彩色空間進(jìn)行紋理特征的提取,同時提高紋理特征提取的效率,從而使算法性能得到進(jìn)一步提高。