傅杰
摘要:圖像質量評價是計算機視覺的一個重要領域,也是近年來的研究熱點。在圖像的傳輸與存儲過程中,對壓縮圖像的客觀質量評價在圖像壓縮系統(tǒng)中是必不可少的。均方誤差與峰值信噪比雖然計算簡便,但對于反映壓縮圖像的感知質量并不準確,與人眼視覺系統(tǒng)(HVS)也沒有太好的一致性。近年來,該領域也出現(xiàn)了許多優(yōu)秀的圖像質量評價方法以求良好的表達圖像質量與人眼感知之間的關系,如SSIM,IFC,VSNR等。這些算法性能卓越,但在壓縮圖像的質量評價方面仍有較大提升空間。圖像在壓縮過程中,高頻部分由于DCT變換的特性會受到更大程度的失真,即圖像不同部分的失真情況是不同的。從這個角度利用帶權的結構相似性方法能良好的表達壓縮圖像的失真程度從而更好的反應人眼感知對圖像質量的感知特性。該方法在LIVE,CSIQ,TID2008,TID2013上均比其他算法具有更好的性能。該方法也為壓縮圖像質量評價提供了一種新的思路,即從壓縮算法本身會對圖像信息的不同部分產生不同程度失真的特性出發(fā)來優(yōu)化圖像的質量評價,從而更好地反應HVS對圖像的感知特性。
關鍵詞:關鍵詞;壓縮圖像;權重;結構相似性;質量評價;人眼視覺系統(tǒng);感知特性
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)29-0146-03
Compressed Image Quality Assessment:A Metric Based on Weighted Structural Similirity
FU Jie
(Tongji University, Shanghai 201804, China)
Abstract: Image quality assessment (IQA) is an important area of computer vision in recent years. In the process of delivery and storage, objective quality assessment is essential for compressed images. Although the calculation of Mean Square Error (MSE) and Peak Signal to Noise Ratio (PSNR) are simple, their reflection to the perceptual quality of compressed images are not accurate. Recently, in order to improve the IQA ability, many excellent IQA methods are developed, such as SSIM, IFC, VSNR, etc. There are still a large ascension for compressed images although these metrics have good performances. As we known, the high frequency signals are more seriously distorted because of the DCT transform in image compression. Thus, based on the idea that the part of serious distortion can better present the degeneration of original images, we adopt the method as weighted structural similarity to evaluate the quality of compressed images. Extensive experiments have been performed on four benchmark databases, which demonstrate that the proposed method is more effective than a number of state-of-the-art IQA metrics.
Key words: compressed image; weighted; structural similarity; quality assessment; human vision system; perceptual
隨著圖像處理技術的迅速發(fā)展,,如何正確有效地評價一幅圖像的質量好壞變得越發(fā)重要起來。近年來,圖像質量評價[1]已經成為了圖像信息工程領域內一項重要的研究課題,引起了學者的高度重視。在圖像傳輸與存儲過程中,評價壓縮圖像的質量是不可或缺的,這也逐漸成為圖像質量評價領域的一個研究熱點。圖像質量評價方法是根據(jù)人眼的主觀視覺系統(tǒng)建立數(shù)學模型,并通過具體的公式評價圖像的質量。圖像質量評價最終取決于觀察者的視覺感知,其目標都是追求質量評價結果與人眼的主觀評價盡可能的一致。
圖像質量評價技術的早期研究主要集中在傳統(tǒng)的誤差統(tǒng)計方法上,包括均方差(MSE)與峰值信噪比(PSNR)[2]。隨著研究的深入,研究者發(fā)現(xiàn)這種方法忽視了圖像內容對人眼的影響,不能完全反映圖像的質量,因此研究者采用了更多的。方法在更深的層面上做了嘗試。王周等人提出的結構相似性(Structural Similarity,SSIM)[3]從亮度、對比度與這兩者的綜合通道三個方面來評價圖像質量。這一算法認為結構信息直接反映了圖像的結構特征,這些結構特征很好的引起了人眼對圖像質量的感知并反映了感知質量,從而將圖像質量評價統(tǒng)計層面推向了結構層面。IFC[4](Information Fidelity Criterion)利用了自然場景分析方法來衡量參考圖像和失真圖像的共同信息的多少,并以此作為失真圖像的質量依據(jù)。NQM[5](Noise Quality Metric)則從噪聲信息的角度出發(fā)去評價圖像失真程度。VSNR[6](Visual Signal-to-Noise Ratio)基于人類視覺的閾值特性提出了針對自然場景圖像的兩段式圖像質量評價方法。壓縮圖像廣泛存在于人們的生活中,壓縮圖像的壓縮質量也與人們的多媒體生活息息相關,壓縮圖像的質量評價這一課題是具有較強的現(xiàn)實意義的。
從整體上來說,壓縮圖像在壓縮過程中受到的失真是壓縮算法定量造成的,而圖像壓縮算法在DCT變換中對圖像的高頻信息產生了較大失真。本文從壓縮算法的特性著手,研究了圖像高頻信號的失真情況,并結合王周等人提出的圖像結構相似性設計了一種以圖像失真程度為權重的壓縮圖像結構相似性方法。
1 以信號失真程度為權重的結構相似性方法
在圖像壓縮過程中,DCT變換的機制使得圖像的高頻信息受到的影響遠大于低頻信息,這是由圖像壓縮算法的特性所決定的。結構相似性理論認為圖像的結構信息是人眼感知圖像質量的必不可少的內容,因此從亮度、對比度與這兩者的綜合通道三個方面來描述圖像結構信息,以此來評價圖像質量。本文從壓縮算法的特性著手,研究了壓縮圖像信號失真程度的分布,以此作為圖像結構信息權重的依據(jù)進而提出了一種針對壓縮圖像的質量評價方法。
1.1 圖像壓縮失真
在圖像壓縮過程中會產生不同程度的失真,這取決于圖像壓縮算法與壓縮程度,本文主要針對JPEG壓縮進行研究。
1992年聯(lián)合圖像專家組(Joint Photographic Experts Group,JPEG)推出了ISO/IEC 10918標準,簡稱JPEG壓縮標準。JPEG是以DCT變化為基礎的有損壓縮,適用于靜態(tài)圖像的壓縮。DCT變換使得原始圖像的高頻信號受到較大的影響,其效果如圖1所示。從圖1可以清楚地看到,JPEG壓縮后高頻信號部分明顯亮于低頻部分,即高頻部分的失真要遠大于低頻信號部分。
圖1 壓縮前后對比圖及差值圖
1.2 帶權的結構相似性方法
王周等人提出的結構相似性理論(structural similarity,SSIM)[3]認為,自然圖像信號是高度結構化的,換言之就是像素之間有存在很強的關聯(lián)性,尤其對于空間距離更小的像素。像素間的空間距離越小,那么這種關聯(lián)性就越想,這也與馬爾科夫隨機場理論有相似之處。SSIM認為這種圖像像素間的相關性蘊含視覺場景中物體結構的重要信息,即圖像的結構信息;人眼視覺系統(tǒng)(HVS)的主要功能是從圖像本身提取結構信息,并用這種對結構信息的度量去表達圖像的感知質量。結構相似性理論是一種不同于以往以數(shù)理統(tǒng)計方法的全新思想,這一新思想的關鍵是從對感知誤差度量到對感知結構失真度量的轉變。SSIM沒有試圖通過累加與心理物理學簡單認知模式有關的誤差來估計圖像質量,而是通過評價兩幅圖像結構信號的整體改變水平來對圖像的感知質量進行評價,從而在某種程度上避免了對自然圖像內容復雜性研究的問題。
結構相似性理論是從圖像的亮度、對比度以及結構這三個方面出發(fā)去評價圖像質量。她用均值作為亮度的估計,標準差作為對比度的估計,協(xié)方差作為結構相似程度的度量,其形式如下:
[l(x,y)=2μxμy+C1μ2x+μ2y+C1c(x,y)=2σxσy+C2σ2x+σ2y+C2s(x,y)=σxy+C3σxσy+C3] (1)
其中,[x]、[y]分別為參考圖像和失真圖像,參數(shù)[C1]、[C2]、[C3]均為常量參數(shù)。在一個滑動窗口內,[μ]為圖像的像素均值,代表了亮度信息。[σ]分別表示的標準差,代表了對比度信息。[l(x,y)]、[c(x,y)]、[s(x,y)]分別代表圖像的亮度、對比度與結構三個通道的相似性。在實際計算過程中, [C3=C2/2],,因此最終的SSIM[3]可由公式(1)中的這三個度量相乘得到,其最終形式為:
[SSIM(x,y)=2μxμy+C1μ2x+μ2y+C1.2σxy+C2σ2x+σ2y+C2] (2)
由公式(2)可知,SSIM的值在0到1之間,兩幅圖像越接近則SSIM值越接近1,反之越接近0。本文考慮到壓縮圖像所造成的失真分布往往是不均勻的(如圖1),換言之圖像不同部分在壓縮過程中受到影響差別較大。因此我們認為對壓縮圖像來說,失真較為嚴重的區(qū)域應當考慮得更多,即分數(shù)占的比重應該更大。因此我們利用圖1(c)的差值圖像作為權重的依據(jù),顏色越暗相當于失真程度越小,所對應的權重應當越低。這里我們記原圖像與失真圖像的差值圖像為W,那么它的元素可以如下表示:
[Wi,j=ri,j-di,j] (3)
其中,[r]為原圖像,[d]為壓縮圖像,[i,j]為像素點下標。根據(jù)上述分析,在圖像壓縮過程中受到失真越大的部分應該受到更大的關注,即更大的權重,而在公式(3)中,對矩陣W來說,所有元素均介于0到1時間,且失真程度越大的部分則對應W中的元素值越大。對于SSIM來說,SSIM值越大則失真程度越小,因此我們采用如下方式將權重賦予SSIM,并求得均值作為最終的質量評價結果:
[METRIC=i,j∈d(1-Wi,j).SSIMi,j] (4)
2 實驗結果及分析
為了驗證本文算法的有效性,我們在四個公開的圖像質量評價權威數(shù)據(jù)庫里進行實驗。這四個數(shù)據(jù)庫分別是LIVE[10],CSIQ[11],TID2008[12]與TID2013[13]。我們選取了這四個庫中JPEG壓縮失真類型的數(shù)據(jù),分別包含174,150,100,125張JPEG壓縮圖片及他們的主觀評價分。我們以此作為實驗數(shù)據(jù)并與其他5種性能優(yōu)秀的圖像質量評價算法,包括PSNR,NQM,SSIM,IFC與VSNR,進行實驗對比。
2.1 評價指標
視頻質量專家組(VQEG)[14]從客觀評價分與主觀評價分的一致性程度出發(fā),提出了數(shù)個衡量兩者關聯(lián)緊密程度的指標。其中最重要的兩個指標是斯皮爾曼秩相關系數(shù)(SRC)與皮爾遜線性相關系數(shù)(PCC)。
斯皮爾曼秩相關系數(shù)用于衡量客觀評價結果與主觀評價結果之間的單調性,這個指標考慮的不是距離而是數(shù)據(jù)之間測次序,即單調性。皮爾遜線性相關系數(shù)衡量的是線性相關程度,根據(jù)視頻質量專家組的建議,計算這個指標前要先對數(shù)據(jù)進行五參數(shù)的logistic回歸,而后用回歸函數(shù)進行預測并計算該系數(shù)。五參數(shù)的logistic回歸函數(shù)形式如下:
[f(x)=β1(12-11+eβ2(x-β3))-β4x+β5] (5)
一個圖像質量評價算法越優(yōu)秀,那么他所計算得到的客觀質量評價分與主觀質量評價分之間的單調性與線性度均越好。因此,斯皮爾曼秩相關系數(shù)與皮爾遜線性相關系數(shù)的值越大意味著算法性能越好。
2.2 實驗結果與分析
表1與表2分別是其他5種算法與本文算法在4個權威數(shù)據(jù)庫上的斯皮爾曼秩相關系數(shù)與皮爾遜線性相關系數(shù)的性能。VSNR在TID2013的JPEG數(shù)據(jù)中會計算出無窮大值,因此用logistic函數(shù)無法進行擬合,這里用符號*標記。由表1與表2可以看出,斯皮爾曼秩相關系數(shù)與皮爾遜線性相關系數(shù)往往是正向關系,但也存在一定的波動。不難看出,本文算法的性能是較其他5個算法在壓縮圖像質量評估上是更為優(yōu)秀的,尤其是在TID2008與TID2013上的表現(xiàn)。表3是6種算法平均每張圖片的時間代價。PSNR明顯快于其他算法,SSIM與本文算法次之。本文算法是SSIM的時間再加上計算權重的步驟,權重計算是簡單地像素運算,因此本文算法時間與SSIM接近。
圖2是6種算法在TID2008上的散點圖與擬合曲線。我們不難看出,本文方法具有較為優(yōu)秀的性能,其散點圖也顯示了本文的評價方法與主觀質量評價保持了良好的一致性。從圖2(a)結合表3可以看出PSNR雖然具有非??斓乃俣龋瞧鋵τ趬嚎s圖像質量預測的準確性存在很大的提升空間。結合圖2(c)與表3可以看出SSIM是一個性能與速度都優(yōu)秀的算法,較快的預測壓縮圖像質量的同時也保持了較高的準確性。IFC與NQM計算相對較慢,但他們在CSIQ數(shù)據(jù)庫上均有較好的表現(xiàn)。由圖2(f)的數(shù)據(jù)散點我們可以看出,本文算法的點分布相對均勻,沒有與擬合曲線相去甚遠的點,單調性與線性度都很好。
3 結束語
本文基于SSIM提出了一種壓縮圖像的SSIM改進的質量評價方法,并在多個權威數(shù)據(jù)庫進行了實驗以驗證其有效性。壓縮圖像是失真圖像的一類,未來的工作我們將致力于兩方面的提升。首先是我們應該提出新的思路,使這一能對其他類型的圖像也能進行更準確的預測。再者是本文算法是一種全參考方法,需要用到源圖像,接下來的工作我們著眼于減少參考信息的使用來完成壓縮圖像的質量評價。
參考文獻:
[1] WANG ZHOU, BOVIK A C. Modern image quality assessment[M]. Morgan and Claypool Publishing Company, New York, 2006: 20-30.
[2] AVCIBAS I, SANBUR B, SAYOOD K. Statistical evaluation of image quality measures[J]. Journal of Electronic Imaging, 2002, 11(2): 206-213.
[3] WANG Zhou, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Trans on Image Processing, 2004, 13(4): 600-612.
[4] SHEIKH H R, BOVIC A C, DE VECIANA G. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Trans on Image Processing, 2005, 14(12): 2117-2128.
[5] DAMERA-VENKATA N, KITE T D, GEISLER W S, et al. Image quality assessment based on a degradation model[J]. IEEE Trans on Image Processing, 2000, 9(4): 636-650.
[6] DAMON M CHANDLER, SHEILA S. H. VSNR: A Wavelet-Based Visual Signal-to-Noise Ratio for Natural Images[J]. IEEE Trans on Image Processing, 2007, 16(9): 2284-2298.
[7] KAIMING HE, JIAN SUN, XIAOOU TANG, Guided Image Filtering[J]. IEEE Trans on pattern analysis and machine intelligence, 2013, 35(6): 1397-1409.
[8] KAIMING HE, JIAN SUN, XIAOOU TANG, Single Image Haze Removal Using Dark Channel Prior[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition. 2009, 35: 1956-1963.
[9] RICHARDPER N, SMITH H. Applied regression analysis[J]. Biometrics, 1998, 29(1): VII-VII.
[10] SHEIKH H R, SESHADRINATHAN K, MOORTHY A K, et al.Image and video quality assessment research at LIVE[DB/OL]. [2004]. http://live.Ece.utexas.edu/research/quality/.
[11] NINASSI A, CALLET P L, AUTRUSSEAU F. Categorical subjective image quality ( CSIQ) database [DB/OL]. [2010]. http://vision.Okstat.edu/?loc=csiq.
[12] PONOMARENKO N, LUKIN V, ZELEENSKY A, et al. TID2008: a database for evaluation of full-reference visual quality assessment metrics. [EB/OL]. [2009]. http://www.ponomarenko.info/papers/mre2008tid.pdf.
[13] PONOMARENKO N, JIN L, IEREMEIEV O, et al. Image database TID2013: Peculiarities, results and perspectives. [EB/OL].[2013].http://www.ponomarenko.info /papers /EUVIP_TID 2013.pdf.
[14] VQEG. Final report from the video quality experts group on the validation of objective models of video quality assessment [EB/OL]. [2003], ftp://vqeq.Its.bldrdoc.gov /Documents/Meetings /Hillsboro/VQEG-Mar-03 /VQEGII-DraftReport^v2a.pdf.