楊 璐,王 輝,魏 敏
1.中國科學(xué)院 光電技術(shù)研究所,成都 610209
2.中國科學(xué)院大學(xué),北京 100049
3.成都信息工程大學(xué) 計(jì)算機(jī)學(xué)院,成都 610225
視覺質(zhì)量是圖像復(fù)雜且固有的特征,其復(fù)雜度在和人腦視覺處理機(jī)制相關(guān)[1],因此對圖像質(zhì)量準(zhǔn)確建模一直是熱點(diǎn)研究問題。通常方法是與理想的成像模型或者完美的參考圖像對比得到失真度量[2]。根據(jù)是否存在可參考的圖像,將圖像質(zhì)量評價(jià)方法分為全參考(Full Reference,F(xiàn)R)、半?yún)⒖迹≧educed Reference,RR)和無參考(No Reference,NR)質(zhì)量評價(jià)三類,其中無參考圖像質(zhì)量評價(jià)(NRIQA)也叫盲圖像質(zhì)量評價(jià)(Blind Image Quality Assessment,BIQA)[3-4]。NRIQA方法在實(shí)際應(yīng)用中,需求廣泛但實(shí)現(xiàn)難度大于有參考圖像或特征的方法。隨機(jī)器學(xué)習(xí)發(fā)展尤其是深度學(xué)習(xí)對各個(gè)領(lǐng)域的影響一致[5],NRIQA技術(shù)也在不斷革新。本文通過分析近十幾年典型的NRIQA算法,歸納不同算法特點(diǎn),研究其現(xiàn)狀及發(fā)展趨勢,為后續(xù)研究提供參考資料。文章結(jié)構(gòu)如下:第1章介紹常用數(shù)據(jù)庫和衡量NRIQA算法性能的指標(biāo),總結(jié)NRIQA算法面臨的主要問題和解決方法概要;第2章介紹典型算法,這些算法在提出時(shí)都具有當(dāng)時(shí)最先進(jìn)的性能,甚至沿用至今,極具代表性;第3章統(tǒng)計(jì)在LIVE數(shù)據(jù)庫[6-8]對比實(shí)驗(yàn)及算法魯棒性測試實(shí)驗(yàn),即在LIVE[7]數(shù)據(jù)庫上重新訓(xùn)練,并在CSIQ數(shù)據(jù)庫[9]上測試;第4章根據(jù)分析實(shí)驗(yàn)結(jié)果得出結(jié)論,總結(jié)盲圖像質(zhì)量評價(jià)現(xiàn)狀及發(fā)展趨勢。
圖像質(zhì)量評價(jià)旨在擬合人眼,通常以算法的評價(jià)值與與人眼的主觀評分值進(jìn)行計(jì)算比較。在公共數(shù)據(jù)庫上,圖像的主觀評分值用平均主觀得分(Mean Opinion Score,MOS)表示或者使用平均主觀得分差異(Differential Mean Opinion Score,DMOS)表示。其范圍因不同數(shù)據(jù)庫而異,常見有[0,1]、[0,5]、[0,9]和[0,100]。MOS值越大表示圖像質(zhì)量越好,DMOS值越大表示圖像質(zhì)量越差。近年來提出的NRIQA方法大都基于機(jī)器學(xué)習(xí)方法,每種算法都有自己的提出思想和特點(diǎn)。為了方便與其他方法對比,通常選擇在公共數(shù)據(jù)庫上訓(xùn)練并測試,使用公認(rèn)的技術(shù)指標(biāo)進(jìn)行算法性能衡量。本章首先介紹常用的圖像質(zhì)量評價(jià)數(shù)據(jù)庫和公認(rèn)的算法性能衡量指標(biāo)。
僅介紹常見的幾個(gè)公開數(shù)據(jù)庫和常用性能指標(biāo)。
(1)LIVE(Laboratory for Image&Video Engineering)數(shù)據(jù)庫[7]是最為廣泛應(yīng)用的共享數(shù)據(jù)庫,共982幅圖像,包含JPEG2000、JPEG、白噪聲、高斯模糊和快速瑞利衰減5種其他基準(zhǔn)庫共有失真類型,圖像質(zhì)量用范圍為[0,100]的DMOS值表示。
(2)CSIQ(Categorical Subjective Image Quality)數(shù)據(jù)庫[9]共866幅失真圖像,6種失真,圖像質(zhì)量由范圍為[0,1]的DMOS值表示。
(3)TID2008(Tampere Image Database)數(shù)據(jù)庫[10]包括1 700失真幅圖像,17種失真,范圍[0,9]的MOS值表示質(zhì)量。
(4)TID2013數(shù)據(jù)庫[11]將TID2008擴(kuò)充至3 000幅圖像,包含24類失真,同時(shí)給出峰值信噪比、結(jié)構(gòu)相似度SSIM 值[2,6]、MSSIM[12]值、像素域的 VIF[13]值等作參考。
NRIQA算法性能衡量指標(biāo)最廣泛采用的是視頻質(zhì)量專家組(VQEG)采用的評估標(biāo)準(zhǔn)——線性相關(guān)系數(shù)和秩相關(guān)系數(shù)。此外,還有評估方式[14-15]以解決沒有MOS值的大規(guī)模圖像數(shù)據(jù)庫。
(1)線性相關(guān)系數(shù)(Linear Correlation Coefficient,LCC),也稱皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC),描述預(yù)測值與主觀評分之間的相關(guān)性和算法的準(zhǔn)確性。
(2)秩相關(guān)系數(shù)(Spearman’s Rank-Order Correlation Coefficient,SROCC)衡量算法的單調(diào)性。
基于學(xué)習(xí)的圖像質(zhì)量評價(jià)難點(diǎn)有二:第一,圖像質(zhì)量與視覺、心理等復(fù)雜因素有關(guān),當(dāng)前沒有成熟的理論支撐模型;第二,如上述介紹基準(zhǔn)庫數(shù)據(jù)量太小,無法支撐大型深度網(wǎng)絡(luò),擴(kuò)充數(shù)據(jù)庫費(fèi)時(shí)、昂貴、緩慢。典型的NRIQA方法幾乎都是從以上兩個(gè)問題著手解決。
2005年第一次將自然場景統(tǒng)計(jì)(Natural Scene Statistics,NSS)[16]用于圖像質(zhì)量評價(jià)后,大量實(shí)驗(yàn)表明NSS特征與圖像質(zhì)量存在密切關(guān)系。之后采用小波、DCT等提取不同子帶特征,或在空域獲取NSS特征,如:CORNIA[12]和BRISQUE[17]。在學(xué)習(xí)方法中,使用支持向量回歸或神經(jīng)網(wǎng)絡(luò)提取特征并映射到MOS/DMOS,或使用碼本結(jié)合特征。利用沒有MOS/DMOS值的數(shù)據(jù)集,通過學(xué)習(xí)構(gòu)造碼本克服數(shù)據(jù)規(guī)模的缺陷如CORNIA,盡管其具有高維度但后來BIQA模型中經(jīng)常采用,例如:BLISS[18]、dipIQ[19]和IQA-CNN[20](一個(gè)卷積和兩個(gè)全連接層的CNN作為CORNIA端到端版本)。
對于深度學(xué)習(xí),常見的(Opinion Free,OF)BIQA模型采用其他方式標(biāo)記圖像質(zhì)量,利用其他非IQA數(shù)據(jù)庫擴(kuò)大訓(xùn)練集規(guī)模。如BLISS利用FRIQA測量得出的綜合分?jǐn)?shù),先進(jìn)的FR方法與主觀意見分?jǐn)?shù)高度相關(guān),可用作人眼意見分?jǐn)?shù)的近似值;dipIQ利用具有不同圖像內(nèi)容的大規(guī)模數(shù)據(jù)庫獲得大量質(zhì)量可識別圖像對,然后使用RankNet[21]從數(shù)百萬的DIP中學(xué)習(xí)BIQA模型;RankIQA[22]使用相對質(zhì)量排序已知的降質(zhì)圖像訓(xùn)練連體網(wǎng)絡(luò),再將網(wǎng)絡(luò)參數(shù)遷移到傳統(tǒng)CNN上訓(xùn)練更深層廣泛的網(wǎng)絡(luò);DLIQA[23]保留了圖像的語義信息,按設(shè)定規(guī)則標(biāo)記圖像質(zhì)量等級,MEON[14]使用不同數(shù)據(jù)庫對子任務(wù)進(jìn)行分別訓(xùn)練。對于(Opinion Aware,OA)BIQA方法,直接在標(biāo)注了質(zhì)量分?jǐn)?shù)的IQA庫訓(xùn)練,但也采取不同措施增加數(shù)據(jù)量或擴(kuò)展網(wǎng)絡(luò)深度。IQA-CNN從圖像中采樣32×32圖像塊從而增加訓(xùn)練集規(guī)模;Deep-BIQ[24]利用遷移學(xué)習(xí)從預(yù)先訓(xùn)練好的分類模型微調(diào)。對BIQA建模根據(jù)需求通常歸為回歸問題,按處理思路也被歸為分類問題或分類+回歸的問題。通用BIQA模型依靠失真圖像和相應(yīng)意見分?jǐn)?shù)來學(xué)習(xí)將圖像特征并映射到質(zhì)量分?jǐn)?shù)的回歸函數(shù)??煞譃椋?/p>
(1)單任務(wù)模型
失真類型已知的特定失真質(zhì)量評價(jià),如NSS[16]方法針對JPEG2000壓縮;
失真未知的通用失真質(zhì)量評價(jià),這也是大多數(shù)方法目標(biāo)。
(2)多任務(wù)模型:如失真類型識別和質(zhì)量預(yù)測
兩個(gè)子任務(wù)無關(guān),如IQA-CNN++[25];
兩個(gè)子任務(wù)相關(guān)如MEON[14]。
分類問題:模型探討失真圖像質(zhì)量的區(qū)間,通過其他方法處理具體意見分?jǐn)?shù)。如DLIQA將盲質(zhì)量評估重新定義為5級分類問題,對應(yīng)于5種明確的心理概念以促進(jìn)學(xué)習(xí)人類定性描述;HOSA通過K-均值聚類,學(xué)習(xí)感知特征與主觀意見分?jǐn)?shù)之間的映射關(guān)系。該類方法通常在輸出層添加回歸模型實(shí)現(xiàn)質(zhì)量分?jǐn)?shù)的輸出。
下文將NRIQA模型即BIQA模型分為基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)。盡管深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)范疇,但由于近幾年發(fā)展迅猛,一些特有的學(xué)習(xí)手段如殘差網(wǎng)絡(luò)相繼被提出,因此越來越多的人將其單獨(dú)看作一種學(xué)習(xí)方法?;跈C(jī)器學(xué)習(xí)的BIQA模型利用能夠表征自然場景特性的統(tǒng)計(jì)模型估計(jì)出參數(shù)并作為作為回歸特征,學(xué)習(xí)回歸模型獲得圖像的質(zhì)量分?jǐn)?shù),自然場景統(tǒng)計(jì)NSS是最典型的特征。基于深度學(xué)習(xí)的BIQA模型面臨的首要難題是現(xiàn)有訓(xùn)練集規(guī)模不夠,最大的數(shù)據(jù)庫也僅包含了千位的圖像及注釋。為擴(kuò)展網(wǎng)絡(luò)深度遷移學(xué)習(xí)是自然聯(lián)想到的方法,繼承預(yù)訓(xùn)練用于分類任務(wù)網(wǎng)絡(luò)的結(jié)構(gòu)和權(quán)重進(jìn)行微調(diào),但其性能和效率很大程度上取決于預(yù)訓(xùn)練任務(wù)的普遍性和相關(guān)性。為解決圖像標(biāo)注數(shù)據(jù)量不足,基于深度學(xué)習(xí)的BIQA算法分為兩類:一類直接利用標(biāo)注的MOS/DMOS標(biāo)簽訓(xùn)練淺層網(wǎng)絡(luò),這類方法稱為OA-BIQA(Opinion Aware);另一類從結(jié)合其他非IQA數(shù)據(jù)庫設(shè)計(jì)自動標(biāo)簽生成模型、任務(wù)分段實(shí)現(xiàn)等方式增加訓(xùn)練數(shù)據(jù)規(guī)模,稱為OF-BIQA(Opinion Free)方式或OU-BIQA(Opinion Unaware)。以下選擇典型的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法詳細(xì)介紹,以通用的全參考方法作對比。
FRIQA方法相比BIQA方法,已經(jīng)形成了較為完善的理論體系和評價(jià)模型。在提出新的BIQA方法后,會與FRIQA方法比對。實(shí)驗(yàn)數(shù)據(jù)表明,典型BIQA方法其性能接近甚至優(yōu)于FRIQA方法。最常用的FRIQA是基于像素統(tǒng)計(jì)的均方誤差MSE、峰值信噪比PSRN,和基于結(jié)構(gòu)信息的結(jié)構(gòu)相似度SSIM[2],基于SSIM還有多種變形,如效果不錯(cuò)的 IW-SSIM[26]、MS-SSIM[2]。此外,2011年提出的特征相似性指數(shù)FSIM[27]強(qiáng)調(diào)人類視覺系統(tǒng)理解圖像主要根據(jù)圖像低級特征,使用相位一致性和梯度兩種特征建立相似性指數(shù),又加入顏色特征建立彩色圖像特征相似度指數(shù)FSIMc[27]。2012提出的梯度相似度GSM[28]強(qiáng)調(diào)梯度能傳達(dá)重要的視覺信息,梯度特征和像素值結(jié)合能達(dá)到不錯(cuò)的效果,實(shí)驗(yàn)測得性能比FSIM差,但算法計(jì)算速度快很多。2014提出的視覺顯著性指數(shù)VSI[29]認(rèn)為超閾值的失真很大程度上會影響圖像的顯著圖,把FSIMc中的相位一致性特征換成了顯著圖。更多的全參考方法參見文獻(xiàn)[30]。
通用BIQA算法學(xué)習(xí)從圖像特征到相應(yīng)質(zhì)量分?jǐn)?shù)映射,或者在映射之前將圖像分成不同的失真。這類型的算法均面臨以下問題:(1)需要大量樣本訓(xùn)練魯棒性;(2)實(shí)驗(yàn)證明算法對不同數(shù)據(jù)集敏感;(3)使用新訓(xùn)練樣本時(shí)必須再訓(xùn)練。而NSS特征反映了圖像內(nèi)容的自相似性和特定性,因此不存在對不同數(shù)據(jù)庫敏感,使用新樣本時(shí)也無需再訓(xùn)練。
2005年,Sheikh等提出NSS[16]學(xué)習(xí)模型,第一次嘗試對JPEG2K壓縮圖像進(jìn)行無參考質(zhì)量評價(jià)。方法的成功表明人對圖像質(zhì)量的感知和失真的可感知性確實(shí)與圖像的自然性有關(guān)。但模型精度無法提高很快被超越,其原因在于提取的先驗(yàn)信息并不能完全解釋降質(zhì)過程,第二表征JPEG2K壓縮的NSS模型不完善。
2010年,Moorthy等提出BIQI[31],一個(gè)基于NSS的NRIQA框架。BIQI對5項(xiàng)失真預(yù)設(shè)5個(gè)質(zhì)量評估算法實(shí)現(xiàn)失真未知的IQA任務(wù)。估計(jì)存在已定義失真的概率,再計(jì)算各個(gè)失真對應(yīng)質(zhì)量,最終質(zhì)量表示為失真概率與對應(yīng)質(zhì)量加權(quán)求和。BIQI模型分成兩步的思想對后續(xù)研究有重要影響,但局限性也很明顯,對于未定義失真類型BIQI無計(jì)可施。
2010年,Saad等提出BLIINDS[32]以改善機(jī)器學(xué)習(xí)訓(xùn)練出的算法其性能受特征的限制。模型基于局部離散余弦變換系數(shù)的統(tǒng)計(jì),以期到達(dá)滿足實(shí)時(shí)系統(tǒng)需求的性能。但其準(zhǔn)確率一般,究其原因未能如預(yù)想一樣盡可能多地提取決定視覺質(zhì)量的特征,提取的特征并不足以表示圖像質(zhì)量。
2011年,Moorthy等再提出DIVINE[33]基于失真識別的圖像真實(shí)度和完整性評估指數(shù)?;谑д鎴D像統(tǒng)計(jì)特性變化完成失真類型識別和質(zhì)量預(yù)測,但DIIVINE計(jì)算量大,實(shí)時(shí)性不強(qiáng)。
2012年,Saad等提出BLINDS的后續(xù)研究模型BLIINDS-II[34]。依賴貝葉斯推理模型預(yù)測給定某些特征的圖像質(zhì)量。
BLIINDS-II和DIVINE、BLIINDS方法對比較。BLIINDS-II和DIIVINE間有明顯的設(shè)計(jì)差異。BLIINDSII采用更簡單的表示方式,使用更低維的特征空間和更簡單的單級(貝葉斯預(yù)測)框架,在更稀疏的DCT域中運(yùn)行。BLIINDS指數(shù)旨在實(shí)現(xiàn)在實(shí)時(shí)系統(tǒng)中運(yùn)行的質(zhì)量評估算法所需的速度和性能。
2012年,He等人基于NSS稀疏表示提出了SRNSS[35]。在小波域中提取NSS特征;通過稀疏編碼表示特征。SRNSS模型采用更少的參數(shù),多次實(shí)驗(yàn)顯示具有強(qiáng)魯棒性。
2012年,Peng等人提出無參考圖像質(zhì)量評估的碼本表示CORNIA(Codebook Representation for Noreference Image Assessment)[12]。CORNIA提取圖像塊作為局部特征,表明可以直接從原始圖像中學(xué)習(xí)特征。不考慮任何先驗(yàn)知識使其適應(yīng)性更廣,基于CORNIA的后續(xù)研究取得了很好的效果。
2012年,Mittal等提出另一種在空域提取NSS特征的模型:盲圖像空間質(zhì)量評估器BRISQUE(Blind/Referenceless Image Spatial Quality Evaluator)[17]。靈感來自Ruderman[36]關(guān)于空間自然場景建模以及SSIM的成功。模型使用局部標(biāo)準(zhǔn)化亮度系數(shù)來量化失真產(chǎn)生的“自然度”損失,具有非常低的計(jì)算復(fù)雜性適合實(shí)時(shí)應(yīng)用。
CORNIA和BRISQUE對比,提取NSS特征傳統(tǒng)方法是通過圖像變換和濾波技術(shù),如小波變換、余弦變換和Gabor濾波等,非常耗時(shí)不適用于實(shí)時(shí)系統(tǒng)。CORNIA和BRISQUE都是在空域提取NSS特征。不足的是這類模型一旦建立很難優(yōu)化,不會像深度學(xué)習(xí)模型一樣隨訓(xùn)練數(shù)據(jù)增加,模型更加準(zhǔn)確。
2015年,Zhang等提出集成的局部自然圖像質(zhì)量評價(jià)器 ILNIQE(Integrated Local Natural Image Quality Evaluator)[37]。通過整合多個(gè)NSS特征:歸一化亮度統(tǒng)計(jì)、均值減法和對比歸一化統(tǒng)計(jì)、梯度統(tǒng)計(jì)、Log-Gabor濾波器響應(yīng)的統(tǒng)計(jì)和顏色統(tǒng)計(jì)學(xué)習(xí)多元高斯模型。但LINIQE并沒有比CORNIA或者BRISQUE得到更好的結(jié)果,究其原因選擇的特征并不能完全表征圖像質(zhì)量。
2015年,Zhang等提出了基于圖像語義顯著性方法SOM(Semantic Obviousness Metric)[38]。語義顯著性特征來自目標(biāo)檢測方法BING[39]找到的圖像中多個(gè)作為目標(biāo)的概率排序的相似區(qū)域。雖然BING非常快,有很高的物體檢測率和良好的泛化能力,但也決定了SOM與圖像中目標(biāo)息息相關(guān),目標(biāo)豐富質(zhì)量差的圖像獲取的信息也能多于目標(biāo)少質(zhì)量好的圖像,同時(shí)對于天空這類不具有明確邊界的圖像算法存在局限性。
2016年,Xu等人提出了高階統(tǒng)計(jì)聚合算法HOSA(High Order Statistics Aggregation)[40]。圖像塊作為局部特征,通過K均值聚類構(gòu)造包含100個(gè)碼字的小碼本。將每個(gè)局部特征軟分配給幾個(gè)最近的聚類,并且將局部特征與對應(yīng)聚類之間的高階統(tǒng)計(jì)量(均值、方差和偏度)的差異軟聚合,以建立全局質(zhì)量感知圖像表示。
在深度學(xué)習(xí)中質(zhì)量預(yù)測是在輸出層做回歸,將圖像多維特征轉(zhuǎn)化為一個(gè)可以表示質(zhì)量的數(shù)值。通常依賴失真圖像和相應(yīng)意見分?jǐn)?shù)來學(xué)習(xí)將圖像特征映射到質(zhì)量分?jǐn)?shù)的回歸函數(shù)。這類型的模型被認(rèn)為是具有“觀察意識”(Opinion Aware,OA)的BIQA模型。以下介紹幾種典型算法模型。
2014年,Kang等提出IQA-CNN[20]基于卷積神經(jīng)網(wǎng)的BIQA模型。將特征提取和回歸集成到CNN框架加深網(wǎng)絡(luò)深度提高學(xué)習(xí)能力,同時(shí)可以使用反向傳播等方法訓(xùn)練,方便結(jié)合改善學(xué)習(xí)的技術(shù)如dropout[41]和ReLU[42]。IQA-CNN相當(dāng)于CORNIA的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。IQA-CNN關(guān)注由圖像降級引起的失真,例如模糊、壓縮和加性噪聲等,對于對比度或亮度引起的質(zhì)量差異不作為失真。
2015年,Kang等繼續(xù)提出基于IQA-CNN的后續(xù)研究,一個(gè)簡潔的多任務(wù)CNN:IQA-CNN++[25]估計(jì)圖像質(zhì)量并識別失真,其參數(shù)比IQA-CNN減少了近90%。IQACNN++增加卷積層數(shù)量并減小濾波器的接受野,修改全連接層。在滿足需求的前提下希望獲得更多的信息,局限在于訓(xùn)練集規(guī)模太小限制了網(wǎng)絡(luò)深度。
2017年,Bianco等提出DeepBIQ[24],基于分類任務(wù)預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN)遷移學(xué)習(xí)實(shí)現(xiàn)BIQA任務(wù)。通過對圖像子區(qū)域預(yù)測分?jǐn)?shù)累加和求平均來估計(jì)整體圖像質(zhì)量。微調(diào)采用隨機(jī)初始化值代替預(yù)先訓(xùn)練CNN的最后一個(gè)全連接層作為新的CNN。遷移學(xué)習(xí)使得網(wǎng)絡(luò)深度增加,但其性能受到原始任務(wù)影響。
2018年,Boss等提出無參考圖像質(zhì)量評價(jià)之深度圖像質(zhì)量方法DIQaM-NF(Deep Image QuAlity Measure for NR IQA)[43],在作者提供的參考中方法命名為deepIQA,一些引用也采用此命名?;诙藢Χ擞?xùn)練,包含10個(gè)卷積層和5個(gè)池化層,以及2個(gè)全連接層??赡軘?shù)據(jù)量無法支撐這深度的網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果并未超越IQA-CNN這樣的淺層網(wǎng)絡(luò)。
訓(xùn)練可靠的OA-BIQA模型需要大量的人工評分訓(xùn)練樣本,但通過主觀測試獲得意見分?jǐn)?shù)通常昂貴且耗時(shí),訓(xùn)練數(shù)據(jù)極其有限。同時(shí)OA-BIQA模型通常具有弱泛化能力,在實(shí)踐中的可用性受限。相比之下OF-BIQA不需要主觀評分來進(jìn)行訓(xùn)練,具有更好的綜合能力的潛力。因此有必要開發(fā)不依賴主觀意見分?jǐn)?shù)來進(jìn)行訓(xùn)練“自主意識”(Opinion Free,OF)的BIQA模型。第一個(gè)OF-BIQA模型是2012年由Mittal等提出的TMIQ模型[44]。TMIQ將概率潛在語義分析pLSA應(yīng)用于從大量原始和失真圖像中提取的質(zhì)量感知視覺詞,以揭示對視覺質(zhì)量至關(guān)重要的潛在特征或主題,但效果不是很理想。之后Mittal等提出了另一個(gè)OF-BIQA模型NIQE[45],優(yōu)于TMIQ,而且不需要失真圖像訓(xùn)練。但在所有類型的失真中無法普遍適用,并且當(dāng)失敗時(shí),很難調(diào)整模型來提高性能。這些OF-BIQA模型都不如當(dāng)時(shí)先進(jìn)的OA-BIQA模型如BRISQUE、CORNIA,故不再贅述。BLISS用于將OA-BIQA模型擴(kuò)展到OF-BIQA模型,并實(shí)現(xiàn)與CORNIA、BRISQUE可比較的性能。
2014年,Ye等提出基于使用合成分?jǐn)?shù)盲學(xué)習(xí)圖像質(zhì)量方法BLISS(Blind Learning of Image Quality using Synthetic Scores)[18]。BLIS從全參考(FR)IQA測量得出的綜合分?jǐn)?shù)訓(xùn)練BIQA模型。先進(jìn)的FR方法與主觀意見分?jǐn)?shù)高度相關(guān),可用作人眼意見分?jǐn)?shù)的近似值,結(jié)合不同的FR方法以生成綜合評分代替人工評分。因此BLISS基于FFIQA的準(zhǔn)確性,選擇的FRIQA方法直接影響訓(xùn)練結(jié)果。
2015年,Hou等提出從語言描述學(xué)習(xí)規(guī)則進(jìn)行定性評價(jià)的BIQA模型DLIQA[23]。可以保留語言描述到數(shù)值分?jǐn)?shù)的這種不可逆轉(zhuǎn)換中失去的信息,學(xué)習(xí)后算法時(shí)間復(fù)雜度非常低;模型對小樣本問題具有強(qiáng)魯棒性。但定性標(biāo)簽無法直接同其他算法作比較,且同一等級的圖像無法按質(zhì)量排序,需要在輸出層按某一規(guī)則轉(zhuǎn)成質(zhì)量分?jǐn)?shù)。
2017年,Ma等提出dipIQ[19]方法。生成質(zhì)量可識別圖像對DIP解決訓(xùn)練數(shù)據(jù)不足的問題,再使用RankNet[21]從DIP中學(xué)習(xí)OF-BIQA模型。自動DIP生成引擎是選擇3個(gè)FRIQA模型 MS-SSIM[2]、VIF[13]和GSMD[46],采用文獻(xiàn)[8]中提出的非線性邏輯函數(shù)將3種模型的預(yù)測映射到LIVE庫DMOS規(guī)模。
2017年,Liu等提出RankIQA[22]。生成有序的降質(zhì)圖像訓(xùn)練連體網(wǎng)絡(luò)進(jìn)行質(zhì)量相對排名,再將經(jīng)過訓(xùn)練的網(wǎng)絡(luò)遷移到傳統(tǒng)CNN上,使該CNN可從單幅圖像中估計(jì)出絕對圖像質(zhì)量。作者嘗試了從淺到深的3種網(wǎng)絡(luò),最深的VGG-16取得了最好的結(jié)果,在有足夠訓(xùn)練數(shù)據(jù)前提下,若嘗試更深的網(wǎng)絡(luò)可能獲得更好的效果。
2017年,Kim等提出一種基于卷積網(wǎng)絡(luò)的盲圖像評估器 BIECON(Blind Image Evaluator based on a Convolutional Neural Network)[47]。模仿FR-IQA方法,先生成局部質(zhì)量再匯總回歸得到主觀評分。不同于IQA-CNN,局部質(zhì)量訓(xùn)練的圖像塊質(zhì)量分?jǐn)?shù)由全參考方法獲得。
2018年,Ma等提出端到端優(yōu)化的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)MEON(Multi-task End-to-End Optimized deep Neural Network)[14]。靈感來自 BIQI[31]和IQA-CNN++[25],MEON先訓(xùn)練一個(gè)失真類型識別子網(wǎng)絡(luò),再從預(yù)訓(xùn)練的早期層和第一個(gè)子網(wǎng)絡(luò)的輸出訓(xùn)練質(zhì)量預(yù)測子網(wǎng)絡(luò)。選擇生廣義分裂歸一化GDN[48]作為激活函數(shù)。
2018年,Kim繼續(xù)提出深度圖像質(zhì)量評估器DIQA(Deep Image Quality Assessor)[49]。訓(xùn)練過程包括回歸到客觀誤差圖和回歸到主觀評分兩部分。另外,采用兩個(gè)簡單的手工特征捕獲由于規(guī)范化和特征映射無法檢測到的特定失真統(tǒng)計(jì)數(shù)據(jù)。
2018年,Gao提出通過多級深度表示的盲圖像質(zhì)量預(yù)測BLINDER[50]。從有37層的DNN模型VGGnet中提取多級表示,分別在每個(gè)層上計(jì)算一個(gè)特征表示,然后估計(jì)每個(gè)特征向量的質(zhì)量得分,最后平均這些預(yù)測分?jǐn)?shù)來估計(jì)整體質(zhì)量。
BIECON、MEON、DIQA和IQA-CNN對比,BIECON、DIQA和IQA-CNN++雖然都是基于CNN,且采用局部描述符增加數(shù)據(jù)量,但是它們從設(shè)計(jì)到實(shí)現(xiàn)都不同。IQA-CNN++僅僅將圖像分成圖像塊,沒有更多的處理,其多任務(wù)方式也只是共享一些早期層,子任務(wù)間沒有直接聯(lián)系。BIECON和DIQA、MEON結(jié)構(gòu)及思想反而更接近,都是將訓(xùn)練過程分為兩步,第一步作為預(yù)訓(xùn)練跟后續(xù)訓(xùn)練有直接關(guān)系;同時(shí)第一步訓(xùn)練能夠使用大規(guī)模訓(xùn)練集。不同在于MEON作為多任務(wù)模型,第一步訓(xùn)練結(jié)果即為子任務(wù),BIECON和DIQA的第一步訓(xùn)練僅作為代理回歸目標(biāo),屬于單任務(wù)模型,比較有意義的在于它們提出了可視化方法分析CNN模型所學(xué)到的內(nèi)容,可視化學(xué)習(xí)過程對理解和研究深度學(xué)習(xí)至關(guān)重要。DIQA不同于BIECON增加了手工特征,但這類特征在不滿足應(yīng)用情況下不僅無效果甚至?xí)a(chǎn)生負(fù)面影響?;贑NN或DNN的BIQA模型雖然可直接使用訓(xùn)練神經(jīng)網(wǎng)絡(luò)的最新方法,并可通過添加更多隱藏層升級網(wǎng)絡(luò),但是都存在以下局限性:它們的模型實(shí)際上并不深;通常使用模型中最后一層的輸出作為質(zhì)量預(yù)測的特征表示。除了RankIQA嘗試16層的網(wǎng)絡(luò),BLINDER采用了37層的網(wǎng)絡(luò),使用更深的模型,探索更多級的特征,是基于神經(jīng)網(wǎng)絡(luò)的BIQA模型提高性能最直接的方法。
整體流程:首先統(tǒng)計(jì)排序算法在LIVE數(shù)據(jù)庫常見失真測試結(jié)果,均按照80%的訓(xùn)練數(shù)據(jù),20%的測試數(shù)據(jù),再選擇準(zhǔn)確性和相關(guān)性高的算法測試泛化能力。先在整個(gè)LIVE數(shù)據(jù)庫訓(xùn)練,再CSIQ和TID2013數(shù)據(jù)庫上測試。若提供相應(yīng)數(shù)據(jù)直接采用,未提供數(shù)據(jù)提供了開源模型的自行測試,未開源且數(shù)據(jù)不全的模型給出已有且有參考性數(shù)據(jù),不參與排序。
首先,統(tǒng)計(jì)多篇算法在LIVE庫上計(jì)算的PSRN和SSIM在常見失真項(xiàng)JP2K、JPEG、WN和BLUR的SROCC和LCC值作為全參考方法參考?;诩僭O(shè):單個(gè)失真數(shù)據(jù)記錄正確,每項(xiàng)保留小數(shù)點(diǎn)后三位,考慮到數(shù)據(jù)有限且中位數(shù)差異不大,取值最后取平均數(shù)。
采用如表1同樣的方法依次統(tǒng)計(jì)PSRN方法的LCC中位數(shù)均值,SSIM方法的SROCC和LCC中位數(shù)均值。最后,得到SROCC值和LCC值作為全參考方法代表。
表1 LIVE庫上PSRN方法SROCC中位數(shù)均值
表2列出了經(jīng)過同樣計(jì)算得出的各個(gè)算法綜合SROCC和LCC值,前4種算法單項(xiàng)失真數(shù)據(jù)不全,僅提供原文數(shù)據(jù)參考。表3列出各算法最敏感失真類型及其測得的SROCC、LCC值和最不敏感的失真類型及其測得值(后為失真類型)。
以PSRN和SSIM方法作為參考,在LIVE數(shù)據(jù)庫的測試排序可以看出選擇的大部分典型方法優(yōu)于PSRN,IQA-CNN、dipIQ、CORNIA等幾種方法優(yōu)于優(yōu)于SSIM,因此在特征選擇和方法思想上都值得進(jìn)一步探討,其中CORNIA實(shí)現(xiàn)在空域提取NSS特征,IQA-CNN可視為CORNIA的卷機(jī)網(wǎng)絡(luò)實(shí)現(xiàn);dipIQ訓(xùn)練數(shù)據(jù)標(biāo)簽源于全參考方法,且擁有大量訓(xùn)練數(shù)據(jù)。
表2 典型模型在LIVE庫排名
表3 LIVE基準(zhǔn)庫SROCC和LCC最值
統(tǒng)計(jì)顯示除NSS專門為JP2K失真建模外,其余算法對白噪聲失真WN預(yù)測表現(xiàn)高于其他項(xiàng),在JP2K失真上表現(xiàn)很差的情況下也接近或高于NSS算法。除了第一次嘗試對單項(xiàng)失真利用NSS特征建模的思想外,NSS算法不具有競爭力。BIQI、BLINDS方法最高/低的SROCC差異巨大,BIQI根據(jù)選擇的失真類型預(yù)設(shè)對應(yīng)的質(zhì)量評價(jià)算法,jp2k失真特征和評價(jià)方法的選擇均會影響最終結(jié)果。BLINDS也因最高的SROCC值低于0.9不再繼續(xù)討論?;谏疃葘W(xué)習(xí)的方法如IQA-CNN、dipIQ等取得更高的分值。SROCC值與LCC值具有強(qiáng)一致性,高SROCC值對應(yīng)高LCC值。接下來進(jìn)行泛化能力測試。
對比表3可以看到算法對不同數(shù)據(jù)庫敏感,在TID2013庫中,算法準(zhǔn)確率有不同程度下降且SROCC與LCC最值對應(yīng)的失真類型不再高度一致(見表4)。對WN失真敏感度降低,對JP2K預(yù)測能力提高。
表4 TID2013基準(zhǔn)庫SROCC和LCC最值
在CSIQ數(shù)據(jù)庫,算法實(shí)現(xiàn)比在TID2013上貼近預(yù)訓(xùn)練效果(見表5)。但原因可能在于CSIQ數(shù)據(jù)量小,與LIVE庫差不多,相對而言TID2013庫數(shù)據(jù)量大,更好的方法是從更多不同庫選擇同失真類型、同規(guī)模數(shù)據(jù)測試,并在多個(gè)庫訓(xùn)練交叉檢驗(yàn),缺點(diǎn)在于耗時(shí)緩慢,難以一一實(shí)現(xiàn)。在這3個(gè)數(shù)據(jù)庫上僅僅對比了常見的4種失真,而現(xiàn)實(shí)生活中則存在更多類型失真。排名結(jié)果如表6、表7。
表5 CSIQ基準(zhǔn)庫SROCC和LCC最值
表6 TID2013庫上算法性能排名
表7 CSIQ庫上算法性能排名
除算法如IQA-CNN、HOSA等無法重新訓(xùn)練也沒有參考數(shù)據(jù)對比外,在TID2013和CSIQ數(shù)據(jù)庫上算法的綜合排名基本一致。
如表8,TID即TID2013數(shù)據(jù)庫。選擇對應(yīng)算法表現(xiàn)最優(yōu)的失真SROCC比上表現(xiàn)最差的SROCC值MAX-srocc/MIN-srocc說明面對不同失真類型的穩(wěn)定性,其值越接近1說明算法對不同失真類型的評價(jià)表現(xiàn)接近。表8按算法魯棒性排序,BLIINDS-II、DLIQA、SRNSS其泛化能力都很強(qiáng),處在前三,準(zhǔn)確性也不錯(cuò),dipIQ泛化能力不如這3個(gè)算法但也遠(yuǎn)好于后面的算法,同時(shí)dipIQ對于不同失真表現(xiàn)穩(wěn)定。其中BLIINDS-II在DCT域中提取特征,SRNSS在小波域中提取特征。頻域中可捕獲到空域中無法察覺的信息,但同時(shí)也丟失了空域位置信息,稀疏編碼使得魯棒性強(qiáng),但有限的特征使準(zhǔn)確率難以提高;DLIQA提取語義信息與人眼相關(guān)性極大,學(xué)習(xí)后算法時(shí)間復(fù)雜度低,不過定性的質(zhì)量評價(jià)到定量評價(jià)的映射直接決定最終結(jié)果,對算法影響極大;而dipIQ訓(xùn)練數(shù)據(jù)近百萬。CORNIA成功的從空域中提出特征并對后續(xù)研究有深遠(yuǎn)影響,在圖像處理中因像素周圍的像素點(diǎn)關(guān)系密切有著天然優(yōu)勢。BLISS結(jié)合不同的FR方法生成可以代替MOS/DMOS值的分?jǐn)?shù),大大增加訓(xùn)練樣本,也給其他的OF-BIQA模型提供了一種可行的方案。BRISQUE方法在確保準(zhǔn)確度前提下具有非常低的復(fù)雜度,但相對于BIQA方法近幾年獲得的準(zhǔn)確率,BRISQUE方法還有更大的優(yōu)化空間。LINIQE、DIVINE、BIQI方法準(zhǔn)確度次之,同時(shí)對于不同失真表現(xiàn)效果差異較大,算法不夠穩(wěn)定。BIQI方法設(shè)計(jì)理念比較簡單,對于特定應(yīng)用場景簡單有效,在對失真類型的準(zhǔn)確評價(jià)和不同失真的評價(jià)算法的選取等方面優(yōu)化或許會取得更好的成績。
表8 算法性能特點(diǎn)總結(jié)
不足的是實(shí)驗(yàn)僅僅單向測試了算法的泛化能力,后續(xù)考慮在CSIQ、TID2013等數(shù)據(jù)庫訓(xùn)練,在LIVE等數(shù)據(jù)測試,更多的交叉檢驗(yàn)?zāi)芨玫卣f明了算法魯棒性。同時(shí),可實(shí)現(xiàn)IQA-CNN、BIECON等方法參與測試,新的方法不斷涌現(xiàn),基于不同的設(shè)計(jì)優(yōu)化理念、更深的網(wǎng)絡(luò)層數(shù)都讓無參考圖像質(zhì)量評價(jià)不斷地取得新進(jìn)展,讓新方法也參與到眾多的比較中有利于對比優(yōu)化。
通過研究典型算法不難發(fā)現(xiàn):第一,同一個(gè)研究團(tuán)隊(duì)持續(xù)跟進(jìn)算法不斷更新性能,如圖像與視頻工作實(shí)驗(yàn)室Laboratory for Image&Video Engineering先后提出了BRISQUE、DIVINE、BLIINDS-II等方法;第二,積極利用各個(gè)領(lǐng)域新技術(shù)如深度學(xué)習(xí)方法大膽嘗試;第三,深度學(xué)習(xí)方法取得了更好的成果,但并非所有的深度學(xué)習(xí)方法都絕對優(yōu)于其他機(jī)器學(xué)習(xí)方法。前兩點(diǎn)保證了關(guān)于盲圖像質(zhì)量評價(jià)問題的研究從未間斷,且發(fā)展過程有跡可循;第三點(diǎn)說明整理并分析不同方法優(yōu)缺點(diǎn),互相借鑒、優(yōu)化創(chuàng)新便可能取得新進(jìn)展。分析現(xiàn)有的方法不同特點(diǎn),可以推斷盲圖像質(zhì)量評估發(fā)展大約分為以下幾個(gè)方向。
(1)復(fù)合失真圖像質(zhì)量評價(jià):現(xiàn)有的BIQA方法通常只能處理僅包括一種失真類型的圖像,但實(shí)際失真圖像通常包括多項(xiàng)失真,如同時(shí)包含JPEG壓縮、模糊和噪聲等。
(2)增強(qiáng)型質(zhì)量改變評價(jià):當(dāng)前方法測量的質(zhì)量變化僅包含單項(xiàng)失真產(chǎn)生的降質(zhì),不考慮如對比度、亮度或其他圖像增強(qiáng)引起的質(zhì)量改變。
(3)擴(kuò)充數(shù)據(jù)規(guī)模研究:想通過更深層的網(wǎng)絡(luò)提升準(zhǔn)確度就需要大規(guī)模的訓(xùn)練集。增加可用數(shù)據(jù)是持續(xù)研究的熱點(diǎn)問題。一是逐步擴(kuò)大現(xiàn)有公開庫,二是創(chuàng)新優(yōu)化OF-BIQA方法。
(4)HVS特征研究:圖像質(zhì)量評價(jià)旨在擬合模仿人眼功能,對視覺特征研究和準(zhǔn)確建模是長遠(yuǎn)研究內(nèi)容。
(5)理論結(jié)合應(yīng)用需求:不僅關(guān)注算法的準(zhǔn)確度、一致性、魯棒性,還有實(shí)時(shí)性,不同需求針對性,將理論成功轉(zhuǎn)化應(yīng)用;利用應(yīng)用效果反向優(yōu)化算法,研究并完善理論體系,構(gòu)建成熟的評價(jià)框架。
(6)深度學(xué)習(xí)方法研究:深度學(xué)習(xí)復(fù)興至今,前饋網(wǎng)絡(luò)的核心思想并沒有發(fā)生重大變化,如上述方法依然使用相同的反向傳播和梯度下降方法。但基于算法上的改變?nèi)缡褂媒徊骒負(fù)p失函數(shù)代替均方誤差損失函數(shù),使用ReLU替代Sigmod則顯著改變了神經(jīng)網(wǎng)絡(luò)的性能。在對HVS特征研究有限的情況下,對工具進(jìn)行改進(jìn),可能會對無參考圖像質(zhì)量評價(jià)提出更穩(wěn)定、更強(qiáng)大的算法。