溫 靜,白 鑫
(山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006)
隨著互聯(lián)網(wǎng)+的爆炸式發(fā)展,圖像作為數(shù)據(jù)傳輸和信息獲取的主要載體,在圖像采集、傳輸和存儲、以及圖像處理的各個環(huán)節(jié)中,都會造成圖像不同程度的失真,進而影響到用戶體驗和后續(xù)的圖像處理。因此,符合人眼視覺特性并能滿足圖像理解分析的圖像質(zhì)量評價(image quality assessment,IQA)算法是極其必要的,它能夠監(jiān)控圖像質(zhì)量、為圖像處理系統(tǒng)提供可靠的評價反饋。
評價圖像的質(zhì)量可以直接依賴觀察者的主觀經(jīng)驗,對待評價圖像的視覺效果做出質(zhì)量判斷,并使用平均主觀得分(mean-opinion score,MOS)來表示,MOS得分越高則說明圖像的質(zhì)量越好,該過程屬于主觀評價方法。主觀評分的過程需要大量的人工參與,實踐起來耗時耗力。而客觀評價方法是通過算法來量化圖像的視覺失真程度。通常根據(jù)是否需要參考圖像進行分類,將客觀評價方法分為有參考[1-2]、半?yún)⒖糩3]、無參考[4-6]。盡管有參考的圖像評價方法可以得到很好的性能,但是由于參考圖像在實際中獲取往往存在困難,因此無參考圖像質(zhì)量評價得到了廣泛關(guān)注。無參考圖像質(zhì)量評估(no-reference image quality assessment,NR-IQA)也稱為盲圖像質(zhì)量評估[7-8],它完全不需要參考圖像,根據(jù)失真圖像的自身特征來估計圖像的質(zhì)量。
在早期,人們使用人工提取的特征[9-10]進行質(zhì)量評估,然后采用機器學(xué)習(xí)的方法建立失真特征與質(zhì)量分?jǐn)?shù)之間的映射模型。自Kang[11]提出使用卷積網(wǎng)絡(luò)來進行圖像質(zhì)量預(yù)測以來,基于深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DCNN)[12-14]的NR-IQA方法迅速發(fā)展,這些方法相比傳統(tǒng)方法取得了很大的性能提升。這是因為DCNN方法采用端到端的訓(xùn)練,建立模型參數(shù)與圖像失真之間的復(fù)雜關(guān)系。而在真實失真圖像中,不僅會存在全局均勻失真(例如,失焦、低曝光),還會存在局部區(qū)域的非均勻失真(例如,目標(biāo)移動、重影)。因此忽略局部與全局的聯(lián)系[15]會增加圖像質(zhì)量評估的誤差。
同時,現(xiàn)有的IQA模型大部分都是在網(wǎng)絡(luò)的最后一層進行圖像預(yù)測,而高層網(wǎng)絡(luò)的感受野比較大,語義信息表征能力強,但是特征圖的分辨率低,幾何信息的表征能力弱。對于底層網(wǎng)絡(luò)的感受野比較小,幾何細(xì)節(jié)信息表征能力強,分辨率高,只提取最后一層進行評估很容易損失圖像的細(xì)節(jié)特征,于是也有許多方法通過多尺度的方式捕捉圖像。文獻[16-17]表明通過多尺度的特征提取可以獲取更多的失真信息,提高圖像質(zhì)量評價的準(zhǔn)確性。
此外,DCNN網(wǎng)絡(luò)訓(xùn)練離不開大量的人工標(biāo)注的圖像數(shù)據(jù),然而圖像質(zhì)量的人工標(biāo)注過程工作量巨大且十分耗時,因此現(xiàn)階段人工標(biāo)注的IQA數(shù)據(jù)集[18]的規(guī)模十分有限,直接使用這些數(shù)據(jù)集進行深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練很容易導(dǎo)致過擬合。為了克服這個難題,許多的方法都通過先使用ImageNet[19]預(yù)訓(xùn)練來解決問題,因為預(yù)先訓(xùn)練的模型不是專門用于IQA任務(wù)的,當(dāng)面對未知失真圖像時,泛化能力并不好,預(yù)測得到的圖像質(zhì)量分?jǐn)?shù)也不理想。文獻[20]將圖像分割為圖像塊來彌補數(shù)據(jù)量不足的問題,并在訓(xùn)練的過程中,對每一個圖像塊返回一個權(quán)重,最后將對應(yīng)的權(quán)重進行合并。同時,主觀圖像質(zhì)量評價過程依賴于人對失真類型的先驗知識,基于此文獻[21-22]提出深度元學(xué)習(xí)的NR-IQA方法,從合成失真數(shù)據(jù)集上學(xué)習(xí)失真的共享先驗知識模型,然后在未知失真NR-IQA任務(wù)的訓(xùn)練數(shù)據(jù)上微調(diào)先驗?zāi)P停玫綀D像質(zhì)量評價模型,該方法為緩解數(shù)據(jù)不足提供了新思路。
綜上,該文的主要工作如下:
(1)為了提高對失真數(shù)據(jù)的泛化能力,所提模型基于元學(xué)習(xí)框架,進行模型參數(shù)的預(yù)訓(xùn)練。
(2)為了增強局部與全局的聯(lián)系,設(shè)計了一種局部和全局融合的自適應(yīng)模塊,對每個空間位置自適應(yīng)地構(gòu)建更大感受野空間和通道間的相關(guān)性,以長距離特征指導(dǎo)原始特征進行特征變化,融合更豐富的信息來增強特征表示,強化局部與全局之間的聯(lián)系。
(3)為了避免圖像細(xì)節(jié)信息隨網(wǎng)絡(luò)深度造成損失,將有效的邊緣信息納入所提出的多尺度特征融合網(wǎng)絡(luò),同時學(xué)習(xí)圖像特征和邊緣圖信息,提高圖像質(zhì)量評價的精度。
隨著深度學(xué)習(xí)的快速發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)的無參考質(zhì)量評價成為了圖像質(zhì)量評價的主流。文獻[10]將特征提取和分?jǐn)?shù)回歸納入在一個統(tǒng)一的卷積神經(jīng)網(wǎng)絡(luò)的框架內(nèi)實現(xiàn),并將圖像分割為圖像塊,采用隨機梯度下降的方法進行模型訓(xùn)練,但是該方法為了彌補數(shù)據(jù)不足的問題,將圖像分割為32×32的圖像塊,這樣會在模型訓(xùn)練中,造成圖像整體質(zhì)量評估的誤差。文獻[23]提出了基于VGG-16的雙線性池化的CNN結(jié)構(gòu),并設(shè)計了兩個CNN分支,分別適應(yīng)合成和真實數(shù)據(jù)集的評估場景,利用雙線性池化模塊融合兩個網(wǎng)絡(luò)的特征,進而再擬合深度特征與質(zhì)量得分之間的映射關(guān)系。然而該方法仍然不能準(zhǔn)確地預(yù)測包含具有復(fù)雜場景的真實失真,于是將語義特征融入NR-IQA任務(wù)中,考慮圖像的語義信息。文獻[16]設(shè)計了動態(tài)生成權(quán)值的超網(wǎng)絡(luò)模擬從圖像內(nèi)容到感知質(zhì)量方式的映射,并引入了內(nèi)容理解和感知規(guī)則對圖像進行語義判斷,將失真特征與語義特征結(jié)合在一起進行質(zhì)量評估。除此之外,文獻[17]提出了通過超像素分割幫助IQA模型感知失真信息,并將提取的多尺度語義特征與超像素分割模型得到的超像素鄰接圖融合,模擬人類視覺進行圖像質(zhì)量預(yù)測。該方法仍然是在ImageNet上進行預(yù)訓(xùn)練,所獲得的模型參數(shù)不是專門用于圖像質(zhì)量評價,基于此,文獻[21]通過元學(xué)習(xí)框架學(xué)習(xí)應(yīng)用于圖像質(zhì)量的先驗?zāi)P停岣哳A(yù)測的準(zhǔn)確性。然而,該文獻采用Resnet18,傳統(tǒng)卷積多聚焦于局部關(guān)系的失真信息,無法獲取圖像的全局相關(guān)性特征,未充分利用圖像中紋理結(jié)構(gòu),邊緣細(xì)節(jié)信等。而該文提出的方法,不僅在網(wǎng)絡(luò)模型中自適應(yīng)構(gòu)建局部區(qū)域與全局空間的聯(lián)系,而且通過元學(xué)習(xí)初始化模型的參數(shù),提高模型的泛化能力,增強局部失真特征和全局失真特征的判別性,并結(jié)合多尺度融合的方式對失真信息進行捕獲。
該文提出了一種基于自適應(yīng)融合局部和全局特征的圖像質(zhì)量評價算法,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先利用合成失真數(shù)據(jù)集通過元學(xué)習(xí)方法學(xué)習(xí)一個共享質(zhì)量的先驗知識模型,將多個特點失真類型數(shù)據(jù)集分為支持集和查詢集,支持集用于計算網(wǎng)絡(luò)參數(shù)的梯度更新,查詢集用于驗證更新后的模型是否有效。在訓(xùn)練階段,將圖像數(shù)據(jù)先使用Sobel算子獲取到失真圖像的邊緣特征圖,并和原圖一起輸入到改進后的Resnet50進行模型訓(xùn)練,并在不同尺度的Layer1、Layer2、Layer3特征層提取特征時,加入自適應(yīng)融合局部和全局特征模塊,擴大卷積操作的感受野,構(gòu)建全局空間與通道間依賴關(guān)系,利用全局信息指導(dǎo)局部特征進行特征變化,挖掘更多豐富的失真特征,并將融合特征輸入到質(zhì)量回歸網(wǎng)絡(luò)中。在訓(xùn)練得到特定失真的NR-IQA任務(wù)的質(zhì)量先驗?zāi)P秃?,使用該模型作為先驗知識,在具有未知失真的NR-IQA數(shù)據(jù)集上微調(diào)后進行質(zhì)量預(yù)測。
人的視覺在感知失真圖像的過程中,不僅會從全局出發(fā)感知圖像整體的語義信息,也能夠感知到圖像中感興趣的局部細(xì)節(jié)。受啟發(fā)于SCNET[24]網(wǎng)絡(luò)通過內(nèi)部通信顯著擴大了每個卷積層的感受野,增強其表征學(xué)習(xí)能力。為此,該文在特征提取時,將特定層的卷積塊分成多個部分,通過一個卷積塊的變換來校準(zhǔn)另一部分卷積塊的特征變化,有效地擴大每個空間位置的感受野,自適應(yīng)地構(gòu)建了每個空間位置全局空間和通道間的依賴關(guān)系,通過全局信息來強化局部特征表征能力,捕獲更具辨識度的失真特征,預(yù)測更準(zhǔn)確的圖像質(zhì)量得分。該模塊的工作流程如圖2所示,通過三個卷積層執(zhí)行不同的操作獲取局部與全局的特征信息。
P1=AVGPoolR(Xglobal)
(1)
然后M1對P1進行特征變換:
(2)
其中,UP(*)為雙線性插值算子,進行特征變化后,為了加強特征圖與原始圖像失真區(qū)域的映射,該文增加了校準(zhǔn)操作。通過M2對Xglobal進行通道增強,具體操作如下:
(3)
Y=(Y'⊕Xlocal)×M3
(4)
自適應(yīng)融合局部和全局特征模塊的優(yōu)勢在于每個空間位置不僅允許自適應(yīng)地考慮全局的上下文信息作為潛在空間嵌入原始空間指導(dǎo)其變化,還可以對通道間的依賴關(guān)系進行建模,有效構(gòu)建局部空間和全局上下文的聯(lián)系,增強卷積神經(jīng)網(wǎng)絡(luò)對全局關(guān)系的建模能力,充分利用圖像的紋理與邊緣信息提高對失真信息的判別性,提高圖像質(zhì)量預(yù)測的準(zhǔn)確性。
當(dāng)人類評價一幅圖像質(zhì)量好壞時,圖像中的物體的邊緣和紋理的清晰度是一個至關(guān)重要的評價標(biāo)準(zhǔn)。因此使用Sobel算子提取失真圖像的邊緣信息,通過疊加的方式,將邊緣特征圖與原圖輸入到網(wǎng)絡(luò)進行訓(xùn)練,能夠有效獲取圖像細(xì)節(jié)信息,提高特征的表征能力。
深度卷積網(wǎng)絡(luò)的淺層卷積能捕獲細(xì)節(jié)特征,深層卷積能獲取語義特征,將網(wǎng)絡(luò)中的高級語義信息和低級細(xì)節(jié)信息相結(jié)合,利用不同卷積層之間的特征優(yōu)勢互補,有利于網(wǎng)絡(luò)捕捉失真圖像的失真信息。將不同尺度特征圖劃分為不重疊的Patches,沿著通道繼續(xù)疊加Patches,之后再進行全局平均池化,執(zhí)行1×1卷積并將其合成向量。該方式可以看作是一種基于注意力的Patch提取器,它可以感知到局部失真相對應(yīng)的特征Patch,獲取多尺度相關(guān)聯(lián)的失真信息,進而更好地預(yù)測圖像質(zhì)量。
操作流程如圖3所示,在網(wǎng)絡(luò)訓(xùn)練階段,將圖像裁剪到統(tǒng)一尺度224×224,使用Sobel算子來獲取失真圖像的邊緣特征圖,并將獲取的邊緣細(xì)節(jié)信息輸入到網(wǎng)絡(luò)當(dāng)中,同時去除網(wǎng)絡(luò)最后兩層(平均池化層、全連接層),從網(wǎng)絡(luò)的Layer1(256×56×56),Layer2(512×28×28),Layer3(1 024×14×14)層分為三個獨立的分支提取多尺度特征,并在每個分支中執(zhí)行相同的操作,先對相應(yīng)的輸出特征映射進行全局平均池化(global average pooling,GAP)操作,平均池化在減少維度的同時,能夠保留更多的圖片信息,便于特征融合。此外,由于特征融合會增加特征維度,增大計算的成本,使用1×1卷積做降維處理,最后通過全連接層得到特征向量Fi(i=1,2,3),接下來對Fi(i=1,2,3)進行concat操作得到輸出向量F,再將F輸入網(wǎng)絡(luò)中進行計算。
(5)
其中,φX為通過元學(xué)習(xí)訓(xùn)練得到的模型參數(shù),由于最小化圖像的預(yù)測質(zhì)量分?jǐn)?shù)和真實質(zhì)量分?jǐn)?shù)之間的差異,該文提出使用歐幾里德距離的平方作為損失函數(shù),如下所示:
(6)
其中,y為x的真實質(zhì)量分?jǐn)?shù)。
在合成失真和真實失真的數(shù)據(jù)集上分別進行了實驗。合成失真的數(shù)據(jù)集被用來學(xué)習(xí)失真知識的先驗?zāi)P停⒃u估先驗?zāi)P蛯ξ粗д娴姆夯芰?,使用TID2013[25]和KADID-10K[26]生成元訓(xùn)練集學(xué)習(xí)先驗知識,進行留一法交叉驗證,目的是為了驗證先驗?zāi)P蛯τ谖粗д娴姆夯芰?。假設(shè)數(shù)據(jù)集中有N種失真,該文使用N-1種失真類型進行訓(xùn)練,剩余的一種用于性能測試。再使用真實失真的數(shù)據(jù)集驗證自適應(yīng)融合局部和全局特征無參考方法對于失真的評估性能,選用的真實失真的數(shù)據(jù)集包括:CID2013[27]、LIVE challenge[28]和KonIQ-10K[29]。CID2013數(shù)據(jù)集包含六個部分,總共有480張真實失真的圖像,使用79臺數(shù)碼相機進行拍攝,并通過人工對圖像質(zhì)量進行評分,評分范圍為[0,100],越接近100圖像質(zhì)量越好。LIVE challenge數(shù)據(jù)集包含1 162張移動相機拍攝獲取的真實失真圖像,如運動模糊、曝光不足、白噪聲和JPEG壓縮,分?jǐn)?shù)范圍在[0,100]。數(shù)據(jù)量相對較大的IQA數(shù)據(jù)集KonIQ-10K,包含100 073幅圖像,每幅圖像是由大約120名工作人員的5個評分平均而來,范圍在[1,5],得分越高表示質(zhì)量越好。同時還在IQA數(shù)據(jù)集LIVE[18]和CSIQ[30]不同失真類型測試該模型,每個數(shù)據(jù)集包含了779和866張合成失真圖像。
采用了常見的用于無參考圖像質(zhì)量評價的指標(biāo),分別是斯皮爾曼秩相關(guān)系數(shù)(Spearman rank order coefficient,SROCC)和皮爾森線性相關(guān)系數(shù)(Pearson linear correlation coefficient,PLCC),來衡量預(yù)測的單調(diào)性和準(zhǔn)確性。在N個測試圖像上,PLCC定義為:
(7)
(8)
SROCC和PLCC的值表示與主觀得分的相關(guān)性,范圍在[0,1],值越接近1,表示實驗?zāi)P驮浇咏说闹饔^視覺感受,模型性能越好。
3.3.1 可視化分析
為了驗證元學(xué)習(xí)通過兩級梯度優(yōu)化學(xué)習(xí)質(zhì)量先驗?zāi)P偷挠行裕撐牟捎每梢暬a顯示不同失真的梯度變化與失真的關(guān)系。首先在TID2013和KADID-10K數(shù)據(jù)集中特定的失真圖像中學(xué)習(xí)質(zhì)量先驗?zāi)P?,然后在LIVE數(shù)據(jù)集中隨機選擇三張嚴(yán)重失真(高斯模糊、JPEG2000壓縮、加性高斯粉紅噪聲)的圖像進行梯度分析。圖像以及相應(yīng)的梯度圖如圖4所示,左邊小方框內(nèi)表示放大后的失真局部細(xì)節(jié),由于失真會引起偏導(dǎo)的急劇變化[21],通過梯度可以捕捉到引起變化的失真位置,右側(cè)的小方框顯示了其失真位置對應(yīng)在梯度圖中的分布,梯度圖反映出圖像中真實失真的位置。這有力地表明,通過元學(xué)習(xí)可以從大量NR-IQA任務(wù)中有效地學(xué)習(xí)圖像中各種失真的共享先驗知識。
3.3.2 圖像質(zhì)量分析
實驗一:真實失真數(shù)據(jù)集上預(yù)測圖像質(zhì)量的對比分析。
為了驗證從合成數(shù)據(jù)集中學(xué)習(xí)的質(zhì)量先驗?zāi)P蛯φ鎸嵤д娴姆夯芰?,表現(xiàn)自適應(yīng)融合局部和全局特征方法的有效性,將所提出的方法與5種傳統(tǒng)方法和8種基于深度學(xué)習(xí)的NR-IQA方法在真實失真數(shù)據(jù)集上進行比較。
諸如傳統(tǒng)方法包括BLIINDS-II[31](blind image integrity notator using DCT statistics)、BRISQUE[9](blind referenceless image spatial quality evaluator)、ILNIQE[32](integrated local natural image quality evaluator)、CORNIA[10](codebook representation for no reference image assessment)和HOSA[33](high order statistics aggregation),基于深度學(xué)習(xí)的NR-IQA方法包括BIECON[34](blind image evaluator based on a convolutional neural network)、MEON[7](end-to-end blind image quality assessment)、DIQaM-NR[20](deep image quality assessment metric no-reference)、DIQA[35](deep CNN-based image quality assessment)、NSSADNN[14](naturalness-aware deep no-reference image quality assessment)、MetaIQA[21](meta-learning image quality assessment)、MetaIQA+[22](deep meta-learning image quality assessment)和HyperIQA[16](hyper network image quality assessment)。在CID2013、LIVE challenge和KonIQ-10K數(shù)據(jù)集中,將所有圖像分為80%訓(xùn)練樣本和20%測試樣本。表1總結(jié)了三個IQA數(shù)據(jù)集的測試結(jié)果,每個數(shù)據(jù)集最好的結(jié)果用粗體標(biāo)出。結(jié)果表明自適應(yīng)融合局部和全局特征的無參考方法在CID2013和LIVE challenge上取得了最好的效果,在CID2013數(shù)據(jù)集上,相比于MetaIQA+方法SROCC和PLCC都提高了2.7個百分點。在LIVE challenge數(shù)據(jù)集中,PLCC對于MetaIQA提高了5.1個百分點,SROCC跟HyperIQA相比提高了0.8個百分點,與MetaIQA+比較提高了1.5個百分點。同時在KonIQ-10K數(shù)據(jù)集上與HyperIQA方法取得了較好的結(jié)果,PLCC性能相比于HyperIQA提高了0.6個百分點。實驗證明充分考慮局部失真與全局上下文信息的聯(lián)系,有助于感知圖像質(zhì)量,同時通過學(xué)習(xí)質(zhì)量先驗?zāi)P?,有效提升預(yù)測性能,提高在不同失真數(shù)據(jù)集的泛化能力。
表1 在LIVE challenge、CID2013、KonIQ-10K數(shù)據(jù)集上與其他方法的性能比較
實驗二:合成數(shù)據(jù)集上對不同失真類型預(yù)測圖像質(zhì)量的對比分析。
對于合成失真數(shù)據(jù)集,引入深度元學(xué)習(xí)的IQA方法,該文引入了兩個合成圖像數(shù)據(jù)集LIVE和CSIQ,并與其他方法進行性能比較。在實驗過程中進行不同失真類型的性能比較,包括JPEG壓縮(JPEG)、JPEG2000壓縮(JP2K)、整體對比度縮減(CC)、加性高斯粉紅噪聲(WN)、快速銳利衰減失真(FF)、加性高斯白噪聲(FN)以及高斯模糊(GB)等失真類型,如表2所示,并在每種失真類型中用粗體標(biāo)出了最佳性能。結(jié)果表明自適應(yīng)融合局部和全局特征的無參考方法SROCC值都大于0.9,文中方法對于高斯模糊的失真類型表現(xiàn)出色,在兩個數(shù)據(jù)集上都要比其他的方法有明顯的提高,LIVE數(shù)據(jù)集中GB失真類型比BRISQUE方法提高了0.6個百分點,同時在快速銳利衰減失真類型上比HyperIQA提高了0.6個百分點。在CSIQ數(shù)據(jù)集上,文中方法在多個失真類型上取得不錯的效果,尤其是對于整體對比度縮減的失真類型,相比于以往的方法,SROCC值達(dá)到了0.912,比HyperIQA方法提高了3.8個百分點。這表明通過自適應(yīng)融合局部和全局特征模塊,可以有效獲取失真信息,并通過多尺度融合的方式保留了圖像失真的信息,因此,對于高斯模糊和快速銳利衰減類型表現(xiàn)出色。然而,該文提出的模型在JPEG和JP2K類型上略低于其他模型,是因為這兩種類型會使得圖像整體上丟失部分高頻信息,而高頻信息正是圖像中的細(xì)節(jié)部分,隨著網(wǎng)絡(luò)的加深損失了失真細(xì)節(jié)信息,使算法的有效性降低,從而影響質(zhì)量得分。在WN失真類型中,無法有效構(gòu)建局部與全局失真特征的聯(lián)系,弱化了失真特征的表征能力,但即便在這種情況下,該文提出的方法仍然有較好的效果。
3.3.3 消融實驗分析
實驗一:驗證不同尺度融合有效性的消融實驗。
文中方法將淺層的細(xì)節(jié)特征和高層的語義特征進行融合,合并上下文信息,充分利用淺層的特征(例如提取失真圖像的邊緣信息、紋理信息等),改善隨網(wǎng)絡(luò)加深而導(dǎo)致高層網(wǎng)絡(luò)輸出的特征圖逐漸變小、丟失更多細(xì)節(jié)信息的問題??紤]到不同層次所提取的失真信息不同,為了提高文中方法預(yù)測的準(zhǔn)確性,在不同尺度上進行特征融合的消融實驗,通過實驗結(jié)果選擇性能最好的多層次特征融合來優(yōu)化文中方法。
實驗結(jié)果如表3所示。在改進后的Resnet50的Layer1、Layer2、Layer3上進行特征融合是最好的選擇,其實驗效果是最好的,能夠避免失真圖像的細(xì)節(jié)信息丟失,豐富提取特征。
表2 比較LIVE和CSIQ數(shù)據(jù)集上不同失真類型的SROCC
表3 在LIVE challenge和CID2013數(shù)據(jù)集上不同尺度的消融結(jié)果
實驗二:驗證不同模塊有效性的消融實驗。
除此之外,采取對改進網(wǎng)絡(luò)每次減少一個模塊的方式進行消融實驗驗證提出方法的有效性。即減少自適應(yīng)融合局部和全局特征模塊(SC),增強特征融合模塊(MF)進行實驗。
表4 驗證方法有效性的消融實驗
由表4可以看出,當(dāng)對所有模塊進行融合時,質(zhì)量評價的效果有明顯的提升,使用增強特征融合和自適應(yīng)融合局部和全局特征模塊相比于單獨使用Resnet50提高了將近2%。同時,在LIVE challenge和CID2013兩個數(shù)據(jù)集上都進行了消融實驗,通過實驗證明,自適應(yīng)融合局部和全局特征的方法在處理NR-IQA任務(wù)時具有優(yōu)勢,提高了失真圖像質(zhì)量預(yù)測的準(zhǔn)確性。
提出了一種自適應(yīng)融合局部和全局特征的圖像質(zhì)量評價算法,擴大了卷積操作時的感受野,有效構(gòu)建每個空間位置長距離空間和通道間的依賴關(guān)系,校準(zhǔn)原始空間和全局上下文的映射關(guān)系,自適應(yīng)融合局部和全局特征信息,獲取到更豐富的失真信息;通過增強特征融合,避免隨網(wǎng)絡(luò)加深而導(dǎo)致圖像細(xì)節(jié)信息的損失;此外,還引入了元學(xué)習(xí)訓(xùn)練方法,通過學(xué)習(xí)質(zhì)量先驗?zāi)P?,提高對未知失真場景的泛化能力。在LIVE challenge數(shù)據(jù)集上,相比于MataIQA+方法,SROCC提高了1.5個百分點,在CID2013數(shù)據(jù)集上提高了2.7個百分點。由于該文僅考慮了對失真信息的感知,忽略了語義內(nèi)容與失真變化的關(guān)系,因此今后在對失真進行評估時需要融入更多的語義特征,了解圖像語義內(nèi)容對失真的影響。