沈 暐, 林康立, 錢保軍, 龔有為,梁法其, 王曉虎, 劉 瀏
(1.中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司 物聯(lián)網(wǎng)研究院,無(wú)錫214000;2.中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司無(wú)錫市分公司,無(wú)錫214000;3.無(wú)錫市公安局 技術(shù)防范管理支隊(duì),無(wú)錫214000)
近年來(lái),隨著深度學(xué)習(xí)的興起,神經(jīng)網(wǎng)絡(luò)廣泛地應(yīng)用于圖像處理和計(jì)算機(jī)視覺等領(lǐng)域,特別是在圖像識(shí)別、分類的任務(wù)方面。深度學(xué)習(xí)模型需要大量訓(xùn)練數(shù)據(jù),且模型參數(shù)越多,需求量就越大?,F(xiàn)有用于質(zhì)量評(píng)價(jià)的圖像庫(kù)規(guī)模非常小,由于質(zhì)量評(píng)價(jià)與圖像識(shí)別等任務(wù)不同,所以將深度神經(jīng)網(wǎng)絡(luò)直接應(yīng)用于質(zhì)量評(píng)價(jià)有難度[1]。Kang等首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于平面圖像質(zhì)量評(píng)價(jià),實(shí)現(xiàn)了端到端的無(wú)參考模型,將圖像分成多個(gè)不重疊的補(bǔ)丁,擴(kuò)充了數(shù)據(jù)集,滿足訓(xùn)練需求[2]。朱睿等針對(duì)JPEG2000圖像失真,構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)模型[3]。Cheng等結(jié)合圖像顯著性知識(shí)提出評(píng)價(jià)模型,認(rèn)為圖像中的非顯著區(qū)域使卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)誤差增大,故在將圖像分割成不重疊的小塊后,去除非顯著區(qū)域的小塊并為其分配權(quán)重,將顯著區(qū)域的小塊輸入卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)體系,最后采用匯集策略得出圖像分?jǐn)?shù)[4]。
深度卷積神經(jīng)網(wǎng)絡(luò)在提取特征時(shí),每一層特征的特點(diǎn)都是不同的。淺層網(wǎng)絡(luò)提取的是紋理、區(qū)域等細(xì)節(jié)特征,深層網(wǎng)絡(luò)提取的是輪廓、形狀和邊緣等結(jié)構(gòu)特征。圖像失真類型眾多,評(píng)估不同類型的失真所需要的特征也不同。以往,深度網(wǎng)絡(luò)的最后一層特征用于分類、回歸等任務(wù),而考慮到淺層和深層網(wǎng)絡(luò)特征對(duì)感知失真的影響,本文提出了一種基于多輸出卷積神經(jīng)網(wǎng)絡(luò)的端到端無(wú)參考圖像質(zhì)量評(píng)價(jià)模型。該模型設(shè)計(jì)了三個(gè)輸出,將淺層和深層特征分別回歸到主觀質(zhì)量評(píng)分上,最后將三個(gè)輸出的平均分?jǐn)?shù)作為最終質(zhì)量得分。這種多輸出的網(wǎng)絡(luò)結(jié)構(gòu),綜合了三個(gè)學(xué)習(xí)機(jī)的結(jié)果,因此具備了集成學(xué)習(xí)的優(yōu)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,本文方法與人類主觀評(píng)分具有較高的一致性。
深度卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是可以通過多層卷積自動(dòng)提取特征,且不同卷積層提取的特征是不相同的。文獻(xiàn)[5]利用特征可視化技術(shù),對(duì)不同卷積層的特征進(jìn)行研究。可視化一幅圖像經(jīng)過多次卷積后的特征圖如圖1所示,圖中左邊是每層卷積得到的特征圖,右邊是每一層的特征圖1∶1融合后得到的特征圖。圖1的第一行是Original image,第二行左側(cè)是Low-level feature maps,右側(cè)是Fused feature map,第三行是左側(cè)是Mid-level feature maps,右側(cè)是Fused feature map,第四行是左側(cè)是High-level feature maps,右側(cè)是Fused feature map。
可以看出,隨著層數(shù)的加深,卷積核提取的內(nèi)容越來(lái)越抽象,保留的信息也越來(lái)越少,特征被不斷提取和壓縮,最終得到了比較高層次特征。因此,淺層網(wǎng)絡(luò)提取的是紋理、區(qū)域等細(xì)節(jié)特征,深層網(wǎng)絡(luò)提取的是輪廓、形狀和邊緣等關(guān)鍵結(jié)構(gòu)特征。相對(duì)而言,層數(shù)越深,提取的特征越具有代表性。
傳統(tǒng)上,最后一層的特征已用于分類、回歸等任務(wù)。圖像失真類型種類很多,但大致可以分為結(jié)構(gòu)失真(如模糊、JPEG等)和非結(jié)構(gòu)失真(如各種噪聲),評(píng)價(jià)這些失真類型所需要的特征是不同的,有的甚至相互抵觸。分析結(jié)構(gòu)失真主要需要輪廓、形狀和邊緣等結(jié)構(gòu)特征(即深層網(wǎng)絡(luò)特征),而分析非結(jié)構(gòu)失真則需要紋理、區(qū)域等細(xì)節(jié)特征(即淺層網(wǎng)絡(luò)特征)。本文提出的多輸出卷積神經(jīng)網(wǎng)絡(luò)模型,利用不同卷積層提取不同特征,同時(shí)使用低層特征和高層抽象特征,正好適應(yīng)了這種不同失真類型需要不同特征的要求。在噪聲類型較多的TID2013數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果進(jìn)一步表明,使用淺層網(wǎng)絡(luò)特征會(huì)明顯改善噪聲失真的圖像質(zhì)量評(píng)估效果。
受到目標(biāo)檢測(cè)網(wǎng)絡(luò)SSD[6]匯集多尺度特征的啟發(fā),本文提出了一個(gè)端到端的多輸出卷積神經(jīng)網(wǎng)絡(luò)模型,設(shè)計(jì)了三個(gè)輸出,將淺層特征和高層特征分別回歸到主觀質(zhì)量評(píng)分上,最后平均多個(gè)輸出的分?jǐn)?shù)作為最終質(zhì)量得分,該網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)輸入的是經(jīng)過預(yù)處理的32×32大小的無(wú)重疊圖像塊,卷積層采用5×5大小的卷積核,池化層采用最大池化來(lái)降低卷積層提取的特征圖維度,池化大小均為2×2。該網(wǎng)絡(luò)在結(jié)構(gòu)上可以看作是三個(gè)卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)單的拼接,因?yàn)樗腥齻€(gè)全連接層分別用于回歸映射到主觀質(zhì)量評(píng)分上。然而,該網(wǎng)絡(luò)不僅可以端到端進(jìn)行訓(xùn)練,而且將低層特征和高層特征聯(lián)系了起來(lái)。
圖1 不同卷積層的特征可視化Fig.1 Visualization of characteristics of different convolution layers
圖2 多輸出卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of multi-output convolutional neural network
2.1 圖像預(yù)處理
對(duì)所有訓(xùn)練圖像和測(cè)試圖像進(jìn)行局部歸一化,包括簡(jiǎn)單的空間帶通操作和簡(jiǎn)單的除法歸一化。該處理步驟參考文獻(xiàn)[2,7-8]。Ruderman發(fā)現(xiàn)對(duì)失真圖像進(jìn)行局部歸一化后,其直方圖會(huì)趨于正態(tài)高斯分布,從而使網(wǎng)絡(luò)在亮度和對(duì)比度變化方面具有魯棒性[9]。Mittal等研究表明當(dāng)圖像產(chǎn)生失真時(shí),其局部歸一化后的統(tǒng)計(jì)特性也發(fā)生改變,且該改變是可預(yù)測(cè)的[8]。局部歸一化處理方法如下,假設(shè)圖像像素點(diǎn)(i,j)上的亮度值為I~(i,j),則局部歸一化公式為:
式中:i=1,2,…,M;j=1,2,…,N;M和N分別為圖像的高度和寬度;I(i,j)和μ(i,j)分別表示像素的局部均值和方差;C是常數(shù),以防止分母為0;P和Q是歸一化窗口大小。文獻(xiàn)[8]表明,較小的歸一化窗口可以提高性能,所以選擇P=Q=3,使得窗口大小比圖像塊小得多。
LIVE庫(kù)中的圖像局部歸一化后的概率密度圖如圖3和圖4所示??梢钥闯?,對(duì)圖像進(jìn)行局部歸一化后,其概率密度趨于正態(tài)高斯分布。不同類型或不同等級(jí)的失真所對(duì)應(yīng)的概率密度分布是不相同的,模型通過自適應(yīng)學(xué)習(xí)失真引起的不同統(tǒng)計(jì)分布來(lái)學(xué)習(xí)質(zhì)量預(yù)測(cè)。
圖3 參考圖像和不同失真類型圖像的局部歸一化圖及其概率密度分布圖Fig.3 Local normalization map and probability density distribution of reference image and images with different distortion types
圖4 參考圖像和不同等級(jí)的Blur失真圖像局部歸一化圖及其概率密度分布圖Fig.4 Local normalization map and probability density distribution of reference image and Blur distortion images with different levels
2.2.1 網(wǎng)絡(luò)的調(diào)整與學(xué)習(xí)
網(wǎng)絡(luò)的訓(xùn)練有兩個(gè)階段:前向傳播階段和反向傳播階段。
在第一階段中,首先初始化權(quán)重參數(shù)w和偏置b。輸入經(jīng)過預(yù)處理的圖像塊,經(jīng)過卷積層、池化層向前傳播逐層提取特征。計(jì)算公式為:式中:Zl為l層的輸出且為l+1層的輸入;ul+1為l+1層的輸出;f為ReLU激活函數(shù);wl+1和bl+1分別為l+1層的權(quán)重和偏置。
在第二階段中,通過損失函數(shù)計(jì)算預(yù)測(cè)值與真實(shí)主觀評(píng)分之間的誤差。本文網(wǎng)絡(luò)采用的損失函數(shù)為歐氏距離損失函數(shù),其定義為:
式中:E為損失值;Yn為預(yù)測(cè)值;yn為樣本標(biāo)簽,即主觀評(píng)價(jià)分?jǐn)?shù);N表示圖片數(shù)。
由于本文的網(wǎng)絡(luò)有三個(gè)輸出,因此在每次池化后都會(huì)應(yīng)用非線性回歸在池化層計(jì)算多個(gè)損失,如式(7)所示。然后將池化層的誤差通過反向傳播的方式直接傳遞給卷積層來(lái)更新權(quán)重,計(jì)算公式為:
2.2.2 網(wǎng)絡(luò)參數(shù)設(shè)置
從預(yù)處理的圖像中采樣32×32大小的非重疊圖像塊得到訓(xùn)練數(shù)據(jù)。由于數(shù)據(jù)庫(kù)中的失真圖像都是均勻失真,所以每個(gè)圖像小塊的實(shí)際主觀評(píng)分都采用該圖像的主觀分?jǐn)?shù)。在測(cè)試時(shí),通過平均圖像塊的預(yù)測(cè)質(zhì)量分?jǐn)?shù)來(lái)計(jì)算圖像的質(zhì)量得分。
本文采用Nesterov加速梯度下降的方法來(lái)優(yōu)化損失函數(shù)[10],該方法可以使網(wǎng)絡(luò)快速收斂。為避免梯度消失問題,在兩個(gè)全連接層中使用ReLU激活函數(shù)。為防止過擬合,在全連接層中使用了Dropout技術(shù)[11],概率設(shè)置為0.5。
其他參數(shù)設(shè)置如下:動(dòng)量(Momentum)設(shè)置為0.9,批量大?。˙atchsize)設(shè)置為64,初始化學(xué)習(xí)率設(shè)置為0.01,重量衰減(Weight decay)設(shè)置為0.0005,學(xué)習(xí)率更新方式如下:
式中:base_Ir是初始化學(xué)習(xí)率;Iter為當(dāng)前迭代次數(shù);Gamma是學(xué)習(xí)速率變化因子,設(shè)置為0.000 1,指數(shù)power設(shè)置為0.75。
網(wǎng)絡(luò)每一層的參數(shù)如表1所示,輸入和輸出參數(shù)。其中:k代表卷積核大小或局部窗口大小;m為卷積核個(gè)數(shù)(通道數(shù));s表示步長(zhǎng);p表示擴(kuò)充邊緣大小。
本文在LIVE圖像庫(kù)、TID2013圖像庫(kù)和LIVE MD圖像庫(kù)上進(jìn)行了實(shí)驗(yàn)。為了減小數(shù)據(jù)分布差異,將圖像數(shù)據(jù)庫(kù)中的標(biāo)簽歸一化在(0~1)。每個(gè)圖像庫(kù)都被分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三個(gè)數(shù)據(jù)集,分別占圖像庫(kù)中圖片數(shù)量的80%、10%和10%。這三個(gè)數(shù)據(jù)集中的數(shù)據(jù)相互獨(dú)立,互不重疊,保證了實(shí)驗(yàn)的公平性。將LIVE圖像庫(kù)上的實(shí)驗(yàn)結(jié)果與三種有效的全參考方法(SSIM[12]、PSNR[13]和FSIM[14])和五種近期的無(wú)參考方法(M3[15]、HOSA[16]、FRIQUEE[17]、BPRI(p)[18]和DB-CNN[19])進(jìn)行比較,如表1所示。
表1 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1 Network structure parameters
LIVE圖像庫(kù)上實(shí)驗(yàn)獲得的評(píng)價(jià)指標(biāo)如表2和表3所示。本文所提出的方法與對(duì)比方法存在競(jìng)爭(zhēng)性。雖然在預(yù)測(cè)JP2K和FF失真時(shí),本文方法得到的SROCC值低于全參考方法SSIM,但是在預(yù)測(cè)WN和Blur失真時(shí),本文實(shí)驗(yàn)結(jié)果極其接近真實(shí)值。在總體失真上,本文方法獲得了較為優(yōu)異的結(jié)果。
表2 不同方法在LIVE圖像庫(kù)上獲得的PLCC值Table 2 PLCC values obtained by different methods in LIVE image library
LIVE圖像庫(kù)中隨機(jī)抽取的三張失真圖像如圖5所示,其中標(biāo)注了失真類型、預(yù)測(cè)分?jǐn)?shù)與實(shí)際分?jǐn)?shù)。可以看出,使用本文模型得出的預(yù)測(cè)分?jǐn)?shù)非常接近人為打分。不同失真類型的預(yù)測(cè)值和DMOS的散點(diǎn)圖如圖6所示,其中橫坐標(biāo)是圖像標(biāo)簽,縱坐標(biāo)是預(yù)測(cè)分?jǐn)?shù)??梢钥闯觯Ⅻc(diǎn)分布集中且呈線性分布,說明所提出的方法與人類主觀評(píng)分一致。
表3 不同方法在LIVE圖像庫(kù)上獲得的SROCC值Table 3 SROCC values obtained by different methods in LIVE image library
圖5 LIVE圖像庫(kù)中部分失真圖像的預(yù)測(cè)分?jǐn)?shù)Fig.5 Prediction of partial distortion images in LIVE image library
圖6 LIVE圖像庫(kù)中的預(yù)測(cè)值與DMOS值的散點(diǎn)圖Fig.6 Scatter plots of predicted values and DMOSvalues in LIVE image library
本文方法與對(duì)比方法在TID2013圖像庫(kù)上獲得的SROCC值如表4所示。TID2013圖像庫(kù)是最具挑戰(zhàn)性的合成數(shù)據(jù)庫(kù)。在總體失真上,本文方法略低于DB-CNN方法所獲得的結(jié)果,相差0.5%左右;然而大部分單失真類型上,本文方法獲得了優(yōu)異的結(jié)果,表現(xiàn)出了對(duì)單失真預(yù)測(cè)的優(yōu)越性能,尤其是對(duì)噪聲失真圖像的預(yù)測(cè)能力更強(qiáng)。在NEPN、LBD、CC、CCS和MS失真上,對(duì)比方法的SROCC值都在0.63以下。不同失真類型的預(yù)測(cè)值和MOS值的散點(diǎn)圖如圖7所示??梢钥闯?,絕大多數(shù)散點(diǎn)圍繞在擬合曲線周圍,分布集中,說明本文模型具有良好的性能。
圖7 TID2013圖像庫(kù)中的預(yù)測(cè)值與MOS值的散點(diǎn)圖Fig.7 Scatter plots of predicted values and MOS values in TID2013 image library
表4 不同方法在TID2013圖像庫(kù)上獲得的SROCC值Table 4 SROCC values obtained by different methods in TID2013 image library
本文方法與對(duì)比方法在LIVEMD圖像庫(kù)上獲得的PLCC值和SROCC值如表5所示。LIVEMD庫(kù)上的預(yù)測(cè)值與DMOS值的散點(diǎn)圖如圖8所示。實(shí)驗(yàn)數(shù)據(jù)表明,該方法在評(píng)價(jià)混合圖像上也展現(xiàn)了良好的性能,進(jìn)一步證實(shí)了本文方法的有效性。
表5 不同方法在LIVEMD圖像庫(kù)上獲得的PLCC和SROCC值Table 5 PLCC and SROCC values obtained by different methods in LIVEMD image library
圖8 LIVEMD圖像庫(kù)上的預(yù)測(cè)值與DMOS值的散點(diǎn)圖Fig.8 Scatter plots of predicted values and DMOS values in LIVEMD image library
實(shí)驗(yàn)使用了與本文模型相同的參數(shù)設(shè)置來(lái)訓(xùn)練三個(gè)單獨(dú)的單輸出網(wǎng)絡(luò)。它們是三個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò),將其分別命名為N1、N2和N3。N1包括兩個(gè)卷積層、一個(gè)池化層和兩個(gè)全連接層;N2包括三個(gè)卷積層、兩個(gè)池化層和兩個(gè)全連接層;N3包括四個(gè)卷積層、三個(gè)池化層和兩個(gè)全連接層。不同方法在LIVE庫(kù)上的實(shí)驗(yàn)結(jié)果如表6所示,其中“Average”的含義是每張圖像的質(zhì)量得分為N1、N2和N3網(wǎng)絡(luò)的預(yù)測(cè)得分的平均值??梢钥闯?,本文提出的多輸出模型提升了圖像質(zhì)量評(píng)估的性能,優(yōu)于多個(gè)單輸出網(wǎng)絡(luò)預(yù)測(cè)分?jǐn)?shù)的平均值。原因是較深層的權(quán)重調(diào)整受到共享淺層的定向訓(xùn)練的影響,反之亦然。實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí)了多輸出網(wǎng)絡(luò)的魯棒性。
表6 對(duì)比方法在LIVE圖像庫(kù)上獲得的結(jié)果Table 6 Results of comparison methods in LIVE image library
3.3.1 圖像塊大小的影響
為了滿足網(wǎng)絡(luò)的訓(xùn)練需求,本文采用非重疊采樣的數(shù)據(jù)增強(qiáng)方式擴(kuò)充數(shù)據(jù)集。圖像的預(yù)測(cè)得分為每個(gè)圖像小塊預(yù)測(cè)分?jǐn)?shù)的和的均值,所以圖像塊大小可能會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生影響。本文在訓(xùn)練階段使用了6種大小的圖像塊。不同圖像塊大小在LIVE庫(kù)上的實(shí)驗(yàn)結(jié)果如表7所示,最優(yōu)結(jié)果在表格中顯示。為了直觀地顯示預(yù)測(cè)結(jié)果的趨勢(shì),用折線圖予以展示。由表7和圖9的結(jié)果可知,圖像塊大小對(duì)實(shí)驗(yàn)結(jié)果的影響并不是很大。雖然小尺寸的圖像塊能夠極大地增加數(shù)據(jù)量,但是其包含較少的失真特征信息,效果較差,例如24×24的圖像塊;而大尺寸的圖像塊會(huì)導(dǎo)致訓(xùn)練參數(shù)增多,訓(xùn)練時(shí)間加長(zhǎng)。綜合考慮,選擇了36×36的圖像塊。
表7 不同大小的圖像塊在LIVE圖像塊上獲得的結(jié)果Table 7 Results of different size image blocks on LIVE image blocks
圖9 圖像塊大小和預(yù)測(cè)結(jié)果的關(guān)系圖Fig.9 Relationship between image block sizes and prediction results
3.3.2 卷積核大小的影響
卷積操作是通過卷積核作用于局部圖像提取圖像信息的一種局部操作。本文測(cè)試了卷積核大小對(duì)模型的影響,不同卷積核大小在LIVE庫(kù)上的實(shí)驗(yàn)結(jié)果如表8所示,表格中的符號(hào)“/”表示模型未收斂。使用四種尺寸卷積核時(shí),網(wǎng)絡(luò)訓(xùn)練的損失曲線圖如圖10所示??梢钥闯?,使用3×3、5×5和7×7大小的卷積核的模型均能夠達(dá)到收斂狀態(tài);使用9×9大小的卷積核時(shí),損失曲線上下振蕩,網(wǎng)絡(luò)不收斂。雖然卷積核尺寸越大,感受也越大,但是大卷積核在訓(xùn)練時(shí)會(huì)導(dǎo)致參數(shù)增多,從而需要更多的樣本??紤]到這種在計(jì)算復(fù)雜性和性能之間的平衡,本文將卷積核大小定為5×5。
表8 不同卷積核大小在LIVE圖像庫(kù)上的結(jié)果Table 8 Results of different convolution kernel sizes in LIVE image library
圖10 使用不同大小卷積核模型的損失曲線Fig.10 Loss curves of convolution kernel models with different sizes
研究了兩種池化類型對(duì)模型的影響,即最大池化和均值池化。使用最大池化、均值池化和組合池化策略時(shí)模型的預(yù)測(cè)結(jié)果如表9所示。表格中,Max_pool表示最大池化,Avg_pool表示均值池化。最大池化能夠更多地保留圖像的紋理信息,而均值池化保留了更多的圖像背景信息[20]。由表中數(shù)據(jù)可知,使用均值池化效果較差,使用最大池化具有優(yōu)勢(shì),所以選擇采用最大池化。
表9 不同池化類型在LIVE圖像庫(kù)上獲得的結(jié)果Table 9 Results of different pooling types on LIVE image database
大多數(shù)基于深度學(xué)習(xí)的圖像質(zhì)量評(píng)價(jià)工作使用單輸出的深度網(wǎng)絡(luò)。本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的多輸出圖像質(zhì)量評(píng)價(jià)模型,可以同時(shí)學(xué)習(xí)淺層特征和高層特征,分別回歸到主觀評(píng)分上,最后平均多個(gè)輸出的分?jǐn)?shù)作為最終質(zhì)量得分。這種多輸出模型的一種優(yōu)勢(shì)是,兼顧了不同層卷積特征,具備了集成學(xué)習(xí)的特點(diǎn),使模型的性能更加魯棒。實(shí)驗(yàn)結(jié)果表明,本文模型具有優(yōu)異的性能,與人類主觀感受保持較高的一致性。