基于內(nèi)外混合圖像先驗與圖像融合的DIP改進降噪模型

2024-01-27 07:19:42徐少平陳曉軍程曉慧

電子與信息學(xué)報 2024年1期

徐少平陳曉軍羅潔程曉慧肖楠

①(南昌大學(xué)數(shù)學(xué)與計算機學(xué)院南昌 330031)

②(南昌大學(xué)附屬感染病醫(yī)院南昌 330006)

1 引言

圖像在獲取和傳輸過程中，不可避免地會因各種原因而引入噪聲。噪聲圖像中的噪聲未經(jīng)妥善處理將給后續(xù)的高層視覺任務(wù)帶來嚴重影響，因此圖像降噪問題在過去幾十年來一直都受到研究者的持續(xù)關(guān)注，各類性能優(yōu)異的降噪算法不斷地被提出來[1,2]。近十年來得益于深度學(xué)習(xí)技術(shù)的迅速發(fā)展，基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)構(gòu)建的降噪模型在降噪效果和執(zhí)行效率方面獲得了前所未有的成功，且新的降噪模型不斷被提出來[3,4]。根據(jù)在訓(xùn)練過程中是否需要無失真圖像，這些DNN降噪模型可以劃分為有監(jiān)督和無監(jiān)督兩種類型。其中，F(xiàn)FDNet[5](Fast and Flexible Denoising convolutional neural network), RIDNet[6](Real Image Denoising), GCDN[7](Graph-Convolutional image Denoising)和Restormer等有監(jiān)督[8]降噪模型分別應(yīng)用了殘差學(xué)習(xí)[9]、注意力機制[6]、圖卷積[7]和Transformer[8]等主流網(wǎng)絡(luò)結(jié)構(gòu)。一般來講，現(xiàn)有的有監(jiān)督降噪模型雖然在通用數(shù)據(jù)集上能達到很好的降噪效果，但泛化能力不強。在處理有別于訓(xùn)練集的圖像時，降噪效果就會不同程度地下降。故有監(jiān)督降噪模型的性能受訓(xùn)練數(shù)據(jù)的影響很大，存在數(shù)據(jù)依賴(data dependency)的缺陷。

近幾年，研究者進行的一系列研究試圖讓深度網(wǎng)絡(luò)降噪模型訓(xùn)練擺脫對無失真訓(xùn)練圖像的依賴，僅使用噪聲圖像進行訓(xùn)練的無監(jiān)督網(wǎng)絡(luò)模型受到普遍關(guān)注。例如，Lehtinen等人[10]提出N2N(Noise2-Noise)算法，該算法將統(tǒng)計學(xué)中點估計(point estimation procedure)的方式進行推廣，其中網(wǎng)絡(luò)的輸入和目標圖像均為噪聲圖像，初步放松了網(wǎng)絡(luò)模型訓(xùn)練中目標圖像必須為無失真圖像的約束。盡管如此，N2N降噪模型想要得到性能比較高的降噪模型，仍然需要在大量的噪聲圖像集上進行訓(xùn)練，且這些噪聲圖像集中的圖像必須是采集于同一場景，然而收集相同場景的噪聲圖像在實際應(yīng)用中仍然受到很大限制。為解決此問題，Krull等人[11]提出了一種被稱為N2V(Noise2Void)的降噪模型。該降噪模型假設(shè)無失真圖像中的相鄰像素點之間的亮度值是相互關(guān)聯(lián)的，而噪聲像素的亮度值是相互獨立的?；诖?，提出用盲點網(wǎng)絡(luò)(blind-point network)作為降噪模型的骨干網(wǎng)絡(luò)。通過將輸入圖塊的中心像素進行掩模處理，而其值作為網(wǎng)絡(luò)的預(yù)測輸出。這樣就可以建立中心像素周圍的像素點與中心像素點之間的網(wǎng)絡(luò)映射關(guān)系，這樣用于訓(xùn)練模型的噪聲圖像不再需要來自同一場景，從而在N2N模型的基礎(chǔ)上進一步放松了對訓(xùn)練圖像的約束。然而N2V降噪模型對噪聲分布的假設(shè)導(dǎo)致無法很好地處理空間位置相關(guān)的噪聲(噪聲像素點之間具有相關(guān)性)。最近，Huang等人[12]提出的Ne2Ne(Neighbor2-Neighbor)降噪模型，使用一種隨機鄰域子采樣器(random neighbor sub-sampler)巧妙地生成訓(xùn)練圖像對，為解決無監(jiān)督降噪模型準備訓(xùn)練圖像問題提供了一種新的思路。然而，隨機鄰域子采樣器將圖像的分辨率降低了一半，導(dǎo)致降噪性能存在一定程度的下降，且不適于處理與空間位置相關(guān)噪聲(spatially-correlated noise)和極暗圖像(extremely dark images)。簡而言之，上述無監(jiān)督降噪模型在訓(xùn)練過程雖然解除了對無失真圖像的需求，但仍然要求有大量的噪聲圖像才能工作，這在實際應(yīng)用中仍然存在很大的局限性。

Ulyanov等人[13,14]近年提出的DIP(Deep Image Prior)模型僅需要噪聲圖像本身和合適的網(wǎng)絡(luò)結(jié)構(gòu)(即U-Net[15])，就可以利用網(wǎng)絡(luò)結(jié)構(gòu)本身所獲得的內(nèi)部先驗(internal prior)信息完成降噪，而不需要大量的噪聲圖像數(shù)據(jù)集進行訓(xùn)練，對訓(xùn)練圖像的要求進一步降低。然而，DIP降噪模型雖然解決了有監(jiān)督、無監(jiān)督降噪模型需要大量訓(xùn)練數(shù)據(jù)的問題，但與大多數(shù)現(xiàn)有的降噪模型相比，DIP模型的降噪性能還存在明顯的差距，特別是在合成噪聲圖像方面。為了解決上述問題并基于對DIP降噪模型降噪過程在圖像細節(jié)恢復(fù)上具有不確定性(uncertainty)的特點，本文提出一種基于內(nèi)外混合先驗和圖像融合的改進DIP降噪模型(Improved Deep Image Prior, IDIP)。在合成噪聲圖像和真實圖像上大量的實驗表明：與DIP原模型相比，IDIP降噪模型的降噪性能得到顯著的提升。其降噪性能已顯著優(yōu)于其他主流的無監(jiān)督降噪模型，即便在合成噪聲圖像上也能達到甚至超過當前新近提出的有監(jiān)督降噪模型。

2 深度圖像先驗(DIP)

一般地，基于給定的噪聲圖像y獲得關(guān)于無失真圖像x的最佳估計圖像的問題可以采用式(1)所定義的最小化問題進行求解[14]：

其中，E(·,·)是保真項，R(·)是正則項。保真項E(·,·)主要的作用是確保降噪后圖像x?與噪聲圖像y接近，以限定圖像在圖像空間(image space)上的搜索范圍。而正則項R(·)則是利用關(guān)于圖像的各種先驗知識建立約束條件，使得圖像x?具有較少的噪聲的同時具有最佳的自然性(naturalness)。在DIP降噪模型中，其核心關(guān)鍵技術(shù)就是利用深度卷積神經(jīng)網(wǎng)絡(luò)fθ(·)參數(shù)化圖像I[14]，即I=fθ(z)。這里，z是隨機生成的噪聲(滿足某種先驗分布，作為神經(jīng)網(wǎng)絡(luò)的輸入)，I是待參數(shù)化圖像(即降噪后圖像)，θ是網(wǎng)絡(luò)參數(shù)值集合。具體地，DIP降噪模型用式(2)實現(xiàn)對式(1)的近似求解(取消了R(x)正則項)：

即讓深度網(wǎng)絡(luò)模型f通過不斷調(diào)整網(wǎng)絡(luò)參數(shù)值θ，使得網(wǎng)絡(luò)輸出圖像fθ(z)不斷逼近噪聲圖像(目標圖像)y。在某個迭代步數(shù)所對應(yīng)網(wǎng)絡(luò)參數(shù)θ*的作用下，網(wǎng)絡(luò)輸出圖像x?*=fθ*(z)能與噪聲圖像y在圖像空間中比較接近，同時圖像x?*中的噪聲比較少。此時，以隨機噪聲z在f(網(wǎng)絡(luò)參數(shù)值θ*)的作用下所得到網(wǎng)絡(luò)輸出圖像x?*作為無失真圖像的最佳估計。DIP降噪模型在網(wǎng)絡(luò)具體實現(xiàn)上主要利用了所謂的U型編碼-解碼(encoder-decoder)網(wǎng)絡(luò)架構(gòu)來構(gòu)建網(wǎng)絡(luò)模型，編碼器和解碼器同層結(jié)構(gòu)之間由Skip連接建立聯(lián)系，保證原始特征信息不損失。

無監(jiān)督DIP模型針對給定噪聲圖像，通過在線訓(xùn)練方式獲得降噪后圖像(訓(xùn)練過程即為降噪過程)，其所使用的網(wǎng)絡(luò)模型參數(shù)是與給定噪聲圖像相關(guān)的，即所謂的特定圖像網(wǎng)絡(luò)(image-specific network)。所以它的網(wǎng)絡(luò)參數(shù)值是與圖像相關(guān)的(是可變的)，在圖像局部區(qū)域細節(jié)復(fù)原上較有監(jiān)督模型更具靈活性，能獲得更好的復(fù)原效果。盡管如此，DIP降噪模型在整幅圖像上的降噪效果實際上仍遠低于DnCNN(Denoising Convolutional Neural Network)[9], FFDNet, Restormer等降噪方法，甚至對于同樣是僅利用圖像內(nèi)部先驗信息的BM3D[16]經(jīng)典算法而言，DIP模型很多時候也達不到它的降噪性能。其主要的原因在于噪聲圖像(目標圖像)質(zhì)量過低和僅利用給定噪聲圖像內(nèi)部的信息。

3 IDIP降噪模型

3.1 改進思路

為實現(xiàn)在保持無監(jiān)督DIP方法靈活性的基礎(chǔ)上極大提升其降噪性能，采用以下兩項降噪性能提升措施來實現(xiàn)上述目標：

(1) 使用具有更高圖像質(zhì)量的圖像作為目標圖像。為了獲得更高圖像質(zhì)量的目標圖像，本文從內(nèi)部和外部先驗的兩類主流降噪方法中各選1個有代表性的降噪方法處理給定的噪聲圖像獲得2張預(yù)降噪圖像并使用空間隨機混合器將它們合成為1張混合圖像后作為第2目標圖像(原噪聲圖像仍作為第1目標圖像)。新增第2目標圖像具有較高的圖像質(zhì)量，相當于在DIP模型中增加了正則項，可以約束DIP網(wǎng)絡(luò)輸出圖像的范圍，有效防止DIP對噪聲圖像的過擬合，從而提高降噪性能。從宏觀角度來說，與DIP模型使用單目標圖像僅能利用內(nèi)部圖像先驗信息不同，IDIP降噪模型在內(nèi)部圖像先驗的基礎(chǔ)上引入了外部圖像先驗知識約束降噪過程，有望獲得更高的降噪效果。

(2) 利用DIP模型的不確定性。DIP模型具有不確定性，即便在相同的約束條件下(相同的網(wǎng)絡(luò)輸入、相同的目標圖像和相同的迭代步數(shù))所輸出的降噪后圖像也不完全相同，這些圖像在圖像局部區(qū)域的重構(gòu)誤差存在有高有低、互為補充的特性。為此，本文提出利用圖像融合技術(shù)對這些具有互補性的DIP輸出圖像進行融合并將融合后圖像作為最終的降噪圖像。最為簡單而常用的圖像融合框架就是加權(quán)融合，即通過為不同的樣本圖像設(shè)置不同的加權(quán)系數(shù)值實現(xiàn)。目前這種設(shè)置權(quán)值的方法主要根據(jù)各個像素點在視覺上的重要性設(shè)置，其值在很多時候靠人工經(jīng)驗設(shè)置[17]。為了獲得一種通用性好且易用的權(quán)值生成方法，本文提出利用深度卷積網(wǎng)絡(luò)(Deep Convolutional Neural Network, DCNN)作為非線性映射函數(shù)，直接接受需要參與融合的樣本圖像，通過設(shè)置合理的Loss函數(shù)，在最小化Loss值的訓(xùn)練過程中，通過網(wǎng)絡(luò)參數(shù)的調(diào)整使得DCNN網(wǎng)絡(luò)將輸入的多張樣本圖像映射為單張融合圖像(具有最高的圖像質(zhì)量，作為最終的降噪后圖像)。整個過程實質(zhì)上是一種無監(jiān)督、無人工干預(yù)的權(quán)重設(shè)置方法，各個像素點具體權(quán)重值設(shè)置大小均隱式蘊藏在DCNN網(wǎng)絡(luò)海量的網(wǎng)絡(luò)參數(shù)中。

3.2 執(zhí)行流程

根據(jù)上述改進策略，在具體實現(xiàn)中IDIP降噪模型由兩個串行執(zhí)行的模塊組成，分別對應(yīng)兩次圖像質(zhì)量提升過程，執(zhí)行流程的框架如圖1所示。(1)第1階段為樣本生成階段，其目標是在原DIP框架下基于雙目標圖像生成足夠多的輸出(樣本)圖像。具體地，首先選用兩種分別來自內(nèi)部和外部先驗的主流降噪方法處理給定的噪聲圖像獲得兩張預(yù)降噪圖像，記為Iint和Iext。為了能夠生成圖像質(zhì)量更高且更具多樣性的樣本圖像，所提出的IDIP降噪模型使用空間隨機混合器(spatially random mixer)將它們混合成1張圖像后作為第2目標圖像。然后再使用不同的隨機輸入和目標圖像(其中第1目標圖像(即噪聲圖像)保持不變，而第2目標圖像由于是隨機混合生成的，均不同)的約束條件下多次執(zhí)行標準DIP在線訓(xùn)練降噪流程，以生成足夠多的m張樣本圖像x?i。(2)第2階段為樣本融合階段。其目標是將上一階段生成的具有互補性的m張樣本圖像進行有效融合，將融合后具有更高圖像質(zhì)量的融合圖像作為最終的降噪圖像。具體地，為了讓所獲得的樣本圖像更具隨機性和穩(wěn)定性，首先按照50%的比例，隨機丟棄生成的樣本圖像，最終獲得n=m/2張樣本圖像{si|i=1, 2, ···,n}參與融合。然后，對參與融合的樣本圖像進行拼接(concatenation)操作，送入UNet骨干網(wǎng)絡(luò)[18]中完成多尺度融合，網(wǎng)絡(luò)的輸出圖像即為融合后圖像(作為最終的降噪圖像)。UNet網(wǎng)絡(luò)為一種流行的Encoder-Decoder結(jié)構(gòu)，它可以有效地捕獲多尺度特征并產(chǎn)生具有豐富細節(jié)的結(jié)果。為了獲得與給定噪聲圖像內(nèi)容自適應(yīng)的降噪結(jié)果，UNet骨干網(wǎng)絡(luò)的訓(xùn)練模式被設(shè)置成無監(jiān)督模式，以Loss函數(shù)(通過設(shè)計讓融合圖像最大限度保留樣本圖像共性的細節(jié)內(nèi)容)值最小化為導(dǎo)向，通過網(wǎng)絡(luò)訓(xùn)練調(diào)整UNet網(wǎng)絡(luò)參數(shù)，使得最終融合圖像能最大限度地利用樣本圖像互補性，從而確保融合后的圖像(作為最終的降噪后圖像)的圖像質(zhì)量能比融合前的各樣本圖像進一步得到提高。

圖1 IDIP降噪模型的執(zhí)行流程

3.3 樣本生成階段

首先利用分屬內(nèi)外圖像先驗的降噪方法(即BM3D和FFDNet)生成2張預(yù)處理圖像。然后，利用空間隨機混合器將2張預(yù)處理圖像混合，混合后的圖像作為目標圖像ti。該空間隨機混合器從兩個初始降噪圖像Iint和Iext中分別提取一部分像素，并將它們組合成一個整體圖像作為第2目標圖像。理論上來講，可任意選擇混合比例，但4.2節(jié)的消融實驗表明在兩個初始降噪圖像中分別提取50%的像素點構(gòu)成第2目標圖像時的降噪效果最佳。故每次生成第2目標圖像時，隨機生成一個掩碼來確定混合圖像從Iint圖像中提取像素點的空間位置(占比50%)。同時，通過反轉(zhuǎn)掩碼來確定混合圖像從Iext圖像提取像素點的空間位置(占比50%)。需要說明的是：本文選用BM3D和FFDNet兩個降噪算法生成預(yù)處理圖像，這是因為之前的工作已經(jīng)通過大量實驗發(fā)現(xiàn)兩者所生成的預(yù)處理圖像之間具有很好的互補性[18]，能保證目標圖像ti中更有更高的圖像質(zhì)量。本文提出多次從BM3D和FFDNet圖像中各自隨機抽取50%像素點構(gòu)建目標圖像，在保證獲得內(nèi)外先驗信息的同時，獲得多個不同的目標圖像，從而可以利用DIP生成多個不同且互補的樣本圖像，從而為融合階段打下基礎(chǔ)，更詳細的實驗分析可以參見4.2節(jié)消融實驗。

如圖2所示，為了更為充分地利用DIP模型的不確定性，本文按照原DIP降噪的流程，但使用不同的隨機輸入zi、不同目標圖像生成足夠多的樣本圖像。由于含有2個目標圖像(ti和y)，所以IDIP降噪模型使用的Loss函數(shù)定義為

圖2 雙目標圖像的樣本圖像生成框架

其中，Loss函數(shù)Lmix用于度量DIP網(wǎng)絡(luò)輸出圖像與第2目標圖像(混合圖像ti)之間的MSE距離

Loss函數(shù)Lnoisy定義為度量DIP網(wǎng)絡(luò)輸出圖像和第1目標圖像(噪聲圖像y)之間的MSE距離

其中，Lnoisy其實就是原DIP降噪模型所采用的Loss函數(shù)，新增的Lmix項具有正則項的作用，能確保DIP的迭代過程在圖像空間中收斂到更為合理的位置。這樣，通過多次運行標準的DIP降噪方法即可以獲得m張樣本圖像。

所提出的樣本圖像生成方法的優(yōu)點是：不僅利用了內(nèi)部和外部圖像先驗信息，還利用了給定噪聲圖像中未被破壞的信息，并且不需要對DIP骨干網(wǎng)絡(luò)進行任何修改。其中，內(nèi)部圖像先驗知識涵蓋了BM3D算法所利用的圖像自相似性和稀疏性以及DIP 模型自身所利用的圖像低級統(tǒng)計特性，而外部圖像先驗知識則由在大量訓(xùn)練圖像集合上所獲得的FFDNet模型提供。經(jīng)過雙目標圖像改進后，IDIP模型所輸出的圖像(樣本圖像)的圖像質(zhì)量已經(jīng)顯著超過原DIP降噪模型(采用單目標圖像)。需要說明的是：本文并未在使用3個或更多初步降噪圖像構(gòu)成的混合圖像上觀察到更高的降噪效果，因此僅選用內(nèi)外兩種圖像先驗算法生成混合圖像作為第2目標圖像。更多的實驗結(jié)果列在4.2節(jié)的消融實驗中。

3.4 樣本融合階段

如圖3所示，給定一組圖像樣本{sk|k=1, 2,·, n,n=m/2}(關(guān)于n值的設(shè)置，可參見4.2節(jié)消融實驗)，使用拼接(concatenation)操作聯(lián)結(jié)這些樣本圖像后直接作為UNet網(wǎng)絡(luò)的多通道輸入，整個UNet骨干網(wǎng)絡(luò)主要由收縮路徑和擴展路徑組成，其中編碼器通過連續(xù)下采樣操作提取圖像潛在(latent)特征，而解碼器從提取的特征中重建圖像(1個通道，相當于完成圖像融合操作)作為降噪后圖像。網(wǎng)絡(luò)采用無監(jiān)督方式訓(xùn)練，融合后的圖像xF分別與n個樣本圖像的MSE值累積和構(gòu)成Loss函數(shù)

圖3 無監(jiān)督樣本圖像融合框架

在式(6)中，若要使得Loss函數(shù)值最小，圖像xF中某一處像素點位置的亮度值必須與多張樣本圖像同一位置差別最小。這些類似于NLM算法[18]的工作原理，從而確保了融合圖像的圖像質(zhì)量。由于所提出深度圖像融合網(wǎng)絡(luò)工作在無監(jiān)督模式，所以它具有以下優(yōu)點：(1)無需人工干預(yù)。整個過程無需人工設(shè)置任何參數(shù)，克服了人工設(shè)置權(quán)重值所帶來的不確定性。(2)擴展性好。深度融合網(wǎng)絡(luò)采用的是多通道輸入模式，可以接受任意多個的樣本圖像，能完美配合樣本生成階段的工作，并通過融合策略再次提升降噪性能。

4 實驗結(jié)果及其分析

4.1 測試環(huán)境配置

為了全面評價IDIP降噪模型的降噪性能，將其與BM3D[16], NCSR[19], WNNM[20], DnCNN[9],FFDNet[5], VDNet[21], CsNet[22], DIP[13], N2V[11],Ne2Ne[12]和Restormer[8]共11個降噪方法在Set12[5],BSD68[22]和SIDD攝像頭圖像[23]數(shù)據(jù)集合上進行了測試。其中Set12與BSD68分別由12, 68張灰度圖像構(gòu)成，SIDD數(shù)據(jù)集是通過相機拍攝得到的高分辨率彩色圖像集。所有對比方法都在相同硬件平臺(Intel(R) Xeon(R) CPU E5-1 603 v4 @ 2.80GHz RAM 16GB, GPU為NAVIDA RTX 3 090 )和軟件環(huán)境(Window10操作系統(tǒng))上運行。

4.2 消融實驗

為了對比不同圖像作為目標圖像對生成樣本圖像的圖像質(zhì)量影響，本文在Set12基準數(shù)據(jù)集上進行了消融實驗。表1給出了分別以噪聲圖像(N)、BM3D預(yù)處理圖像(B)、FFDNet預(yù)處理圖像(F)、混合圖像ti作為單目標圖像、噪聲圖像聯(lián)合單一與處理圖像(N+B與N+F)，以及以噪聲圖像聯(lián)合混合圖像(N+ti)作為雙目標圖像，在各自情況下所生成樣本圖像的PSNR均值。表1中數(shù)值為數(shù)據(jù)集中各圖像在不同目標圖像條件下所獲得降噪后圖像的PSNR均值。由表1可以發(fā)現(xiàn)：以BM3D或者FFDNet為目標圖像，相比于以噪聲圖像為目標圖像的原DIP模型，PSNR值都有提升，表明使用具有較高圖像質(zhì)量的初始降噪圖像作為目標圖像能提升降噪效果。而選擇從FFDNet和BM3D兩個初始降噪圖像中分別提取50%的像素組合的混合圖像ti(0.5,0.5)作為目標圖像，相比于單獨以BM3D或者FFDNet為目標圖像，PSNR值又有較大幅度的提升(達到了0.6 dB)，這表明BM3D和FFDNet預(yù)處理圖像之間具有一定的互補性。此外，以噪聲圖像和單一預(yù)處理圖像一起作為目標，生成的樣本圖像同樣比單獨BM3D或者FFDNet為目標圖像的PSNR值有明顯增加，從而使得生成的樣本圖像質(zhì)量得到進一步提升，這說明引入噪聲圖像作為目標圖像是有益處的。這是因為混合圖像是由預(yù)處理圖像混合后生成的，預(yù)處理圖像某些像素點難免在降噪過程中被過度光滑而失真。與此相補充的是噪聲圖像中這些像素點則可能未受噪聲干擾，相對而言與無失真圖像更為接近，噪聲圖像中仍然含有大量對圖像降噪有用的信息。最后，為了分析BM3D和FFDNet初始降噪圖像參與混合的比例對降噪性能影響，選擇了(0.25,0.75), (0.75,0.25)和(0.5,0.5)3種組合情況進行比較，結(jié)果表明在樣本生成階段，IDIP模型選擇將混合圖像和噪聲圖像共同構(gòu)成雙目標圖像生成樣本圖像，且在混合圖像中BM3D和FFDNet初始降噪圖像各占比50%時具有最佳降噪效果。

在IDIP模型中，使用多少張樣本圖像是樣本融合階段的一個重要的超參數(shù)。為此本文在Set12基準數(shù)據(jù)集合上完成了對2～8張樣本圖像(實際生成4～16張樣本圖像)進行融合的消融實驗，實驗結(jié)果如表2所示。由表2可知：選擇5張樣本圖像時的PSNR均值最高，而選擇4張和6張時，PSNR值僅比前者低0.02 dB?？紤]到選擇4張樣本圖像與選擇5張樣本圖像進行融合的PSNR值相差較小，而效率卻提升了許多。需要說明是，隨著參與融合的樣本圖像逐漸增多，融合效果存在過擬合的趨勢。因此，在樣本融合階段，IDIP模型最終選擇4張樣本圖像參與融合。

表2 使用不同樣本數(shù)量參與融合所獲得降噪后圖像的PSNR均值比較(dB)

4.3 合成噪聲圖像降噪

為了全面地驗證IDIP降噪模型的降噪效果，在Set12和BSD68圖像中分別人工添加了噪聲水平值從10到60、間隔為10的高斯噪聲。表3列出了各個對比方法在兩個數(shù)據(jù)集和各個噪聲水平值上所獲得的PSNR平均值，其中排名第一的數(shù)據(jù)加粗且加下劃線表示，排名第二的數(shù)據(jù)僅加粗表示。由表3可知：IDIP方法在兩個數(shù)據(jù)集的所有噪聲級別上綜合排名均為前二。其性能顯著超過了基于內(nèi)部圖像先驗構(gòu)建的降噪算法(包括BM3D, WNNM,DIP和N2V)和基于外部先驗構(gòu)建的降噪模型(包括DnCNN, FFDNet和VDNet降噪模型)，這充分說明本文所提出性能提升策略是有效的。即使與新近提出的有監(jiān)督Restormer降噪模型相比，IDIP方法也有很強的競爭力。兩者在Set12數(shù)據(jù)集上差距并不大，而在紋理細節(jié)更為復(fù)雜的BSD68數(shù)據(jù)集上IDIP方法有少許優(yōu)勢，這表明IDIP模型處理復(fù)雜圖像更具優(yōu)勢，它能利用外部圖像先驗方法先對圖像中占比例較大的常見圖像內(nèi)容進行處理，然后再利用DIP善于處理圖像中特定復(fù)雜的紋理細節(jié)優(yōu)勢處理占比例較少的圖像特有內(nèi)容，這樣總體上獲得更高而魯棒的處理效果。

表3 各對比方法在Set12和BSD68數(shù)據(jù)集上的平均降噪性能比較(dB)

4.4 真實噪聲圖像降噪

在現(xiàn)實生活中，噪聲圖像中的噪聲分布往往并不符合常規(guī)的高斯噪聲分布假設(shè)。因此，現(xiàn)有降噪方法在應(yīng)用于實際真實圖像的降噪時，往往并不能獲得理想的降噪效果。為了驗證IDIP方法對真實降噪圖像的處理效果，在SIDD攝像頭數(shù)據(jù)集上隨機挑選出10張不同場景(正常光照條件下)的圖像用于對比實驗。統(tǒng)計各降噪方法在這些圖像上所獲PSNR的平均值后發(fā)現(xiàn)：IDIP模型相較用于生成先驗圖像的FFDNet和CBM3D方法平均分別高出6.09 dB和5.51 dB，較DIP降噪模型也提升了1.04 dB，但低于Restormer 4.5 dB。在降噪效果視覺方面，從圖4所示的一張場景上可以觀察到：IDIP的降噪結(jié)果相比FFDNet和DIP具有顯著優(yōu)勢，并與Restormer在視覺上獲得相當?shù)男Ч?。需要說明的是：雖然Restormer在客觀評價指標上最優(yōu)，但它所用降噪模型是在SIDD正常光照圖像上專門訓(xùn)練的，存在著有監(jiān)督降噪模型典型的數(shù)據(jù)依賴缺陷，在低照度圖像和醫(yī)學(xué)圖像數(shù)據(jù)集上表現(xiàn)不佳(限于篇幅，這里未提供具體實驗數(shù)據(jù))。而IDIP方法則具有更好的魯棒性，更適用于各種真實場景圖像的降噪。

圖4 各對比方法在SIDD數(shù)據(jù)集上的降噪視覺效果對比

5 結(jié)束語

在原DIP無監(jiān)督降噪模型的基礎(chǔ)上，本文通過雙目標圖像樣本生成和無監(jiān)督樣本融合兩個連續(xù)執(zhí)行的性能提升模塊獲得了一種新的被稱為IDIP的降噪方法。從宏觀的角度來看，IDIP降噪模型相當于先用經(jīng)典的內(nèi)外先驗降噪算法(模型)將噪聲圖像中通用性的內(nèi)容進行大體的處理，然后利用DIP善于處理特定圖像局部細節(jié)內(nèi)容的優(yōu)勢，對降噪后圖像若干局部細節(jié)再進行精細微調(diào)處理。對于人工合成噪聲圖像而言，改進后的IDIP降噪模型的降噪效果總體逼近當前新近基于Transformer提出的有監(jiān)督降噪模型，充分展示出內(nèi)外圖像先驗信息的合理利用以及圖像融合這兩項性能提升策略是有效的。而對于實際的真實噪聲圖像，則在降噪效果的魯棒性上擁有顯著優(yōu)勢?？傊?，IDIP降噪模型不但顯著地提升了降噪性能，還保留了原DIP降噪方法處理降噪圖像的靈活性，使得它在缺乏訓(xùn)練數(shù)據(jù)集合的應(yīng)用場景中具有廣泛的應(yīng)用前景。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡