袁國銘,楊光,王金峰,劉海軍,王薇
(1.防災(zāi)科技學(xué)院 應(yīng)急管理學(xué)院,河北 三河 065201;2.防災(zāi)科技學(xué)院 信息工程學(xué)院,河北 三河 065201)
水下成像被廣泛用于海洋資源勘探、水下環(huán)境監(jiān)測、海底目標(biāo)識別等領(lǐng)域,然而受光在水中傳播時散射和衰減效應(yīng)的影響,水下圖像往往呈現(xiàn)模糊、色彩失真、可視度低等退化現(xiàn)象。水下圖像增強(qiáng)作為水下圖像清晰化處理的重要方法被廣泛用于水下機(jī)器視覺任務(wù)中[1]。
常用的水下增強(qiáng)方法可分為物理模型增強(qiáng)法,非物理模型增強(qiáng)法和深度學(xué)習(xí)增強(qiáng)法[2-5]。物理模型的增強(qiáng)法利用已有的先驗(yàn)信息求解水下成像模型中的清晰圖像,具有高效簡潔的優(yōu)勢。例如Drews等人[6]提出了水下暗通道先驗(yàn),即在清晰水下圖像的局部鄰域內(nèi),總有像素在藍(lán)或綠通道中具有非常低的灰度值,甚至趨于零。Asadi等人[7]將顏色校正與暗通道先驗(yàn)相結(jié)合,進(jìn)一步提出了優(yōu)化的暗通道先驗(yàn)增強(qiáng)算法。雖然知識先驗(yàn)有助于物理模型估計(jì)清晰的水下圖像,但不能描述復(fù)雜的水下環(huán)境,泛化能力較差。
非物理模型的增強(qiáng)方法旨在修改水下圖像的像素值,以達(dá)到視覺滿意的增強(qiáng)效果。Li等人[8]提出了融合白平衡與直方圖拉伸的方法(Hybrid Framework for Underwater Image Enhancement,HUIE),來實(shí)現(xiàn)水下圖像的顏色補(bǔ)償。Song等人[9]提出的水下圖像增強(qiáng)方法(Enhancement Registration Homogenization,ERH),通過順序執(zhí)行增強(qiáng)、配準(zhǔn)和均勻化的方式來獲取高質(zhì)量的水下圖像。為進(jìn)一步增強(qiáng)細(xì)節(jié),Hu等人[10]提 出 了小波變換 增 強(qiáng) 算 法(Enhancement based on Wavelet Transform,EWT),該法將水下圖像分為高頻和低頻部分,對低頻部分實(shí)施直方圖均衡化操作以校正顏色,對高頻部分實(shí)施對數(shù)計(jì)算以增強(qiáng)細(xì)節(jié)。最后實(shí)施反小波變換,得到增強(qiáng)的水下圖像。然而,上述算法僅能針對某一種或幾種水域圖像進(jìn)行增強(qiáng),應(yīng)用范圍有限。
近年來,基于神經(jīng)網(wǎng)絡(luò)的水下圖像增強(qiáng)方法備受關(guān)注,它通過學(xué)習(xí)水下圖像與清晰圖像之間的映射關(guān)系實(shí)施增強(qiáng),具有較好的泛化能力。例如,Anwar等人[11]提出了水下增強(qiáng)神經(jīng)網(wǎng)絡(luò)(Underwater Enhancement CNN,UWCNN)方法,它利用10種Jerlov水類型的圖像分別訓(xùn)練UWCNN模型,能有效處理不同水域圖像的顏色差異。Wang等人[12]提出了水下生成對抗網(wǎng)絡(luò)(Underwater Generative Adversarial Network,UWGAN),利用生成對抗網(wǎng)絡(luò)復(fù)原真實(shí)的水下圖像,具有較好的魯棒性。Islam等人[13]提出全卷積條件生成對抗網(wǎng)絡(luò)(Full Convolutional Conditional GAN based Network,F(xiàn)GAN),并用多模態(tài)目標(biāo)函數(shù)來訓(xùn)練網(wǎng)絡(luò)模型,獲得逼近真實(shí)場景顏色的視覺效果。近年來,更多學(xué)者將傳統(tǒng)增強(qiáng)算法和數(shù)學(xué)理論融入神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中,取得了較好的圖像增強(qiáng)效果。如He等人[14],將常微分方程(Ordinary Differential Equation,ODE)的一階歐拉求解策略映射為殘差模塊,提出了ODE啟發(fā)的圖像增強(qiáng)模型,該模型因融入了歐拉算法的穩(wěn)定性和收斂性,具有好的網(wǎng)絡(luò)性能。Ma等人[15]將小波變換后的高頻和低頻信息作為增強(qiáng)網(wǎng)絡(luò)的輸入,并利用小波雙流網(wǎng)絡(luò)(Wavelet-based Dual-stream Network,WDN)的高低頻分支分別處理高低頻的信息,然而雙流分支的設(shè)計(jì)未考慮頻率域信息屬性,顏色及細(xì)節(jié)的增強(qiáng)效果有待提高。Sun等 人[16]提 出 了 多 級 小 波 卷 積 網(wǎng) 絡(luò)(Multi-level Wavelet CNN,MWN),它利用多級小波變換和反變換來實(shí)現(xiàn)水下圖像編碼和解碼,融入的邊緣增強(qiáng)信息,能有效實(shí)現(xiàn)細(xì)節(jié)增強(qiáng)。Zamir等人[17]將傳統(tǒng)方法中由粗到細(xì)的復(fù)原策略引入到圖像復(fù)原框架,從而將復(fù)原工作分解為更小,更容易的子任務(wù),以便高效實(shí)施圖像去雨、去噪和去模糊。上述算法或關(guān)注顏色校正,或關(guān)注邊緣增強(qiáng),或關(guān)注結(jié)果細(xì)化,不能同時實(shí)施顏色校正,細(xì)節(jié)增強(qiáng)及結(jié)果細(xì)化,獲得滿意的結(jié)果。
本文提出了由粗到細(xì)的多級小波變換水下圖像增強(qiáng)網(wǎng)絡(luò),它包含多級小波變換的圖像增強(qiáng)子網(wǎng)絡(luò)和二階龍格庫塔模塊的細(xì)化子網(wǎng)絡(luò),用以校正顏色,增強(qiáng)細(xì)節(jié)和細(xì)化結(jié)果。具體來說,首先,利用多級小波變換將水下圖像分解為低頻圖像和一系列高頻圖像。隨后,在多級小波變換的圖像增強(qiáng)子網(wǎng)絡(luò)中,設(shè)計(jì)融入實(shí)例歸一化和位置歸一化的低頻分支,以消除低頻圖像中不同水域類型帶來的顏色差異。同時,聯(lián)合低頻和高頻信息設(shè)計(jì)基于掩模增強(qiáng)的高頻分支,用以增強(qiáng)高頻圖像中的邊緣和細(xì)節(jié);實(shí)施反小波變換,獲得初步增強(qiáng)的水下圖像。設(shè)計(jì)ODE啟發(fā)的二階龍格庫塔模塊,并用此構(gòu)建細(xì)化網(wǎng)絡(luò),對初步增強(qiáng)的結(jié)果進(jìn)一步細(xì)化。實(shí)驗(yàn)表明,本算法較已有的水下圖像增強(qiáng)算法,具有更好的增強(qiáng)效果,PSNR值的提升幅度達(dá)9%。滿足水下視覺任務(wù)的顏色校正,細(xì)節(jié)增強(qiáng),清晰化要求。
本文提出了由粗到細(xì)的多級小波變換水下圖像增強(qiáng)網(wǎng)絡(luò),它包含由粗到細(xì)的兩個階段,分別為:多級小波變換的圖像增強(qiáng)子網(wǎng)絡(luò)和二階龍格庫塔模塊構(gòu)建的細(xì)化子網(wǎng)絡(luò)。網(wǎng)絡(luò)框架如圖1所示。
對于輸入的水下圖像I∈Rh×w×3,首先利用多級Haar小波變換將I分為多個頻率帶,以便根據(jù)不同頻率帶包含的信息,實(shí)施相應(yīng)的圖像增強(qiáng)操作。具體來說,Haar它包含低通濾波器L和高通濾波器H:
對I實(shí)施低通濾波LLT,得到低頻圖像IL∈Rh/2×w/2,對 圖 像I實(shí) 施LHT,HLT,HHT濾波,則得到垂直,水平,對角線方向的高頻圖像IH=[ILH,IHL,IHH],IH∈Rh/2×w/2。對 低 頻 圖 像重復(fù)實(shí)施小波變換,可實(shí)現(xiàn)二級,三級以至多級小波變換。假設(shè)n為小波變換的級數(shù),實(shí)施多級Haar小波變換后,得到低頻圖像InL,尺寸為h2n×w2n,高 頻 圖 像InH,In-1H,In-2H,尺 寸 為h2n-1×w2n-1,默認(rèn)n=3。
對于包含顏色信息的低頻圖像InL,旨在消除不同種水域類型產(chǎn)生的顏色差異,這里將顏色校正問題看作隱式的類型轉(zhuǎn)化問題,并設(shè)計(jì)基于實(shí)例歸一化和位置歸一化處理的低頻分支。對于包含細(xì)節(jié)的高頻圖像InH,In-1H,In-2H,旨在如實(shí)地增強(qiáng)細(xì)節(jié)。為減少計(jì)算成本,聯(lián)合第n級小波分解獲取的低頻和高頻信息計(jì)算掩模,并設(shè)計(jì)基于掩模增強(qiáng)的高頻分支。在對高低頻圖像實(shí)施處理后,利用逆小波變換,得到初步增強(qiáng)的結(jié)果。
2.1.1 低頻分支設(shè)計(jì)
本文將低頻圖像的顏色校正問題看作隱式的風(fēng)格轉(zhuǎn)換問題,并將風(fēng)格轉(zhuǎn)換中常用的實(shí)例歸一化(Instance Normalization,IN)和位置歸一化(Position Normalization,PN)用于低頻分支的設(shè)計(jì)中[18]。這里,IN具有空間域中內(nèi)容對比度的不變性,而PN能在通道空間中捕獲圖像的類型和形狀信息。將IN和PN引入低頻分支設(shè)計(jì)中,能在空間和通道域里自適應(yīng)地調(diào)節(jié)輸入特征的均值和方差,消除顏色差異。PN和IN均可由式(2)解釋:
式中:u和σ為特征的均值和標(biāo)準(zhǔn)方差。u'和σ'為從輸入特征中學(xué)習(xí)的仿射參數(shù)。
低頻分支的結(jié)構(gòu)如圖1所示,首先利用兩個卷積對第n級小波變換(n=3)的低頻圖像InL逐步實(shí)施通道擴(kuò)展,得到特征FL。隨后對FL實(shí)施PN操作,即提取所有通道數(shù)下的特征均值uc和方差σc:
圖1 由粗到細(xì)的多級小波變換水下增強(qiáng)網(wǎng)絡(luò)框架Fig.1 Architecture of coarse-to-fine network for underwater image enhancement based on multi-level wavelet transform
式中:b,c,h,w分別為特征FL的批大小,通道數(shù),高和寬。c'為通道索引。歸一化的FL輸入到文獻(xiàn)[18]中所提的5個ResIN模塊中,該模塊包括1個 卷 積 層,1個IN層,1個ReLU激 活 函 數(shù) 以 及殘差連接。其中,IN的特征均值uhw和方差σhw計(jì)算公式如式(5)和式(6):
式中:h'和w'為高和寬的索引,h,w為特征的高和 寬。FL,F(xiàn)L,b,c,h,w同 公 式(3)和(4)中 的 變 量。IN操作摒棄了提取的空間統(tǒng)計(jì)信息如uhw,σhw,而所學(xué)的仿射參數(shù)u'hw和σ'hw能有效消除不同水域類型導(dǎo)致的顏色差異;最后ResIN輸出的信息進(jìn)一步由PN所學(xué)的仿射參數(shù)u'c,σ'c調(diào)整(見圖1),并通過一個卷積將通道數(shù)減少至與InL相同的通道數(shù),得到InL'。
2.1.2 高頻分支設(shè)計(jì)
本文將高頻分支的細(xì)節(jié)增強(qiáng)處理,看作為低頻分支實(shí)施風(fēng)格轉(zhuǎn)換時的對應(yīng)操作。為了能如實(shí)地增強(qiáng)水下圖像,細(xì)節(jié)的增強(qiáng)需與低頻分支實(shí)現(xiàn)InL至InL'風(fēng)格轉(zhuǎn)換操作保持一致,因此本文擬利用InL,InL'信息來實(shí)現(xiàn)InH的增強(qiáng)。然而,具體如何實(shí)施InH的增強(qiáng)操作,仍是有待解決的問題。圖2顯示了初始的水下圖像(圖2(a))及增強(qiáng)的水下圖像(圖2(c))在分別實(shí)施一級小波變換后獲取的2張高頻圖2(b)及圖2(d)。他們在細(xì)節(jié)分布上基本一致,僅在亮度上存在差異,如圖2(d)中箭頭所示的細(xì)節(jié)點(diǎn),相比圖2(b)中對應(yīng)位置處的細(xì)節(jié)點(diǎn)亮度更亮。因此,本文擬聯(lián)合InL,InL'及InH生成細(xì)節(jié)增強(qiáng)掩模,并將掩模與高頻圖像InH相乘,以便自適應(yīng)地調(diào)節(jié)全局亮度信息。值得一提的是,掩模的生成,不但利用了低頻分支風(fēng)格轉(zhuǎn)換的顏色信息InL,InL'來調(diào)節(jié)全局亮度,確保細(xì)節(jié)增強(qiáng)與低頻分支實(shí)施風(fēng)格轉(zhuǎn)換操作保持一致,還利用了包含細(xì)節(jié)的高頻圖像InH信息,故增強(qiáng)操作能同時兼顧細(xì)節(jié)及亮度。細(xì)化高頻圖像的掩模Mn的計(jì)算表達(dá)式如式(7)所示:
圖2 初始圖像及增強(qiáng)圖像的比對Fig.2 Comparison between initial images and enhanced images
式中:↑為雙線性插值上采樣操作,它將尺寸為h2n×w2n的InL和InL'上采樣至h2n-1×w2n-1,以便與InH尺度匹配;[?]為串聯(lián)操作;f1為復(fù)合操作的函數(shù),該復(fù)合操作包含2個卷積層和5個去除IN操作 的Res模塊[18]。InH為高頻圖像。最后 的卷積層將輸出通道為3的掩模Mn。利用Mn細(xì)化InH,以得到細(xì)化高頻圖像InH',具體表達(dá)式如式(8)所示:
式中,?為點(diǎn)乘操作。
實(shí)際上各級小波變換獲得的高頻圖像包含相同的細(xì)節(jié)和紋理信息,僅在微小細(xì)節(jié)上存在差異。如圖3所示,初始水下圖像(圖3(a))的一、二、三級小波變換高頻圖像IHH(見圖3(b)~3(d)),僅在沙粒細(xì)節(jié)上存在差異,即隨著小波分解的級數(shù)越多,沙粒細(xì)節(jié)越少。為提高計(jì)算效率,本方法在第n級小波變換的高頻分支上計(jì)算掩膜Mn,并上 采 樣 及細(xì)化后,對n-2,n-1級小波變換的高頻圖像進(jìn)行全局的細(xì)節(jié)增強(qiáng)。
圖3 各級小波變換獲得的高頻圖像Fig.3 High frequency image obtained by wavelet transform at different levels
具體來說,可對Mn實(shí)施雙線性插值上采樣,得到細(xì)化In-1H,In-2H的掩膜Mn-1,Mn-2。表達(dá)式為:
式中:↑為雙線性插值上采樣,它們分別將n級小波變換時獲取的掩模Mn和n-1級小波變換時獲取的掩模Mn-1尺度上采樣至In-1H,In-2H的相同大??;f2和f3為復(fù)合操作的函數(shù),它們均包含2個3×3的卷積層,用于細(xì)化上采樣掩膜。依據(jù)公式(8),即 可 得到 細(xì) 化 的In-1H',In-2H'。對InL',InH',In-1H',In-2H'實(shí) 施 逆 小 波 變 換,獲 得 增 強(qiáng)圖像I'。
堆疊的殘差模塊被廣泛地用于圖像復(fù)原的細(xì)化中[14]。實(shí)際上,殘差模塊可看成是ODE前向歐拉求解策略的映射,堆疊的殘差模塊可視為離散的一階歐拉逼近ODE求解過程。為獲取更優(yōu)的增強(qiáng)結(jié)果,本文設(shè)計(jì)了基于二階龍格庫塔(Runge-Kutta)模塊的細(xì)化子網(wǎng)絡(luò)。具體來說,一階ODE問題可由一階微分方程及初始條件實(shí)施求解:
式中:f(t,y)為變量t,y的函數(shù),dydt為函數(shù)y對自變量t的一階導(dǎo)數(shù),y(t)∈Rd為自變量t的函數(shù)y,且t≥t0,y(t0)=v為初始條件。
依據(jù)一階的歐拉求解策略,dydt可表示為離 散 形 式(y(tn+1)-y(tn))(tn+1-tn),n=0,1,…,n,則公式(11)可用式(12)來表示:
式中,h=tn+1-tn。研究表明殘差模塊也有相似結(jié)構(gòu):
由此可見,若將式(12)中的y(tn+1)和y(tn)分 別 看 成yn+1和yn,而G(yn)=hf(tn,y(tn)),則殘差模塊即為一階歐拉方法的映射模塊,在細(xì)化網(wǎng)絡(luò)中堆疊的殘差模塊,則可視為離散的歐拉逼近求解過程。考慮到二階龍格庫塔方法相比于一階歐拉方法,具有更小的局部截?cái)嗾`差及穩(wěn)定性[19],能更精確地求解ODE,本文設(shè)計(jì)基于二階龍格庫塔的RK2模塊,并堆疊5個RK2模塊構(gòu)建細(xì)化網(wǎng)絡(luò),由此將二階龍格庫塔方法的優(yōu)越性引入到網(wǎng)絡(luò)性能中,獲得更佳的細(xì)化效果。
二階龍格庫塔模塊設(shè)計(jì)如下。
由數(shù)值ODE理論可知,二階龍格庫塔方法利用梯形公式來實(shí)施求解:
式 中:tn+1可 由tn+1=h+tn計(jì) 算 得 到;yˉn+1可 用它的一階逼近,即公式(13)的yn+1來替代。依據(jù)公式(13)中G(yn)=hf(tn,y(tn))的映射關(guān)系,可獲得表達(dá)式(15)~式(17),由此得到RK2模塊結(jié)構(gòu)圖如圖4所示。
圖4 RK2模塊結(jié)構(gòu)Fig.4 Architecture of RK2 block
在模型的訓(xùn)練過程中,我們通過最小化L2函數(shù)來減少圖1中I',J與真實(shí)結(jié)果G之間的差異。假設(shè)I'i,Ji和Gi,i=1,2,…,m為一組小波變換增強(qiáng)圖像,細(xì)化網(wǎng)絡(luò)增強(qiáng)圖像和真實(shí)水下圖像,則對應(yīng)的損失函數(shù)L可表示如式(18):
式中:α為平衡系數(shù),默認(rèn)取1。
為確保由粗到細(xì)的多級小波變換水下圖像增強(qiáng)網(wǎng)絡(luò)具有較好的泛化能力,本文擬選用文獻(xiàn)[11]提供的數(shù)據(jù)集來進(jìn)行訓(xùn)練和測試。該數(shù)據(jù)集依據(jù)水下成像物理模型對1 449張NYU-V2室內(nèi)圖像進(jìn)行水下成像合成,即每張圖像合成I,IA,IB,II,III,1,3,5,7,9共10種水域類型的圖像,共計(jì)合成圖像14 490張,其中13 041張圖像為訓(xùn)練集,1 449張圖像為測試集1(文中標(biāo)記為Test1)。另一方面,選用文獻(xiàn)[20]提供的890張真實(shí)水下圖像及其高質(zhì)量參考圖像為測試集2(文中標(biāo)記為Test2),這里高質(zhì)量參考圖像是由25位從事圖像處理領(lǐng)域的志愿者和25位從事其他領(lǐng)域的志愿者,共同從12種水下圖像增強(qiáng)算法的結(jié)果中逐一挑選出來。為客觀評價各算法增強(qiáng)結(jié)果的質(zhì)量,采用全參考的圖像質(zhì)量評價指標(biāo):信噪比/相似度PSNR/SSIM、局部批次對比度PCQI、邊緣強(qiáng)度EI,以及無參考圖像質(zhì)量評價指標(biāo):UIQM,UCIQE和信息熵Entropy。其中,PSNR/SSIM,PCQI及EI在合成及真實(shí)圖像測試集的真實(shí)(參考)圖像幫助下,測量增強(qiáng)圖像的質(zhì)量,對比度變化及邊緣強(qiáng)度,其值越高則增強(qiáng)算法的性能越好。另一方面,非參考的評估指標(biāo)UIQM是基于人眼系統(tǒng)激勵的無參考水下圖像評價指標(biāo),它利用色調(diào)、對比度和清晰度的加權(quán)組合來綜合評價水下圖像的質(zhì)量,避免了單一指標(biāo)評價的局限性,其值越高,水下圖像的質(zhì)量越好。與UIQM類似,UCIQE是用CIELab空間 的色度、飽和度、對比度的線性組合來評價彩色水下圖像的質(zhì)量,其值越高,圖像質(zhì)量越好。Entropy能反映圖像中信息量,值越大包含的信息越多[21]。
水下圖像增強(qiáng)網(wǎng)絡(luò)在NVIDIA RTX 2080 Ti GPU的PC機(jī) 上,通 過 搭 建Pytorch深 度 學(xué) 習(xí)框架實(shí)現(xiàn)。網(wǎng)絡(luò)框架中小波變換級數(shù)n=3,共包含12個 卷 積 層,5個ResIN模 塊,5個Res模 塊,2個 上 采樣操作及5個RK2模 塊,其中ResIN模塊參數(shù)設(shè)置為文獻(xiàn)[18]中ResIN模塊的默認(rèn)設(shè)置,因Res模塊為去除IN操作的ResIN模塊,故參數(shù)同[18]。上采樣采用雙線性插值法,模型中12個卷積層及RK2中涉及的卷積層共有兩種不同的參數(shù)設(shè)置:圖1(彩圖見期刊電子版)中藍(lán)色卷積層,核大小為1×1,步長為1,填充為0。其余綠色卷積層,核大小為3×3,步長為1,填充為1。各層/模塊輸出通道數(shù)標(biāo)于圖1各層/模塊下方。
優(yōu)化函數(shù)Adam算法的學(xué)習(xí)率為0.000 1,β1=0.9,β2=0.999。訓(xùn)練及測試時的輸入圖像大小均為512×512,批大小為4,訓(xùn)練200 epochs。
水下圖像增強(qiáng)網(wǎng)絡(luò)包含多級小波變換的圖像增強(qiáng)子網(wǎng)絡(luò)和二階龍格庫塔模塊構(gòu)建的細(xì)化子網(wǎng)絡(luò)。其中,多級小波變換圖像增強(qiáng)子網(wǎng)絡(luò)的低頻分支和高頻分支分別包含5個ResIN模塊和5個Res模塊,細(xì)化子網(wǎng)絡(luò)中則包含5個RK2模塊,模型在Test1上結(jié)果為24.51/0.886 7。為了驗(yàn)證構(gòu)建模塊數(shù)的有效性,本節(jié)首先分別測試不同組件包含的不同模塊數(shù)時網(wǎng)絡(luò)的性能,即高頻分支包含Res模塊數(shù)為3,4,6時,對應(yīng)變異模型Res_3,Res_4,Res_6的性能;低頻分支包含ResIN模塊數(shù)為3,4,6時,對應(yīng)變異模型ResIN_3,ResIN_4,ResIN_6的性能;細(xì)化子網(wǎng)絡(luò) 包 含RK2模 塊 數(shù) 為3,4,6時,應(yīng) 變 異 模 型RK2_3,RK2_4,RK2_6的 性 能。結(jié) 果 如 表1所示,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)不變,增加任一模塊(ResIN模塊,Res模塊或RK2模塊)數(shù)量時,網(wǎng)絡(luò)性能均有不同程度的提升,但當(dāng)ResIN模塊增至6時,性能微微下降,而增加Res和RK2至6時,其量化結(jié)果雖高于所提模型結(jié)果24.51/0.886 7,但差距微小。為平衡網(wǎng)絡(luò)參數(shù)和性能,所提模型設(shè)置的模塊數(shù)最優(yōu):ResIN模塊,Res模塊及RK2模塊的數(shù)量均為5。在此基礎(chǔ)上,討論多級小波變換的圖像增強(qiáng)子網(wǎng)絡(luò)及細(xì)化子網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的優(yōu)越性。
表1 測試集1上不同構(gòu)建模塊數(shù)的模型量化結(jié)果對比Tab.1 Comparison of quantitative results by variant models with different number of building modules on Test 1.
為驗(yàn)證多級小波變換的圖像增強(qiáng)子網(wǎng)絡(luò)有效性,本文分別測試了小波變換級數(shù)n=1,2,3,4,5,6的情況,相應(yīng)的變異模型在合成圖像測試集上的量化結(jié)果如表2所示,從中可見,隨著n增加,網(wǎng)絡(luò)性能逐步提高,當(dāng)n=3時,模型能獲得最高的PSNR和SSIM,此后隨著n增加,網(wǎng)絡(luò)性能略微下降,但仍具有較好的魯棒性,如n=4較n=3而 言,PSNR值 僅 從24.51下 降 到24.48,為平衡計(jì)算成本和精度,本文選擇n=3為小波分解級數(shù)。
為驗(yàn)證圖像增強(qiáng)子網(wǎng)絡(luò)的有效性,設(shè)計(jì)了兩個變異模型:Net-w/o-lb和Net-w/o-hb。Net-w/o-lb在保持所提網(wǎng)絡(luò)結(jié)構(gòu)不變的基礎(chǔ)上,將n級小波變換(n=3),低頻分支中的PN和ResIN移除,僅保留圖1低頻分支中兩個卷積操作,以驗(yàn)證低頻分支顏色校正的有效性。Net-w/o-hb則在原網(wǎng)絡(luò)模型的基礎(chǔ)上,移除掩模計(jì)算及相乘操作,直接將各級小波變換獲得的高頻圖像,輸入到兩個卷積層中,得到處理后的高頻信息,以驗(yàn)證高頻分支實(shí)施掩模增強(qiáng)的有效性。如表2所示,Net-w/o-lb和Net-w/o-hb在合成圖像測試集上的量化結(jié)果低于所提網(wǎng)絡(luò)模型(n=3)的結(jié)果,證明高頻分支及低頻分支能有效提升水下圖像增強(qiáng)的性能。
表2 測試集1上不同變異模型的量化結(jié)果對比Tab.2 Comparison of quantitative results by different variant models on Test1.
為驗(yàn)證ODE啟發(fā)的細(xì)化子網(wǎng)絡(luò)及其構(gòu)建模塊RK2的有效性,設(shè)計(jì)了Net-w/o-R和Net-Res變異模型。Net-w/o-R將原始網(wǎng)絡(luò)中的細(xì)化網(wǎng)絡(luò)移除,即將基于多級小波變換的水下圖像增強(qiáng)子網(wǎng)絡(luò)輸出結(jié)果I'作為最后的增強(qiáng)結(jié)果,以驗(yàn)證細(xì)化網(wǎng)絡(luò)的有效性。Net-Residual則將細(xì)化網(wǎng)絡(luò)中RK2模塊替換為殘差模塊,以驗(yàn)證RK2模塊的優(yōu)越性。兩個模型在合成圖像測試集上對應(yīng)的測試結(jié)果如表2所示,較所提網(wǎng)絡(luò)而言,變異模型的性能明顯下降,從而證明基于RK2模塊的細(xì)化網(wǎng)絡(luò)有效性和必要性。
為驗(yàn)證訓(xùn)練參數(shù)epoch設(shè)置的合理性,視覺化訓(xùn)練過程中l(wèi)oss函數(shù)值曲線及每個epoch時訓(xùn)練模型在Test1上的PSNR值。如圖5所示,隨著epoch數(shù)的增加,loss值不斷降低,且在約180 epochs時模型收斂。圖6同理,模型訓(xùn)練過程中測試集的PSNR值也在約180 epochs時趨于穩(wěn)定。因此,將模型訓(xùn)練次數(shù)設(shè)置為200 epochs能確保模型收斂,獲得最優(yōu)性能的網(wǎng)絡(luò)模型。
圖5 訓(xùn)練過程中l(wèi)oss函數(shù)值Fig.5 Loss curves during training.
圖6 訓(xùn)練過程中測試集的平均PSNR值Fig.6 Average PSNR of testing data during training.
為評測所提網(wǎng)絡(luò)模型的增強(qiáng)效果,本節(jié)將在合成水下圖像測試集Test1上,比較本文算法與8個已有的水下圖像增強(qiáng)算法的性能,包括傳統(tǒng)的HUIE算法[8],ERH算 法[9],EWT算法[10]以 及基 于CNN的UWCNN算 法[11],UWGAN算法[12],F(xiàn)GAN算 法[13],WDN算 法[15],MWN算法[16]。其中,UWCNN算法分別采用10種不同水類型的圖像訓(xùn)練,得到10個水下增強(qiáng)模型,本文選取水域類型為1的水下圖像訓(xùn)練模型進(jìn)行測試。表3為各算法的量化結(jié)果,從中可見本文算法具有最高的PSNR與SSIM值,表明本文算法的優(yōu)化結(jié)果最接近真實(shí)結(jié)果。此外,最高的UCIQE,UIQM和PCQI值,也說明本文算法能更好地平衡水下圖像的色調(diào)、對比度、清晰度及飽和度。在PCQI,Entropy和EI指標(biāo)上,本文算法的量化結(jié)果也高于比較算法,證明本文算法有效地增強(qiáng)場景細(xì)節(jié),而不是噪聲。
表3 不同算法在測試集1上的量化結(jié)果對比Tab.3 Quantitative comparison of enhanced results by different algorithms on Test1.
為進(jìn)一步對比視覺增強(qiáng)效果,從Test1中選取了3張水下圖像進(jìn)行展示,包括合成的渾濁水域圖像,低照明圖像,藍(lán)綠色水域圖像(見圖7(a))。各算法的視覺增強(qiáng)結(jié)果如圖8(a)~8(i)所示。結(jié)果表明,EWT算法能拉伸圖像的對比度,提高低照明圖像的亮度,并在一定程度上增強(qiáng)水下圖像的細(xì)節(jié),但對于藍(lán)綠色水域圖像,仍存在顏色失真和細(xì)節(jié)丟失的問題,如圖8(a)第3行。ERH算法雖有一定的顏色校正能力,但增強(qiáng)結(jié)果(見圖8(b))整體偏暗,細(xì)節(jié)丟失嚴(yán)重,與真實(shí)結(jié)果(見圖8(j))的差異較大。HUIE算法,UWCNN算 法,UWGAN算法和FUnIEGAN算 法 結(jié)果存在明顯的色偏現(xiàn)象,如圖8(c)第1行結(jié)果偏藍(lán),而圖8(d),8(e),8(h)結(jié)果偏黃,且增強(qiáng)結(jié)果出現(xiàn)一定程度的模糊。WDN及MWN方法能有效去除色偏,增強(qiáng)細(xì)節(jié),但對藍(lán)綠水水域圖像的增強(qiáng)效果較差,圖8(f)和8(g)的背景呈現(xiàn)出失真的暗紅色,且細(xì)節(jié)模糊。相比而言,本文算法的結(jié)果圖8(i)在亮度,清晰度及色差平衡力方面明顯優(yōu)于已有的增強(qiáng)算法,且紋理細(xì)節(jié)信息也更加突出,接近于圖8(j)的真實(shí)結(jié)果。圖8下方標(biāo)出的PSNR/SSIM值進(jìn)一步證明了本文算法的有效性(彩圖見期刊電子版)。
圖7 測試案例Fig.7 Testing samples
圖8 合成水下圖像增強(qiáng)結(jié)果對比Fig.8 Comparison of enhanced results on synthetic underwater images
為驗(yàn)證所提算法的泛化能力,在包含890張真實(shí)圖像的Test2測試集上進(jìn)行對比實(shí)驗(yàn)。由于Test2提供了真實(shí)水下圖像的參考圖,故可量化各算法的增強(qiáng)結(jié)果。圖9為不同算法對3幅真實(shí)水下圖像(圖7(b))增強(qiáng)的視覺對比圖,包含綠色水域圖像,藍(lán)色水域圖像及淺水域圖像,圖9(a)~圖9(h)為對比算法的增強(qiáng)結(jié)果,圖9(i)為本文算法結(jié)果,圖9(j)為增強(qiáng)參考圖像(彩圖見期刊電子版)。為了更好地觀察細(xì)節(jié),圖9的第2,4和6行分別為第1,3和5行的細(xì)節(jié)放大圖。從圖9可見,EWT因引入了多級小波變換的增強(qiáng)策略,具有較好的視覺增強(qiáng)效果,但在顏色校正上,出現(xiàn)了紅通道過度補(bǔ)償?shù)膯栴},如圖9(a)第1,2行的手和第5,6行巖石的顏色均偏紅。ERH,UWCNN,UWGAN,WDN和FUnIEGAN算法結(jié)果存在色調(diào)失真,如圖9(b),9(d),9(e),9(f),9(h)的第3,4行背景偏暗,與真實(shí)情況不符。HUIE算法結(jié)果出現(xiàn)了部分增強(qiáng)區(qū)域,色度不自然的問題,如圖9(c)第4行魚的色度過亮。MWN算法具有較好的增強(qiáng)效果,但對細(xì)節(jié)豐富的巖石,仍具有邊緣模糊現(xiàn)象,如圖9(g)第4行。本文算法的結(jié)果圖9(i)具有最好的清晰度和對比度,其細(xì)節(jié)甚至比圖9(j)的增強(qiáng)效果更佳,如圖9(h)第2行手部相較圖9(j)更接近真實(shí)顏色。圖9下方標(biāo)出的PSNR/SSIM值進(jìn)一步證明了本文算法的強(qiáng)泛化能力。
圖9 真實(shí)水下圖像增強(qiáng)結(jié)果對比Fig.9 Comparison of enhanced results on real underwater images
此外,各算法增強(qiáng)結(jié)果的量化指標(biāo)值如表4所示,本文算法在各指標(biāo)上仍具有最高值,其中PSNR值較已有算法提高了至少9%,可見客觀評價和主觀評價相符。為了更直接地展示不同算法在不同數(shù)據(jù)集上的性能,圖10分別為各算法在Test1和Test2上平均PSNR。從中可見,ERH,HUIE,UWGAN,F(xiàn)GAN算法在真實(shí)圖像集Test2上具有較合成圖像集Test1上更好的增強(qiáng)效果,而EWT,UWCNN,WDN,MWN及本文算法則在合成圖像集Test1上具有較真實(shí)圖像集Test2上更好的增強(qiáng)效果。這是由于,ERH,HUIE,UWGAN,F(xiàn)GAN算法面向真實(shí)水下圖像實(shí)施增強(qiáng),旨在獲取逼近真實(shí)場景的視覺效果,而本文算法及EWT,UWCNN,WDN,MWN算法利用不同水類型的合成圖像實(shí)施訓(xùn)練,訓(xùn)練集中未能包含真實(shí)場景中所有復(fù)雜的降質(zhì)情況,故出現(xiàn)性能下降。在后續(xù)的工作中,將考慮真實(shí)圖像的信息分布情況,提高穩(wěn)定性和泛化能力。
表4 不同算法在測試集2上的量化結(jié)果對比Tab.4 Quantitative comparison of enhanced results by different algorithms on Test2.
圖10 各算法在Test1和Test2上的PSNR值Fig.10 PSNR of different algorithms on Test1 and Test2.
為實(shí)現(xiàn)水下圖像的顏色校正和細(xì)節(jié)增強(qiáng),本文提出了由粗到細(xì)的多級小波變換水下圖像增強(qiáng)網(wǎng)絡(luò),它包含多階小波變換的圖像增強(qiáng)子網(wǎng)絡(luò)和二階龍格庫塔模塊構(gòu)建的細(xì)化子網(wǎng)絡(luò)。多階小波變換的圖像增強(qiáng)子網(wǎng)絡(luò)用于初步估計(jì)水下圖像增強(qiáng)的結(jié)果,它利用多級小波變換將水下圖像分解為低頻圖像和一系列高頻圖像,并設(shè)計(jì)相應(yīng)的低頻分支和高頻分支分別處理低高頻圖像。低頻分支利用類型轉(zhuǎn)換中常用的實(shí)例歸一化和位置歸一化操作實(shí)現(xiàn)低頻圖像的顏色校正。高頻分支聯(lián)合高低頻信息計(jì)算增強(qiáng)高頻圖像的掩模,來實(shí)施細(xì)節(jié)和紋理的增強(qiáng)。隨后,實(shí)施反小波變換得到第一階段估計(jì)的水下增強(qiáng)圖像。為進(jìn)一步細(xì)化增強(qiáng)結(jié)果,設(shè)計(jì)了ODE啟發(fā)的二階龍格庫塔模塊,它具有較殘差模塊更好的穩(wěn)定性和收斂性,用此構(gòu)建細(xì)化網(wǎng)絡(luò)具有更優(yōu)的細(xì)化結(jié)果。實(shí)驗(yàn)結(jié)果表明,在合成和真實(shí)水下圖像集上,本文算法具有較好的視覺和量化增強(qiáng)效果。然而,算法雖利用不同水類型的合成圖像實(shí)施訓(xùn)練,但訓(xùn)練集中仍未能包含真實(shí)場景中所有復(fù)雜的降質(zhì)情況,故算法在真實(shí)圖像數(shù)據(jù)集上的性能較合成圖像數(shù)據(jù)集上的性能低。在后續(xù)工作中,將在模型的設(shè)計(jì)和訓(xùn)練中更多地考慮真實(shí)圖像的信息分布情況,提高模型的穩(wěn)定性和泛化能力。