方 明 劉小晗 付飛蚺
①(長春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 長春 130022)
②(長春理工大學(xué)人工智能學(xué)院 長春 130022)
近年來,各國均在積極發(fā)展海洋戰(zhàn)略,海洋信息的獲取、傳輸和處理等關(guān)鍵技術(shù)對(duì)合理開發(fā)和利用海洋資源至關(guān)重要。水下圖像是海洋信息的重要載體,然而水下圖像受復(fù)雜的水下環(huán)境和光照條件影響,具有對(duì)比度低、紋理模糊、顏色失真、非均勻光照和可視范圍有限等問題(真實(shí)水下圖像如圖1所示)。對(duì)圖像進(jìn)行清晰化處理,提高圖像的質(zhì)量,有利于獲取更多信息,進(jìn)一步進(jìn)行水下目標(biāo)跟蹤和檢測等任務(wù)。
圖1 水下圖像
目前在水下圖像增強(qiáng)方面已經(jīng)提出了很多傳統(tǒng)的方法,如直方圖均衡化[1]、顏色校正和對(duì)比度增強(qiáng)、基于融合的方法[2]等。由于水下圖像接近陸地的霧圖,因此基于去霧暗通道先驗(yàn)的方法[3]提出了一些適用于水下的去霧和增強(qiáng)算法[4-7]。常用的水下物理模型是由大氣散射模型發(fā)展過來的,考慮了不同波長的光在水下的衰減程度不同。后期,Akkaynak等人[8]研究發(fā)現(xiàn),目前的水下成像模型忽略了一些關(guān)鍵的組成部分,因而提出了修正的水下模型。然而,完善后的模型由于需要考慮各類參數(shù)的復(fù)雜性而限制了其廣泛應(yīng)用[9]。
由于深度神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)復(fù)雜非線性系統(tǒng)的端到端建模[10],可用其擬合退化的水下圖像到清晰水下圖像之間的復(fù)雜映射關(guān)系,替代傳統(tǒng)方法的復(fù)雜物理參數(shù)估計(jì)。因此,陸續(xù)有研究者提出深度學(xué)習(xí)方法在水下圖像增強(qiáng)任務(wù)中的新方法。Hashisho等人[11]使用ClycleGAN生成成對(duì)的水下數(shù)據(jù)集,并使用UNet進(jìn)行訓(xùn)練。但是使用ClycleGAN訓(xùn)練時(shí)間較長,針對(duì)水體影響導(dǎo)致模糊較嚴(yán)重區(qū)域,顏色恢復(fù)效果不理想。Li等人[12]提出了基于融合的卷積神經(jīng)網(wǎng)絡(luò),制作的UIEBD數(shù)據(jù)集的圖像分別經(jīng)過白平衡、直方圖均衡化、伽馬校正后輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行特征融合。該方法能夠很好地恢復(fù)出水下物體的顏色和細(xì)節(jié),但是需要先對(duì)退化的水下圖像進(jìn)行處理,對(duì)于水體影響較大區(qū)域顏色恢復(fù)效果依然不理想。Fabbri等人[13]使用生成對(duì)抗網(wǎng)絡(luò)的方法,但是處理后的圖像邊緣相對(duì)于原圖比較模糊。Islam等人[14]同樣基于生成對(duì)抗網(wǎng)絡(luò),提出了提升視覺感知的快速水下圖像增強(qiáng),達(dá)到了實(shí)時(shí)的效果。Zhang等人[15]在生成對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了改進(jìn),引入梯度差損失來銳化圖像避免圖像模糊,該方法提升了圖像的清晰度及細(xì)節(jié)特征,但是恢復(fù)的水下圖像有些顏色失真。Park等人[16]提出了自適應(yīng)加權(quán)的多鑒別器CycleGAN網(wǎng)絡(luò),在CycleGAN的基礎(chǔ)上增加了內(nèi)容鑒別器,保留輸入圖像的內(nèi)容,并使用自適應(yīng)加權(quán)方法限制兩種鑒別器的損失,輸出結(jié)果能夠很好地恢復(fù)圖像的顏色信息,但是在細(xì)節(jié)恢復(fù)上還可以進(jìn)一步提升。
一般來說,基于深度學(xué)習(xí)的水下圖像增強(qiáng)的重點(diǎn)在于數(shù)據(jù)集的獲取,以及設(shè)計(jì)有效恢復(fù)水下圖像細(xì)節(jié)和顏色的網(wǎng)絡(luò)結(jié)構(gòu)。針對(duì)這兩個(gè)問題,本文提出了更接近真實(shí)水下場景的數(shù)據(jù)集合成方法,并提出了一個(gè)端到端的基于注意力的多尺度水下圖像增強(qiáng)網(wǎng)絡(luò)。對(duì)合成水下數(shù)據(jù)集和真實(shí)水下數(shù)據(jù)的主觀與客觀評(píng)價(jià)指標(biāo)分析表明,本文提出的方法相比于其他水下圖像增強(qiáng)方法,顏色和細(xì)節(jié)恢復(fù)得更好。本文的主要貢獻(xiàn):
(1)使用水下成像模型以及水體參數(shù)合成了一組新的數(shù)據(jù)集,該數(shù)據(jù)集同時(shí)考慮了水深和場景到相機(jī)的距離,在參數(shù)上更具有隨機(jī)性,生成的水下圖像具有多樣性,更接近水下的復(fù)雜環(huán)境;
(2)在網(wǎng)絡(luò)中引入像素和通道注意力機(jī)制,使網(wǎng)絡(luò)更加關(guān)注水體影響較大區(qū)域的像素和更重要的通道信息;
(3)設(shè)計(jì)了一個(gè)多尺度特征提取模塊,該模塊使用不同采樣率的平滑空洞卷積得到不同尺度的特征,再將這些特征通過注意力機(jī)制進(jìn)行加權(quán),以達(dá)到對(duì)不同尺度的特征采取不同的關(guān)注度的目的。
目前有監(jiān)督的網(wǎng)絡(luò)在廣泛的視覺任務(wù)中取得了顯著的效果。然而,水下圖像增強(qiáng)任務(wù)不同于一些高級(jí)視覺任務(wù)有公開的大型數(shù)據(jù)集。現(xiàn)有相關(guān)文獻(xiàn)所使用的水下數(shù)據(jù)集大致分為3類:(1)使用NYU-v2 RGBD中的室內(nèi)場景圖及深度圖按照水下成像模型進(jìn)行合成[17-19];(2)使用CycleGAN[11,20]的無監(jiān)督方式用清晰圖像生成符合水下風(fēng)格的圖像,從中挑選出效果好的圖像對(duì)作為數(shù)據(jù)集,這種方法訓(xùn)練時(shí)間較長,需要人工去挑選效果好的圖像,耗時(shí)耗力,并且很難控制模擬出各類水體特征;(3)UIEBD數(shù)據(jù)集[12],由真實(shí)水下場景圖像,通過12種現(xiàn)有方法進(jìn)行處理,從中挑選出效果最好的圖片作為對(duì)應(yīng)的參考圖。但是該數(shù)據(jù)集僅有890對(duì)圖像,對(duì)于深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練數(shù)量不足,很難訓(xùn)練出泛化能力強(qiáng)的網(wǎng)絡(luò)。
因此,本文基于NYU-v2 RGBD數(shù)據(jù)集,利用水下成像模型重新合成水下數(shù)據(jù)集用于網(wǎng)絡(luò)訓(xùn)練。相比于其他使用該數(shù)據(jù)集合成的方法,本文的數(shù)據(jù)集同時(shí)考慮了水深和場景到相機(jī)距離對(duì)圖片的影響,更接近水下真實(shí)場景,同時(shí)采用隨機(jī)性更高的水體參數(shù),特征的覆蓋能力更好,水下場景更具有多樣性與復(fù)雜性。
由于水下場景與陸地霧天場景接近,為了描述水下物體的成像過程,常使用改進(jìn)的霧霾成像公式進(jìn)行修正,得到水下成像模型[21],如式(1)、式(2)所示
其中,x是水下場景的一點(diǎn),Iλ(x)是相機(jī)拍攝到的水下圖像,Jλ(x)是場景點(diǎn)的輻照度,Tλ(x)為中間能量比,表示從水下場景中的點(diǎn)x反射后到達(dá)相機(jī)的亮度百分比,d(x)為場景到相機(jī)的距離,Bλ是均勻的全局背景光,Nrer(λ)為歸一化剩余能量比,即每單位傳播距離的剩余能量與初始能量之比。
由于光在水下會(huì)發(fā)生衰減,因此光照通過深度為D(x)的水體到達(dá)場景x經(jīng)過衰減,如式(3)所示
由于不同水體的衰減系數(shù)不同,根據(jù)式(6)以及Zhou等人[23]提供的參數(shù)合成不同水體(1),(2),(3)中成像的水下圖像,其中參數(shù)如表1所示。
表1 不同水體中紅(R),綠(G),藍(lán)(B)通道中參數(shù)設(shè)置[23]
該組參數(shù)根據(jù)真實(shí)水下圖像對(duì)比選取了3組更接近真實(shí)情況的水體參數(shù),在參數(shù)中加入了隨機(jī)數(shù),使數(shù)據(jù)更具有多樣性。NYU-v2數(shù)據(jù)集提供了清晰圖片,以及場景深度d(x)。之后,考慮到第(3)種水體衰減較大,水深過深時(shí)圖像幾乎看不到物體,因此在前兩種隨機(jī)設(shè)置D(x)∈[0.5,10],第(3)種D(x)∈[0.1,2]。最終合成了一個(gè)包含不同水體類型的圖像數(shù)據(jù)集,共7245對(duì)圖像。部分水下圖像視覺效果如圖2所示,圖2(a)為原圖,圖2(b)-圖2(d)分別為水體類型(1),(2),(3)中的圖像。從主觀視覺效果上看本文生成的水下圖像很接近真實(shí)水下圖像,并且本文依據(jù)水下物理模型進(jìn)行合成,符合水下成像原理。因此在真實(shí)水下數(shù)據(jù)集難以獲得的情況下,使用該數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)訓(xùn)練是合理的。
圖2 本文合成的水下圖像
本文的目的是設(shè)計(jì)一個(gè)高效且魯棒的端到端網(wǎng)絡(luò),該網(wǎng)絡(luò)使用合成數(shù)據(jù)集進(jìn)行訓(xùn)練,同時(shí)對(duì)于不同水體中得到的偏色模糊的真實(shí)水下圖像也有著非常好的效果,在恢復(fù)圖像顏色的同時(shí)保留了圖像細(xì)節(jié),使圖像在整體視覺效果上更接近陸地拍攝的清晰圖像。
網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,由3部分組成:(1)基礎(chǔ)網(wǎng)絡(luò);(2)多尺度特征提取模塊;(3)注意力機(jī)制模塊。其中,整體網(wǎng)絡(luò)參數(shù)如表2所示?;A(chǔ)網(wǎng)絡(luò)由兩個(gè)CINR單元(卷積層+InstanceNorm層+ReLU層),2個(gè)下采樣和CINR單元,殘差塊組(本文采用3個(gè)殘差塊),2個(gè)反卷積和CINR單元,1個(gè)CINR單元組成。其中在下采樣和反卷積階段,將相同大小的特征層進(jìn)行連接。為了使網(wǎng)絡(luò)能夠?qū)Ω鞣N大小圖片均有很好的效果,擴(kuò)大特征提取的感受野,在基礎(chǔ)網(wǎng)絡(luò)的前面增加1個(gè)多尺度特征提取模塊(Multiscale Feature Extraction module, MFE),結(jié)構(gòu)如圖3(b)所示,該模塊使網(wǎng)絡(luò)能夠關(guān)注到不同尺度的特征,從而增強(qiáng)整體的顏色與結(jié)構(gòu)的恢復(fù)能力。最后引入了注意力機(jī)制模塊(Attention mechanism,Attn),如圖3(c)所示,該模塊使網(wǎng)絡(luò)能夠?qū)Σ煌ǖ捞卣?、不同像素特征進(jìn)行加權(quán),關(guān)注到更重要的區(qū)域,如由水體導(dǎo)致的模糊區(qū)域。訓(xùn)練網(wǎng)絡(luò)時(shí)使用平滑L1損失和感知損失,使輸出的圖像與真實(shí)圖像在顏色和內(nèi)容上保持一致。
表2 網(wǎng)絡(luò)參數(shù)表
2.2.1 注意力機(jī)制模塊(Attn)
為了更好地處理水下圖像的顏色以及水體對(duì)圖片區(qū)域的影響,本文同時(shí)使用通道注意力機(jī)制和像素注意力機(jī)制[24],結(jié)構(gòu)如圖3(c)所示。該模塊在處理不同類型的信息時(shí)提供了額外的靈活性,更加關(guān)注水下水體影響較大區(qū)域的像素和更重要通道信息。在通道注意力機(jī)制中,首先,利用全局平均池化將通道方向的全局空間信息轉(zhuǎn)化為通道描述符。之后,特征通過1個(gè)全連接層,1個(gè)ReLU激活函數(shù)、1個(gè)全連接層、再加1個(gè)Sigmoid激活進(jìn)行處理。
圖3 網(wǎng)絡(luò)結(jié)構(gòu)圖
2.2.2 多尺度特征提取模塊(MFE)
在本文的網(wǎng)絡(luò)中,為了獲取到不同層次的特征[25],設(shè)計(jì)了一個(gè)多尺度特征提取模塊(圖3(a)所示)。其中多尺度是指不同大小采樣率rate=1,2,4的空洞卷積提取不同尺度范圍的特征信息,由于空洞卷積不同的擴(kuò)張率,感受野不同,獲得的特征區(qū)域信息大小不同。在1維情況下,給定1-D輸入f,空洞卷積的輸出為
其中,r為擴(kuò)張率,k為感受野大小,當(dāng)r=1時(shí),擴(kuò)張的卷積對(duì)應(yīng)于標(biāo)準(zhǔn)卷積。當(dāng)r>1時(shí),擴(kuò)張卷積即在標(biāo)準(zhǔn)卷積的卷積核中每兩個(gè)相鄰權(quán)重之間插入r ?1個(gè)0,感受野的大小由k擴(kuò)張為(k ?1)×r+1,不同大小的感受野可以獲取到不同范圍的信息??紤]到原始的空洞卷積,當(dāng)采樣率大于1時(shí),輸出特征層中相鄰的特征值與輸入特征上是完全獨(dú)立的,會(huì)導(dǎo)致圖像出現(xiàn)偽影。本文采用文獻(xiàn)[26,27]提出的平滑空洞卷積,如圖4所示。下一層的4個(gè)不同的點(diǎn)通過不同的顏色來指示,可以看出,它們是由上一層完全不相關(guān)的點(diǎn)獲得的,這將可能導(dǎo)致網(wǎng)格偽影。它在擴(kuò)展卷積之前增加了一個(gè)額外的可分離共享卷積層,從而增加了輸入單元之間的依賴性。不同采樣率的平滑空洞卷積得到的特征通過2.2.1節(jié)的注意力機(jī)制模塊將不同尺度的特征進(jìn)行權(quán)重分配,再將特征連接到一起,經(jīng)過一層卷積,自適應(yīng)地提取不同尺度的特征,得到的特征再與輸入進(jìn)行相加,輸向下一階段。
圖4 平滑空洞卷積
2.2.3 損失函數(shù)
本文使用平滑的L1損失和感知損失[28]訓(xùn)練網(wǎng)絡(luò)。其中,L1損失用來在訓(xùn)練過程中約束生成圖像與參考圖的像素值一致,由于L1范數(shù)可以防止?jié)撛诘奶荻缺?,而平滑的L1損失對(duì)于離群點(diǎn)更加魯棒,相比于L2損失函數(shù),其對(duì)離群點(diǎn)、異常值的敏感度較低。平滑的L1損失(Ls1)可以表示為
其中
感知損失用來度量內(nèi)容的感知,利用從預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)來提取的多尺度特征,將參考圖像卷積得到的特征圖與生成圖像卷積得到的特征圖作比較,使得高層信息,也就是內(nèi)容和全局結(jié)構(gòu)接近。本文使用預(yù)先訓(xùn)練的VGG16[29]作為損失網(wǎng)絡(luò),從前3個(gè)階段的最后一層提取特征。感知損失(Lpe)表示為
按照前文所提出的方法進(jìn)行水下數(shù)據(jù)集生成。并隨機(jī)選取6882張圖片作為訓(xùn)練集。訓(xùn)練過程中,隨機(jī)截取256×256大小的區(qū)域作為輸入。Batch size為16,初始學(xué)習(xí)率設(shè)為0.01,一共150個(gè)epoch,每30個(gè)epoch,學(xué)習(xí)率乘以0.5。感知損失權(quán)重系數(shù)λ為0.04。
本研究實(shí)驗(yàn)GPU環(huán)境為:Intel(R) Core(TM)i9-7960X CPU @ 3.30 GHz,Ubuntu18.04,64位操作系統(tǒng),運(yùn)行內(nèi)存32 GB,NVIDIA Corporation GV100 [TITAN V],CUDA10.1,cuDNN 7.6.0,Python 3.6。CPU環(huán)境為:Intel(R) Xeon(R) CPU E3-1220 V2 @ 3.10 GHz,Windows10。
本文在合成數(shù)據(jù)集上使用常用的PSNR和SSIM[30]作為評(píng)價(jià)指標(biāo)。在真實(shí)數(shù)據(jù)集上,由于沒有真實(shí)值對(duì)比,因此選擇使用水下圖像質(zhì)量測量UIQM[31]作為評(píng)價(jià)指標(biāo)。UIQM由3個(gè)水下測量指標(biāo)組成:水下圖像色彩測量UICM,水下圖像清晰度測量UISM,水下圖像對(duì)比度測量UIconM。計(jì)算公式為
其中,根據(jù)文獻(xiàn)[31]設(shè)置c1=0.0282,c2=0.2953,c3=3.5753。
本文與其他方法的效果進(jìn)行了比較,對(duì)比的方法包括水下暗通道先驗(yàn)(UDCP[32]),基于圖像模糊和光吸收的水下圖像恢復(fù)(IBLA[33]),基于快速場景深度估計(jì)模型的水下圖像恢復(fù)(ULAP[34]),基于融合方法的水下圖像增強(qiáng)(DUIENet[12]),基于GAN網(wǎng)絡(luò)的快速水下圖像增強(qiáng)(FUnIE-GAN[14])。本文隨機(jī)選取了145張圖像作為測試集。實(shí)驗(yàn)結(jié)果如圖5所示,圖5(a)為合成的水下圖像,圖5(b)為原始清晰圖像,圖5(c)為UDCP方法處理效果,可以看出顏色對(duì)比度有些過度,圖5(d)、圖5(e)分別為IBLA和ULAP方法,這兩種方法針對(duì)該合成圖像效果不明顯,圖5(f)、圖5(g)分別為DUIENet和FUnIE-GAN方法,能夠恢復(fù)一些顏色和細(xì)節(jié),但是還有模糊感,圖5(h)為本文方法,結(jié)果最清晰也最接近真實(shí)圖像。另外對(duì)每種方法進(jìn)行PSNR和SSIM值計(jì)算,測試集上的均值如表3所示??梢钥闯觯瑹o論哪一個(gè)指標(biāo),本文方法數(shù)值結(jié)果都最優(yōu)。從主觀視覺效果和客觀數(shù)據(jù)結(jié)果來看,本文的方法是有效的。
表3 不同方法在合成數(shù)據(jù)集上的PSNR和SSIM值
圖5 不同方法在合成數(shù)據(jù)集上的處理效果
為了驗(yàn)證本文方法在真實(shí)水下圖像上的有效性,本文對(duì)78張真實(shí)水下圖像進(jìn)行了實(shí)驗(yàn)。圖6所示為部分圖像的效果圖對(duì)比,圖6(a)為真實(shí)水下圖像,圖6(b)-圖6(g)分別是UDCP, IBLA, ULAP,DUIENet, FUnIE-GAN以及本文方法的處理效果圖。本文的方法相比于其他方法整體色調(diào)更接近陸地清晰圖像,消除了水下圖像由于水體原因造成的偏色情況,效果對(duì)比度更高,色彩更加鮮艷。在第1幅圖中,幾乎完全去除了藍(lán)色的水體遮擋,恢復(fù)了水下物體的真實(shí)顏色,同時(shí)細(xì)節(jié)也更加清晰。第2幅圖中,本文方法恢復(fù)的圖像邊緣更清晰,對(duì)比度更高;第3幅圖中本文方法顏色對(duì)比度更接近陸地圖像;第4幅圖中,魚的視覺感官更加清晰,而且地面顏色恢復(fù)也更好。每張圖像的UIQM數(shù)值結(jié)果如表4所示,加粗為最優(yōu)值。
表4 圖6中圖片的不同方法的UIQM值
圖6 不同方法在真實(shí)數(shù)據(jù)集上的處理效果
本文對(duì)78張圖片均進(jìn)行了處理并計(jì)算了UIQM數(shù)值,其中UIQM的值為UICM, UISM, UIConM的加權(quán)和。對(duì)78張圖片取平均值,每種方法的數(shù)值結(jié)果如表5所示??梢钥闯霰疚姆椒ǖ玫搅俗顑?yōu)結(jié)果。圖7細(xì)節(jié)放大圖的比較,圖7(a)-圖7(c)分別為DUIENet, FUnIE-GAN和本文方法。本文方法細(xì)節(jié)表現(xiàn)更加清晰。
表5 不同方法在真實(shí)數(shù)據(jù)集上的UIQM值
圖7 細(xì)節(jié)放大圖
為了驗(yàn)證網(wǎng)絡(luò)的有效性,本文在145張測試集上進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證注意力機(jī)制模塊(Attn)、多尺度特征提取模塊(MFE)以及感知損失的有效性。結(jié)果如表6所示。存在注意力機(jī)制模塊、多尺度特征提取模塊和感知損失情況下取得了最高的評(píng)優(yōu)值。
表6 網(wǎng)絡(luò)結(jié)構(gòu)消融實(shí)驗(yàn)數(shù)值結(jié)果
本文對(duì)每種方法的運(yùn)行時(shí)間進(jìn)行了統(tǒng)計(jì),結(jié)果如表7所示。該結(jié)果為在CPU上處理1張大小為480×640的圖像所需要的時(shí)間??梢钥闯霰疚姆椒m然不是最快的,但是結(jié)果與處理效果較好的深度學(xué)習(xí)方法DUIENet相當(dāng)。
表7 不同方法運(yùn)行時(shí)間表(s)
本文設(shè)計(jì)了一個(gè)基于注意力的多尺度水下圖像增強(qiáng)網(wǎng)絡(luò),網(wǎng)絡(luò)中引入了注意力機(jī)制,包括通道注意力和像素注意力,讓網(wǎng)絡(luò)能夠更加關(guān)注到由于水體導(dǎo)致的模糊區(qū)域,從而更好地恢復(fù)水下圖像,同時(shí)設(shè)計(jì)了一個(gè)多尺度特征提取模塊,使網(wǎng)絡(luò)能夠更好地提取不同尺度的特征。使用水下圖像成像模型以及水體參數(shù)合成了更加真實(shí)的數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練好的網(wǎng)絡(luò)不僅在合成數(shù)據(jù)集上獲得了很好的效果,對(duì)于真實(shí)水下圖像也能夠很好地還原場景的顏色及細(xì)節(jié)。對(duì)比實(shí)驗(yàn)結(jié)果表明,本文方法要優(yōu)于現(xiàn)有的很多方法,對(duì)水體造成的偏色能夠有效地去除,增強(qiáng)后的圖像很好地還原了物體原有特征。但同時(shí),本文方法時(shí)間復(fù)雜度略高,很難滿足實(shí)時(shí)處理的要求,這也是需要進(jìn)一步改進(jìn)的方向。