国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于條件對抗網(wǎng)絡(luò)的單幅霾圖像深度估計模型

2022-09-25 08:43張文濤王園宇李賽澤
計算機(jī)應(yīng)用 2022年9期
關(guān)鍵詞:梯度損失注意力

張文濤,王園宇,李賽澤

(太原理工大學(xué)信息與計算機(jī)學(xué)院,山西晉中 030600)

0 引言

近年來,深度估計一直是計算機(jī)視覺的熱點研究課題,作為場景感知的一部分,旨在從場景的特定視點產(chǎn)生像素級深度圖。在沒有光流、立體圖像、點云等額外線索的情況下,從二維圖像中提取出的深度信息對于場景的三維結(jié)構(gòu)解析具有重要的意義,可以顯著提高其他計算機(jī)視覺任務(wù)的決策能力,例如同步定位與建圖(Simultaneous Localization And Mapping,SLAM)[1]、姿態(tài)識別[2]、室內(nèi)定位[3]、三維重建[4]等。單目深度估計是從單張二維圖像估計出圖像中物體與攝像機(jī)距離的研究方法;但由于單幅RGB(Red,Green,Blue)圖像不對應(yīng)于唯一深度圖,因此單目深度估計是不適定問題。使用物理設(shè)備和傳統(tǒng)圖像算法,如雷達(dá)掃描[5]和立體匹配算法[6]進(jìn)行深度估計存在采集密度低、速度慢、易受環(huán)境干擾等缺點。而得益于神經(jīng)網(wǎng)絡(luò)強大的參數(shù)學(xué)習(xí)能力,數(shù)據(jù)驅(qū)動的基于深度學(xué)習(xí)的單目深度估計可以使用相對較少的資源和時間,在保證精度的前提下得到場景的深度圖。

文獻(xiàn)[7]最早利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行深度估計,提出的多尺度網(wǎng)絡(luò)由全局粗尺度網(wǎng)絡(luò)和局部細(xì)尺度網(wǎng)絡(luò)組成;但該模型只能生成1/4 分辨率的深度圖。文獻(xiàn)[8]中提出了全卷積殘差神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)去除全連接層并加入了殘差上采樣模塊,減少了模型參數(shù),提高了預(yù)測結(jié)果的分辨率。深度圖的像素值具有連續(xù)性,而條件隨機(jī)場(Conditional Random Field,CRF)可以借助相鄰像素之間的連續(xù)性進(jìn)行深度估計,于是文獻(xiàn)[9]中提出了分級CRF 細(xì)化方法,首先對圖像進(jìn)行超像素分割,然后使用CNN 提取超像素的深度信息,最后使用分級CRF 將超像素細(xì)化到像素級;但其預(yù)測結(jié)果的邊緣粗糙。文獻(xiàn)[10]中將深度值離散化并將深度估計看作有序回歸問題,提出了空間增量離散化,減小對較大深度值的懲罰,有著更快的收斂速度。文獻(xiàn)[11]中使用級聯(lián)條件生成對抗網(wǎng)絡(luò)(Conditional Generative Adversarial Network,CGAN),將RGB 幀和一級生成網(wǎng)絡(luò)輸出的深度圖連接起來作為二級生成網(wǎng)絡(luò)的輸入,映射到更精細(xì)的深度圖。文獻(xiàn)[12]中提出了深度卷積神經(jīng)場模型,將CNN 與連續(xù)CRF 結(jié)合,同時引入了超像素池化,保證了物體邊緣的清晰度,縮減了訓(xùn)練時間。

上述模型在清晰條件下可以取得良好的預(yù)測深度圖,這是因為場景中物體與物體之間的結(jié)構(gòu)關(guān)聯(lián)可以反映出場景的全局層次結(jié)構(gòu),而這種全局層次的結(jié)構(gòu)關(guān)聯(lián)特征又有利于深度估計模型對場景中深度信息的提取;但考慮到大氣光照、天氣、環(huán)境的影響,尤其是近年來頻繁出現(xiàn)的惡劣霾天氣,圖像采集設(shè)備受到空氣中大量懸浮顆粒的干擾,渾濁的介質(zhì)會造成大氣光線的散射和吸收,這些都會使圖像產(chǎn)生較為嚴(yán)重的降質(zhì)現(xiàn)象;同時由于圖像中的結(jié)構(gòu)特征被霾遮擋,霾干擾下的圖像往往存在對象丟失、偽像、邊緣信息丟失和紋理區(qū)域不準(zhǔn)確等結(jié)構(gòu)丟失問題。對于基于神經(jīng)網(wǎng)絡(luò)的深度估計模型,使用嚴(yán)重降質(zhì)的圖像會對模型的性能產(chǎn)生較大的干擾,網(wǎng)絡(luò)無法從模糊的霾圖中提取關(guān)鍵特征,于是上述模型無法在霾環(huán)境中解析出霾圖像的深度信息,也就無法得出效果較好的深度圖;對霾環(huán)境下的單幅霾圖深度估計缺乏適用性。

本文發(fā)現(xiàn)霾圖像的直接傳輸率圖中包含著場景的深度信息和結(jié)構(gòu)信息,同時條件生成對抗網(wǎng)絡(luò)在高維數(shù)據(jù)分布建模和不同數(shù)據(jù)域擴(kuò)展等領(lǐng)域有著良好的效果[13],故可以利用CGAN 從霾圖的直接傳輸率圖中提取深度信息。針對從低質(zhì)量的霾干擾圖像估計出高質(zhì)量的深度圖這一任務(wù),本文包含以下工作:1)根據(jù)霾圖像的直接傳輸率圖包含的場景深度信息和結(jié)構(gòu)信息,將直接傳輸率圖作為CGAN 的約束條件,通過對抗學(xué)習(xí),獲取保持良好場景結(jié)構(gòu)和邊緣輪廓的預(yù)測深度圖;2)提出融合雙注意力模塊的DenseUnet,作為生成器的網(wǎng)絡(luò)結(jié)構(gòu),在保留場景結(jié)構(gòu)特征的同時,提取直接傳輸率圖中的深度信息,提高了霾干擾下預(yù)測深度圖的精度;3)提出新的結(jié)構(gòu)保持損失函數(shù),將像素級的L1損失、對抗損失、梯度損失、感知損失作為復(fù)合損失函數(shù),利用圖像梯度信息和圖像高級語義特征指導(dǎo)生成器生成清晰邊緣輪廓的深度圖,提高了霾環(huán)境下深度估計的質(zhì)量。

1 模型框架

針對霾天氣下圖像的成像原理,文獻(xiàn)[14]中提出了大氣散射模型,如式(1)所示:

其中:J(x)為無霾圖像;t(x)為直接傳輸率圖;A為全局大氣光值;I(x)為有霾圖像。該模型表明,霾條件下成像系統(tǒng)捕獲的圖像由目標(biāo)物體的反射光和整體場景的全局大氣光構(gòu)成。直接傳輸率圖t(x)是未被散射的光線穿過霧霾后到達(dá)成像設(shè)備的比率,如式(2)所示:

其中:d(x)為場景深度;β(β>0)為大氣散射系數(shù)。由式(2)可知,直接傳輸率圖包含場景的深度信息,離攝像頭越遠(yuǎn)的物體受霧霾影響更大,當(dāng)深度值趨于無窮時,t(x)趨于零;當(dāng)β為常數(shù)時,直接傳輸率圖與場景深度呈指數(shù)關(guān)系。

綜上所述,本文將霾條件下的深度估計作為圖像到圖像的轉(zhuǎn)化任務(wù),提出了基于條件對抗網(wǎng)絡(luò)的單幅霾圖像深度估計模型。模型結(jié)構(gòu)如圖1,在生成器和鑒別器中不引入隨機(jī)噪聲,僅將直接傳輸率圖作為CGAN 生成器和鑒別器的約束條件,利用生成器完成直接傳輸率圖域到深度圖域的映射,再使用鑒別器判斷預(yù)測深度圖和真實深度圖的分布一致性,通過生成器和鑒別器的交替迭代訓(xùn)練,完成單幅霾圖像的深度估計。

圖1 條件生成對抗網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of CGAN

2 模型設(shè)計

2.1 生成器

2.1.1 融合雙注意力模塊的DenseUnet

文獻(xiàn)[15]表明,結(jié)構(gòu)信息對泛化深度估計起著重要的作用,所以從直接傳輸率圖中提取的結(jié)構(gòu)信息可以提高霾環(huán)境下深度估計的效果。生成器的作用是將霾圖的直接傳輸率圖映射為預(yù)測深度圖,直接傳輸率圖和深度圖共享深度信息和結(jié)構(gòu)信息,二者具有類似的底層結(jié)構(gòu)。深層的神經(jīng)網(wǎng)絡(luò)可以提取出直接傳輸率圖中的高級特征(深度信息),但是隨著網(wǎng)絡(luò)層數(shù)的增加,梯度消失問題不利于網(wǎng)絡(luò)收斂,網(wǎng)絡(luò)的深層信息無法回傳,會使預(yù)測深度圖的質(zhì)量降低,邊緣和形狀等底層結(jié)構(gòu)信息也會在反向傳播過程中丟失。為了充分利用直接傳輸率圖中的結(jié)構(gòu)信息來輔助深度信息的獲取,對于生成器的網(wǎng)絡(luò)結(jié)構(gòu),本文提出了融合雙注意力模塊的DenseUnet,如圖2 所示。

為了解決網(wǎng)絡(luò)層數(shù)加深帶來的梯度消失和淺層特征丟失問題,本文將密集連接網(wǎng)絡(luò)(Densely Connected Convolutional Network)[16]和U-net[17]結(jié)合為DenseUnet。利用密集連接網(wǎng)絡(luò)提取直接傳輸率圖的深度特征,并使用跳躍連接加強底層結(jié)構(gòu)信息的流動。DenseUnet 將密集塊(Dense Block)作為U-net 編碼和解碼過程中的基本模塊,如圖2 所示。通過這樣的方式,可以將反向傳播過程中的梯度信息和原始的輸入信息送入每一層網(wǎng)絡(luò)。DenseUnet 不僅增加了網(wǎng)絡(luò)的層數(shù),同時也緩解了梯度消失帶來的模型退化問題。在密集塊內(nèi),采用密集連接的方式,將每一層的特征與前面所有層的特征在通道維度進(jìn)行拼接,使得深層的網(wǎng)絡(luò)也可以獲取到底層的特征,實現(xiàn)了底層特征復(fù)用,加強了深層信息的流動。在密集塊之間,跳躍連接將編碼器的信息傳入解碼器,保留了編碼過程中不同分辨率的像素級信息,實現(xiàn)了編解碼過程中淺層特征和深層特征的融合,解決了淺層特征無法在解碼過程中被有效利用的問題。總之,DenseUnet 在提取直接傳輸率圖深度信息的同時有效地利用了結(jié)構(gòu)特征,有利于生成精細(xì)局部細(xì)節(jié)和邊緣輪廓清晰的深度圖。

圖2 生成器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of generator

對于DenseUnet 的網(wǎng)絡(luò)結(jié)構(gòu),下采樣過程包括4 個密集塊,密集塊之間由過渡層連接。密集塊之內(nèi),使用3×3 卷積對相同尺寸的特征圖進(jìn)行特征提取,卷積之前采用批歸一化(Batch Normlization,BN)和修正線性單元ReLU(Rectified Linear Unit)函數(shù)提高模型的訓(xùn)練速度,同時使用1×1 卷積的瓶頸層實現(xiàn)降維。密集塊之內(nèi),后一層(BN+ReLU+Conv)的輸入為前面所有層的輸出;密集塊之間,過渡層使用2×2 平均池化將特征圖下采樣到原特征圖的1/2 大小,并使用瓶頸層將密集塊的輸出通道維度降到輸入通道維度的1/2。在上采樣過程中,相同尺寸的密集塊與上采樣塊在維度上拼接。本文的上采樣塊與密集塊使用相同的密集連接結(jié)構(gòu)。最后使用最鄰近插值(Nearest Interpolation)逐漸將特征圖上采樣到256×256 大小。

DenseUnet 雖然整合了直接傳輸率圖的不同層次特征,但仍缺乏對不同尺度全局特征的提取。為了充分提取直接傳輸率圖的全局信息,使用金字塔池化(Pyramid Pooling)[18]進(jìn)行不同比例的池化操作,獲取圖像不同尺度的全局特征。本文分別采用1/4、1/8、1/16、1/32 四種金字塔尺度,對DenseUnet 解碼后的輸出特征圖進(jìn)行平均池化,然后將不同尺度的特征上采樣到原始大小,再與原始特征圖拼接。經(jīng)過不同尺度的特征融合,提高了網(wǎng)絡(luò)對直接傳輸率圖全局信息的獲取能力,可以更好地指導(dǎo)生成器學(xué)習(xí)深度特征。

2.1.2 雙注意力模塊

在霾干擾導(dǎo)致的圖像降質(zhì)情況下,圖像中局部特征的依賴關(guān)系對預(yù)測結(jié)果中的深度值連續(xù)性尤為重要。雖然跳躍連接和金字塔池化分別實現(xiàn)了不同層次和不同尺度的特征融合,但3×3 的卷積核大小依然限制了網(wǎng)絡(luò)對局部特征依賴關(guān)系的獲取能力,導(dǎo)致生成圖像中的局部特征發(fā)生偏移[19],預(yù)測深度圖會出現(xiàn)偽影和深度值不連續(xù)問題。為此,本文使用注意力機(jī)制來獲取場景中物體與物體之間的連續(xù)深度特征。

本文提出的雙注意力模塊結(jié)構(gòu)如圖3 所示,與文獻(xiàn)[20]類似,本文模型采用空間注意力和通道注意力的并聯(lián)結(jié)構(gòu)??臻g注意力模塊和通道注意力模塊分別對DenseUnet 中經(jīng)過金字塔池化后生成的特征圖在空間和通道維度進(jìn)行建模,學(xué)習(xí)出像素之間和通道之間的注意力權(quán)重。通過匯集局部特征的上下文信息,雙注意力模塊使得網(wǎng)絡(luò)可以自適應(yīng)地調(diào)整深度特征的全局依賴關(guān)系,在保證深度值連續(xù)的前提下,提高霾圖深度估計的準(zhǔn)確性。

1)通道注意力模塊(Channel Attention Module)。

在DenseUnet 中,雖然卷積核的堆疊在一定程度上增大了感受野,但具體到特定的卷積層,卷積操作的感受野依然是有限的,這一問題限制了網(wǎng)絡(luò)對全局特征依賴的提取。而全局信息的依賴關(guān)系對于直接傳輸率圖到深度圖的映射具有重要作用。本文在通道注意力中引入了非局部思想[21],如圖3(a)所示,通過計算通道特征的加權(quán)平均來得到通道注意力權(quán)重B,建立起通道之間的長距離依賴關(guān)系,從而匯聚了更多的通道依賴信息。

首先對原特征圖F∈RC×H×W在空間維度上進(jìn)行壓縮,得到通道特征A∈RC×N,然后將A與其轉(zhuǎn)置AT相乘并經(jīng)過Softmax 函數(shù)計算得出通道注意力權(quán)重B∈RC×C,計算過程如式(3)所示:

其中:Ai和Aj代表壓縮后的特征圖;Bij為通道注意力權(quán)重B的元素,表示通道i與通道j之間的依賴關(guān)系,反映了通道之間的相關(guān)性。

然后將通道注意力權(quán)重與原特征圖相乘,并乘以學(xué)習(xí)率α,作為殘差與原特征圖相加得到新的特征圖F″ ∈RC×H×W,如式(4)所示:

其中:Fi為特征圖F的元素;α從0 開始學(xué)習(xí)。通過通道注意力模塊,生成器整合了所有通道之間的依賴關(guān)系,使網(wǎng)絡(luò)更加關(guān)注全局信息,實現(xiàn)了通道特征優(yōu)化。

2)空間注意力模塊(Spatial Attention Module)。

空間注意力作為通道注意力的補充,需要在全局范圍捕獲空間特征的依賴關(guān)系。如圖3(b)所示,為了使生成器自適應(yīng)學(xué)習(xí)到關(guān)鍵的空間特征。對金字塔池化之后的特征圖F∈RC×H×W在通道維度上分別進(jìn)行全局平均池化(Global Average Pooling,GAP)和全局最大池化(Global Max Pooling,GMP),GAP 和GMP 可在空間維度獲取上下文信息的同時保留空間結(jié)構(gòu)信息。之后將二者在通道維度拼接為新的特征圖,并經(jīng)過卷積和Sigmoid 函數(shù)壓縮,得到空間注意力權(quán)重f∈R1×H×W。最后將原始特征圖與空間注意力權(quán)重經(jīng)過元素級相乘來完成注意力加權(quán),得到最終的特征圖F'∈RC×H×W。由于F'中每個位置的元素都來自其他位置元素的加權(quán),因此獲取了更廣泛的全局上下文信息,實現(xiàn)了空間特征優(yōu)化。

圖3 雙注意力模塊Fig.3 Dual attention module

2.2 鑒別器

傳統(tǒng)的鑒別器為二分類器,經(jīng)過卷積和最后的全連接層將整幅圖片映射為0~1 的概率值,通過此概率值來表示預(yù)測圖像是否來源于真實分布(1 代表真,0 代表假)。生成器和鑒別器在對抗學(xué)習(xí)中達(dá)到穩(wěn)定,直至鑒別器無法判斷預(yù)測圖片的真實性,網(wǎng)絡(luò)停止訓(xùn)練。對于深度估計來說,傳統(tǒng)鑒別器的缺點是直接對整幅圖片進(jìn)行判斷,無法對局部細(xì)節(jié)進(jìn)行評判,不利于生成高精度、高保真的深度圖。

本文的鑒別器采用PatchGAN[13]結(jié)構(gòu),如圖4,其中n 為通道數(shù),k 為卷積核大小,s 為步長。相較于傳統(tǒng)鑒別器,PatchGAN 不直接對整幅圖片打分,而是對圖片的不同局部區(qū)域進(jìn)行判斷,從而實現(xiàn)了圖像局部特征的提取,保留了高頻細(xì)節(jié),有利于生成高分辨率的深度圖。同時,由于PatchGAN 去除了全連接層,網(wǎng)絡(luò)的參數(shù)量減少,使得運算速度提高。PatchGAN 采用全卷積網(wǎng)絡(luò),經(jīng)過五層卷積運算,最后通過Sigmoid 函數(shù)得到32×32 的特征圖,其中每一個元素的分值,代表原圖70×70 局部區(qū)域的真假概率。

圖4 鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of discriminator

2.3 結(jié)構(gòu)保持損失函數(shù)

不同的損失函數(shù)會對網(wǎng)絡(luò)的訓(xùn)練速度和深度估計性能產(chǎn)生顯著影響。在生成對抗網(wǎng)絡(luò)中,對抗損失和傳統(tǒng)損失的結(jié)合可以使網(wǎng)絡(luò)朝著更有利的結(jié)果進(jìn)行[22]。為了指導(dǎo)生成器生成豐富細(xì)節(jié)信息的深度圖,提高霾環(huán)境下深度估計的質(zhì)量,本文提出了新的結(jié)構(gòu)保持損失函數(shù):將L1損失、感知損失、對抗損失和梯度損失融合為生成器的損失函數(shù),如式(5):

其中:LS為總的結(jié)構(gòu)保持損失為L1損失;LA為對抗損失;LP為感知損失;LG為梯度損失。、λA、λP、λG分別為L1損失、對抗損失、感知損失和梯度損失的權(quán)重。

2.3.1 像素?fù)p失

對于圖像轉(zhuǎn)化任務(wù),輸入和輸出之間共享底層信息[13]。本文使用L1損失度量像素空間中預(yù)測深度圖和真實深度圖的差異,以此來重建低頻信息,如式(6)所示:

其中:d代表真實深度圖,G(t)代表生成深度圖,E 代表數(shù)學(xué)期望。

2.3.2 感知損失

使用像素級損失,通過最小化深度值差異來重建深度圖的同時會產(chǎn)生模糊問題,這是因為像素?fù)p失的解是像素空間中所有分布的平均值,故使用最小絕對值(L1)損失作為網(wǎng)絡(luò)的唯一優(yōu)化目標(biāo)會導(dǎo)致圖像在全局結(jié)構(gòu)上出現(xiàn)細(xì)節(jié)丟失和物體邊緣不清晰的問題。為了解決此問題,引入了感知損失[23]。感知損失將CNN 隱含層作為特征提取器,本文使用預(yù)訓(xùn)練的VGG-19 網(wǎng)絡(luò)提取真實深度圖和生成深度圖的高級特征,通過最小化高級特征之間的歐氏距離來約束生成器,進(jìn)而提升深度圖的視覺質(zhì)量,如式(7)所示:其中:V代表VGG-19 模型;C代表特征圖的維度;W、H分別代表特征圖的寬和高。

2.3.3 梯度損失

CGAN 在生成豐富高頻細(xì)節(jié)的同時,也存在物體形狀結(jié)構(gòu)畸變的問題。梯度信息已被證明在深度估計和超分辨率圖像復(fù)原中取得了較好的效果[24-25]。直接傳輸率圖的梯度圖如圖5(c)所示,可以看出,圖像的一階微分(梯度)對應(yīng)著灰度強烈變化的區(qū)域,梯度圖很好地反映出了場景中物體的邊緣輪廓結(jié)構(gòu)。

圖5 梯度可視化Fig.5 Gradient visualization

文獻(xiàn)[15]表明,空間結(jié)構(gòu)在解析場景深度方面起著基礎(chǔ)性的作用,而直接傳輸率圖包含著場景的大量結(jié)構(gòu)信息,這對于霾圖像的深度估計具有重要的作用。為了讓模型提取到直接傳輸率圖的結(jié)構(gòu)信息,本文使用直接傳輸率圖的梯度信息為生成器提供監(jiān)督,通過最小化生成深度圖和真實深度圖在水平、垂直兩個方向的梯度特征差異,使模型從梯度空間中學(xué)習(xí)深度值變化明顯的邊緣區(qū)域,從而改善預(yù)測深度圖中物體的結(jié)構(gòu)細(xì)節(jié),提高物體邊緣輪廓的清晰度。本文定義的梯度損失如式(8)所示:

其中:?h和?v分別代表水平和垂直方向的梯度運算;p代表像素索引。

2.3.4 對抗損失

對于對抗損失,本文不引入隨機(jī)噪聲,僅將直接傳輸率圖作為條件送入生成器和鑒別器。生成器和鑒別器交替迭代,二者極大極小博弈的目標(biāo)函數(shù)如式(9)所示:

其中:G為生成器,D為鑒別器。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集及預(yù)處理

為了驗證本文模型的泛化能力,分別使用室內(nèi)和室外兩種環(huán)境下的數(shù)據(jù)集對模型進(jìn)行訓(xùn)練和測試。對于室內(nèi)環(huán)境,本文使用紐約大學(xué)創(chuàng)建的NYU v2(NYU Depth v2)數(shù)據(jù)集[4],官方提供了帶有密集標(biāo)注的1 449 對RGB 圖像和真實深度圖,圖像尺寸為640×480。對于室外環(huán)境,使用了DIODE 數(shù)據(jù)集[26]的18 206 對圖像,分辨率為1 024×768。在預(yù)處理過程中,首先將NYU v2 和DIODE 數(shù)據(jù)集的原始圖像大小調(diào)整為286 像素×286 像素,按照官方的劃分策略對數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,并使用隨機(jī)裁切的方式擴(kuò)充數(shù)據(jù)集,每次讀取圖片的某部分。為了模擬真實的霾環(huán)境,本文利用大氣散射模型并結(jié)合文獻(xiàn)[27]的暗通道先驗方法對數(shù)據(jù)集中的清晰圖像反向加霾(假設(shè)大氣光值為常數(shù)),大氣光值通過隨機(jī)采樣獲取。使用文獻(xiàn)[28]的基于圖像飽和度的去霾算法獲取霾圖直接傳輸率圖。

3.2 實驗環(huán)境和網(wǎng)絡(luò)設(shè)置

本文模型基于Pytorch 框架實現(xiàn),編程語言為Python3.6,使用顯存為20 GB 的NVIDIA 2080Ti 顯卡訓(xùn)練。在訓(xùn)練過程中,生成器和鑒別器保持相同的參數(shù)設(shè)置,均采用自適應(yīng)動量估計優(yōu)化算法(Adam),動量參數(shù)β1=0.5,β2=0.999。使用隨機(jī)裁剪來增強數(shù)據(jù),將圖片大小調(diào)整為256×256,總共訓(xùn)練300 個epoch。訓(xùn)練時,前150 個epoch 保持初始學(xué)習(xí)率,后150 個epoch 的學(xué)習(xí)率線性衰減至0;設(shè)置初始學(xué)習(xí)率為2 × 10-4;batchsize 設(shè)置為16;生成器和鑒別器交替迭代訓(xùn)練。對于損失函數(shù)的權(quán)重,通過實驗獲取最佳參數(shù)設(shè)定:λL1為100;λP為10;λG為20。模型在NYU 數(shù)據(jù)集上的訓(xùn)練時間為24 h,在DIODE 數(shù)據(jù)集上的訓(xùn)練時間為28 h。

3.3 評價指標(biāo)

對于定量評估,本文使用兩個方面(誤差、精確度)的指標(biāo)來評估預(yù)測深度圖和真實深度圖之間的差異:

平均相對誤差(Mean Relative Error,MRE):

均方根誤差(Root Mean Square Error,RMSE):

對數(shù)均方根誤差(Root Mean Square logarithmic Error,RMSElog):

對數(shù)平均誤差(Logarithmic Mean Error,LME):

精確度:

其中:N為測試圖像的像素數(shù)量總和為像素i的預(yù)測值;di為像素i的真實值。對于誤差指標(biāo),結(jié)果越小越好;對于精確度指標(biāo)(δ<1.25i,i=1,2,3),結(jié)果越大越好。

3.4 NYU Depth v2數(shù)據(jù)集實驗對比

對于本文提出的結(jié)構(gòu)保持損失函數(shù),圖6 顯示了各分量在訓(xùn)練過程中的收斂情況,L1損失、梯度損失和感知損失在模型訓(xùn)練開始時就逐漸趨于收斂,L1損失和感知損失在約前50 個訓(xùn)練批次(epoch)的收斂速度最快,并在300 個epoch 時趨于穩(wěn)定,表明結(jié)構(gòu)保持損失函數(shù)對生成器的訓(xùn)練起到了監(jiān)督作用。

圖6 NYU v2 數(shù)據(jù)集上損失函數(shù)的收斂情況Fig.6 Convergence of loss function on NYU v2 dataset

為了證明結(jié)構(gòu)保持損失函數(shù)的有效性,在保持相同實驗環(huán)境和模型參數(shù)設(shè)置的情況下,本文對損失函數(shù)進(jìn)行了如下消融實驗:1)對抗損失(LA)和L1損失;2)對抗損失(LA)、L1損失和感知損失(LP);3)對抗損失(LA)、L1損失和梯度損失(LG);4)對抗損失(LA)、L1損失、感知損失(LP)和梯度損失(LG),其中,對抗損失LA和L1損失作為消融實驗的基準(zhǔn),不單獨對二者進(jìn)行消融實驗。結(jié)果如圖7 所示。通過對比發(fā)現(xiàn),圖7(c)中,僅使用像素?fù)p失(L1損失)和對抗的損失生成的預(yù)測深度圖效果最差,邊緣模糊的問題較嚴(yán)重,例如椅子、臺燈和投影儀等邊緣細(xì)節(jié)不能被有效地識別;圖7(d)中,加入感知損失后,預(yù)測深度圖場景的整體內(nèi)容更加豐富,更貼近于真實深度圖,但出現(xiàn)了嚴(yán)重的偽影(天花板和靠椅處);圖7(e)中,桌子、臺燈和沙發(fā)的邊緣都較為清晰,這是因為梯度損失可以指導(dǎo)網(wǎng)絡(luò)利用直接傳輸率圖的結(jié)構(gòu)信息生成預(yù)測深度圖,但依然存在噪聲(相框、墻壁處);圖7(f)中,相比以上消融實驗,使用邊緣保持損失(有雙注意力模塊)生成的預(yù)測深度圖更好地展現(xiàn)了圖像的結(jié)構(gòu)信息(椅子靠背、臺燈、投影儀)和場景的細(xì)節(jié),局部結(jié)構(gòu)也更精細(xì),在定性消融實驗結(jié)果中取得了最好的效果。

圖7 NYU v2數(shù)據(jù)集上損失函數(shù)的對比結(jié)果Fig.7 Comparison results of loss functions on NYU v2 dataset

對于雙注意力模塊,在相同實驗條件下進(jìn)行了消融實驗,實驗結(jié)果如圖8 所示。在沒有加入注意力模塊的圖8(c)中,沙發(fā)和椅子處的深度值發(fā)生了偏移,表明深度值的連續(xù)性遭到了破壞,且存在偽影問題;加入注意力模塊的圖8(d)中,物體的輪廓更清晰,場景中物體的深度值更平滑,說明注意力模塊利用了特征之間的長距離依賴,使得每個位置都能充分利用上下文信息,從而確保了預(yù)測深度圖中深度值的連續(xù)性和準(zhǔn)確性。

圖8 NYU v2數(shù)據(jù)集上有無雙注意力模塊結(jié)果對比Fig.8 Comparison of results with and without dual attention modules on NYU v2 dataset

為了進(jìn)一步驗證本文方法的有效性,將本文方法與文獻(xiàn)[7]方法、文獻(xiàn)[8]方法、文獻(xiàn)[9]方法進(jìn)行對比實驗,所有實驗在相同的設(shè)置下進(jìn)行。NYU v2 數(shù)據(jù)集上的實驗結(jié)果如圖9 所示,定性分析結(jié)果表明,本文的預(yù)測深度圖保留了物體的清晰輪廓和場景結(jié)構(gòu),如例圖A 中的臺燈、例圖B 中柜子和例圖D 中的冰箱,這些區(qū)域的局部細(xì)節(jié)和結(jié)構(gòu)更完整,深度值更準(zhǔn)確。在例圖C 中的沙發(fā)區(qū)域,本文方法也保留了更精細(xì)的幾何結(jié)構(gòu)和物體邊界,而其他方法均有不同程度的失真問題。以上分析進(jìn)一步表明了本文方法可以有效提取直接傳輸率圖中的結(jié)構(gòu)信息和深度信息,生成高質(zhì)量的預(yù)測深度圖。

圖9 NYU v2數(shù)據(jù)集上的實驗結(jié)果對比Fig.9 Comparison of experimental results on NYU v2 dataset

對于NYU Depth v2 數(shù)據(jù)集的定量分析結(jié)果如表1,其中最優(yōu)數(shù)據(jù)加粗表示。與文獻(xiàn)[8]方法相比,LME降低了7%,RMSE降低了10%,精確度(δ<1.25)提高了4%。而就MRE而言,文獻(xiàn)[8]方法具有更低的誤差,這是由于其使用了預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)(ResNet)和Berhu 損失函數(shù),更關(guān)注像素級的精度。但是從定性分析結(jié)果中可以看出,本文方法的結(jié)果仍具有更精細(xì)的場景結(jié)構(gòu)。對此現(xiàn)象的解釋是,預(yù)測圖中場景細(xì)節(jié)的提升不能完全體現(xiàn)在MRE這類像素級誤差上。在損失函數(shù)的定量消融實驗中,僅使用L1損失和對抗損失LA的結(jié)果最差,各項指標(biāo)均低于其他組合。這是因為在生成對抗網(wǎng)絡(luò)中,L1損失在重建低頻信息時也會產(chǎn)生大量的偽影,同時對抗損失也會使得結(jié)構(gòu)發(fā)生畸變,且對場景結(jié)構(gòu)和細(xì)節(jié)的重建能力較弱。在分別加入感知損失和梯度損失后,各項指標(biāo)有了不同程度的提升,而使用結(jié)構(gòu)保持損失取得的結(jié)果均優(yōu)于其他對比方法。

表1 NYU v2數(shù)據(jù)集上的評價指標(biāo)對比Tab.1 Comparison of evaluation metrics on NYU v2 dataset

3.5 DIODE數(shù)據(jù)集實驗對比

對于室外數(shù)據(jù)集,結(jié)構(gòu)保持損失各項分量的收斂情況如圖10 所示。對于L1損失,在前150 個epoch 訓(xùn)練后基本達(dá)到收斂;對于梯度損失LG在訓(xùn)練過程中,從第25 個epoch 到225 個epoch 過程中出現(xiàn)波動,這是因為相較于室內(nèi)場景,室外場景具有更復(fù)雜的空間結(jié)構(gòu)和更多樣的場景布局,但在150 個epoch 之后,隨著學(xué)習(xí)率的下降,梯度損失最終趨于穩(wěn)定;感知損失LP在前50 個epoch 的訓(xùn)練中收斂速度最快,之后趨于穩(wěn)定??傊?,L1損失、梯度損失LG和感知損失LP在訓(xùn)練到300 個epoch 時都趨于收斂,證明了結(jié)構(gòu)保持損失函數(shù)對生成器起到了監(jiān)督作用。

圖10 DIODE數(shù)據(jù)集上損失函數(shù)的收斂情況Fig.10 Convergence of loss function on DIODE dataset

對于損失函數(shù)在DIODE 數(shù)據(jù)集上的消融實驗,采用與NYU Depth v2 數(shù)據(jù)集相同的實驗參數(shù)設(shè)置和消融實驗設(shè)置,結(jié)果如圖11 所示。需要注意的是,由于室外環(huán)境較為復(fù)雜,為了清晰地看出深度估計的效果,對室外結(jié)果進(jìn)行了偽彩色處理。圖11(c)中,樓房、天空和地面出現(xiàn)了大面積的模糊問題和深度值預(yù)測不準(zhǔn)確問題,說明僅靠L1損失和對抗損失,本文模型無法生成準(zhǔn)確的深度圖。圖11(d)和(e)分別為加入了感知損失和梯度損失后的實驗結(jié)果,可以看出遠(yuǎn)處大樓、天空和地面的大面積模糊問題得到了改善,場景的細(xì)節(jié)和物體的輪廓(灌木叢和臺階)也更加清晰,但是在一些物體的細(xì)節(jié)處(天空和樹木處)依然存在較為嚴(yán)重的偽影。最后,圖11(f)為使用結(jié)構(gòu)保持損失函數(shù)(有雙注意力模塊)訓(xùn)練和測試的預(yù)測結(jié)果??梢钥闯觯瑹o論是樓房的輪廓還是灌木的細(xì)節(jié),在使用結(jié)構(gòu)保持損失后,均取得了更好的結(jié)果,偽影問題也得到了有效的解決;物體的細(xì)節(jié)更加清晰;輪廓結(jié)構(gòu)更加完整。表明了結(jié)構(gòu)保持損失中的感知損失可以指導(dǎo)網(wǎng)絡(luò)利用與真實深度更貼近的高級語義特征,同時梯度損失也使網(wǎng)絡(luò)有效地捕獲場景的局部細(xì)節(jié)結(jié)構(gòu)。

圖11 DIODE數(shù)據(jù)集上損失函數(shù)的對比結(jié)果Fig.11 Comparison results of loss functions on DIODE dataset

雙注意力模塊的消融實驗如圖12 所示。

圖12 DIODE數(shù)據(jù)集上有無雙注意力模塊結(jié)果的對比Fig.12 Comparison of results with and without dual attention modules on DIODE dataset

從圖中可以看出,在未加入雙注意力模塊時,如圖12(c)所示,第一張結(jié)果圖中的汽車結(jié)構(gòu)出現(xiàn)了明顯的退化,還有部分深度信息缺失現(xiàn)象(車門處)。第二張圖的樓梯區(qū)域出現(xiàn)了明顯的深度值偏移現(xiàn)象,天空中也出現(xiàn)了嚴(yán)重的偽影。加入了雙注意力模塊后,如圖12(d)所示,上述區(qū)域的結(jié)構(gòu)更加完整,預(yù)測精度更高,證明雙注意力模塊可以更好地捕獲全局深度信息。

在相同實驗環(huán)境和設(shè)置下,本文將文獻(xiàn)[10]方法、文獻(xiàn)[11]方法和文獻(xiàn)[12]方法在DIODE 數(shù)據(jù)集上進(jìn)行了對比實驗,如圖13 所示。定性結(jié)果表明:本文方法相較于其他方法取得了更好的結(jié)果,本文方法可以恢復(fù)清晰的對象邊界,如汽車、樹木甚至微小樹枝的結(jié)構(gòu),這表明跳躍鏈接在提取深度信息的同時能有效地利用底層結(jié)構(gòu)信息;而對比其他方法,如例圖A 中的汽車和例圖C 中的樹冠均存在不同程度的結(jié)構(gòu)退化問題。對于平面區(qū)域,如例圖B 中的地面、例圖C中的樓房和例圖D 中的房檐,本文方法在這些區(qū)域的預(yù)測深度圖更平整,角落和邊緣細(xì)節(jié)更完整;而文獻(xiàn)[11]方法和文獻(xiàn)[12]方法則存在預(yù)測不準(zhǔn)確和偽影問題。進(jìn)一步分析例圖B 中,文獻(xiàn)[10]方法和文獻(xiàn)[11]方法在左側(cè)的房屋處均出現(xiàn)了不同程度的深度值偏移現(xiàn)象;文獻(xiàn)[12]方法在天空處出現(xiàn)了偽影。通過對比表明本文方法能夠捕捉到直接傳輸率圖中的結(jié)構(gòu)特征,從而在霾干擾下生成細(xì)節(jié)較為清晰的預(yù)測深度圖。

圖13 DIODE數(shù)據(jù)集上的實驗結(jié)果對比Fig.13 Experimental results comparison on DIODE dataset

對于定量分析,損失函數(shù)消融實驗、雙注意力模塊消融實驗、其他文獻(xiàn)方法對比實驗,在DIODE 數(shù)據(jù)集上的結(jié)果如表2 所示。本文方法(有雙注意力模塊)相較于文獻(xiàn)[10]方法,MRE誤差指標(biāo)降低了1%,精確度(3 個閾值)分別提高了8%、2%和1%。對于損失函數(shù)消融實驗,結(jié)構(gòu)保持損失在各項指標(biāo)上均優(yōu)于其他對比實驗,L1+LA的結(jié)果最差,加入感知損失和梯度損失后,各指標(biāo)數(shù)據(jù)有不同程度的改善。最后,在加入雙注意模塊后,誤差指標(biāo)降低,精確度有所提高。

表2 DIODE數(shù)據(jù)集上的評價指標(biāo)對比Tab.2 Evaluation metrics comparison on DIODE dataset

3.6 真實霾圖的實驗對比

通過定性和定量的結(jié)果分析對比,在模擬霾環(huán)境中,使用合成霾圖進(jìn)行實驗,本文在室內(nèi)環(huán)境(NYU Depth v2 數(shù)據(jù)集)和室外環(huán)境(DIODE 數(shù)據(jù)集)中已取得了較好的深度估計效果,表明了本文方法的優(yōu)越性;但是為了進(jìn)一步驗證本文方法在真實霾環(huán)境中的有效性和泛化能力,使用真實霾環(huán)境中的霾圖對本文方法進(jìn)行了進(jìn)一步的評估,并將文獻(xiàn)[10]方法、文獻(xiàn)[11]方法、文獻(xiàn)[12]方法與本文方法的實驗結(jié)果進(jìn)行了對比分析,所有實驗保持相同實驗設(shè)置。

由于在真實環(huán)境中,霾天氣大多出現(xiàn)在室外,所以僅使用室外真實霾環(huán)境中的霾圖進(jìn)行測試和分析。定性分析結(jié)果如圖14 所示,可以看出,由于受到霾的干擾,對比方法在例圖A 中的樹枝、例圖B 中遠(yuǎn)處的房屋和例圖C 的柵欄處這些局部細(xì)節(jié)出現(xiàn)了不同程度的深度值丟失問題,無論是文獻(xiàn)[10]方法的增量離散化模型、文獻(xiàn)[11]方法的級聯(lián)條件生成對抗網(wǎng)絡(luò)還是文獻(xiàn)[12]方法的深度卷積神經(jīng)場模型均出現(xiàn)了不同程度的退化。此外,例圖A 中,本文方法在灌木處的預(yù)測結(jié)果具有更完整的局部結(jié)構(gòu)和更精細(xì)的邊緣輪廓,這是因為結(jié)構(gòu)保持損失可以指導(dǎo)生成器從梯度空間中學(xué)習(xí)深度值變化明顯的邊緣區(qū)域;例圖B 中,其他對比文獻(xiàn)方法的結(jié)果在地面處均出現(xiàn)了深度值不連續(xù)現(xiàn)象,這是因為模型受霾干擾,導(dǎo)致網(wǎng)絡(luò)無法捕獲局部特征依賴;例圖C 中,其他文獻(xiàn)方法在左下角的地面處出現(xiàn)了深度值偏移問題和大面積的偽影問題。本文方法的預(yù)測結(jié)果如圖14(e),可以看出,無論是深度值的準(zhǔn)確性還是場景的細(xì)節(jié)結(jié)構(gòu),本文的預(yù)測結(jié)果都有明顯的改進(jìn),也有效地緩解了深度值不連續(xù)問題。需要注意的是,由于真實霾環(huán)境中的霾圖沒有對應(yīng)的真實深度圖,所以無法通過MRE、RMSE、RMSElog和精確度進(jìn)行定量分析。通過以上分析得出,本文方法能夠在真實霾環(huán)境中取得良好的深度估計結(jié)果,這是因為DenseUnet 在加深網(wǎng)絡(luò)深度的同時可以有效利用霾圖直接傳輸率圖的底層特征,而其他對比方法的模型受到霾干擾時,模型無法從降質(zhì)的圖像提取有效的特征。本文的雙注意力模塊可以捕獲局部特征的長距離依賴,解決了深度不連續(xù)問題;此外,也證明了本文提出的結(jié)構(gòu)保持損失函數(shù)可以對生成器提取場景結(jié)構(gòu)信息提供有效的監(jiān)督。

圖14 真實霾圖的實驗結(jié)果對比Fig.14 Comparison of experimental results of real haze images

4 結(jié)語

本文針對霾環(huán)境下傳統(tǒng)深度估計模型無法準(zhǔn)確獲取場景深度的問題,提出了一種基于條件生成對抗網(wǎng)絡(luò)的霾圖像深度估計方法,使用霾圖像的直接傳輸率圖作為網(wǎng)絡(luò)的約束條件,通過對抗學(xué)習(xí)進(jìn)行霾條件下的深度估計。對于生成器,為了應(yīng)對卷積和池化造成的低級視覺特征丟失問題,本文將DenseNet 和U-net 結(jié)合,密集連接和跳躍連接使解碼器可以利用低級結(jié)構(gòu)特征更好地生成預(yù)測深度圖;此外,加入了雙注意力模塊,分別在空間和通道維度自適應(yīng)地捕獲局部特征依賴,提高了預(yù)測深度圖的質(zhì)量;并提出結(jié)構(gòu)保持損失函數(shù),使得預(yù)測深度圖具有更清晰的物體邊界和更精細(xì)的局部細(xì)節(jié)。在室內(nèi)數(shù)據(jù)集、室外數(shù)據(jù)集和真實霾圖上的實驗結(jié)果表明,本文方法無論在定量分析還是定性評價方面,均取得了較好的效果,證明了本文方法對恢復(fù)深度圖清晰邊界和精細(xì)局部細(xì)節(jié)的能力,也表明了本文方法的泛化能力。最后,提升直接傳輸率圖的質(zhì)量是提高本文模型深度估計質(zhì)量的關(guān)鍵問題之一,在后續(xù)工作中,將考慮將直接傳輸率圖的估計納入到生成器中,設(shè)計單獨的網(wǎng)絡(luò)模型更準(zhǔn)確地估計直接傳輸率圖。

猜你喜歡
梯度損失注意力
洪澇造成孟加拉損失25.4萬噸大米
讓注意力“飛”回來
兩敗俱傷
一個具梯度項的p-Laplace 方程弱解的存在性
內(nèi)容、形式與表達(dá)——有梯度的語言教學(xué)策略研究
航磁梯度數(shù)據(jù)實測與計算對比研究
A Beautiful Way Of Looking At Things
組合常見模型梯度設(shè)置問題
損失
那些損失上百萬的演員
龙州县| 蕉岭县| 景宁| 屏东市| 宁陵县| 中西区| 建水县| 岳西县| 道孚县| 芮城县| 滁州市| 来凤县| 鲁甸县| 东乌珠穆沁旗| 凤庆县| 陕西省| 哈巴河县| 乌海市| 任丘市| 庆城县| 西贡区| 松滋市| 徐水县| 巴东县| 手机| 灵宝市| 玉田县| 子洲县| 汶川县| 岱山县| 雷山县| 涟水县| 涟源市| 新竹县| 博爱县| 都江堰市| 根河市| 石嘴山市| 阿瓦提县| 科尔| 镇巴县|