国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合感知損失的單幅霧霾圖像深度估計(jì)*

2022-12-22 11:32王園宇張文濤
關(guān)鍵詞:尺度損失卷積

張 蕾,王園宇,張文濤

(1.太原理工大學(xué)軟件學(xué)院,山西 晉中 030600;2.太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)

1 引言

獲取霧霾情況下的圖像深度信息對于場景理解、三維立體重建[1]、障礙物檢測[2,3]和視覺導(dǎo)航[4,5]等研究領(lǐng)域都具有重要的意義。目前利用激光、結(jié)構(gòu)光等在物體表面的反射獲取深度點(diǎn)云,從而完成景物表面建模與場景深度估算的方法,在一些專業(yè)場景下的應(yīng)用已經(jīng)相當(dāng)成熟[6,7],然而要獲取精確的深度信息通常需要極高的成本,甚至難以實(shí)現(xiàn)。此外,在霧霾環(huán)境中,懸浮微粒對光線的吸收與散射十分嚴(yán)重,采用上述方法進(jìn)行測量,精度難以滿足要求。傳統(tǒng)的方法,如根據(jù)視頻或多個(gè)攝像頭進(jìn)行深度測量的方法[8]、單目圖像深度估計(jì)方法[9],都沒有考慮霧霾造成的影響,而通過圖像獲取霧霾情況下的場景深度信息具有成本低廉、布置靈活和測量方便等優(yōu)點(diǎn)。本文在估計(jì)圖像深度的同時(shí),兼顧了霧霾情況下可見度低的情況,因此具有一定的理論創(chuàng)新性;且霧霾天是一種經(jīng)常出現(xiàn)的天氣現(xiàn)象,相較于清晰圖像的深度估計(jì),本文研究內(nèi)容適用性和普遍性更高,因此也具有很強(qiáng)的實(shí)際意義。

由于處理單幅圖像的技術(shù)具有相對的優(yōu)勢,本文將對霧霾情況下的單幅圖像的深度信息進(jìn)行估計(jì)。在現(xiàn)有研究中,對圖像進(jìn)行深度估計(jì)主要有2個(gè)方向:在無霧霾情況下,對圖像進(jìn)行深度估計(jì),以及在霧霾圖像恢復(fù)中,計(jì)算圖像的深度信息。

1.1 無霧霾情況下的單幅圖像的深度估計(jì)

傳統(tǒng)的單幅圖像深度估計(jì)方法主要依靠手工提取特征,構(gòu)建預(yù)測的概率圖形模型,對場景做出幾何假設(shè)。Saxena等[10]在2005年使用馬爾可夫隨機(jī)場MRF(Markov Random Field)模型從圖像中提取局部和全局特征來推斷深度,該工作后來被擴(kuò)展到三維場景重建[11]。其他方法,如結(jié)合語義標(biāo)簽,也可以改善深度估計(jì)的精度。Liu等[12]將單目深度估計(jì)轉(zhuǎn)化為一個(gè)離散連續(xù)優(yōu)化問題,但該方法依賴于RGB圖像中區(qū)域之間的相似性。2014年,Karsch等[13]提出了使用最近鄰搜索的方法,通過融合前景和背景信息來獲取深度信息,但是該方法需要對數(shù)據(jù)庫中所有數(shù)據(jù)進(jìn)行分析,導(dǎo)致計(jì)算量大、效率低,且結(jié)果依賴數(shù)據(jù)庫的完整性。綜上所述,傳統(tǒng)方法通常包含多個(gè)階段來估算深度,如特征提取、結(jié)構(gòu)預(yù)測和細(xì)化。然而,每個(gè)階段都可能存在估計(jì)誤差,積累的錯(cuò)誤必然會(huì)降低整體的估計(jì)精度。

隨著深度學(xué)習(xí)的發(fā)展,得益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的計(jì)算能力和學(xué)習(xí)能力,使用基于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)的深度估計(jì)方法可以端到端地輸出預(yù)測深度圖,在保證精確度的前提下提高了場景的深度估計(jì)質(zhì)量。2014年,Eigen等[14]利用CNN在雙尺度網(wǎng)絡(luò)結(jié)構(gòu)中預(yù)測單幅圖像的深度,雙尺度網(wǎng)絡(luò)結(jié)構(gòu)由全局粗尺度網(wǎng)絡(luò)和局部細(xì)尺度網(wǎng)絡(luò)2部分組成。這項(xiàng)工作后來加入基于VGG(Visual Geometry Group)[16]的模型,使用三尺度網(wǎng)絡(luò),以此來預(yù)測除場景深度信息以外的法線信息和標(biāo)簽信息。2017年,Jun等[17]在此基礎(chǔ)上加入一些跳躍連接,用來加速網(wǎng)絡(luò)的收斂;并且引入了新的損失函數(shù),以增強(qiáng)網(wǎng)絡(luò)泛化能力。2016年,Laina等[18]提出了一種包含殘差網(wǎng)絡(luò)的全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)構(gòu)造了一種新的損失函數(shù)對單目圖像的深度圖估計(jì)進(jìn)行建模。在這之后,大量研究人員采用這類神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行研究均取得了很好的結(jié)果[19,20]。Liu等[21]引入了超像素池和超像素反池策略,將CNN架構(gòu)與超像素分割相結(jié)合,進(jìn)行超像素深度估計(jì)。由于每個(gè)超像素內(nèi)的所有像素都具有相同的深度預(yù)測,因此預(yù)測深度圖中常常存在塊效應(yīng)。由于深度具有連續(xù)性,可以用條件隨機(jī)場CRF(Conditional Random Field)模型進(jìn)行深度估計(jì)。Liu等[22]在深度學(xué)習(xí)模型的基礎(chǔ)上加入概率圖模型,將CNN與條件隨機(jī)場結(jié)合,端對端地訓(xùn)練并得到了較好的單目圖像深度估計(jì)結(jié)果。Li等[23]將單目深度估計(jì)作為一種分類任務(wù),同時(shí)使用擴(kuò)張卷積和分層特征融合來學(xué)習(xí)尺度感知深度線索。

以上方法都是針對清晰圖像的深度估計(jì),由于大多數(shù)情況下室外大氣條件比較復(fù)雜,特別是有霧霾的情況下,光線在傳播過程中與大量懸浮顆粒發(fā)生交互作用,導(dǎo)致可見度下降,若直接使用上述方法進(jìn)行深度估計(jì),呈現(xiàn)出來的效果較差。

1.2 霧霾圖像恢復(fù)中對圖像深度的獲取

為了改善在霧霾情況下圖像的深度估計(jì)結(jié)果存在的對比度低、細(xì)節(jié)特征被覆蓋、色彩嚴(yán)重失真等問題,在基于圖像恢復(fù)的方法中,使用去霧算法將霧圖還原為清晰圖像??紤]到霧霾情況下圖像退化的原因,Narasimhan等[24]提出了大氣散射模型,模擬霧霾情況下圖像的退化過程。在還原清晰圖像過程中,通過求解霧霾圖像的大致深度信息,反解出無霧圖像,改善圖像質(zhì)量,進(jìn)而得到單幅霧圖的清晰圖像[25,26]。但在求解過程中,由于霧霾情況下介質(zhì)干擾引起的圖像退化現(xiàn)象較為嚴(yán)重,使得利用傳統(tǒng)方法得到的預(yù)測深度圖與真實(shí)深度圖存在較大的差距,無法表示精確的深度信息。

綜上所述,清晰圖像的深度估計(jì)模型缺乏普遍性和適用性,不適用于霧霾圖像,但神經(jīng)網(wǎng)絡(luò)卓越的性能為本文研究提供了思想基礎(chǔ)和理論基礎(chǔ);而在基于圖像恢復(fù)的去霧過程中,場景的深度信息作為去霧算法的中間變量,其精度得不到保證,故無法產(chǎn)生高質(zhì)量的預(yù)測深度圖。針對以上研究現(xiàn)狀,本文主要進(jìn)行了如下工作:(1)提出雙尺度模型,用于單幅霧霾圖像的深度估計(jì)。該模型對單幅霧霾圖像先進(jìn)行粗提取,再將其融合到更細(xì)致的深度估計(jì)中,和現(xiàn)有深度估計(jì)模型相比,深度估計(jì)精度更高,可以得到更多細(xì)節(jié)信息。(2)提出多卷積核上采樣,在圖像上采樣階段使用多個(gè)小的卷積核來代替大卷積核,分別與特征圖進(jìn)行運(yùn)算,將得到的圖像再進(jìn)行融合。小卷積核可以加快運(yùn)算速度,省略無用零運(yùn)算,進(jìn)而加快了網(wǎng)絡(luò)訓(xùn)練速度,提高了預(yù)測深度估計(jì)圖的質(zhì)量。(3)為了得到更好的深度估計(jì)效果,提出了新的復(fù)合損失函數(shù),將像素級的均方誤差MSE(Mean Squared Error)損失函數(shù)與感知損失函數(shù)相結(jié)合,使用訓(xùn)練好的網(wǎng)絡(luò)提取霧霾圖像的特征,在視覺上更接近真實(shí)深度圖,降低了霧霾干擾下圖像的噪聲,保留更多細(xì)節(jié)信息的同時(shí)提高了深度估計(jì)的精度。

Figure 1 Network structure of the proposed method

2 雙尺度網(wǎng)絡(luò)模型

2.1 模型設(shè)計(jì)

2.1.1 網(wǎng)絡(luò)模型介紹

受VGG網(wǎng)絡(luò)啟發(fā),本文設(shè)計(jì)了雙尺度網(wǎng)絡(luò)模型,如圖1所示,雙尺度網(wǎng)絡(luò)首先使用尺度1(粗尺度)網(wǎng)絡(luò)對霧霾圖像的深度信息進(jìn)行粗提取,然后對粗提取特征使用尺度2(細(xì)尺度)網(wǎng)絡(luò)進(jìn)行細(xì)化,提高霧霾圖像的深度估計(jì)精度。尺度1網(wǎng)絡(luò)基于VGG16網(wǎng)絡(luò)設(shè)計(jì),連接了13層特征提取層(conv-1~conv-5),每一個(gè)卷積層之后都連接批量標(biāo)準(zhǔn)化層(Batch Normalization Layer),卷積層之間使用5個(gè)最大池化層(Max Pooling Layer)對特征圖進(jìn)行壓縮。VGG16網(wǎng)絡(luò)采用修正線性單元ReLU(Rectified Linear Unit),而在本文方法中,除全連接層外,其他層均采用指數(shù)線性單元ELU(Exponential Linear Unit)函數(shù)[27]進(jìn)行非線性激活。在融合了Sigmoid函數(shù)和ReLU函數(shù)優(yōu)點(diǎn)的同時(shí),ELU函數(shù)還使得網(wǎng)絡(luò)在梯度下降過程中在負(fù)區(qū)間的梯度不為0,有效緩解了梯度消失問題,并在噪聲條件下具有更好的魯棒性。在2個(gè)全連接層(第14,15層(fc6、fc7))使用Dropout方法來防止網(wǎng)絡(luò)模型過擬合。尺度1網(wǎng)絡(luò)最后在經(jīng)過全連接層后得到4 800維向量,并重塑為1×60×80的粗略深度圖。

尺度1網(wǎng)絡(luò)對霧霾圖像進(jìn)行全局深度預(yù)測后,得到霧霾圖像的粗尺度特征,然后將全局粗尺度特征送入尺度2網(wǎng)絡(luò)進(jìn)行局部細(xì)化。為了進(jìn)一步提取霧霾圖像中的深度信息,尺度2網(wǎng)絡(luò)融合了尺度1網(wǎng)絡(luò)在下采樣過程中提取到的深度特征,有效地利用了場景的全局信息,使得雙尺度網(wǎng)絡(luò)在獲取精細(xì)深度信息的同時(shí),保留了更多的場景局部細(xì)節(jié)特征,在保證精度的前提下獲得了良好的預(yù)測深度圖。如圖1所示,尺度2網(wǎng)絡(luò)將尺度1網(wǎng)絡(luò)經(jīng)過第1次卷積(Conv-1)和第2次卷積(Conv-2)后的特征圖與尺度2網(wǎng)絡(luò)經(jīng)過細(xì)尺度卷積后的特征圖進(jìn)行融合,然后使用多卷積核上采樣方法將特征圖放大為240×320的預(yù)測深度圖。模型的網(wǎng)絡(luò)結(jié)構(gòu)和具體參數(shù)如表1所示。

2.1.2 多卷積核上采樣方法

上采樣的主要任務(wù)是對網(wǎng)絡(luò)下采樣提取到的高維特征圖進(jìn)行放大,最終得到預(yù)測深度圖。常用的上采樣方法是插值方法,在高維特征圖的像素點(diǎn)之間插入新的經(jīng)過計(jì)算的像素,但該方法存在場景物體邊界模糊的問題;此外,采用反卷積方式進(jìn)行上采樣得到的結(jié)果往往存在較嚴(yán)重的棋盤效應(yīng);在深度學(xué)習(xí)模型中,有一種上采樣方法是對高維特征圖進(jìn)行2倍放大,空像素點(diǎn)用0進(jìn)行填充,再使用7×7的卷積核對插入0像素的特征圖進(jìn)行反卷積。這種方法的缺點(diǎn)是放大后的特征圖中含有大量0像素,因此增加了較多無用運(yùn)算。

Table 1 Network parameters of two-scale neural network

為了解決上述方法中出現(xiàn)的問題,本文將7×7的反卷積核替換為4個(gè)較小的卷積核。如圖2所示,卷積核大小分別為2×2,2×3,3×2,3×3,將高維特征圖與4個(gè)不同大小的卷積核分別進(jìn)行卷積運(yùn)算,然后將得到的4幅新的特征圖在通道維度上進(jìn)行連接,之后使用激活函數(shù)(ELU)、歸一化層和卷積層,最終使特征圖的大小擴(kuò)大為原來的2倍。本文的多卷積核上采樣方法在降低棋盤效應(yīng),保留邊緣信息的同時(shí),跳過了多余的0運(yùn)算,縮短了網(wǎng)絡(luò)的訓(xùn)練時(shí)間。

Figure 2 Multi-convolution kernel upsampling method

Figure 3 Proposed joint loss of cascaded network

2.2 融合感知損失的復(fù)合損失函數(shù)

深度學(xué)習(xí)中,損失函數(shù)是訓(xùn)練網(wǎng)絡(luò)模型過程中的重要一環(huán),使用恰當(dāng)?shù)膿p失函數(shù)可以提高網(wǎng)絡(luò)的訓(xùn)練速度和深度估計(jì)性能,從而保證網(wǎng)絡(luò)具有良好的訓(xùn)練效果和收斂性。

2.2.1 像素?fù)p失

目前常用的損失函數(shù)為均方誤差函數(shù)MSE,用以計(jì)算預(yù)測深度圖與真實(shí)深度圖之間的像素級誤差,以最小化預(yù)測結(jié)果與真實(shí)值逐像素差的歐氏范數(shù)平方作為收斂方向,MSE損失函數(shù)定義如式(1)所示:

(1)

2.2.2 感知損失

傳統(tǒng)的像素?fù)p失是逐像素比較預(yù)測深度圖和真實(shí)深度圖的差異,重建出的預(yù)測深度圖存在模糊的問題。最近研究發(fā)現(xiàn)[28,29],預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)所提取的特征可以作為圖像合成任務(wù)中損失的度量標(biāo)準(zhǔn),通過比較特征之間的差異來衡量圖像的感知相似性??梢栽谔崛鼍吧疃刃畔⒌耐瑫r(shí)保留更多的場景結(jié)構(gòu)信息,提升預(yù)測深度圖的視覺質(zhì)量。

為了提高網(wǎng)絡(luò)的深度估計(jì)精度,解決霧霾干擾情況下圖像模糊對模型的影響,本文引入感知損失函數(shù),使預(yù)測深度圖在視覺效果上更加接近于真實(shí)深度圖。相對于其他網(wǎng)絡(luò),VGG16具有更深的網(wǎng)絡(luò)層數(shù)和更小的卷積核,使用預(yù)訓(xùn)練的VGG16作為特征提取器,可以在保證感受野的前提下減少模型參數(shù),提取豐富的細(xì)節(jié)信息。由于感知損失不需要成對的圖像訓(xùn)練網(wǎng)絡(luò),這使得網(wǎng)絡(luò)訓(xùn)練時(shí)的參數(shù)量減小。感知損失將真實(shí)深度圖與預(yù)測深度圖輸入VGG16網(wǎng)絡(luò)隱含層,在隱含層提取高級特征信息,經(jīng)過網(wǎng)絡(luò)第4層之后計(jì)算感知損失,如式(2)所示:

(2)

2.2.3 融合感知損失的復(fù)合損失函數(shù)

本文提出將像素?fù)p失和感知損失結(jié)合的復(fù)合損失函數(shù),如式(3)所示:

L=WMSELMSE+WPLP

(3)

其中,WMSE和Wp為權(quán)重,LMSE為像素?fù)p失函數(shù),LP為感知損失函數(shù)。本文的復(fù)合損失函數(shù)的實(shí)現(xiàn)過程如圖3所示,首先將加霧圖像與真實(shí)深度圖作為雙尺度神經(jīng)網(wǎng)絡(luò)的輸入,使用MSE損失函數(shù)逐像素比較預(yù)測深度圖與真實(shí)深度圖的不同。然后將預(yù)測深度圖與真實(shí)深度圖輸入到已訓(xùn)練好的VGG16網(wǎng)絡(luò)中,并從網(wǎng)絡(luò)第4層中提取兩者的高級特征,定義感知損失函數(shù),與MSE損失函數(shù)結(jié)合成為復(fù)合損失函數(shù)。通過最小化復(fù)合損失函數(shù)繼續(xù)學(xué)習(xí)兩者差異,使兩者在特征感知上更相似,最終生成深度估計(jì)圖。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)及數(shù)據(jù)預(yù)處理

本文實(shí)驗(yàn)使用2種不同的數(shù)據(jù)集,分別是NYU Depth v2室內(nèi)數(shù)據(jù)集[30]和Make3D室外數(shù)據(jù)集[10,11]。

NYU Depth v2數(shù)據(jù)集由微軟Kinect的RGB圖像和Depth攝像機(jī)記錄的各種室內(nèi)場景的視頻序列組成,原始數(shù)據(jù)集中圖像尺寸均為640×480,數(shù)據(jù)集中包含了1 449對密集標(biāo)記的RGB圖像和深度圖像,本文將其中1 000對作為訓(xùn)練集,200對作為測試集,249對作為驗(yàn)證集。

Make3D數(shù)據(jù)集是Saxena等建立的數(shù)據(jù)集,該數(shù)據(jù)集是一個(gè)包含不同室外場景真實(shí)景深的標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)集,目前已廣泛應(yīng)用于三維重建的研究。Make3D數(shù)據(jù)集提供400對圖像組成訓(xùn)練集,134對圖像組成測試集,其戶外圖像的真實(shí)場景深度由激光設(shè)備測量得到。

將2個(gè)數(shù)據(jù)集中的圖像分別降采樣到320×240大小,由于訓(xùn)練集數(shù)據(jù)量較少,所以本文將圖像對進(jìn)行數(shù)據(jù)擴(kuò)充,方法如下所示:(1)左右翻轉(zhuǎn):將圖像水平、左右翻轉(zhuǎn)。(2)尺度變換:RGB圖像和深度圖分辨率按照等比例縮放,尺度因子s∈[1.1,1.5]。(3)色彩變換:將彩色圖的亮度、對比度和飽和度等比例縮放,縮放因子k∈[0.6,1.3]。根據(jù)上述方法,在2個(gè)數(shù)據(jù)集上都分別得到了12 000個(gè)訓(xùn)練樣本。

由于用于深度估計(jì)的數(shù)據(jù)集中大部分都是室內(nèi)外的清晰圖像以及對應(yīng)的深度圖,所以在實(shí)驗(yàn)時(shí)需要將數(shù)據(jù)集進(jìn)行預(yù)處理,將清晰的圖像人工加霧用于網(wǎng)絡(luò)模型訓(xùn)練。本文分別從增強(qiáng)后的數(shù)據(jù)集中獲取無霧圖像及其真實(shí)場景深度圖,再結(jié)合He等[31]的方法以及PS技術(shù)進(jìn)行加霧,制作成為所需的加霧數(shù)據(jù)集,得到的部分加霧圖像如圖4所示。

Figure 4 Adding fog on NYU Depth v2 and Make3D datasets

3.2 實(shí)驗(yàn)環(huán)境與設(shè)置

本文在Ubuntu系統(tǒng)下,基于PyTorch框架進(jìn)行實(shí)驗(yàn),編程語言為Python 3.6。所有模型均使用2塊NVIDIA 2080Ti顯卡訓(xùn)練,顯存容量為20 GB;CPU型號為Intel(R)Xeon(R)E5-2680 v3,主頻為2.50 GHz,內(nèi)存為64 GB。批尺寸(Batch Size)設(shè)置為8,初始學(xué)習(xí)率為0.001,學(xué)習(xí)率衰減因子α=0.9。優(yōu)化器采用隨機(jī)梯度下降法,動(dòng)量為0.9。模型訓(xùn)練過程為:首先對尺度1網(wǎng)絡(luò)進(jìn)行訓(xùn)練,當(dāng)尺度1網(wǎng)絡(luò)收斂至穩(wěn)定時(shí),固定尺度1網(wǎng)絡(luò)的參數(shù);然后對尺度2網(wǎng)絡(luò)進(jìn)行訓(xùn)練,待尺度2網(wǎng)絡(luò)的參數(shù)收斂后,對2部分網(wǎng)絡(luò)同時(shí)更新至收斂。

3.3 評價(jià)指標(biāo)

本文將與同樣在加霧后的數(shù)據(jù)集上開展的其他研究成果進(jìn)行對比,采用了常用的衡量指標(biāo)來評估結(jié)果。

(1)準(zhǔn)確率。

(2)平均相對誤差REL(mean RELative error)。REL計(jì)算方法如式(4)所示:

(4)

(3)對數(shù)空間平均誤差A(yù)LE(Mean Log10 Error)。ALE計(jì)算方法如式(5)所示:

(5)

(4)均方根誤差RMSE(Root Mean Squared Error)。RMSE計(jì)算方法如式(6)所示:

(6)

其中,T為測試圖像的像素?cái)?shù)量總和。

3.4 NYU Depth v2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

將NYU Depth v2數(shù)據(jù)集按照6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集,使用約7 200對霧圖-深度圖訓(xùn)練樣本對模型進(jìn)行訓(xùn)練。模型訓(xùn)練損失曲線圖如圖5所示。從圖5中可以看到,隨著迭代次數(shù)的不斷增加,網(wǎng)絡(luò)模型的精度損失逐漸降低,當(dāng)達(dá)到300次后,模型開始收斂至穩(wěn)定,表明本文提出的模型可達(dá)到預(yù)期訓(xùn)練效果。

Figure 5 Loss curvs of training on NYU Depth v2 dataset

為了提高預(yù)測深度圖中物體的邊緣質(zhì)量,本文提出了多卷積核上采樣方法,加快了網(wǎng)絡(luò)的訓(xùn)練速度。為了證明本文提出的多卷積核上采樣方法的有效性,在保持相同實(shí)驗(yàn)設(shè)置和模型參數(shù)的情況下,分別使用7×7卷積核與多卷積核進(jìn)行上采樣,網(wǎng)絡(luò)的訓(xùn)練時(shí)間如圖6所示。從圖6中可以看出,當(dāng)網(wǎng)絡(luò)收斂時(shí),7×7卷積核上采樣訓(xùn)練時(shí)間約23 h,而多卷積核上采樣訓(xùn)練時(shí)間約20.2 h,比7×7卷積核直接上采樣的訓(xùn)練時(shí)間縮短約12%。圖7為定性實(shí)驗(yàn)結(jié)果,從圖7中可以看出,相比于使用7×7卷積核上采樣方法,多卷積核上采樣進(jìn)一步細(xì)化了場景物體邊緣輪廓(臺(tái)燈)。同時(shí),對比圖7b和圖7c,使用復(fù)合函數(shù)也使得預(yù)測深度圖的模糊問題得到改善,在保證深度值精度的前提下提高了預(yù)測深度圖的視覺質(zhì)量。

Figure 6 Comparison of training time on NYU Depth v2

Figure 7 Comparison of upsampling on NYU Depth v2 dataset

為了進(jìn)一步驗(yàn)證本文方法的有效性,將本文方法與文獻(xiàn)[14,18,23]等的方法進(jìn)行比較,結(jié)果如圖8所示。從圖8中可發(fā)現(xiàn),在相同實(shí)驗(yàn)條件下,本文方法生成的深度預(yù)測圖中物體邊緣結(jié)構(gòu)(桌椅、墻壁等)更為清晰,深度值識別更為準(zhǔn)確。相較于其他對比方法,本文方法的預(yù)測深度圖在場景的邊緣區(qū)域(臺(tái)燈、書架等)具有更好的效果。這是因?yàn)楸疚牡碾p尺度模型融合了2次特征信息,使得網(wǎng)絡(luò)可以充分地提取霧霾圖像的深度信息和結(jié)構(gòu)信息;并且本文在尺度2網(wǎng)絡(luò)收斂后繼續(xù)訓(xùn)練雙尺度網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以學(xué)習(xí)到更好的參數(shù),在霧霾干擾下取得良好的深度估計(jì)效果。

Figure 8 Comparison of depth predictions on NYU Depth v2 dataset

如圖8g所示,基于MSE的損失函數(shù)得出的結(jié)果對場景深度信息的還原較為平滑,這是因?yàn)镸SE損失函數(shù)在像素空間對預(yù)測深度圖的深度值做了平均。如圖8h所示,使用融合感知損失的復(fù)合損失函數(shù)后,邊緣信息和細(xì)節(jié)信息保留較充分。相較于只使用MSE損失函數(shù),第2行中臺(tái)燈的邊緣更為清晰;第4行中書架的結(jié)構(gòu)輪廓和細(xì)節(jié)信息預(yù)測更為準(zhǔn)確。這是因?yàn)楦兄獡p失結(jié)合了已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)的高級特征信息,提取的細(xì)節(jié)更為豐富,當(dāng)融合MSE損失函數(shù)后,會(huì)得到更好的結(jié)果。

在NYU Depth v2室內(nèi)數(shù)據(jù)集上,本文方法與其他方法對比的定量實(shí)驗(yàn)結(jié)果如表2所示。從表2中可以看出,引入了感知損失函數(shù)的方法各項(xiàng)評價(jià)指標(biāo)都有較大提高,相比于MSE損失函數(shù),使用復(fù)合損失函數(shù)得到了較小的誤差數(shù)據(jù),并且在準(zhǔn)確率上也有了較大提升。通過對比可以看到,本文提出的方法在各項(xiàng)指標(biāo)上都有比較好的表現(xiàn)。

Table 2 Comparison of experimental results on NYU Depth v2 dataset

Figure 9 Loss curves of trianing on Make3D dataset

3.5 Make3D數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

將預(yù)處理之后的Make3D數(shù)據(jù)集中的訓(xùn)練集用于模型的訓(xùn)練,約7 200對圖像,訓(xùn)練后的loss-Epoch圖如圖9所示。圖9表明隨著迭代次數(shù)的增加,模型的損失在逐漸降低,在Epoch=300時(shí)逐漸收斂至穩(wěn)定狀態(tài),表明復(fù)合損失函數(shù)對雙尺度網(wǎng)絡(luò)起到了有效的監(jiān)督,可達(dá)預(yù)期效果。

如圖10所示,在迭代到300次時(shí),使用多卷積核上采樣方法(22.4 h)比7×7卷積核(25.5 h)訓(xùn)練時(shí)間更短。同時(shí)從圖11可以看出,使用多尺度卷積核上采樣得到的預(yù)測深度圖中,物體的邊緣較為清晰,改善了較大卷積核對圖像的影響。

Figure 10 Comparison of training time on Make3D dataset

Figure 11 Comparison of upsampling on Make3D dataset

將本文方法在Make3D數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與文獻(xiàn)[12,13,22]方法的實(shí)驗(yàn)結(jié)果進(jìn)行對比,結(jié)果如圖12所示。從圖12中可以看到,本文方法對較遠(yuǎn)(?70 m)區(qū)域(如第1行與第2行)的邊緣信息識別良好。由于添加了復(fù)合損失函數(shù),一些邊緣信息保留完好,比如第1行中房屋門洞的邊緣信息。對近處(<70 m)區(qū)域的識別也有很大提升,相較于其他方法,第3行中樹木的邊緣清晰度,以及樹左邊的深度估計(jì),都比較逼真地還原了真實(shí)深度圖。

Figure 12 Comparison of depth map predictions on Make 3D dataset

在Make3D數(shù)據(jù)集上的對比實(shí)驗(yàn)定量評價(jià)結(jié)果如表3表示,表中C1誤差表示計(jì)算真實(shí)深度值小于70 m的圖像區(qū)域,C2誤差表示全部圖像區(qū)域都將參與誤差的計(jì)算??梢钥闯霰疚姆椒ㄔ贑1和C2誤差上均低于其他對比方法。

Table 3 Comparison of experimental results on Make3D dataset

4 結(jié)束語

本文提出了雙尺度網(wǎng)絡(luò)模型對單幅霧霾圖像進(jìn)行深度估計(jì),該模型結(jié)合感知損失函數(shù)與MSE損失函數(shù),并使用多卷積核上采樣方法進(jìn)行優(yōu)化,能夠更加快速地對模型進(jìn)行訓(xùn)練,準(zhǔn)確地對單幅霧霾圖進(jìn)行深度估計(jì)。在加霧預(yù)處理后的NYU Depth v2和make3D數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文方法對霧霾圖像深度估計(jì)有著良好的適應(yīng)性,提高了霧霾情況下的估算精度,滿足實(shí)際應(yīng)用的基本要求。然而,所提網(wǎng)絡(luò)模型只能處理大小固定的圖像,不具有靈活性和普適性,將在下一步工作中,對輸入圖像尺寸固定這一不足進(jìn)行改進(jìn)。

猜你喜歡
尺度損失卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
兩敗俱傷
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
宇宙的尺度
菜燒好了應(yīng)該盡量馬上吃
損失
9