張 聰 馬燕新 萬建偉 許 可 徐國權(quán)
(1.國防科技大學(xué)電子科學(xué)學(xué)院,湖南長沙 410073;2.國防科技大學(xué)氣象海洋學(xué)院,湖南長沙 410073;3.海洋探測技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南長沙 410073)
人工智能發(fā)展的三個階段:低級-計算智能、中級-感知智能、高級-認(rèn)知智能。感知智能中最重要的一個部分就是數(shù)據(jù)的收集。數(shù)據(jù)收集就要求機(jī)器人對自己所處的環(huán)境進(jìn)行信息采集,獲得有用的信息。單目深度估計技術(shù)就是賦予人工智能系統(tǒng)從一張RGB 圖像中獲取世界坐標(biāo)系下的三維深度信息的能力,是數(shù)據(jù)收集系統(tǒng)中的一項(xiàng)重要技術(shù)。深度指的是空間中的目標(biāo)到相機(jī)的距離[1]。
獲取深度信息的第一種方法是通過深度傳感器直接獲取對應(yīng)三維空間中的信息,如LIDAR[2-6]、RGB-D 相機(jī)[7-10]。RGB-D 相機(jī)通過TOF、雙目、結(jié)構(gòu)光等技術(shù)直接獲得RGB 圖像的像素級深度圖,但是存在很大的缺陷,如測量范圍有限、室外測量時對光照敏感。LiDAR 在無人駕駛和工業(yè)感知領(lǐng)域中廣泛應(yīng)用于對深度的測量,但是LiDAR 操作復(fù)雜難以普及。深度傳感器的大尺度和高功耗以及成本高的缺陷,導(dǎo)致它們很難廣泛應(yīng)用于無人機(jī)和其他小型機(jī)器人上。綜上所述,傳感器直接獲取深度的方法存在技術(shù)復(fù)雜,成本高,容易受環(huán)境影響[11]的問題,且很難直接生成稠密點(diǎn)云數(shù)據(jù),因此很難大范圍推廣使用。獲取深度信息的第二種辦法就是通過多視角的立體匹配,但是這種方法不能處理遮擋,特征缺少或者具有重復(fù)紋理的區(qū)域。
獲取深度的第三種方法是基于深度學(xué)習(xí)的深度估計的方法,其主要分為多視圖深度估計和單幅圖像深度估計。
基于深度學(xué)習(xí)的多視圖深度估計MVS(Multiview stereo)將多幀圖像和位姿輸入到CNN 網(wǎng)絡(luò)中直接得到深度圖,基于學(xué)習(xí)的特征匹配解決了部分無紋理透明、反光等傳統(tǒng)深度估計方法難以克服的問題,但由于GPU 的內(nèi)存限制仍難以重建高分辨率場景,且需要對相機(jī)進(jìn)行精準(zhǔn)的校準(zhǔn)。最具有代表性的工作就是MVSNet[12],其在網(wǎng)絡(luò)中首先在2D 圖像上進(jìn)行特征提取,后通過單應(yīng)變換構(gòu)造代價體,最后對代價體進(jìn)行正則化,回歸得到深度圖。其他的多視圖立體匹配的方法有[13-16]。
相比于多視角深度估計,單幅圖像的深度估計方法不需要對相機(jī)進(jìn)行精準(zhǔn)的校準(zhǔn)。主要的思路就是通過卷積神經(jīng)網(wǎng)絡(luò)擬合輸入的RGB 圖像和輸出深度之間的關(guān)系。Eigen 等人[17]首次利用卷積神經(jīng)網(wǎng)絡(luò)解決單目深度估計的問題,該網(wǎng)絡(luò)由全局粗尺度網(wǎng)絡(luò)和局部優(yōu)化網(wǎng)絡(luò)組成,首先對初始深度圖進(jìn)行回歸,再通過優(yōu)化網(wǎng)絡(luò)得到深度圖。但其處理方式太過簡單以至于得到的深度圖細(xì)節(jié)恢復(fù)不準(zhǔn)確,存在邊界扭曲的問題。Hu[18]等人在網(wǎng)絡(luò)中引入多層特征和多任務(wù)損失。Hao[19]等人利用連續(xù)的膨脹卷積保留特征圖的高分辨率。
基于上述問題和思路,本文提出了一種基于通道注意力機(jī)制的單目深度估計算法,具體貢獻(xiàn)為:
1)設(shè)計通道注意力層:本文依據(jù)不同的通道對深度信息的貢獻(xiàn)度不同,對通道進(jìn)行編碼具體操作將RGB圖像通過一個全連接層將通道數(shù)擴(kuò)展為64,將通道進(jìn)行編碼后送入編碼器解碼器網(wǎng)絡(luò)中去估計深度圖。實(shí)驗(yàn)表明,對通道進(jìn)行編碼后,在遠(yuǎn)距離與攝像機(jī)平行的平面上的估計效果有顯著提升且能恢復(fù)出深度圖中更多的細(xì)節(jié)信息。
2)設(shè)計跳躍連接:為解決現(xiàn)有的深度估計的方法在進(jìn)行特征提取的時候使用連續(xù)的卷積和下采樣極大地壓縮了分辨率導(dǎo)致在恢復(fù)深度圖的時候邊緣定位不準(zhǔn)確的問題,本文建立編碼器到解碼器的跳躍連接,提高網(wǎng)絡(luò)對原始像素信息的利用率,提高網(wǎng)絡(luò)對深度突然變化的細(xì)節(jié)方面估計的效果。
3)實(shí)驗(yàn)情況:在NYU Depth V2數(shù)據(jù)集上進(jìn)行不同算法的深度估計對比實(shí)驗(yàn),具體結(jié)果在除去rms指標(biāo)以外的所有其他指標(biāo)上,本文提出的算法取得了最優(yōu)結(jié)果。在得到的深度圖上恢復(fù)的物體邊界更清晰,遠(yuǎn)距離同一平面上深度連續(xù)。
整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,網(wǎng)絡(luò)整體采用編碼器-解碼器結(jié)構(gòu),其中編碼器采用的是DenseNet-169[20],解碼器通過雙線性插值的方法將特征圖的上采樣,最終回歸出深度圖。為了提高編碼器對圖像特征的表征能力,對通道進(jìn)行編碼,首先通過自動學(xué)習(xí)的方式獲得通道對深度信息的貢獻(xiàn)值,利用貢獻(xiàn)值的大小為特征通道賦予權(quán)值,從而讓網(wǎng)絡(luò)特別關(guān)注某些通道,學(xué)習(xí)到更多的信息。此外,為了解決連續(xù)的卷積和下采樣極大地壓縮了分辨率導(dǎo)致在恢復(fù)深度圖的時候邊緣定位不準(zhǔn)確的問題,本文融合低層的位置信息和高層的語義信息,建立編碼器到解碼器的跳連接。
圖1 網(wǎng)絡(luò)整體架構(gòu)圖Fig.1 Overall network architecture diagram
在神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制通常是一個額外的神經(jīng)網(wǎng)絡(luò),能夠通過學(xué)習(xí)的方式選擇輸入的數(shù)據(jù)中較為重要的部分,在大量的信息中篩選出網(wǎng)絡(luò)更加需要的信息[21]。本文的通道注意力編碼主要分為壓縮Fsq和擴(kuò)展Fex兩個部分[22],其作用是顯式地實(shí)現(xiàn)對特征通道相互依賴關(guān)系的捕捉,選擇對深度估計網(wǎng)任務(wù)更重要的通道。
進(jìn)行通道注意力編碼之前要通過標(biāo)準(zhǔn)卷積Fc完成維度的映射Fc:X→U,X∈RH'×W'×C',U∈RH×W×C,對應(yīng)著網(wǎng)絡(luò)中[3 × 480 × 640]映射到[64 × 480 ×640],F(xiàn)c對應(yīng)的公式(1):
其中,*表示卷積,vc=表示第c個卷積核,X=[x1,x2,…,xC'],uc表示U中第c個二維矩陣,下標(biāo)c表示通道數(shù)。是一個2D 的卷積核,xs是第s個輸入。由于輸出是通過所有通道的和來產(chǎn)生的,所以通道之間的關(guān)系被隱式地嵌入到vc中,這些依賴性與空間的相關(guān)性混淆在一起,為了提高網(wǎng)絡(luò)對信息特征的敏感度,因此重新校正通道編碼,即通過壓縮和擴(kuò)展操作。
壓縮操作Fsq的含義為:通過平均池化模塊實(shí)現(xiàn)特征壓縮,實(shí)現(xiàn)全局信息嵌入獲取,具體而言為將H×W×C的特征層壓縮到1 × 1 ×C。這屬于空間維度的一種特征選擇,由于全像素參與計算,所以使得該特征向量具有全局的感受野。通過壓縮操作在網(wǎng)絡(luò)編碼器階段得到更抽象的語義信息,有助于深度估計網(wǎng)絡(luò)估計全局大平面深度的場景。
擴(kuò)展操作Fex的含義為:在壓縮操作之后通過擴(kuò)展操作來完整的捕獲通道維度上的依賴性,實(shí)現(xiàn)自適應(yīng)重新校準(zhǔn)的目標(biāo)。具體而言就是將壓縮操作后得到的全局特征描述符依次通過全連接層、RELU激活層、全連接層、Sigmoid激活層。通過擴(kuò)展操作能使網(wǎng)絡(luò)選取更加重要的通道信息,從而學(xué)習(xí)到場景中更多的細(xì)節(jié)信息。整個過程如下:
單幅圖像深度估計的網(wǎng)絡(luò)主要分為兩個部分,第一部分是編碼器,圖像通過編碼器提取特征,其中低層的是像素的位置信息,高層的是語義信息,然后送入第二部分解碼器網(wǎng)絡(luò)中,回歸得到深度圖。連續(xù)的卷積和下采樣操作會損失很多像素信息,這是深度估計問題中需要解決的問題。本文利用跳躍連接的操作,將還沒有經(jīng)過下采樣和卷積的特征圖加到解碼器網(wǎng)絡(luò)中,提高網(wǎng)絡(luò)對像素信息的利用率。通過這種方式,有助于深度圖中的細(xì)節(jié)的恢復(fù),即深度突然變化的邊緣。編碼器-解碼器網(wǎng)絡(luò)如圖2所示。
圖2 編碼器-解碼器網(wǎng)絡(luò)Fig.2 Encoder-decoder network
編碼器:編碼器使用的是主流的分類網(wǎng)絡(luò)DenseNet,并利用遷移學(xué)習(xí),遷移在ImageNet[23]上的預(yù)訓(xùn)練模型DenseNet-169 的參數(shù),減少網(wǎng)絡(luò)模型的訓(xùn)練時間。編碼器將輸入的RGB 圖片編碼為特征向量。
解碼器:將編碼器得到的特征向量輸入到解碼器。解碼器由編碼器的跳連接和連續(xù)的上采樣層構(gòu)成。其中每個上采樣層由2個雙線性上采樣塊組成。最后編碼器輸出分辨率為320×240大小的深度圖。
深度估計任務(wù)中標(biāo)準(zhǔn)的損失函數(shù)就是定義預(yù)測的深度值和深度圖的真實(shí)值之間的距離差別。不同的損失函數(shù)對深度估計網(wǎng)絡(luò)的訓(xùn)練速度和估計性能的表現(xiàn)有很大影響。在深度估計文獻(xiàn)[14-17]中有許多用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的損失函數(shù)。為了恢復(fù)場景物體的邊界,本文定義的整體損失函數(shù)為L(y,)(公式(4)),其中利用預(yù)測的深度值和真實(shí)的深度值之間的差距對深度信息進(jìn)行估計(公式(5)),利用像素梯度損失對深度圖的高頻信息(深度邊緣)進(jìn)行約束(公式(6)),利用結(jié)構(gòu)相似性(Structural Similarity,SSIM)[24]圖像任務(wù)的常用度量,來約束深度圖的質(zhì)量(公式(7))。
目前,最常用、引用最廣泛的單目深度估計數(shù)據(jù)集是NYU Depth V2[8],本文同樣采樣該數(shù)據(jù)集進(jìn)行訓(xùn)練與測試。NYU Depth V2 數(shù)據(jù)集是一個面向室內(nèi)環(huán)境的、主要用于場景理解RGBD 數(shù)據(jù)集。數(shù)據(jù)集中的RGBD 數(shù)據(jù)均是基于微軟的Kinect 在不同室內(nèi)環(huán)境采集到的,共包含1449 幅帶有詳細(xì)標(biāo)注、深度進(jìn)行補(bǔ)全的圖像對,RGB 圖像與深度圖像的分辨率分別為640×480 和320×240,其中795 幅圖像對用于訓(xùn)練,其余654 幅圖像對用于深度估計測試。在訓(xùn)練階段,將原始分辨率的圖像作為網(wǎng)絡(luò)的輸入,同時將數(shù)據(jù)集中的真值深度圖下采樣到320×240,并且設(shè)置網(wǎng)絡(luò)中深度圖的深度范圍為0~10 m。在測試階段,網(wǎng)絡(luò)將得到的一半分辨率的深度圖進(jìn)行2 倍上采樣以匹配真值深度圖的分辨率,同時對得到的深度圖精度進(jìn)行評估。
本實(shí)驗(yàn)基于顯存為11 G 的2080ti 顯卡進(jìn)行訓(xùn)練;環(huán) 境:python 版本為3.7,cuda 版本為11.4,paddlepaddle 版本為2.2.1;初始參數(shù)設(shè)置:學(xué)習(xí)率為0.0001,塊大小設(shè)置為2,訓(xùn)練輪數(shù)設(shè)置為20。
為了評價和比較各種深度估計網(wǎng)絡(luò)的性能,參考文獻(xiàn)[19]中提出了一種普遍接受的評價方法,該方法有四個評價指標(biāo):不同閾值下的準(zhǔn)確率(δ1,δ2,δ3)、絕對相對誤差(AbsRel)、均方根誤差(RMSE)、平均絕對對數(shù)誤差(log10)。這些指標(biāo)的具體公式為:
其中di是像素i的預(yù)測深度值,而表示深度的真值。N為具有實(shí)際深度值的像素總數(shù),thr為閾值。
3.3.1 公開數(shù)據(jù)集結(jié)果與分析
在NYU Depth V2數(shù)據(jù)集上進(jìn)行不同算法的深度估計對比實(shí)驗(yàn),定量實(shí)驗(yàn)結(jié)果如表1 所示,部分估計結(jié)果示例如圖3 所示。由表1 可以看出,在除去RMSE指標(biāo)以外的所有其他指標(biāo)上,本文提出的算法取得了最優(yōu)結(jié)果,具體而言,在δ1指標(biāo)上取得了0.889的最優(yōu)結(jié)果,在δ2指標(biāo)上取得了0.978的最優(yōu)結(jié)果,在δ3指標(biāo)上取得了0.994 的最優(yōu)結(jié)果,在AbsRel 取得了0.109 的最優(yōu)結(jié)果,在log10取得了0.046的最優(yōu)結(jié)果,證明了本文算法的有效性。與文獻(xiàn)[27]的算法相比,本文算法在δ1、δ2、δ3三個指標(biāo)上分別提升了7.3%、13.4%、0.2%。在AbsRel、RMSE、log10三個指標(biāo)上,誤差分別減少了5.5%、8.5%、10.8%。在網(wǎng)絡(luò)結(jié)構(gòu)上,本文算法相較于[27]建立編碼器到解碼器的連接,融合低層的像素信息和高層的語義信息,降低網(wǎng)絡(luò)的損失,保證了本文算法的有效性。與文獻(xiàn)[28]的算法相比,本文算法在δ1、δ2兩個指標(biāo)上,分別提升了5.0%、0.4%。在AbsRel、log10兩個指標(biāo)上,誤差分別減少了12.8%、15.2%。在網(wǎng)絡(luò)結(jié)構(gòu)上,本文算法與[28]的區(qū)別在于在編碼器中嵌入通道注意力,能夠使網(wǎng)絡(luò)自適應(yīng)的學(xué)習(xí)通道的權(quán)重能夠提高得到的深度圖的精度,減少像素深度信息的誤差,保證了本文算法的有效性。
表1 單目深度估計網(wǎng)絡(luò)性能Tab.1 Monocular depth estimation network performance
圖3 深度圖可視化結(jié)果圖Fig.3 Depth map visualisation results
部分估計結(jié)果如圖3所示,圖中第一列為實(shí)驗(yàn)場景的RGB 圖像,第二列為準(zhǔn)確深度結(jié)果。后面三列分別為文獻(xiàn)[27]、文獻(xiàn)[28]以及本文算法的深度估計結(jié)果。不難看出,本文算法的估計結(jié)果更光滑,對場景細(xì)節(jié)恢復(fù)更好,同時在與攝像機(jī)平行的平面上獲得的深度是連續(xù)的。如圖中方框標(biāo)注區(qū)域,該區(qū)域均是距離攝像機(jī)較遠(yuǎn)的位置且存在陰影或者透明區(qū)域,本文算法的估計效果均為最優(yōu)。第一行方框標(biāo)注中的沙發(fā)以及角落,文獻(xiàn)[27]與[28]恢復(fù)效果均較比本文算法要模糊。第二行中,紅色框標(biāo)注出的柱子本文算法大致恢復(fù)出來并有所區(qū)分,白色框標(biāo)注的椅子也完全區(qū)分開來。第三行中,白色框與紅色框標(biāo)注區(qū)域均存在直角角落區(qū)域,本文算法估計結(jié)果中角落區(qū)域十分明顯,其余算法均將該角落恢復(fù)成平面區(qū)域了。本文算法對局部區(qū)域的細(xì)節(jié)學(xué)習(xí)更為充分,因而可以恢復(fù)出更多的細(xì)節(jié)結(jié)構(gòu)。
3.3.2 真實(shí)場景測試結(jié)果與分析
用訓(xùn)練好的網(wǎng)絡(luò)模型在真實(shí)場景下進(jìn)行測試,結(jié)果良好,可視化結(jié)果如圖4。該模型用于真實(shí)場景時,能夠精確的恢復(fù)出物體的邊界。同時在距離相機(jī)深度相同的平面上,獲得的深度是連續(xù)的。具體而言,辦公室和會議室場景中能夠清晰恢復(fù)場景邊界。由真實(shí)場景測試結(jié)果可知,該模型具有良好的泛化性,具有實(shí)用價值。
圖4 真實(shí)場景測試結(jié)果Fig.4 Real scenario test results
3.3.3 消融實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文算法中各個模塊在深度估計中的性能,本節(jié)在NYU Depth V2數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),主要分析通道注意力機(jī)制、編碼器結(jié)構(gòu)、跳連接結(jié)構(gòu)等。設(shè)置三個消融方式:①編碼器端是否嵌入通道注意力;②編碼器不同的層數(shù)對網(wǎng)絡(luò)模型精度的影響;③是否加入跳躍連接。具體精度結(jié)果見表2。由表2可以看出,在沒有跳連接和通道注意力模塊的時候網(wǎng)絡(luò)模型精度較低。當(dāng)編碼器的層數(shù)為169 時,網(wǎng)絡(luò)模型在大多數(shù)評價指標(biāo)上取得最高精度。詳細(xì)結(jié)果分析如下:
(1)通道注意力機(jī)制分析
消融方式①對通道注意力機(jī)制對網(wǎng)絡(luò)的性能影響進(jìn)行分析,設(shè)計網(wǎng)絡(luò)SE-Densedepth-161 與網(wǎng)絡(luò)None SE 進(jìn)行測試,SE-Densedepth-161 中包含有通道注意力機(jī)制,None SE 不含注意力機(jī)制,其實(shí)驗(yàn)結(jié)果如表2 中第三行與第一行所示,對應(yīng)的示例結(jié)果為圖5中第二列與第五列。在編碼器中嵌入通道注意力后,在δ1、δ2兩個指標(biāo)上,分別提升了5.0%、0.4%。在AbsRel、log10兩個指標(biāo)上,誤差分別減少了12.8%、15.2%。在編碼器中嵌入通道注意力,能夠使網(wǎng)絡(luò)自適應(yīng)的學(xué)習(xí)通道的權(quán)重能夠提高得到的深度圖的精度,減少像素深度信息的誤差,保證了本文算法的有效性。
(2)編碼器層數(shù)分析
消融方式②對編碼器層數(shù)對網(wǎng)絡(luò)的性能影響進(jìn)行分析,設(shè)計網(wǎng)絡(luò)SE-Densedepth-161、網(wǎng)絡(luò)SEDensedepth-169和網(wǎng)絡(luò)SE-Densedepth-201進(jìn)行測試,SE-Densedepth-161 中編碼器層數(shù)為161,SEDensedepth-169中編碼器層數(shù)為169,SE-Densedepth-201中編碼器層數(shù)為201,其實(shí)驗(yàn)結(jié)果如表2中第二行、第三行和第四行所示,對應(yīng)的示例結(jié)果為圖5中第二列、第三列和第四列。SE-Densedepth-169相較于SEDensedepth-161的實(shí)驗(yàn)結(jié)果,在δ1、δ2、δ3三個指標(biāo)上,分別提升了5.7%、1.3%、0.2%。在AbsRel、RMSE、log10三個指標(biāo)上,誤差分別減少了21.1%、14.4%、19.5%。SE-Densedepth-169相較于SE-Densedepth-201 的實(shí)驗(yàn)結(jié)果,在δ1、δ2兩個指標(biāo)上,分別提升了0.5%、0.3%。在AbsRel、RMSE、log10三個指標(biāo)上,誤差分別減少了2.7%、2.5%、2.1%。當(dāng)編碼器的層數(shù)為169 時,網(wǎng)絡(luò)模型在大多數(shù)評價指標(biāo)上取得最高精度。編碼器層數(shù)減少會失去精度,編碼器層數(shù)為201 時不但造成網(wǎng)絡(luò)參數(shù)過多的問題,也難以帶來精度的提升。
(3)跳連接操作分析
消融方式③對跳連接操作對網(wǎng)絡(luò)的性能影響進(jìn)行分析,設(shè)計網(wǎng)絡(luò)SE-Densedepth-169 與網(wǎng)絡(luò)None skip connect 進(jìn)行測試,SE-Densedepth-169 中包含有跳連接操作,None skip connect 不含跳連接操作,其實(shí)驗(yàn)結(jié)果如表2中第三行與第五行所示,對應(yīng)的示例結(jié)果為圖5中第三列與第六列。在δ1、δ2、δ3三個指標(biāo)上,分別提升了15.4%、3.4%、0.6%。在AbsRel、RMSE、log10三個指標(biāo)上,誤差分別減少了51.3%、33.2%、45.6%。加入跳連接操作后,能夠融合低層特征圖像素的位置信息和高層特征圖的語義信息提高逐個像素估計的精度,證明了本算法的有效性。
表2 消融實(shí)驗(yàn)性能結(jié)果比較Tab.2 Comparison of ablation performance results
部分消融實(shí)驗(yàn)的估計結(jié)果如圖5 所示,圖中第一列為實(shí)驗(yàn)場景的RGB 圖片,第二列、第三列和第四列分別為編碼器層數(shù)161、169 和201 的深度估計結(jié)果,第五列和最后一列分別為沒有嵌入通道注意力和沒有跳連接的深度估計結(jié)果。不難看出,SEDensedepth-169 的估計結(jié)果更光滑對場景細(xì)節(jié)恢復(fù)的更好。具體如圖中紅色方框標(biāo)注的區(qū)域,該區(qū)域?qū)鼍爸形矬w邊界的恢復(fù)效果均優(yōu)于其他結(jié)果。具體而言,第一個場景中沙發(fā)邊界區(qū)域以及角落、第二個場景人手中的水杯、第三個場景人和人背后的電腦、第四個場景的門框和第五個場景左側(cè)背景墻均比其他消融方案邊界清晰。通過直觀可視化可以得到三點(diǎn)結(jié)論:①沒有嵌入通道注意力的可視化結(jié)果相比于其他結(jié)果,在與攝像機(jī)平行的平面上深度不連續(xù)且細(xì)節(jié)恢復(fù)不準(zhǔn)確。嵌入通道注意力,即網(wǎng)絡(luò)通過對特征通道的權(quán)重學(xué)習(xí),有利于解決深度估計任務(wù)中與攝像機(jī)平行的平面的深度出現(xiàn)斷層的情況且能學(xué)習(xí)到場景中更多細(xì)節(jié);②層數(shù)少于169 的情況或多于169 的情況均會出現(xiàn)深度邊緣的模糊,如第三行辦公室人物的輪廓;③在沒有跳連接時,得到場景的深度出現(xiàn)模糊。這表明跳連接能夠提高網(wǎng)絡(luò)對低層信息的利用率,有助于得到高精度的深度圖。因此通道注意力模塊和跳連接操作對同一距離像素點(diǎn)的深度和局部區(qū)域的細(xì)節(jié)學(xué)習(xí)更為充分,可以得到同一距離深度連續(xù)且細(xì)節(jié)更為豐富的深度圖。
圖5 消融實(shí)驗(yàn)結(jié)果可視化Fig.5 Visualization of ablation results
本文利用對圖像的通道進(jìn)行編碼,通過學(xué)習(xí)的方法重點(diǎn)關(guān)注對深度估計性能貢獻(xiàn)較大的通道,提高編碼器對圖像特征的表征能力,然后送入編碼器-解碼器網(wǎng)絡(luò)中去進(jìn)行單幅圖像的深度估計。編碼器采用的是訓(xùn)練好的DenseNet169模型,能夠避免重復(fù)訓(xùn)練,減少訓(xùn)練時長。在NYU Depth V2數(shù)據(jù)集上的測試結(jié)果與之前的方法相比,在與攝像機(jī)平行的平面上,獲得的深度是連續(xù)的,在深度突然變化的區(qū)域中,獲得的物體邊緣更加準(zhǔn)確。同時在真實(shí)數(shù)據(jù)集上進(jìn)行測試,網(wǎng)絡(luò)能夠準(zhǔn)確的得到場景中物體的邊緣,證明了網(wǎng)絡(luò)具有優(yōu)秀的泛化性和魯棒性,進(jìn)一步推動了單目圖像深度估計的實(shí)用化進(jìn)程。