国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的單目視覺深度估計(jì)研究綜述

2019-07-30 03:27:42郭繼峰白成超
無(wú)人系統(tǒng)技術(shù) 2019年2期
關(guān)鍵詞:深度圖單目尺度

郭繼峰,白成超,郭 爽

(哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001)

1 引 言

傳統(tǒng)獲取高精度的目標(biāo)深度信息常采用激光雷達(dá)實(shí)現(xiàn),但因其價(jià)格昂貴,目前多用于技術(shù)研發(fā)和測(cè)試階段,距離大規(guī)模市場(chǎng)化應(yīng)用還有一定的距離;除此之外,近些年隨著人工智能技術(shù)的快速發(fā)展,視覺逐漸成為研究的熱點(diǎn),同時(shí)也暴露出一些弊端,其中基于雙目視覺的深度估計(jì)受基線長(zhǎng)度限制,導(dǎo)致設(shè)備體積與載具平臺(tái)不能很好的匹配;基于RGB-D的深度估計(jì)量程較短,在實(shí)際應(yīng)用中能力有限,同時(shí)在室外環(huán)境中的表現(xiàn)也不盡理想,受環(huán)境變化影響較大。而單目相機(jī)具有價(jià)格低廉,獲取信息內(nèi)容豐富,體積小等優(yōu)點(diǎn),可以有效克服上述傳感器的諸多不足。因此,利用單目相機(jī)獲取深度信息具有重要的研究意義,且已逐漸成為當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一。

一方面,近年來(lái)幾何視覺的理論體系逐漸完備,其在增強(qiáng)現(xiàn)實(shí)和視覺SLAM中的應(yīng)用已日趨成熟,尋求理論上的重大突破有較大難度。另一方面,深度學(xué)習(xí)的發(fā)展掀起了計(jì)算機(jī)視覺領(lǐng)域的又一次發(fā)展狂潮,大量文獻(xiàn)表明,深度學(xué)習(xí)在解決目標(biāo)識(shí)別、目標(biāo)跟蹤和圖像分割等傳統(tǒng)計(jì)算機(jī)視覺問(wèn)題中發(fā)揮了巨大的作用,在效率和精度上均有大幅度提升。立體視覺與學(xué)習(xí)視覺形成了各自的理論體系,有著各自的適應(yīng)場(chǎng)景。在這樣的背景下,人們開始將目光轉(zhuǎn)向了二者的交叉與融合,利用單目相機(jī)提取深度信息就是其中一個(gè)重要的研究方向。

通過(guò)整理分析,本文將基于深度學(xué)習(xí)進(jìn)行單目深度估計(jì)的方法分為以下六種:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、基于隨機(jī)條件場(chǎng)(CRF)的方法、聯(lián)合語(yǔ)義信息、引入其他信息輔助深度估計(jì)。在實(shí)際的應(yīng)用當(dāng)中,上述六種方法相互交叉,并沒有嚴(yán)格的界限,為了更加清晰的梳理研究框架,本文將基于上述分類進(jìn)行逐一闡述。

2 現(xiàn)狀分析

2.1 有監(jiān)督方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2.1.1 真實(shí)深度圖作監(jiān)督+直接擬合

文獻(xiàn)[1-2]用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集均是原始圖像和與其對(duì)應(yīng)的深度圖。文獻(xiàn)[1]中David E等首次提出用CNN卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行單目深度估計(jì),基本思想是用一個(gè)多尺度神經(jīng)網(wǎng)絡(luò)對(duì)深度圖進(jìn)行估計(jì)。網(wǎng)絡(luò)架構(gòu)主要為兩部分,分別是全局粗略尺度網(wǎng)絡(luò)(Global Coarse-Scale Network)和局部精細(xì)尺度網(wǎng)絡(luò)(Local Fine-Scale Network)。前者得到一個(gè)低分辨率的粗略深度圖,再用后者去改善前者的輸出得到最后的精細(xì)深度圖。值得注意的是,此文采用的是具有真實(shí)深度的數(shù)據(jù)集進(jìn)行有監(jiān)督訓(xùn)練,然而在實(shí)際場(chǎng)景中深度圖的獲取是比較困難的,因此此類數(shù)據(jù)集制作難度較大,數(shù)量也很少,算法的適應(yīng)場(chǎng)景和泛化能力受到數(shù)據(jù)集的限制。

圖1 多尺度網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1 Architecture of multi-scale network

文獻(xiàn)[2]在文獻(xiàn)[1]的基礎(chǔ)上做出了一些改進(jìn):(1)增加了第三個(gè)尺度的網(wǎng)絡(luò),可以輸出更高分辨率的圖片(分辨率從文獻(xiàn)[1]的55×77提高到109×147);(2)網(wǎng)絡(luò)訓(xùn)練思路有所不同,文獻(xiàn)[1]采用的方式是,先訓(xùn)練尺度1 的網(wǎng)絡(luò),訓(xùn)練完成后,以網(wǎng)絡(luò)的輸出作為尺度2 網(wǎng)絡(luò)的輸入。此文所采用的方式是:尺度1網(wǎng)絡(luò)和尺度2網(wǎng)絡(luò)聯(lián)合訓(xùn)練,固定這兩個(gè)尺度的網(wǎng)絡(luò)之后,再訓(xùn)練尺度3網(wǎng)絡(luò),其目的仍然是對(duì)前面網(wǎng)絡(luò)估計(jì)出的粗略深度圖進(jìn)行改善。

Jun L[3]等在此基礎(chǔ)上進(jìn)行了一些改進(jìn),主要的貢獻(xiàn)在于:(1)在文獻(xiàn)[2]的基礎(chǔ)上加入了多尺度網(wǎng)絡(luò)之間的跳躍連接,可以加速網(wǎng)絡(luò)的收斂。(2)提出了一種新的圖像損失函數(shù)構(gòu)造方式,使得經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后所得相關(guān)圖像估計(jì)深度的差異最小化,即使由相同的數(shù)據(jù)生成的訓(xùn)練數(shù)據(jù)恢復(fù)得到的深度也要盡可能接近,損失函數(shù)更好地利用了增強(qiáng)的數(shù)據(jù),并增強(qiáng)了網(wǎng)絡(luò)的泛化能力。(3)聯(lián)合估計(jì)深度和深度的梯度,并將二者融合之后輸出最終的深度圖,有效提高了估計(jì)精度。

圖2 改進(jìn)后的多尺度網(wǎng)絡(luò)結(jié)構(gòu):相比圖1中的網(wǎng)絡(luò)又增加了一個(gè)尺度Fig.2 Impovered multi-scale network architecture: an additional scale is added compared with the network shown in Fig.1

Iro L等[4]提出了一種包含殘差學(xué)習(xí)網(wǎng)絡(luò)的全卷積網(wǎng)絡(luò)結(jié)構(gòu)對(duì)單目圖像和深度圖之間的模糊映射進(jìn)行建模的方法。為了提高輸出分辨率,作者還提出了一種在網(wǎng)絡(luò)中通過(guò)向上采樣對(duì)卷積后得到的特征圖(Feature Map)進(jìn)行高效學(xué)習(xí)的新方法,并引入了反向Huber 損失函數(shù)進(jìn)行優(yōu)化,結(jié)果表明這個(gè)形式的損失函數(shù)特別適合于深度映射的問(wèn)題。

圖3 雙數(shù)據(jù)流深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Two-streamed depth estimation network architecture

主要貢獻(xiàn)在于:(1)在深度預(yù)測(cè)網(wǎng)絡(luò)中引入了一種全卷積的結(jié)構(gòu),包含升采樣模塊,可以輸出高精度密集深度圖;同時(shí)該網(wǎng)絡(luò)結(jié)構(gòu)具有比當(dāng)時(shí)其他網(wǎng)絡(luò)少一個(gè)數(shù)量級(jí)的訓(xùn)練參數(shù),需要的訓(xùn)練數(shù)據(jù)更少。(2)新穎地使用反向Huber函數(shù)作為損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化訓(xùn)練,并從理論和實(shí)驗(yàn)上論證了為什么更適合于深度映射問(wèn)題。

值得一提的是,該方法經(jīng)作者改進(jìn)后融合到單目SLAM技術(shù)當(dāng)中[5],提出了一種將卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的密集深度圖與直接法單目SLAM的深度測(cè)量相結(jié)合的方法。這種融合方法可以在傳統(tǒng)單目SLAM方法容易失效的位置(如缺少紋理特征的區(qū)域)進(jìn)行深度預(yù)測(cè),并利用深度預(yù)測(cè)估計(jì)地圖重建的絕對(duì)尺度,克服了單目SLAM缺少尺度信息的局限性。

2.1.2 基于相對(duì)深度的標(biāo)記數(shù)據(jù)集

此類方法從人類是如何對(duì)深度進(jìn)行估計(jì)的角度出發(fā),思考并得出了“比起估計(jì)準(zhǔn)確的量化數(shù)據(jù)而言,人們更善于估計(jì)場(chǎng)景中各點(diǎn)之間、各種特征之間的相對(duì)關(guān)系”的結(jié)論,亮度和深度等特征都具有這個(gè)特點(diǎn)。例如,人們?cè)谟^察遠(yuǎn)處的兩座山時(shí),很難判斷出這兩座山的實(shí)際距離是多少,卻可以很輕松地說(shuō)出哪一座山距離自己更近;亮度也具有同樣的特點(diǎn),人們很難量化地估計(jì)出場(chǎng)景中的某個(gè)景物有多亮,卻可以很容易判斷場(chǎng)景中各個(gè)點(diǎn)的亮度關(guān)系。由此便產(chǎn)生了一種深度估計(jì)的思路,用經(jīng)過(guò)相對(duì)深度標(biāo)記的數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)從而使網(wǎng)絡(luò)具備估計(jì)深度的能力。

Daniel Z[6]等提出了一個(gè)框架,通過(guò)學(xué)習(xí)順序關(guān)系推斷圖像某些特征。該系統(tǒng)沒有直接估計(jì)特征的度量值,而是對(duì)輸入圖像中的各點(diǎn)兩兩之間的相對(duì)關(guān)系進(jìn)行估計(jì)。之后再將這些相對(duì)關(guān)系的稀疏概率測(cè)量序列在全局層面上進(jìn)行匯總,從而輸出連續(xù)度量的密集深度映射圖。與特征度量值估計(jì)相比,估計(jì)每一對(duì)點(diǎn)之間的相對(duì)順序關(guān)系有幾個(gè)優(yōu)點(diǎn):估計(jì)點(diǎn)對(duì)的相對(duì)關(guān)系比直接估計(jì)度量值相對(duì)簡(jiǎn)單且模型更加清晰明確,這種做法相當(dāng)于將復(fù)雜問(wèn)題簡(jiǎn)單化;人類在相對(duì)關(guān)系判斷的問(wèn)題上做得的更好,因此訓(xùn)練所需數(shù)據(jù)集的標(biāo)記不依賴激光雷達(dá)等深度傳感器,人工即可高效完成,所以數(shù)據(jù)收集更容易;各點(diǎn)對(duì)之間的相對(duì)順序關(guān)系對(duì)數(shù)據(jù)的單調(diào)變換是不變的,從而增加了系統(tǒng)的魯棒性。

圖4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):卷積層中的數(shù)字表示通道道數(shù)Fig.4 Deep neural network architecture: the numbers in the convolutional layers denote the number of channels

Chen W F[7]等構(gòu)建了一個(gè)相對(duì)深度的數(shù)據(jù)庫(kù),每張圖片僅僅標(biāo)注兩個(gè)隨機(jī)點(diǎn)之間的相對(duì)遠(yuǎn)近關(guān)系,通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練就能得到輸入圖像之中的相對(duì)深度信息。其將研究重點(diǎn)放在了室外的單目圖像深度感知,即場(chǎng)景中存在深度值較大的景物(如天空、遠(yuǎn)山等),這是現(xiàn)有深度傳感器量程所不能達(dá)到的。作者提出了一種新的數(shù)據(jù)集——Depth in the Wild,通過(guò)在室外場(chǎng)景的圖像中標(biāo)注隨機(jī)點(diǎn)對(duì)之間的相對(duì)深度關(guān)系構(gòu)造數(shù)據(jù)集。文章提出了一種新的算法,首先訓(xùn)練分類器預(yù)測(cè)圖像中兩點(diǎn)之間的順序關(guān)系,給定一幅輸入圖像,反復(fù)使用該分類器預(yù)測(cè)稀疏點(diǎn)對(duì)之間的順序關(guān)系(主要是相鄰超像素之間的關(guān)系);再通過(guò)求解二次約束優(yōu)化從預(yù)測(cè)的順序關(guān)系中重構(gòu)深度圖,該優(yōu)化強(qiáng)制附加平滑約束,并可協(xié)調(diào)各點(diǎn)對(duì)之間可能存在的相互矛盾的順序關(guān)系,以此來(lái)使得到的深度圖更加平滑。

圖5 網(wǎng)絡(luò)輸入:提取每個(gè)興趣點(diǎn)周圍的一個(gè)小塊(圖像上的紅色和綠色方塊),這些小塊及其邊界框(藍(lán)色)以及表示邊界框中點(diǎn)的相對(duì)位置的掩碼一起構(gòu)成網(wǎng)絡(luò)的“本地語(yǔ)境”,“全局語(yǔ)境”由縮小后的圖像以及表示圖像中邊界框位置的感興趣區(qū)域(ROI)的掩碼提供Fig.5 Inputs to the network: extract a patch around each point of interest (red and green squares on the image).Thesepatches, together with the bounding box (blue) of the patches and masks denoting the relative position of the points within the bounding box, form the “l(fā)ocal context” for the network.The “global context” is provided by a downscaled version of the image,along with a Region of Interest (ROI) mask denoting the location of the bounding box within the image.

這類基于相對(duì)深度標(biāo)注的訓(xùn)練網(wǎng)絡(luò)的方法相當(dāng)于引入了一種“QA問(wèn)答”機(jī)制,訓(xùn)練神經(jīng)網(wǎng)絡(luò)使其具備回答“給定圖像上任意兩個(gè)點(diǎn),誰(shuí)距離相機(jī)更近?”的能力,思路使人眼前一亮。并且模型清晰明確,與人類估計(jì)深度的方式更加接近。但是由于其訓(xùn)練過(guò)程中始終未包含有關(guān)真實(shí)深度的信息,所以這種方法得到的深度圖只是相對(duì)深度圖,與真實(shí)深度圖仍然相差一個(gè)尺度信息。

圖6 數(shù)據(jù)集標(biāo)注兩個(gè)隨機(jī)點(diǎn)之間的相對(duì)遠(yuǎn)近關(guān)系Fig.6 The data set marks the relative far and near relationship between two random points

2.2 無(wú)監(jiān)督方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2.2.1 采用單目相機(jī)圖片作為訓(xùn)練集

Zhou T H[8]等提出了利用一段由單目相機(jī)拍攝的圖片序列作為訓(xùn)練集,采用無(wú)監(jiān)督的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行單目深度估計(jì)的方法,這也是此類方法的代表作。文中網(wǎng)絡(luò)架構(gòu)由兩部分組成,即深度估計(jì)網(wǎng)絡(luò)(Depth CNN)和相機(jī)位姿估計(jì)網(wǎng)絡(luò)(Pose CNN),利用未做標(biāo)記的單目圖片序列來(lái)實(shí)現(xiàn)對(duì)單目深度網(wǎng)絡(luò)和相機(jī)姿態(tài)估計(jì)網(wǎng)絡(luò)的訓(xùn)練。

圖7 通過(guò)單目視頻同時(shí)估計(jì)深度及相鄰幀圖片間的相機(jī)位姿變化Fig.7 Simultaneously estimate both depth and camera pose through monocular video

值得一提的是文章中提出的損失函數(shù)的構(gòu)造方式:用神經(jīng)網(wǎng)絡(luò)估計(jì)出的深度和相機(jī)姿態(tài)從圖片序列的某幅圖像恢復(fù)出與其相鄰的另一幅圖像,將恢復(fù)出的圖像與真實(shí)圖像之間的像素差作為無(wú)監(jiān)督訓(xùn)練的損失函數(shù),通過(guò)最小化損失函數(shù)使網(wǎng)絡(luò)收斂。這種視圖合成的方法也被很多無(wú)監(jiān)督訓(xùn)練單目深度估計(jì)網(wǎng)絡(luò)所采用。需要指出的是,該文章中采用單目圖片序列作為數(shù)據(jù)集訓(xùn)練得到的深度估計(jì)網(wǎng)絡(luò)輸出的深度圖僅為相對(duì)深度圖,與真實(shí)深度圖之間相差一個(gè)倍數(shù)。這是因?yàn)閱文繑?shù)據(jù)集中不包含深度信息,因此無(wú)法用此網(wǎng)絡(luò)得到絕對(duì)深度圖,只能計(jì)算其與真實(shí)深度圖的相對(duì)誤差。在自動(dòng)駕駛等實(shí)際場(chǎng)景中,絕對(duì)深度是必不可少的導(dǎo)航信息,所以這種方法在機(jī)器人導(dǎo)航領(lǐng)域難以得到實(shí)際應(yīng)用。

Yin Z C[9]在以上基礎(chǔ)上進(jìn)行了改進(jìn),增加了對(duì)光流進(jìn)行估計(jì)的部分,在各個(gè)模塊的預(yù)測(cè)中提取幾何關(guān)系,再將它們合并從而進(jìn)行圖像重建,融合了深度、相機(jī)運(yùn)動(dòng)與光流三部分的信息進(jìn)行聯(lián)合估計(jì)。

Reza M[10]提出了一種使用三維幾何約束的非監(jiān)督學(xué)習(xí)單目圖像深度和運(yùn)動(dòng)估計(jì)方法。其主要貢獻(xiàn)是:明確地考慮場(chǎng)景的三維特征,維持連續(xù)幀之間三維點(diǎn)云的一致性,提出一個(gè)新的反向傳播算法進(jìn)行三維結(jié)構(gòu)重建。文章使用深度和運(yùn)動(dòng)估計(jì),將這種新的三維損失和基于每一幀的影像質(zhì)量二維損失結(jié)合起來(lái),同時(shí)使用了掩碼去除一些無(wú)用信息存在的區(qū)域。為了證明方法的普適性,文獻(xiàn)[10]使用了未校準(zhǔn)的自制手持式攝像頭所采集的視頻進(jìn)行訓(xùn)練,并在KITTI數(shù)據(jù)集上進(jìn)行了測(cè)試。

2.2.2 采用雙目相機(jī)圖片作為訓(xùn)練集

Clement G[11]等利用圖像重建損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,之后由神經(jīng)網(wǎng)絡(luò)輸出視差圖,再利用預(yù)測(cè)出的視差圖計(jì)算深度圖。與文獻(xiàn)[8]不同,文獻(xiàn)[11]采用雙目相機(jī)的圖片序列作為數(shù)據(jù)集,因?yàn)殡p目相機(jī)的數(shù)據(jù)包含場(chǎng)景的深度信息,所以由此訓(xùn)練出的網(wǎng)絡(luò)輸出的視差圖進(jìn)而計(jì)算出的深度圖為絕對(duì)深度,包含場(chǎng)景的尺度信息。

圖8 除了2D的光度損失之外,3D幾何損失作為監(jiān)督來(lái)提升無(wú)監(jiān)督深度估計(jì)的精度Fig.8 In addition to 2D photometric losses,novel 3D geometric losses are used as supervision to adjust unsupervised depth and ego-motion estimates by the neural network.

如圖9所示,神經(jīng)網(wǎng)絡(luò)僅接收雙目相機(jī)的左圖為輸入,便可輸出左右兩幅視差圖,再加上左右兩幅原圖即可合成出左右原圖的估計(jì)圖,再與數(shù)據(jù)集中的原圖進(jìn)行比較構(gòu)造損失函數(shù)使網(wǎng)絡(luò)趨于收斂。需要注意訓(xùn)練集中的右圖僅在訓(xùn)練中使用,訓(xùn)練之后的網(wǎng)絡(luò)僅需左圖作為輸入,就完成從單張圖片估計(jì)深度的任務(wù)。除此之外,文章在損失函數(shù)中引入了左右一致性檢驗(yàn),強(qiáng)制左右視差圖中對(duì)應(yīng)點(diǎn)的視差保持一致,進(jìn)一步提高了對(duì)視差圖的估計(jì)質(zhì)量,從而更準(zhǔn)確地計(jì)算出深度圖。

圖9 利用雙目圖像進(jìn)行無(wú)監(jiān)督訓(xùn)練的圖像重建過(guò)程示意圖Fig.9 An unsupervised training sketch of left-right image reconstruction process using stereo image pairs

圖10 訓(xùn)練過(guò)程的演示:立體攝像機(jī)TL→R之間已知的攝像機(jī)運(yùn)動(dòng)限制了深度CNN和里程計(jì)CNN以實(shí)際比例預(yù)測(cè)深度和相對(duì)攝像機(jī)姿態(tài)Fig.10 Training instance example.The known camera motion between stereo cameras TL→R constrains the Depth CNN and Odometry CNN to predict depth and relative camera pose with actual scale

Zhang Y D等[12]的研究重點(diǎn)在于解決無(wú)監(jiān)督學(xué)習(xí)的尺度不確定問(wèn)題,采用雙目數(shù)據(jù)聯(lián)合訓(xùn)練深度估計(jì)和視覺里程計(jì)網(wǎng)絡(luò)。研究提出了聯(lián)合學(xué)習(xí)深度估計(jì)和視覺里程計(jì)的無(wú)監(jiān)督框架,不存在尺度不確定性問(wèn)題;利用了左右圖像對(duì)在時(shí)空上的約束,在現(xiàn)有技術(shù)基礎(chǔ)上改進(jìn)了單目深度估計(jì)的性能;設(shè)計(jì)了一種基于幀到幀的視覺里程計(jì),性能顯著優(yōu)于同類無(wú)監(jiān)督學(xué)習(xí)方法;除圖像重構(gòu)的顏色及光度誤差損失之外,還考慮了基于深層特征的重建損失,顯著提高了深度估計(jì)和視覺里程計(jì)的精度。

2.3 半監(jiān)督方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)

在單目深度估計(jì)的問(wèn)題上,有監(jiān)督學(xué)習(xí)的方法往往受限于真實(shí)深度難以獲取,訓(xùn)練樣本不足,而無(wú)監(jiān)督學(xué)習(xí)的方法卻受限于缺少尺度信息,估計(jì)精度難以保證。結(jié)合二者的優(yōu)勢(shì),提出了半監(jiān)督學(xué)習(xí)的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

Yevhen K[13]提出了使用稀疏的真實(shí)深度對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督,從而形成半監(jiān)督學(xué)習(xí)的單目圖像深度估計(jì)的方法。在損失函數(shù)的構(gòu)造上,共分為三部分:有監(jiān)督損失(Supervised Loss)、無(wú)監(jiān)督損失(Unsupervised Loss)和正則化損失(Regularization Loss)。其中有監(jiān)督損失即為上文提到的使用稀疏的真實(shí)深度與預(yù)測(cè)的深度值之間的差距形成;無(wú)監(jiān)督損失的構(gòu)造方式與文獻(xiàn)[11]中利用左右圖像的視圖重建的方法一致;最后一部分是將梯度的正則化損失作為約束。

此外,文獻(xiàn)[14-16]同樣是用半監(jiān)督學(xué)習(xí)的思想訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

2.4 基于條件隨機(jī)場(chǎng)(CRF)的方法

條件隨機(jī)場(chǎng)(CRF)在圖像語(yǔ)義分割領(lǐng)域一直都有著非常優(yōu)秀的表現(xiàn),考慮到深度值的連續(xù)性特點(diǎn),可用連續(xù)CRF公式化學(xué)習(xí),因此人們開始將CRF應(yīng)用在解決深度估計(jì)問(wèn)題上,近年來(lái)取得了一些成果。

Liu F Y[17]等將卷積神經(jīng)網(wǎng)絡(luò)與連續(xù)CRF相結(jié)合,提出了一種深度卷積神經(jīng)場(chǎng)模型。深度值具有連續(xù)性的特點(diǎn),因此可以解析計(jì)算概率密度函數(shù)中的配分函數(shù),從而求對(duì)數(shù)似然的最優(yōu)解,在反向傳播訓(xùn)練中可以精確地計(jì)算出梯度。除此之外,由于存在封閉形式的解,可以有效解決預(yù)測(cè)深度的映射問(wèn)題。

圖11 此半監(jiān)督方法的損失函數(shù)構(gòu)造:在圖像有真實(shí)深度的地方進(jìn)行監(jiān)督學(xué)習(xí),無(wú)真實(shí)深度的地方進(jìn)行無(wú)監(jiān)督學(xué)習(xí)Fig.11 Components and inputs of semi-supervised loss function:supervised learning is employed where groundtruth of depth is available, while unsupervised learning is used where there is no groundtruth

圖12 該模型由前端CNN和融合模塊兩部分組成Fig.12 Model is composed of two main components: a front-end CNN and a fusion module

Xu D[18]等提出了一種融合了來(lái)自多個(gè)卷積神經(jīng)網(wǎng)絡(luò)輸出的互補(bǔ)信息的深度模型。將連續(xù)條件場(chǎng)平均后積分,提出了兩種變體,一種是基于多個(gè)CRF聯(lián)級(jí),另一種基于統(tǒng)一的圖模型。提供了兩種方案通過(guò)連續(xù)CRF積分多層聯(lián)級(jí)輸出實(shí)現(xiàn)融合多個(gè)尺度特征,一是多個(gè)尺度CRF模型,二是級(jí)聯(lián)特定尺度的CRF。

2.5 聯(lián)合語(yǔ)義分割進(jìn)行深度估計(jì)

文獻(xiàn)[19-22]將語(yǔ)義分割與深度估計(jì)聯(lián)合起來(lái),利用深度和語(yǔ)義信息之間的相似關(guān)系,使二者相輔相成,達(dá)到性能提升的目的。Arsalan M[19]等提出了一種新的模型,對(duì)單個(gè)RGB圖像同時(shí)進(jìn)行深度估計(jì)和語(yǔ)義分割。作者為每個(gè)任務(wù)分別訓(xùn)練一部分模型,然后利用單個(gè)損失函數(shù)將兩個(gè)模型組合成一個(gè)完整的模型并進(jìn)行微調(diào)。此外,作者還將深層卷積神經(jīng)網(wǎng)絡(luò)與全連接的CRF連接在一起,可以捕獲語(yǔ)義和深度信息之間的相互順序關(guān)系,提高了二者的準(zhǔn)確性。與此類似,Zhang Z Y等[20]研究了單目圖像的物體級(jí)分割和深度排序問(wèn)題,在精確分割的基礎(chǔ)上,通過(guò)MRF(馬爾科夫隨機(jī)場(chǎng))對(duì)局部深度排序進(jìn)行整合,形成完整的深度圖。深度估計(jì)與語(yǔ)義分割都是圖像場(chǎng)景理解與分析的重要內(nèi)容,二者具有很強(qiáng)的相關(guān)性。將它們聯(lián)合起來(lái),相互輔助校正的思想,還具有較大的研究?jī)r(jià)值。

2.6 引入其他信息輔助深度估計(jì)

還有一些其他可從單張圖片中提取出的,與深度包含相似信息的特征可以幫助我們更加準(zhǔn)確便捷地估計(jì)深度。Pratul P S等[23]提出用相機(jī)孔徑效應(yīng)作為監(jiān)督信息預(yù)測(cè)單張圖的深度。在網(wǎng)絡(luò)里用一個(gè)可微分的孔徑繪制函數(shù),可以訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)從一張全聚焦圖像回歸一個(gè)深度圖。Qi X J等[24]從RGB圖像中聯(lián)合估計(jì)深度和表面法線,表面法線可由三維點(diǎn)云估計(jì),深度由表面法線解線性方程組推算。其中,作者利用了平面區(qū)域表面法線變化不大的幾何規(guī)律,來(lái)輔助和優(yōu)化單目深度估計(jì)。文獻(xiàn)[25-26]引入物體表面法線輔助深度估計(jì),Zhang Y D等[12]通過(guò)從顏色上預(yù)測(cè)法線,然后求深度,進(jìn)而在RGB-D圖像的深度通道中填充較大的缺失區(qū)域,使用經(jīng)過(guò)真實(shí)深度填補(bǔ)的深度相機(jī)拍攝的深度圖和RGB圖片作為訓(xùn)練集。引入了顏色信息,補(bǔ)充深度相機(jī)圖片缺失深度的部分,擴(kuò)展了單目深度估計(jì)的實(shí)際應(yīng)用。文獻(xiàn)[27-28] 把深度估計(jì)問(wèn)題當(dāng)成一個(gè)由遠(yuǎn)到近層層分離的問(wèn)題,按照分類問(wèn)題的思想來(lái)研究。

圖13 通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)每個(gè)局部區(qū)域的物體分割及深度排序,之后進(jìn)行整張圖片的整合Fig.13 The neural network is used to predict the object segmentation and depth ordering of each local region, and then the whole picture is integrated.

圖14 語(yǔ)義分割和深度估計(jì)聯(lián)合框架Fig.14 Joint framework of semantic segmentation and depth estimation

3 結(jié)束語(yǔ)

本文將基于深度學(xué)習(xí)的單目深度估計(jì)方法分為了六種方法:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、基于條件隨機(jī)場(chǎng)(CRF)的方法、聯(lián)合語(yǔ)義信息、引入其他信息輔助深度估計(jì),并對(duì)其原理及各類方法的特點(diǎn)進(jìn)行了分析。

從 2014年David E首次提出使用深度學(xué)習(xí)的方法解決單目深度估計(jì)問(wèn)題開始,這一問(wèn)題就成為計(jì)算機(jī)視覺領(lǐng)域的前沿課題,近幾年的研究已經(jīng)取得了初步成果,但依然存在精度不足的問(wèn)題,神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性和泛化能力也有待進(jìn)一步提高。如何將單目深度估計(jì)、視覺SLAM技術(shù)、三維重建等技術(shù)相結(jié)合,使之在實(shí)際工程問(wèn)題中得到較好的應(yīng)用也是今后需要重點(diǎn)研究的方向。

猜你喜歡
深度圖單目尺度
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
基于深度圖的3D-HEVC魯棒視頻水印算法
一種單目相機(jī)/三軸陀螺儀/里程計(jì)緊組合導(dǎo)航算法
單目SLAM直線匹配增強(qiáng)平面發(fā)現(xiàn)方法
一種基于局部直方圖匹配的深度編碼濾波算法
基于CAD模型的單目六自由度位姿測(cè)量
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
科技視界(2016年2期)2016-03-30 11:17:03
基于單目立體視覺的三坐標(biāo)在線識(shí)別技術(shù)研究
9
盐山县| 武冈市| 镇原县| 南郑县| 保靖县| 萝北县| 兴安盟| 师宗县| 翁牛特旗| 乐昌市| 柯坪县| 嘉定区| 炉霍县| 综艺| 杭州市| 德阳市| 南和县| 信丰县| 五大连池市| 天峻县| 德格县| 阳信县| 蓝山县| 罗田县| 开封市| 锡林浩特市| 光泽县| 浙江省| 曲周县| 易门县| 苏尼特左旗| 长治市| 乌兰县| 山东省| 革吉县| 苏州市| 桃江县| 玉溪市| 余庆县| 蕉岭县| 丰都县|