陳加 張玉麒 宋鵬 魏艷濤 王煜
計算機視覺研究的主要目標之一是從二維圖像復原三維結構[1].二維圖像是當今時代極易獲取的數據形式,互聯網上每時每刻都在產生海量的圖像數據,而三維模型相對難以獲取.目前已經有許多基于多幅圖像的物體三維重建方法[2?4]被提出,而基于單幅圖像的物體三維重建問題因輸入形式的特殊性使其更具挑戰(zhàn)性.僅以單幅圖像作為輸入使得重建丟失了很多幾何信息,這就需要一些假設或先驗知識,亦或從已有的模型基于學習來進行重建.此外針對重建對象的不同,當前基于單幅圖像的重建問題可分為對物體(Object)的重建和對場景(Scene)的重建[5].本文屬于對物體的重建這一子類.評價基于單幅圖像的物體三維重建的重建精度目前沒有一個固定的標準[6],一些傳統(tǒng)方法采用Hausdor ff距離[7]作為評價重建效果的標準.隨著深度學習的不斷發(fā)展,IoU(Intersection over union)值被引入[8],且被很多論文采用為評價標準,此外亦有論文采用更注重物體幾何外形的CD(Chamfer distance)值等[9].
基于圖像的三維重建具有重要的實用價值和應用前景.隨著互聯網及電子商務的發(fā)展,很多商家或企業(yè)開始利用三維模型來幫助自己進行產品的展示與推廣.三維模型與二維圖像相比,因為多了一維信息,所以更能將物體的真實感和細節(jié)的質感與紋理表現出來.同時,在諸如虛擬現實、城市數字化建模、文物數字化保護、醫(yī)學CT器官重建、三維影視動漫制作等領域,基于圖像的三維重建也具有廣泛的應用[5,10?13].多目圖像三維重建往往需要相機標定等額外操作,相比之下基于單幅圖像的三維重建因輸入簡單,更適合需要便捷式三維重建的應用場合,近年來逐漸成為一個新的學術研究熱點問題.
然而基于單幅圖像的三維重建常常面臨以下幾個方面的挑戰(zhàn):
1)類內差異和類間差異.不同的重建物體即使是同一個類型,也會因為材料、外形等存在較大的差異性.而不同類型的物體,亦可能存在較大的相似性.如果只是針對某個特定類別的物體進行三維重建往往會使重建系統(tǒng)缺乏一般性[14?15],而針對多類別的重建系統(tǒng)則會因較大的類內差異和較小的類間差異使得重建精度不高[16?17],如何構建既具有一般性又重建精度高的三維重建算法是目前研究的重點.
2)圖像自身屬性.真實世界視圖中的物體往往存在遮擋、非剛性變形等現象,且很多時候不滿足理想的朗伯特反射模型[18],這就使得待重建的物體存在較大的多樣性,因此對重建算法提出了更高的要求.
3)不適定問題.基于單幅圖像的三維重建本身就是一個不適定問題(Ill-posed problem)[5],即由于輸入形式為單幅圖像,深度信息不可避免地丟失,如果不給定一些先驗知識或假設,重建結果是不唯一的.如何根據一些假設和先驗知識來重建最適合的模型,以及如何提供最少的假設和先驗,這對三維重建工作提出了不小的挑戰(zhàn).
針對上述基于單幅圖像物體三維重建問題,許多文獻提出了相應的解決方案.文獻[19?20]探討了對特定種類物體進行重建的問題;文獻[16?17]針對圖像自身屬性諸如非理想朗伯特模型的重建提出了解決辦法;此外有許多假設被提出[21?24]以解決不適定問題.但上述方法仍未能很好地解決這些問題,重建精度仍然有待提高.隨著深度學習技術的不斷發(fā)展,很多基于深度學習的三維重建方法[8?9,25]近幾年開始被提出,且重建效果更好,逐漸成為該領域近年來研究的重點.
本文結構安排如下:第1節(jié)簡要介紹傳統(tǒng)的基于單幅圖像物體三維重建的研究成果;第2節(jié)介紹深度學習算法模型及其近年來在基于單幅圖像的三維重建領域的研究進展;第3節(jié)介紹物體三維重建的常用公共數據集;第4節(jié)對該方向目前仍存在的問題提出思考和展望,并對文章進行總結,分析基于深度學習算法的優(yōu)缺點.
基于單幅圖像的物體三維重建在計算機視覺領域是一個長期存在且具有挑戰(zhàn)性的問題,往往利用先驗知識或引入合適的約束來進行重建.按照重建方法的不同,傳統(tǒng)方法可以分為基于模型的重建方法和基于幾何外形恢復的重建方法兩類.
一般而言,基于模型的重建方法由要表示對象的參數模型組成,通過找到模型的投影和輸入圖像之間最佳擬合時模型的參數來完成重建[26].基于模型表示的物體重建反映了對模型表示的不同偏好.在早期的工作中,廣義柱體[27]對柱類外形進行了緊湊地描述,而基于多面體模型的方法[28?29]則只能針對一些方形物體進行重建,此外還有超二次曲面模型[30],一些只針對車輛的手工剛性三維模型[31?32]等.這些模型都能對某種外形進行一定的描述,但是可描述的對象太具有局限性.基于CAD模型的方法[33?35]可以粗略地表示物體的近似外形,通過給予一組對應點,可以非常有效地確定近似實例的視點,但生成的模型和訓練的模型有較大的偏差.此外近期還出現了基于CAD模型的類似實例進行非參數化重建的方法[36],但是該方法僅限于對預先分割好的在線商品圖像進行重建.
近期,一些可以變形的模型因更具有表現力引起了更多學者的注意.形變模型(Morphable model)常用于對人臉進行重建[14,37?38],它是一種線性組合模型,通過圖像光流算法來建立三維人臉點到點的稠密對應.通過調節(jié)模型參數使輸入圖像與形變模型匹配.因為形變模型的建立往往是通過三維掃描的形式來獲取三維信息,為了克服對三維數據的要求,Cashman等[15]提出了一種混合的方法,使用單個三維模型和大量二維信息學習得到動物的形變模型來重建諸如海豚這種較為復雜的動物模型.Vicente等[19]針對PASCAL VOC數據集中的圖像進行重建,提出了一種新方法,先在圖像數據集中找到與輸入的單幅圖像同類型的相似視角的不同物體的圖像,然后使用可視外殼進行重建,但是需要在測試的時候添加關鍵點注釋,且處于理想的分割狀態(tài),無法應用于較為真實的圖像.Kar等[20]更進一步,利用物體檢測數據集中的2D注釋來訓練學習可變形的模型,僅在訓練的時候使用了部分注釋,且可以重建真實圖像中的物體,利用自底向上的模塊來補充高頻外形細節(jié),重建效果較之前的方法有一定的提升.
基于模型的方法在針對特定類別物體的重建上能取得較好的效果,因為這種方法中的先驗知識在模型的設計階段就已經被設定好,能夠較好地對針對的物體提供更多的先驗信息,但是這類方法很難擴展到其他物體上.可變形的模型也往往只能沿著特定類別的變化模式變化.表1列出了近年來兩種常用的基準算法和一種不針對具體重建類別的方法(均采用Hausdor ff距離[7]作為評價參數)[39]在PASCAL VOC數據集上的三維重建結果,其中Hausdor ff距離越小代表精度越高.
根據二維圖像中的三維信息來恢復物體三維幾何外形的技術統(tǒng)稱為Shape from X,X可以是:陰影 (Shading)、紋理 (Texture)、運動 (Motion)、光度立體(Stereo)、輪廓(Silhouette)等.基于光度立體、運動和輪廓恢復三維外形的方法常用于多目重建.基于紋理和陰影恢復三維外形的方法常用于針對單幅圖像的三維重建.
從紋理中恢復外形(Shape from texture)[40]往往要求假定紋理滿足某種先驗性質,例如假設紋理分布具有均一性[41],或要求紋理由明確的紋理基元組成[42].從紋理中恢復外形的方法重建精度相對較低,并且適用性窄,實際應用相對較少.
從陰影中恢復外形(Shape from shading,SFS)[43]主要利用物體表面的明暗變化解析物體表面的矢量信息,最后轉化為深度信息.通常是在假定理想光照下,即滿足朗伯特(Lambertian)反射模型的狀態(tài)下進行重建,但是在滿足假定朗伯特反射模型狀態(tài)下的SFS問題本身也是不適定的(Illposed),因此需要引入相應的附加條件對其正則化.Ikeuchi等[22]在SFS中加入平滑度約束,即假定物體表面是光滑的,以此使問題變?yōu)檫m定,但這對于具有分形特征的自然景物三維外形恢復效果仍不太理想.
大多數傳統(tǒng)的SFS方法是基于正交投影[44?45],且假設光源都在無窮遠處.而透視投影因比正交投影更為精準,慢慢被引入到SFS方法中[46?47].同時,使用朗伯特模型的三維重建誤差較大,為了提高重建精度,許多非朗伯特模型被提出來.Ahmed等[17]用Ward反射模型對三維外形恢復進行了研究,Bakshi等[16]將SFS方法應用到包含有漫反射和鏡面反射兩種情況的混合表面重建.
此外,還有一些方法通過監(jiān)督學習的方式來學習幾何信息[48?50],以此來預測深度圖,但是對深度圖的估計往往針對的是場景三維重建[51],而本文主要針對的是對物體三維重建的綜述,因此對此類方法以及一些其他基于場景的三維重建方法[52?54],本文不再做詳細論述.
基于幾何外形恢復的方法往往具有更好的泛化性,其重建不是針對特定類別的物體,能夠以較自然簡單的方式提取物體的表面信息.但同時該類方法往往對光照和灰度提出了較高的要求,通過理想光源之類的一些約束來使重建的解唯一.因此該方法往往難以對真實圖像進行較好質量的重建.
深度學習的概念源于對人工神經網絡(Arti ficial neural network,ANN)的研究.它是一種特征學習的方法,把低層次的原始數據通過一些簡單而非線性的模型轉化成為更高層次的表達[55].通過大量的轉換組合,得到更好的特征表示.早在1986年,Rumelhart等[56]就提出人工神經網絡的反向傳播(Back propagation,BP)算法,但這一時期人們普遍認為梯度下降會陷入局部極值,且存在梯度消失、硬件條件不足等問題,直到2006年,Hinton等[57]介紹了一種新的深度神經網絡模型DBN及訓練方法,降低了深度神經網絡的優(yōu)化難度,利用預訓練方法緩解了局部極值問題,從此深度學習受到學術界的關注.之后LeCun、Bengio、Ng等對深度神經網絡展開研究[58].隨著一些新的模型訓練方法的涌現,深度學習在諸如語音識別[59?60]、自然語言處理[61?63]、圖像識別和分割等[64?65]多個領域都取得了較大的進展.近年來,深度學習在三維數據的分類、識別和重建上也取得了很大的進展[66?68].目前廣泛應用的深度學習模型主要包括深度置信網絡(Deep belief network,DBN)[57,69]、堆疊自動編碼器(Stacked auto-encoders,SAE)[70]、卷積神經網絡 (Convolutional neural networks,CNN)[71]、循環(huán)神經網絡(Recurrent neural networks,RNN)[72]等.
表1 不同方法對PASCAL VOC數據集圖像中的物體重建的結果對比[20]Table 1 Comparison of different methods on the PASCAL VOC[20]
相較于二維圖像領域,深度學習在三維外形重建上的研究起步較晚,但在近三年內也取得了較大的進展.本節(jié)依據三維外形的不同表示,從基于體素表示和基于點云、網格表示兩個方面介紹深度學習在三維重建中的研究現狀.
2.2.1 基于體素表示的三維重建
隨著深度學習在三維領域的不斷擴展,圍繞深度學習研究基于體素的三維重建方法開始被提出,利用體素化的方法將所有的CAD模型表示為二值或實值的三維張量,保證了模型大小的相同.Wu等[67]建立的網絡結構3D shapenets是較早提出的基于體素表示的三維重建網絡,其利用深度卷積置信網絡(CDBN)將三維幾何外形表示為三維體素上二值變量的概率分布,輸入深度圖,通過吉布斯采樣(Gibbs sampling)不斷預測外形類型和填補未知的體素來完成重建.為了得到更好的訓練效果,其同時建立了大型的CAD模型數據集ModelNet.Choy等[8]提出了一種基于標準LSTM 的擴展網絡結構3D-R2N2(3D recurrent reconstruction neural network),使用該網絡學習二維圖像與三維外形間的映射,網絡以端到端的形式獲取一個或多個對象實例的圖像,首先利用一個標準的CNN結構對原始輸入圖像進行編碼,用其提出的3D-LSTM 進行過渡連接,3D-LSTM單元排列成三維網格結構,每個單元接收一個從編碼器中得到的特征向量,并將他們輸送到解碼器中.這樣每個3D-LSTM單元重構輸出體素的一部分.再利用一個標準反卷積網絡對其解碼,通過這樣的網絡結構建立了二維圖像和三維模型的映射.該方法還在單個框架中統(tǒng)一了單視圖和多視圖重建,且不需要圖像注釋或分類標簽進行訓練,克服了過去無法解決的缺乏紋理和寬基線特征匹配等問題的挑戰(zhàn).通過以IoU(Intersectionover-union)作為評價重建效果指標的實驗,驗證了在單幅圖像的三維重建效果優(yōu)于Kar等[20]的傳統(tǒng)方法,但該方法在重建椅子細腿等方面存在斷裂失真的問題.Girdhar等[73]提出了一種名為TL-embedding network的網絡結構,該網絡的自編碼器以20×20×20的像素網格表示作為輸入,通過自編碼學習三維模型的嵌入(Embedding),形成一個64維的嵌入空間(Embedding space),然后通過ConvNets輸入二維圖像,找到對應的嵌入,最后通過解碼器得到體素表示的三維模型.在重建結果上,更能抓住重建的細節(jié),例如椅子的腿部和靠背,重建效果優(yōu)于Kar等[20]的方法.Kar等[74]嘗試在同一系統(tǒng)中統(tǒng)一單視圖和多視圖的三維重建,提出了一種叫做立體學習機(Learnt stereo machine,LSM)的新系統(tǒng),其可以利用單視角和語義線索進行單視圖三維重建,同時也可以利用立體視覺整合來自不同視角的信息進行多視圖重建.該方法在編碼部分提取特征后,加入一個反投影模塊,將由前饋卷積神經網絡獲取的二維圖像中的特征投影到三維網格中,并使得結果根據極線約束在三維網格中對齊,簡化了特征匹配.通過實驗與3D-R2N2[8]的IoU值對比,無論在單視圖還是多視圖均取得了更好的效果,并且在實驗中即便只給出飛機和椅子的數據,還是可以完成汽車模型的重建,因而具有較好的泛化能力.Wu等[75]等提出了一種叫MarrNet的網絡模型,在端到端生成重建結果的網絡結構中加入了生成2.5D草圖的步驟,增強了重建效果并使得網絡可以更輕松地針對不同類別的物體進行重建.
早期的工作主要基于監(jiān)督學習,但獲得大規(guī)模監(jiān)督數據的成本往往是巨大的,隨著研究的深入,一些基于生成模型的弱監(jiān)督學習和無監(jiān)督學習的方法逐漸被提出.Kanazawa等[76]提出了一種新的網絡結構WarpNet,利用薄板樣條插值(Thin-Platespline)進行轉換,從一幅鳥的圖像變形得到另一幅鳥的圖像,得到一個人工的對應,通過將這樣的兩幅圖像作為原始圖和目標圖來學習其中的變化,最后將通過網絡學習得到的結果作為空間先驗來匹配圖像中的外表變化、視點和關節(jié),不需要部分注釋來進行單視圖重建.Tulsiani等[77?78]采用另一種監(jiān)督形式,通過學習單視角的三維結構來構建多視角觀察(Multi-view observations),再通過多視角觀察得到幾何一致性,其利用經典射線一致性公式引入了一個一般的檢驗器,可以測量3D外形與不同種類觀測結果間的一致性.Rezende等[1]首次提出了一個無監(jiān)督的生成模型,在二維圖像上可以進行端到端的無監(jiān)督訓練,不需要真實的三維標簽,證明了無監(jiān)督生成模型學習三維表征的可能性.在此基礎上,Yan等[79]提出一個名為Perspective transformer nets的網絡結構,在傳統(tǒng)的編解碼卷積神經網絡中加入了透視變換作為正則化,在不知道對應的真實模型的情況下,提出了一種輪廓損失函數,通過透視變換,將在不同特定視角下的二維物體輪廓和對應體素輪廓的距離作為新的損失函數,該方法在無監(jiān)督學習下的重建具有良好的泛化能力.此外,一些學者利用生成對抗網絡進行重建[80?83].Wu等[84]提出了3D-VAE-GAN的網絡結構,輸入單幅圖像,通過變分自編碼網絡的編碼器得到圖像的潛在向量(Latent vector),再通過生成對抗網絡的生成器得到重建的物體.使用生成對抗網絡的優(yōu)點是可以從高斯或均勻分布等概率表征空間中采樣新的三維對象,并且判別器(Discrimitator)帶有三維物體識別的信息特征.該方法與TL-embedding network的重建精度對比,取得了更好的效果.Zhu等[82]對圖像中物體的二維輪廓使用了更簡單的標注,對TL-embedding network和3D-VAE-GAN網絡進行了微調,重建取得了更好的效果.Gadelha等[85]提出了一種Projective GANs(PrGANs)的生成對抗網絡,在生成器上加入了投影模塊,投影模塊通過給定視角呈現體素形狀來捕獲三維表示,而后轉化為二維圖像再傳遞給判別器,通過判別器判定輸入圖像是生成的還是真實的.通過反復訓練,調整生成器,改進了生成的三維體素外形.增加投影模塊使該方法與之前3D-VAE-GAN網絡需要聯合三維數據相比,在學習階段不使用任何標注、三維信息或視角信息來推斷潛在的三維外形分布.Rosca等[81]對AE-GANs的網絡結構進行了改進,提出了一種新的變分自編碼器和GANs結合的方法α-GAN,融合兩種方法的優(yōu)勢,構建新的優(yōu)化目標函數,重建也取得了較好的效果.
體素表示的三維物體相較于二維圖像,計算量更大,需求內存更多,往往因計算和內存的限制,分辨率主要為32×32×32以下.針對這一問題,一些基于八叉樹的卷積神經網絡被提出[86?88].Riegler等[89]提出了一種卷積網絡OctNet,取代體素部分,將三維空間分割成一組不平衡八叉樹,每個八叉樹根據數據的密度來分割三維空間.其充分利用了三維輸入數據的稀疏性,從而能夠更加合理地使用內存及計算.受此啟發(fā),Hne等[90]提出了一個叫做層次表面預測(Hierarchical surface prediction,HSP)的通用框架,將體素分為占用、未占用和邊界三類.使用這種方法,在一個八叉樹中分層次地預測從粗到細多分辨率的體素塊,只要保證在那些標記為邊界的區(qū)域有相對較高的分辨率即可.通過迭代,可以層進地預測出分辨率為256×256×256的體素表示.同樣是使用八叉樹結構,與Riegler等[89]提出的方法中需要假設在測試期間八叉樹結構為已知的不同,Tatarchenko等[88]提出了一種稱作OGN(Octree generating networks)的網絡結構,通過網絡學習預測八叉樹的結構,同時在網絡的解碼初期預測大量的輸出空間,而直到網絡的某一層,密集的網格才被八叉樹替代,從而節(jié)省了后續(xù)高分辨率計算需要的內存,并且可以將分辨率提升為512×512×512.Sun等[87]提出了一種稱作CVN(Colorful voxel network)的網絡結構,這是第一個基于深度學習的能夠端到端同時從單一圖像恢復三維外形和表面顏色的網絡結構,設計了一種新的損失函數MSFCEL(Mean squared false cross-entropy loss)用于解決體素表示的稀疏問題,從而能夠生成更高分辨率的結果.
ShapeNet團隊組織了一次基于單幅圖像物體三維重建的挑戰(zhàn)賽[6],共3支隊伍參加,包括上文提到的HSP[90]和α-GAN[81].每個隊伍從測試圖像重建出分辨率為256×256×256的三維模型,挑戰(zhàn)賽采用IoU和CD兩種評價標準.在與3D-R2N2[8]結果的對比中,HSP在基于IoU的評價標準中贏得第一,而α-GAN在基于CD的評價標準中贏得第一,ShapeNet團隊猜測原因是gan損失比交叉熵損失更有助于描繪幾何的正確性[6].
2.2.2 基于點云和網格表示的三維重建
基于點云和網格的單幅圖像三維重建工作目前還比較少,原因在于相較于可以直接用于卷積神經網絡中的體素表示,點云和網格表示則需要一定的改變.例如,系統(tǒng)若需處理點云時一般需要維持點順序不變.隨著一些基于深度學習和點云形式的物體識別的相關工作的出現[91?93]和相關研究的不斷推進,Fan等[9]提出了一個點集生成網絡,這是第一個用深度學習研究點云表示點集產生的網絡結構.它有多個平行的預測分支,網絡結構中包含卷積模塊、反卷積模塊、全連接模塊.這樣復雜的模型具有高度的靈活性,在描述復雜結構方面表現出色,而由于卷積層和反卷積層引起的空間連續(xù)性,其對大光滑表面更友好.而該網絡引入了Hourglass卷積網絡結構[94]反復進行的編解碼操作,使該方法具有更強的表示能力,可以更好地聯合全局和局部信息.其系統(tǒng)地探討了點云生成網絡的損失函數設計,選取了兩種距離Chamfer distance(CD)和Earth Mover's distance(EMD)作為候選.在重建結果上,該方法能產生多個可能的輸出來解決單幅圖像三維重建的不適定問題,在與3D-R2N2方法的結果對比中,該方法在所有類別中均能獲得更高的IoU值,擁有更好的重建效果,但是在輸入圖像中有多個對象的情況下,由于網絡還沒有采取任何檢測或注意力機制,網絡會產生扭曲的輸出.并且其所需的可學習參數與三維點預測的數量成線性比例且不能很好地縮放,使用三維距離度量作為優(yōu)化標準對于大量點來說仍是困難的.Lin等[95]針對上述問題,在網絡結構中使用了二維卷積運算來捕獲生成的點云之間的相關性并以更易于計算的方式進行優(yōu)化,生成的點云具有更好的精度.
圖像和網格之間的轉換產生的離散操作會阻礙反向傳播的過程,導致基于深度學習重建網格表示的三維模型面臨不小的挑戰(zhàn).Kato等[25]針對這個問題提出了一種渲染網格的近似梯度,將該部分作為一個渲染器集成到神經網絡中.經過渲染器處理,其使用輪廓圖像監(jiān)督來執(zhí)行單圖像3D網格重建.通過對比Yan等[79]基于體素的重建方法,驗證了其在視覺和IoU值方面均超過了基于體素的方法,但該方法存在一個明顯的不足,即不能生成一個具有各種拓撲的對象.Pontes等[96]提出了一個新的學習框架,通過學習框架推斷網格表示的參數來解決基于網格重建所面臨的問題,其在面對輸入為真實世界的單幅圖像時表現更好.Wang等[97]將網絡分為特征提取和網格變形兩個部分,先由2D CNN部分提取特征,再利用提取的特征通過GCN(Graph convolutional network)來解決網格結構無法直接作用于CNN的問題,最后生成重建模型.該文章對比了基于體素的3D-R2N2[8]、Fan等[9]基于點云及Kato[25]基于網格的方法,實驗中重建效果均高于上述三種方法,但仍存在只能生成相同拓撲網格的局限性.
為了更好地研究基于單幅圖像的物體三維重建,構建大規(guī)模的三維模型數據集成為必然要求.目前有多個三維模型的公共數據集供科研人員使用.
PASCAL VOC數據集是在圖像識別、圖像分割和目標檢測等領域經常使用的大型數據集,它的廣泛使用也推動了計算機視覺領域的不斷發(fā)展.而PASCAL 3D+正是基于PASCAL VOC 2012[99]的12種剛體類別的圖像,為它們添加了三維模型標注的數據集,其每一類通過ImageNet[100]擴展得到更多的圖像,最終每一類平均有3000左右的物體.該數據集圖像物體變化較大,且包含遮擋和截斷等情況,能夠更好地反映真實世界中的變化.
該數據集由物體的三維CAD模型組成,是目前為止包含豐富注釋的最大的三維模型數據集.其在WordNet[102]分類下進行組織,為每一個三維模型提供豐富的語義注釋,包括物理尺寸、關鍵字等,注釋可通過基于Web的界面提供,以實現對象屬性的數據可視化.ShapeNet共包含超過300萬個模型,其中22萬個模型被歸類為3135個類別.
該數據集包含在線銷售的23000個物體的圖像.由于存在寬基線的問題,傳統(tǒng)的MVS和SFM方法無法通過這些圖像進行重建.
該數據集是當前規(guī)模較大、模型類別較多的一個大型CAD數據集,收集了各類3D CAD網站,3D Warehouse以及Princeton Shape Benchmark[104]660種共計151125個CAD模型.
該數據集收集了來自Google 3D Warehouse的225個IKEA的三維模型和從Flickr得到的800幅圖像,分為IKEA家具和IKEA房間兩個部分,主要集中了室內家具的模型,模型類別及數量相對較少,同時部分圖像存在遮擋.該數據集的每一幅圖像都標注其關聯的三維模型,可以借此評估三維重建的效果.
隨著深度學習的不斷發(fā)展和三維數據集的不斷完善,基于單幅圖像的三維重建取得了較大的進展,表2展示了目前代表性傳統(tǒng)方法[20]和3D-R2N2在PASCAL 3D+數據集上以IoU值作為重建評價標準的重建效果對比.可以看出與傳統(tǒng)手工設計的方法相比,基于深度學習的端到端的訓練方法能夠直接以單幅圖像作為輸入,并以重建的三維模型作為輸出,提取特征效率更高,重建效果更好.同時深度學習使用諸如dropout等稀疏化網絡參數的方法來防止過擬合,以此來利用大規(guī)模的數據,具有更好的泛化性.正如人看到二維圖像即可聯想到它的三維表示,基于深度學習的單幅圖像重建也越來越趨向于與人類認知三維物體方法相同的無監(jiān)督學習[1,79,84],也有越來越多的網絡融合了單幅圖像和多幅圖像兩種方式,使得重建能夠更加靈活.同時基于深度學習的方法也不斷地在各種三維表示形式上進行著嘗試,表3對比了目前基于體素、點云、網格的主流方法在ShapeNetCore[77]數據集上以平均IoU值作為重建評價準則的重建精度.
表2 現有的傳統(tǒng)方法與3D-R2N2重建結果的對比[8]Table 2 Comparison of traditional methods and 3D-R2N2[8]
綜上所述,基于深度學習的方法相較于傳統(tǒng)的方法擁有較多的優(yōu)勢,并且在這一領域逐漸取得了顯著進展,但是同時在這一領域也存在如下問題:
1)公共數據集較小.對于一個三維重建任務來說,增加訓練數據的種類和規(guī)??梢栽黾訉W習的泛化能力.但是與目前千萬級的二維圖像數據集相比,三維公共數據集規(guī)模小、種類少.即使是近年來發(fā)布的較大的數據集ModelNet也僅包含了來自662個類的127915個三維外形.相信隨著深度學習在三維領域的不斷深入,在未來會涌現出更大規(guī)模的三維公共數據集.
2)重建分辨率及精度問題.三維物體相較于二維多了一個維度,基于體素的重建隨著重建分辨率的增加,物體體積成立方體增長,使其受限于計算和內存,重建物體常見的分辨率是32×32×32.這樣分辨率的重建結果是非常粗糙的,離真實物體還有較大差距.即使有針對這一問題提出的改進方法[90],改進后仍然無法達到較為精密的重建效果.而在以主要依賴于大規(guī)模多樣性標記數據集的監(jiān)督學習的方法中,在實驗中與真實模型對比,重建精度也未達到0.85以上.要提高基于體素重建的分辨率,還要考慮三維體素的稀疏性,未來針對如何在基于體素的重建中提升計算效率,避免在未占用的部分浪費過多內存,提高重建的分辨率以及如何改善網絡結構以提高重建效果,能夠恢復更多細節(jié),這些仍然是未來值得關注的問題.
3)基于點云和網格重建的問題.圖像是結構化的,可以表示為二維平面上的一個矩陣,基于體素的重建使模型通過體素化變?yōu)槎的J?也保證了大小的相同.但三維點云和網格都是不規(guī)則的數據形式,這使得學習方法的應用存在問題,由于歐幾里德卷積運算不能直接應用,這些數據表示不能很好地適應傳統(tǒng)的CNN.目前針對該問題僅有少數前期探索工作[9],主要思路有:a)先將三維點云或網格數據轉化成二維圖像,再在神經網絡中提取特征;b)設計適應原始三維數據特點的網絡模型,例如結合GCN的網絡模型;c)在三維外形上手工提取低級特征,再采用深度學習模型提取高級特征.但總體而言,該問題仍未得到有效解決.如何設計能適應原始三維數據特點的深度學習模型,以及如何設計點云生成網絡的損失函數仍是未來一個值得研究的課題.而基于網格的重建,如何生成具有不同拓撲的對象,是一個具有重要意義的研究方向.
4)單幅圖像重建的不適定問題.正如在傳統(tǒng)方法中提到的,對一幅圖像的三維重建,特別是對一幅來自真實世界的圖像(區(qū)別于從CAD模型中生成的二維圖像),其不可見部分的幾何外形需要猜測,一幅圖像往往可能對應多個不同的重建模型,且均可以看作是該幅圖像的重建結果.從統(tǒng)計的角度來看,輸入圖像的合理預測形成一個分布.反映在訓練集中,兩個看起來相似的圖像可能具有相當不同的重建結果.如果將這個問題看作是一個回歸問題,就與傳統(tǒng)的只有一個對應真實模型的三維重建大有不同,定義正確的損失函數就顯得尤為重要.針對這一問題,Fan等[9]通過VAE網絡結構和其定義的MoN損失使得網絡能對單幅圖像生成多種可能的重建結果,該方法進行了一次有益的嘗試,但在實現細節(jié)和準確度上仍有提高的空間.
5)三維模型的表示形式和評價指標.與深度學習在二維圖像中的應用不同,目前人們仍然還在探索什么樣的三維表示是最準確有效的,因此基于體素、網格、點云表示的方法也仍然在不斷涌現.而在對基于單幅圖像的三維重建的評價標準上,至今也仍沒有一個完全統(tǒng)一的定論[6],哪種評價指標最能夠反映重建的效果,仍然有待進一步的研究.
本文綜述了近年來深度學習在單幅圖像三維重建中的應用和展望.首先說明了傳統(tǒng)的基于單幅圖像的三維重建的方法和常用的公共數據集,然后重點介紹了深度學習方法在基于單幅圖像的三維重建的最新應用進展,最后對深度學習在基于單幅圖像的三維重建進行了分析,對未來的發(fā)展趨勢進行了思考與展望.總體而言,深度學習為解決基于單幅圖像的三維重建提供了新的技術,取得了較為顯著的科研成果,但其研究大部分仍存在大量的問題,未來基于深度學習的單幅圖像的三維重建仍然是一個亟待研究的重點方向.
表3 不同方法以平均IoU值作為評價標準的重建精度對比Table 3 3D reconstruction comparison with different methods using IoU
致謝
感謝英國薩里大學視覺、語音和信號處理中心Evren Imre博士(現工作于動作捕捉公司Vicon)對本文提出的建設性意見.