陳雅麗 李海生 王曉川 李楠
摘 要:?jiǎn)畏鶊D像的三維重建是一個(gè)不適定問(wèn)題,由于圖像與三維模型間存在的表示模式差異,通常存在物體自遮擋、低光照、多類對(duì)象等情況,針對(duì)目前單幅圖像三維模型重建中重建模型具有歧義性的問(wèn)題,提出了一種基于先驗(yàn)信息指導(dǎo)的多幾何角度約束的三維點(diǎn)云模型重建方法。首先,通過(guò)預(yù)訓(xùn)練三維點(diǎn)云自編碼器獲得先驗(yàn)知識(shí),并最小化輸入圖像特征向量與點(diǎn)云特征向量的差異,使得輸入圖像特征分布逼近點(diǎn)云特征分布;然后,利用可微投影模塊將圖像的三維點(diǎn)云表示形式從不同視角投影到二維平面;最后,通過(guò)最小化投影圖與數(shù)據(jù)集中真實(shí)投影圖的差異,優(yōu)化初始重建點(diǎn)云。在ShapeNet和Pix3D數(shù)據(jù)集上與其他方法的定量定性比較結(jié)果表明了該方法的有效性。
關(guān)鍵詞:點(diǎn)云;三維重建;深度學(xué)習(xí);先驗(yàn)知識(shí);可微投影模塊
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-044-3168-05
doi:10.19734/j.issn.1001-3695.2022.12.0833
Single-view 3D point cloud reconstruction algorithm based on priori knowledge
Chen Yali1,2,3,Li Haisheng1,2,3,Wang Xiaochuan1,2,3,Li Nan1,2,3
(1.School of Computer & Engineering,Beijing Technology & Business University,Beijing 100048,China;2.Beijing Key Laboratory of Big Data Technology for Food Safety,Beijing 100048,China;3.National Engineering Laboratory for Agri-product Quality Traceability,Beijing 100048,China)
Abstract:Single-view 3D reconstruction is an ill-posed problem.Due to the different modes of representation between the image and the 3D model,there are usually self-occlusion,low illumination,and multiple objects.Aiming at the ambiguity of the reconstructed model in the current 3D model reconstruction of a single image,this paper proposed a 3D point cloud model reconstruction method based on the guidance of prior information and multi-geometric angle constraints.Firstly,it obtained prior knowledge by pre-training the 3D point cloud encoder,and minimized the difference between the input image feature vector and the point cloud feature vector,so that the input image feature distribution approximated the point cloud feature distribution.Then,it used a differentiable projection module to project the three-dimensional point cloud representation of the image from different angles to a two-dimensional plane.Finally,it optimized the initial reconstructed point cloud by minimizing the diffe-rence between the projected image and the actual projected image in the dataset.The results of quantitative and qualitative comparison with other methods on ShapeNet and Pix3D datasets verify the effectiveness of the proposed algorithm.
Key words:point cloud;3D reconstruction;deep learning;prior knowledge;differentiable projection module
三維重建(3D reconstruction)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)重要任務(wù)。其中單視圖重建[1](single-view reconstruction,SVR),從單個(gè)圖像中推斷3D模型形狀是一個(gè)不適定的問(wèn)題,由于從3D到2D的投影過(guò)程會(huì)丟失3D形狀的關(guān)鍵幾何和結(jié)構(gòu)信息,并且圖像與三維模型之間存在的表示模式差異,通常存在物體自遮擋等問(wèn)題。隨著大規(guī)模3D數(shù)據(jù)集的公開(kāi)[2,3]和深度學(xué)習(xí)技術(shù)的進(jìn)步,越來(lái)越多的研究者嘗試將深度學(xué)習(xí)技術(shù)應(yīng)用于三維數(shù)據(jù)的分析與理解[4]。在三維重建任務(wù)中,根據(jù)目前三維模型常用的表示形式,主要有基于點(diǎn)云[5,6]、基于網(wǎng)格[7,8]和基于體素[9,10]的三維重建方法。
1 相關(guān)工作
1.1 基于視覺(jué)幾何的三維重建方法
傳統(tǒng)基于視覺(jué)幾何的三維重建方法,研究時(shí)間比較久遠(yuǎn),技術(shù)相對(duì)成熟,已經(jīng)取得巨大的成功。主要通過(guò)多視角圖像對(duì)采集數(shù)據(jù)的相機(jī)位置進(jìn)行估計(jì),再通過(guò)圖像提取特征后進(jìn)行比對(duì)拼接完成二維圖像到三維模型的轉(zhuǎn)換。2005年,Isgro等人[11]將其主要分為主動(dòng)式和被動(dòng)式,在主動(dòng)式方法[12,13]中,物體的深度信息是給定的,重建主要是利用數(shù)值近似來(lái)還原物體的3D輪廓。被動(dòng)式方法[14,15]在3D重建過(guò)程中不會(huì)與被重建物體產(chǎn)生任何交互,主要是利用周圍環(huán)境獲取圖像,然后通過(guò)對(duì)圖像的理解來(lái)推理物體的3D結(jié)構(gòu)。
1.2 基于深度學(xué)習(xí)的三維重建方法
深度學(xué)習(xí)的方法使用深度網(wǎng)絡(luò)從低質(zhì)量圖像中自動(dòng)學(xué)習(xí)三維形狀的語(yǔ)義特征,可以充分學(xué)習(xí)三維形狀的可見(jiàn)部分,通過(guò)訓(xùn)練目標(biāo)函數(shù)重建三維形狀的遮擋部分,彌補(bǔ)傳統(tǒng)基于視覺(jué)的三維重建的固有缺陷,提高了重建精度。
Wu等人[16]在2015年提出基于體素表示的三維重建網(wǎng)絡(luò)3D ShapNets。體素表示的三維形狀通過(guò)添加三維塊提高了表面精度,但是也帶來(lái)了更大的計(jì)算量。與此同時(shí),這種體素表示方法存在信息稀疏性問(wèn)題,受到空間分辨率的限制。Tatarchenko等人[17]通過(guò)一種基于八叉樹(shù)的體素表示法,八叉樹(shù)生成網(wǎng)絡(luò)(octree generating network,OGN)學(xué)習(xí)預(yù)測(cè)八叉樹(shù)的結(jié)構(gòu)和每個(gè)單元的占用值,大大降低了生成形狀所需的空間開(kāi)銷,提升了預(yù)測(cè)體素形狀的精細(xì)程度。與基于體素或基于八叉樹(shù)的CNN方法不同,Wang等人[18]提出一個(gè)自適應(yīng)基于八叉樹(shù)的卷積神經(jīng)網(wǎng)絡(luò)(Adaptive O-CNN),按照局部形狀與平面的差距自適應(yīng)地生長(zhǎng)八叉樹(shù)并在每個(gè)葉子節(jié)點(diǎn)中預(yù)測(cè)一個(gè)小平面作為局部的幾何形狀,充分利用了不同形狀和不同尺度局部幾何的共性,不僅減少了內(nèi)存開(kāi)銷,而且較現(xiàn)有的三維CNN方法具有更好的形狀生成能力。
網(wǎng)格表達(dá)不同于圖像和體素的結(jié)構(gòu),具有不一致的拓?fù)浣Y(jié)構(gòu)[19],能夠建模三維形狀細(xì)節(jié),更適合于許多實(shí)際應(yīng)用場(chǎng)景。Wang等人[20]提出了一種端到端的深度學(xué)習(xí)框架Pixel2Mesh,由粗到細(xì)基于圖卷積神經(jīng)網(wǎng)絡(luò)直接生成彩色圖像的三角形網(wǎng)格。
針對(duì)上述方法存在重建精度和完整度的問(wèn)題,沈偉超等人[21]將三維物體分解成多個(gè)組件,通過(guò)預(yù)測(cè)組件幾何結(jié)構(gòu)和組裝組件的方式重建三維物體,從而將高分辨率三維物體的重建問(wèn)題分解成一系列低分辨率組件的重建問(wèn)題。Zheng等人[22]提出了一種簡(jiǎn)單而有效的方法來(lái)重建高質(zhì)量的三維模型的表面顏色和形狀。采用統(tǒng)一的由粗到細(xì)的策略,從輸入的單幅圖像中學(xué)習(xí)顏色和形狀。通過(guò)引入正交彩色地圖(orthographic colorful map,OCM)來(lái)表示模型的表面顏色,從而可以直接利用二維超分辨率方法獲得高分辨率的表面顏色。
1.3 基于單視圖的三維重建方法
基于單視圖的三維重建在計(jì)算機(jī)視覺(jué)領(lǐng)域是一個(gè)具有挑戰(zhàn)性的熱點(diǎn)問(wèn)題,近幾年來(lái),研究人員通過(guò)引入先驗(yàn)知識(shí)和一些合適的約束進(jìn)行三維重建。Li等人[23]提出了一種利用類信息從給定的類標(biāo)簽生成三維模型的三維GAN,該網(wǎng)絡(luò)可以學(xué)習(xí)多類別的復(fù)雜數(shù)據(jù)分布,并且生成器的多樣性得到了很好的保證,最終從單一圖像中重建三維模型。Zhang等人[24]聯(lián)合學(xué)習(xí)2D圖像、3D形狀幾何形狀和結(jié)構(gòu)的多模態(tài)特征表示,將3D形狀結(jié)構(gòu)表示為零件關(guān)系,通過(guò)對(duì)視圖對(duì)齊圖像和3D形狀進(jìn)行訓(xùn)練,在潛在特征空間中隱式編碼視圖感知形狀信息,從而重建出三維模型。何鑫睿等人[25]通過(guò)對(duì)Pix2Vox網(wǎng)絡(luò)進(jìn)行改進(jìn),在重建網(wǎng)絡(luò)中增加多尺度通道,以保留多層次的圖像信息,并融合通道注意力機(jī)制,加強(qiáng)對(duì)圖像特征學(xué)習(xí),實(shí)現(xiàn)端到端的單視圖三維模型重建。
點(diǎn)云作為三維數(shù)據(jù)的重要表示形式,具有可伸縮的數(shù)據(jù)表示、緊湊的形狀信息編碼和可選的嵌入紋理的特點(diǎn),受到越來(lái)越多的關(guān)注。針對(duì)在單視圖三維點(diǎn)云重建問(wèn)題,Mandikal等人[1]提出3D-LMNet框架,從單一圖像進(jìn)行精確多樣的三維點(diǎn)云重建的潛在嵌入匹配,通過(guò)訓(xùn)練三維點(diǎn)云自編碼器,學(xué)習(xí)一個(gè)從二維點(diǎn)云到相對(duì)應(yīng)潛在嵌入空間的映射。 Chen等人[26]使用設(shè)計(jì)的圖像編碼器和注意力機(jī)制來(lái)提取圖像特征并輸出簡(jiǎn)單的點(diǎn)云。Wen等人[27]提出了3DAttriFlow網(wǎng)絡(luò),通過(guò)對(duì)輸入圖像中不同的語(yǔ)義層次分離和提取語(yǔ)義屬性,將其集成到三維形狀重建過(guò)程中,對(duì)三維形狀上特定屬性的重建提供明確的指導(dǎo),從而重建更精確的3D形狀。上述方法僅僅依靠對(duì)三維信息的監(jiān)控,誘導(dǎo)網(wǎng)絡(luò)生成合理、準(zhǔn)確的三維模型是不夠的。另外,生成的點(diǎn)云視覺(jué)誤差隨姿態(tài)的不同而變化,在圖像不可見(jiàn)部分容易產(chǎn)生多個(gè)微小形狀的三維模型結(jié)果,且模型的細(xì)節(jié)容易丟失。比如對(duì)椅子重建中,椅子腿是辨別椅子的重要特征,但使用整體損失函數(shù)時(shí)由于椅子腿部點(diǎn)數(shù)過(guò)少,使得腿部部分不易重建,從而失去重要特征。
目前大多數(shù)點(diǎn)云重建方法在訓(xùn)練過(guò)程中直接使用二維圖像特征或三維模型作為監(jiān)督值,這種方法雖然簡(jiǎn)單,但同時(shí)帶來(lái)了兩個(gè)主要的問(wèn)題:一方面由于單張圖片提供的物體信息有限,僅僅約束單張圖片重建出來(lái)的模型,很難重建出高質(zhì)量并與輸入圖像保持一致的三維模型,也就是重建出的點(diǎn)云易產(chǎn)生多個(gè)可能的形狀;另一方面由于圖像數(shù)據(jù)集遠(yuǎn)遠(yuǎn)超過(guò)三維數(shù)據(jù),所以標(biāo)注大量與輸入圖像匹配的三維模型帶來(lái)昂貴的時(shí)間和人力成本。利用點(diǎn)云進(jìn)行單視圖三維重建仍存在一些亟待解決的問(wèn)題。從單視圖圖像中恢復(fù)三維結(jié)構(gòu)也是一個(gè)不適定問(wèn)題,重建的點(diǎn)云缺乏細(xì)節(jié)曲面。
2 本文方法
本文針對(duì)目前單幅圖像三維模型重建中重建模型具有歧義性的問(wèn)題,提出了一種改進(jìn)的3D-LMNet方法,基于先驗(yàn)信息指導(dǎo)的多幾何角度約束的三維點(diǎn)云模型重建方法。點(diǎn)云模型重建網(wǎng)絡(luò)框架如圖1所示。
具體來(lái)說(shuō),首先使用圖像編碼器與3D點(diǎn)云自編碼器分別獲取輸入圖像特征Ei與點(diǎn)云數(shù)據(jù)分布先驗(yàn)Ep,為減少重建過(guò)程中不確定點(diǎn)云的生成,通過(guò)結(jié)合多個(gè)二維投影圖Ml監(jiān)督的方法,在不同視角進(jìn)行幾何外觀約束,從而使得重建模型具有與輸入一致的外觀輪廓細(xì)節(jié),使得三維模型重建更具有廣泛性。聯(lián)合優(yōu)化投影圖損失Lmask 和特征向量損失L1,更新圖像編碼器參數(shù)Eθ,最終獲得重建點(diǎn)云。在合成和真實(shí)數(shù)據(jù)集上對(duì)該重建方法進(jìn)行了廣泛的定量和定性評(píng)估,實(shí)驗(yàn)結(jié)果表明本文算法顯著優(yōu)于3D-LMNet的重建方法。
2.1 3D點(diǎn)云自編碼器
為學(xué)習(xí)3D點(diǎn)云數(shù)據(jù)集中的先驗(yàn)知識(shí),本文訓(xùn)練了一個(gè)編解碼器網(wǎng)絡(luò)(Ep,Dp) 。通過(guò)設(shè)計(jì)適當(dāng)?shù)膿p失函數(shù)訓(xùn)練,調(diào)整編碼器和解碼器的參數(shù),能夠充分學(xué)習(xí)輸入特征,引入點(diǎn)云自編碼器來(lái)充當(dāng)數(shù)據(jù)集中點(diǎn)云特征提取器,通過(guò)訓(xùn)練學(xué)習(xí)輸入點(diǎn)云數(shù)據(jù)的分布特征,從而獲取數(shù)據(jù)分布先驗(yàn)。
采用基于PointNet的編碼器Ep 結(jié)構(gòu),其中包括五個(gè)一維卷積層。應(yīng)用maxpool symmetry函數(shù)特征向量Zp上全連接層構(gòu)成,產(chǎn)生重建點(diǎn)云X⌒p。具體來(lái)說(shuō),輸入點(diǎn)云為B×N×3,其中B為batchsize,N為點(diǎn)云點(diǎn)的數(shù)量,每個(gè)卷積輸出B×N×64,B×N×128,B×N×256,B×N×256,B×N×512,為激活函數(shù)。在解碼器中,通過(guò)三個(gè)全連接層輸出,分別為B×256,B×256,B×2048×3。
2.2 匹配重建
通過(guò)2.1節(jié)3D點(diǎn)云自編碼器訓(xùn)練后,得到一個(gè)特征向量,其可以理解為一個(gè)向量空間,即目標(biāo)域,而圖像編碼器部分獲取的圖像特征是為了與點(diǎn)云數(shù)據(jù)空間進(jìn)行逼近,使得兩者分布匹配,最小化向量空間分布差異后得到的圖像特征可以視做是融合了該類別三維特征信息,從而可以有效地恢復(fù)出三維模型。
在此階段,旨在將3D點(diǎn)云中學(xué)習(xí)的先驗(yàn)知識(shí)有效地轉(zhuǎn)移到2D圖像中。因此訓(xùn)練一個(gè)圖像編碼器Ei,該圖像編碼器輸入一個(gè)二維圖像I,并輸出一個(gè)圖像特征向量Zi。
在匹配重建階段,通過(guò)最小化圖像特征向量Zi與點(diǎn)云特征向量Zp的差異,使得圖像潛在數(shù)據(jù)空間逼近于真實(shí)點(diǎn)云數(shù)據(jù)分布,重建出可能的點(diǎn)云模型。對(duì)潛在損失函數(shù)使用最小絕對(duì)偏差LAD進(jìn)行計(jì)算,公式如下:
2.3 可微投影
從多個(gè)角度獲取多張二維投影圖來(lái)表達(dá)該模型,在不同角度約束重建的三維模型外觀輪廓。即若重建模型與真實(shí)模型接近,則其各角度投影必定相似,反過(guò)來(lái)說(shuō)若在不同角度投影圖和真實(shí)投影圖差距很小,則可以認(rèn)為其表達(dá)的模型與真實(shí)模型相似?;谶@一思想,考慮到從特征空間中重建的初始點(diǎn)云具有不確定性,因此本節(jié)引入可微點(diǎn)云投影模塊,將初始點(diǎn)云進(jìn)行投影,增加多角度幾何約束,從而確保重建點(diǎn)云與輸入圖像在幾何外觀上保持一致。
具體來(lái)說(shuō),在獲得預(yù)測(cè)點(diǎn)云X⌒i后,利用相機(jī)參數(shù)對(duì)模型進(jìn)行投影。通過(guò)視角變換并將變換后的點(diǎn)云投影到平面上,將點(diǎn)云中所有點(diǎn)的高斯映射合并,得到與真值匹配的投影圖,相比于以往的投影方式,采用可微函數(shù)的方法使得投影圖更具平滑性。對(duì)獲得任意視角v的不同投影,使用相應(yīng)的真實(shí)投影計(jì)算損失。令M⌒VI,J為在第v視角點(diǎn)云投影模塊在(i,j)坐標(biāo)處的像素值,其獲得方法如下:
2.4 損失函數(shù)
通常使用二元交叉熵?fù)p失來(lái)實(shí)現(xiàn)投影值和真實(shí)值之間的一致性,定義投影圖損失如下:
其中:MV和M⌒V別是第v個(gè)視角真實(shí)二值輪廊圖和點(diǎn)云投影輪廊圖;i,j分別是投影圖像中像素值。使用多個(gè)不同角度的投影圖像約束訓(xùn)練,得到的重建點(diǎn)云投影生成模型具有更精細(xì)的輪廓,更貼近真實(shí)三維物體。優(yōu)化過(guò)程中的最終損失函數(shù)是二元交叉熵和仿射變換損失函數(shù)的組合:
3 實(shí)驗(yàn)與結(jié)果
3.1 數(shù)據(jù)集
本文實(shí)驗(yàn)訓(xùn)練采用ShapeNet數(shù)據(jù)集中的數(shù)據(jù),其中包括視圖、Mask圖、相機(jī)視點(diǎn)信息,在網(wǎng)格表面采樣得到相應(yīng)的點(diǎn)云(數(shù)量為2 048),同時(shí)隨機(jī)選擇20個(gè)視角對(duì)每個(gè)模型進(jìn)行渲染獲得圖像,得到圖像和點(diǎn)云的數(shù)據(jù)對(duì)。包括13個(gè)不同類別的模型,按照80%、20%的比例劃分為訓(xùn)練集與測(cè)試集。訓(xùn)練后在ShapeNet數(shù)據(jù)集[2]和Pix3D數(shù)據(jù)集[3]進(jìn)行了測(cè)試,其中Pix3D中的圖像在形狀和背景方面較為復(fù)雜。
3.2 實(shí)驗(yàn)參數(shù)
本文實(shí)驗(yàn)訓(xùn)練過(guò)程分為兩個(gè)階段,在第一個(gè)階段即點(diǎn)云自編碼器過(guò)程,采用預(yù)訓(xùn)練的方式,第二個(gè)階段使用Adam優(yōu)化器對(duì)重建網(wǎng)絡(luò)訓(xùn)練進(jìn)行聯(lián)調(diào)。其中批處理大小為2,初始學(xué)習(xí)率為1×10-5。式(7)中α的設(shè)置值為10,輸入圖像尺寸為64×64×3,最終重建點(diǎn)云的數(shù)量為1 024、2 048,點(diǎn)云編碼器、重建網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)分別為500、10,選擇四個(gè)角度進(jìn)行投影。
3.3 評(píng)估指標(biāo)
本文采用以下定量評(píng)估指標(biāo)進(jìn)行評(píng)估:
a)CD(Chamfer distance):用于衡量?jī)蓚€(gè)點(diǎn)云之間的距離,也叫倒角距離,具體為一個(gè)點(diǎn)云S中的每一個(gè)點(diǎn)p,都找到另一個(gè)點(diǎn)云S⌒ 中與之最近鄰的一個(gè)點(diǎn)q,然后對(duì)點(diǎn)云所有點(diǎn)距離求和。
3.4 實(shí)驗(yàn)結(jié)果與分析
如表1可以看出,本文方法在bench、cabinet、car、monitor、speaker類別上CD距離比3D-LMNet[1]低近2.5,同時(shí)在air、chair、lamp、rifle、sofa、telephone、vessele類別也低于3D-LMNet[1]。在 EMD度量上,本文方法同樣具有競(jìng)爭(zhēng)力,其中在bench、cabinet、car、speaker類別上也低近2.0,在其他大部分類別上也是有更低的數(shù)值。
對(duì)部分重建結(jié)果進(jìn)行可視化展示,圖2展示了本文方法在ShapeNet測(cè)試子集上的部分重建結(jié)果(1 024點(diǎn)),從可視化結(jié)果可以看出,本文方法在重建模型為1 024數(shù)量點(diǎn)時(shí)仍有較好的效果,模型具有較強(qiáng)的魯棒性。圖3、4分別展示了本文算法與3D-LMNet在ShapeNet測(cè)試子集與Pix3D上的重建結(jié)果對(duì)比(2 048點(diǎn))。從可視化結(jié)果可以看出,基于先驗(yàn)指導(dǎo)的單圖重建結(jié)果有著較為完整的輪廓外觀,如圖3、4中table中間的隔層、椅子腿部等,另外本文方法在針對(duì)目前單幅圖像三維模型重建中重建模型具有歧義性的問(wèn)題有較好的效果,而3D-LMNet方法對(duì)某些類別針對(duì)輸入圖像本身可能存在噪聲、遮擋情況的重建效果不佳的問(wèn)題,如圖3bench類別樣例2中無(wú)法重建出模型輪廓,而本文方法通過(guò)引入可微投影模塊進(jìn)一步添加了約束條件,使得重建效果更佳。
4 結(jié)束語(yǔ)
本文提出了一個(gè)基于先驗(yàn)知識(shí)的單視圖三維點(diǎn)云重建算法,引入點(diǎn)云自編碼器獲取數(shù)據(jù)先驗(yàn),減少重建過(guò)程中不確定點(diǎn)云的生成,在此基礎(chǔ)上,結(jié)合可微投影模塊設(shè)計(jì)新穎的三維模型重建網(wǎng)絡(luò),實(shí)現(xiàn)重建點(diǎn)云具有與輸入圖像一致的外觀輪廓細(xì)節(jié),得到了較好的重建結(jié)果,通過(guò)實(shí)驗(yàn)與其他方法進(jìn)行了對(duì)比驗(yàn)證了所提算法的有效性。此外,本文結(jié)合數(shù)據(jù)先驗(yàn),減少解碼過(guò)程中不確定點(diǎn)云的生成,提高重建結(jié)果的準(zhǔn)確率,使得三維點(diǎn)云重建更具有廣泛性。未來(lái)將考慮利用圖卷積提取帶有法向信息的點(diǎn)云特征,結(jié)合對(duì)抗網(wǎng)絡(luò)試圖取得更好的重建效果。
致謝 此項(xiàng)工作是在國(guó)家超級(jí)計(jì)算天津中心的天河新一代超級(jí)計(jì)算機(jī)上完成,感謝天河的大力支持。
參考文獻(xiàn):
[1]Mandikal P,Navaneet K L,Agarwal M,et al.3D-LMNet:latent embedding matching for accurate and diverse 3D point cloud reconstruction from a single image[C]//Proc of British Machine Vision Confe-rence.2018:55.
[2]Mo Kaichun,Zhu Shilin,Angel X C,et al.PartNet:a large-scale benchmark for fine-grained and hierarchical part-level 3D object understanding[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:909-918.
[3]Sun Xingyuan,Wu Jiajun,Zhang Xiuming,et al.Pix3D,single RGB image,3D shape modeling,3D reconstruction,shape retrieval,3D pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2974-2983.
[4]李海生,武玉娟,鄭艷萍,等.基于深度學(xué)習(xí)的三維數(shù)據(jù)分析理解方法研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2020,43(1):41-63.(Li Hai-sheng,Wu Yujuan,Zheng Yanping,et al.A survey of 3D data analysis and understanding based on deep learning[J].Chinese Journal of Computers,2020,43(1):41-63.)
[5]Li Yangyan,Bu Rui,Sun Mingchao,et al.PointCNN:convolution on χ-transformed points[C]//Proc of the 32nd International Conference on Neural Information Processing Systems.[S.l.]:Curran Associates Inc.,2018:828-838.
[6]Fan Haoqiang,Su Hao,Guibas L,et al.A point set generation network for 3D object reconstruction from a single image[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:2463-2471.
[7]Gao Lin,Yang Jie,Wu Tong,et al.SDM-Net:deep generative network for structured deformable mesh[J].ACM Trans on Graphics,2019,38(6):1-15.
[8]Mao Aihua,Dai Canglan,Gao Lin,et al.STD-Net:structure-preserving and topology-adaptive deformation network for 3D reconstruction from a single image[J].IEEE Trans on Visualization and Computer Graphics,2020,29(3):1785-1798.
[9]Choy C B,Xu Danfei,Gwak J,et al.3D-R2N2:a unified approach for single and multi-view 3D object reconstruction[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:628-644.
[10]Xie Haozhe,Yao Hongxun,Zhang Shengping,et al.Pix2Vox+:multi-scale context-aware 3D object reconstruction from single and multiple images[J].International Journal of Computer Vision,2020,128(12):2919-2935.
[11]Isgro F,Odone F,Verri A.An open system for 3D data acquisition from multiple sensor[C]//Proc of the 7th International Workshop on Computer Architecture for Machine Perception.Piscataway,NJ:IEEE Press,2005:52-57.
[12]Park J,Kim H,Tai Y W,et al.High quality depth map upsampling for 3D-TOF cameras[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2011:1623-1630.
[13]Rocchini C,Cignoni P,Montani C,et al.A low cost 3D scanner based on structured light[J].Computer Graphics Forum,2001,20(3):299-308.
[14]Morris N J W,Kutulakos K N.Dynamic refraction stereo[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2011,33(8):1518-1531.
[15]Warren P A,Mamassian P.Recovery of surface pose from texture orien-tation statistics under perspective projection[J].Biological Cyberne-tics,2010,103(3):199-212.
[16]Wu Zhirong,Song Shuran,Khosla A,et al.3D ShapeNets:a deep representation for volumetric shapes[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1912-1920.
[17]Tatarchenko M,Dosovitskiy A,Brox T.Octree generating networks:efficient convolutional architectures for high-resolution 3D outputs[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2107-2115.
[18]Wang Pengshuai,Sun Chunyu,Liu Yang,et al.Adaptive O-CNN:a patch-based deep representation of 3D shapes[J].ACM Trans on Graphics,2018,37(6):1-11.
[19]李海生,曹國(guó)梁,魏陽(yáng),等.三角網(wǎng)格曲面共形參數(shù)化研究綜述[J].圖學(xué)學(xué)報(bào),2021,42(4):535-545.(Li Haisheng,Cao Guoliang,Wei Yang,et al.Survey on triangular mesh surface conformal parameterization[J].Journal of Graphics,2021,42(4):535-545.
[20]Wang Nanyang,Zhang Yinda,Li Zhuwen,et al.Pixel2Mesh:generating 3D mesh models from single RGB images[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:628-644.
[21]沈偉超,馬天朔,武玉偉,等.組件感知的高分辨率三維物體重建方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2021,33(12):1887-1898.(Shen Weichao,Ma Tianshuo,Wu Yuwei,et al.Component-aware high-resolution 3D object reconstruction[J].Journal of Computer Aided Design & Computer Graphics,2021,33(12):1887-1898.)
[22]Zheng Yanping,Zeng Guang,Li Haisheng,et al.Colorful 3D reconstruction at high resolution using multi-view representation[J].Journal of Visual Communication and Image Representation,2022,85:103486.
[23]Li Haisheng,Zheng Yanping,Wu Xiaoqun,et al.3D model generation and reconstruction using conditional generative adversarial network[J].International Journal of Computational Intelligence Systems,2019,12(2):697-705.
[24]Zhang Xuancheng,Ma Rui,Zou Changqing,et al.View-aware geometry-structure joint learning for single-view 3D shape reconstruction[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(10):6546-6561.
[25]何鑫睿,李秀梅,孫軍梅,等.基于改進(jìn)Pix2Vox的單圖像三維重建網(wǎng)絡(luò)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2022,34(3):364-372.(He Xinrui,Li Xiumei,Sun Junmei,et al.Improved Pix2Vox based 3D reconstruction network from single image[J].Journal of Computer-Aided Design & Computer Graphic,2022,34(3):364-372.)
[26]Chen Hui,Zuo Yipeng.3D-ARNet:an accurate 3D point cloud reconstruction network from a single-image[J].Multimedia Tools and Applications,2022,81:12127-12140.
[27]Wen Xin,Zhou Junsheng,Liu Yushen,et al.3D shape reconstruction from 2D images with disentangled attribute flow[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2022:3793-3803.
收稿日期:2022-12-15;修回日期:2023-02-09基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(62277001);北京市自然科學(xué)基金—小米創(chuàng)新聯(lián)合基金項(xiàng)目(L233026);北京市教委—市自然基金委聯(lián)合資助項(xiàng)目(KZ202110011017)
作者簡(jiǎn)介:陳雅麗(1998-),女,四川宜賓人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、三維重建;李海生(1974-),男(通信作者),山東德州人,教授,博導(dǎo),博士,主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、三維重建(lihsh@btbu.edu.cn);王曉川(1987-),男,陜西咸陽(yáng)人,講師,博士,主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、圖像處理與質(zhì)量度量、虛擬現(xiàn)實(shí);李楠(1979-),男,北京人,教授,博士,主要研究方向?yàn)樵O(shè)計(jì)方法學(xué)、服務(wù)化設(shè)計(jì)與制造、智能工程.