基于卷積神經(jīng)網(wǎng)絡(luò)的室內(nèi)場(chǎng)景三維重建技術(shù)研究

2019-09-13 03:38姚曉峰武利秀

計(jì)算機(jī)應(yīng)用與軟件 2019年9期

關(guān)鍵詞：三維重建網(wǎng)絡(luò)結(jié)構(gòu)卷積

姚曉峰武利秀章偉王松

(無(wú)錫太湖學(xué)院江蘇省物聯(lián)網(wǎng)應(yīng)用技術(shù)重點(diǎn)建設(shè)實(shí)驗(yàn)室江蘇無(wú)錫 214000)

0 引言

傳統(tǒng)的三維重建方法大部分是借助現(xiàn)有的計(jì)算機(jī)輔助設(shè)計(jì)軟件(CAD，Maya等)，通過(guò)專業(yè)三維制圖工程師使用大量的時(shí)間和手工方法對(duì)真實(shí)世界的場(chǎng)景進(jìn)行三維幾何重建。該方法建造的場(chǎng)景具有較好的交互性，但模型真實(shí)感不太強(qiáng)，而且大多數(shù)輔助設(shè)計(jì)軟件具有很高的學(xué)習(xí)成本，工作量大，要想完成一個(gè)建模工作需要大量的人機(jī)交互工作，使得工作效率極大降低。這對(duì)于一些不需要高精度建模的使用者望而卻步。為此，如何尋找更快速的三維建模手段成為研究人員的新的研究方向。一種新的角度就是從圖像出發(fā)，通過(guò)對(duì)圖像信息的分析與處理，提取三維信息，用來(lái)實(shí)現(xiàn)三維場(chǎng)景的重建技術(shù)。為此，本文提出了一種采用RGBD圖像進(jìn)行三維場(chǎng)景重建的方法。用戶首先通過(guò)Kinect攝像機(jī)獲取到一張室內(nèi)場(chǎng)景的RGBD圖像，然后利用圖像分割技術(shù)將圖像分割成單一的場(chǎng)景元素塊。由于遮擋等問(wèn)題使得分割結(jié)果有可能達(dá)不到滿意的效果，用戶可以手動(dòng)對(duì)分割圖像進(jìn)行相應(yīng)的調(diào)整。分割之后，用每個(gè)元素塊的深度圖去和三維模型庫(kù)中的室內(nèi)元素模型進(jìn)行匹配，從而使其還原到三維場(chǎng)景中。針對(duì)大型的場(chǎng)景圖像，每個(gè)單張的圖像只需要覆蓋一部分的場(chǎng)景，從而用戶可以通過(guò)一組圖像重建整個(gè)場(chǎng)景。

本文創(chuàng)新點(diǎn)如下：

1) 通過(guò)三維模型渲染的方法獲取部分?jǐn)?shù)據(jù)以擴(kuò)展訓(xùn)練數(shù)據(jù)集，并結(jié)合部分真實(shí)數(shù)據(jù)集，得到充足的訓(xùn)練數(shù)據(jù)以用于模型匹配的三維重建方法的模型訓(xùn)練上。

2) 通過(guò)改進(jìn)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)模型，將圖像分類的思想引入本文問(wèn)題上，把室內(nèi)場(chǎng)景元素的三維重建問(wèn)題轉(zhuǎn)化成一個(gè)分類問(wèn)題去解決。

1 相關(guān)工作

理想情況下的三維場(chǎng)景建模方式是基于單圖像的建模方法，采用立體視覺(jué)的方式對(duì)三維場(chǎng)景進(jìn)行重建[1-2]的研究較多。該方法需要拍攝多幅同一物體的圖像作為參考，或者從不同視點(diǎn)對(duì)物體進(jìn)行數(shù)據(jù)采集，并從中提取相關(guān)特征以用來(lái)達(dá)到物體三維重建的目的。單幅圖像的明暗[3]、焦距[4]、紋理[5]等線索是基于單幅圖像三維場(chǎng)景建模技術(shù)的十分重要的特征來(lái)源。但是，這些線索通常對(duì)圖像質(zhì)量要求很高，使得在不同光照條件和物體遮擋下的效果變得很差，極大地限制了基于單幅圖像進(jìn)行三維場(chǎng)景建模的發(fā)展，使得這項(xiàng)技術(shù)只能在某些特定的場(chǎng)合下完成三維場(chǎng)景重建問(wèn)題。這就促使科研人員找到其他途徑去解決該問(wèn)題。引入人機(jī)交互方法應(yīng)用于三維場(chǎng)景重建問(wèn)題[6-7]，恰當(dāng)?shù)娜藱C(jī)交互使得三維重建技術(shù)的相關(guān)難題得到有效的解決。文獻(xiàn)[8]提出了數(shù)據(jù)驅(qū)動(dòng)的三維建模方法，通過(guò)圖像處理、三維檢索等技術(shù)把已有的或者自己創(chuàng)作的三維模型結(jié)合起來(lái)，可以迅速地實(shí)現(xiàn)他們的設(shè)計(jì)創(chuàng)意。針對(duì)三維場(chǎng)景的建模問(wèn)題，文獻(xiàn)[9]把上述數(shù)據(jù)驅(qū)動(dòng)的三維重建方法通過(guò)進(jìn)一步的組裝，并對(duì)之進(jìn)行建模，極大地推進(jìn)了三維場(chǎng)景建模問(wèn)題的進(jìn)展，使得三維場(chǎng)景建模變得更加方便。這種方法把三維場(chǎng)景模型庫(kù)中的模型作為單個(gè)部件，通過(guò)部件之間的有機(jī)聯(lián)系組裝起來(lái)，從而得到新的三維場(chǎng)景模型。文獻(xiàn)[10]提出一種基于圖像的三維建模方法，通過(guò)對(duì)單張圖像的分析，匹配到三維物體模型庫(kù)中的模型，然后進(jìn)行旋轉(zhuǎn)平移等變換，用來(lái)作為三維建模的組件。這類方法對(duì)三維模型庫(kù)要進(jìn)行大量的手工預(yù)處理工作?；诓輬D的三維模型的幾何重建是另一種三維場(chǎng)景建模方法。文獻(xiàn)[11-12]提出了一種基于草圖的模型檢索方法，通過(guò)輸入草圖，在三維模型庫(kù)中匹配與之對(duì)應(yīng)的三維模型的技術(shù)。文獻(xiàn)[13]在此基礎(chǔ)上提出了一種基于草圖的三維建模方法。隨著觸屏技術(shù)的發(fā)展，這項(xiàng)技術(shù)有了更加廣闊的前景。通過(guò)觸屏的概念，能夠動(dòng)態(tài)的指引用戶迅速完成三維建模任務(wù)。文獻(xiàn)[14]把三維建模技術(shù)轉(zhuǎn)換成搭積木工作，在系統(tǒng)后臺(tái)準(zhǔn)備大規(guī)模的三維模型組件，讓用戶手動(dòng)的組裝創(chuàng)意，并和用戶手繪的元素進(jìn)行有機(jī)的結(jié)合，讓三維建模技術(shù)變得有趣起來(lái)。文獻(xiàn)[15]提出部件組裝的三維重建方法，利用這些殘缺的點(diǎn)云信息和三維檢索技術(shù)所得到的高質(zhì)量的三維模型進(jìn)行有機(jī)結(jié)合，對(duì)殘缺部分進(jìn)行修復(fù)和拼接從而達(dá)到三維重建的目的。通過(guò)修復(fù)三維掃描儀獲取殘缺的場(chǎng)景點(diǎn)云模型以達(dá)到三維場(chǎng)景重建的目的是該方法的核心。文獻(xiàn)[16]提出了一種基于深度相機(jī)的三維場(chǎng)景重建方法。文獻(xiàn)[17]提出了一種交互式語(yǔ)義建模的方法，通過(guò)提取場(chǎng)景的深度信息進(jìn)行分析與處理，從而達(dá)到三維場(chǎng)景重建的目的。文獻(xiàn)[18]也針對(duì)這類方法進(jìn)行了研究。這類方法主要是通過(guò)掃描真實(shí)場(chǎng)景獲取RGBD信息，然后利用這些信息和三維模型數(shù)據(jù)庫(kù)之間的聯(lián)系，通過(guò)語(yǔ)義信息解決三維場(chǎng)景重建問(wèn)題。研究人員對(duì)三維場(chǎng)景的點(diǎn)云信息進(jìn)行分割，獲取單個(gè)物體的三維模型，從而恢復(fù)到原來(lái)的三維場(chǎng)景中去，完成三維場(chǎng)景的建模工作。這類方法雖然能夠取得很好的效果，并且有很高的效率，但是場(chǎng)景的點(diǎn)云信息的獲取成為了制約技術(shù)發(fā)展的絆腳石，也許在不久的將來(lái)，手持的深度相機(jī)的發(fā)展能夠彌補(bǔ)這個(gè)問(wèn)題，但現(xiàn)階段這類方法還不能很好的推廣。

2 基于卷積神經(jīng)網(wǎng)絡(luò)的模型匹配方法

在對(duì)RGB圖片進(jìn)行語(yǔ)義分割的基礎(chǔ)上，本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的模型匹配方法，在三維模型庫(kù)中匹配到和已知圖像塊最類似的三維模型，然后把它放到適當(dāng)?shù)奈恢?，就可以重建三維場(chǎng)景。模型訓(xùn)練集是圖像分割后的圖像塊，標(biāo)簽是它們對(duì)應(yīng)的精確分類，例如椅子包含各種不同靠背、支撐形式以及形狀的椅子。卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像分類問(wèn)題中具有很好的精確度。

由于不同的場(chǎng)景元素所包含的精分類的類別并不相同，針對(duì)每個(gè)元素主體設(shè)計(jì)不同的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)達(dá)到分類匹配目的。此處不同元素的網(wǎng)絡(luò)結(jié)構(gòu)大體類似，故本節(jié)以椅子作為主要描述對(duì)象。我們獲取到34個(gè)不同的椅子三維模型，即總共有34個(gè)椅子的精分類類別。

如圖1所示，本網(wǎng)絡(luò)結(jié)構(gòu)有三層卷積層以及兩層下采樣層組成。網(wǎng)絡(luò)結(jié)構(gòu)中每層卷積層后都添加激活函數(shù)，這里選擇RELU函數(shù)，其公式為:

f(x)=max(0,x)

(1)

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

使用RELU激活函數(shù)有三點(diǎn)好處：一是RELU函數(shù)在網(wǎng)絡(luò)訓(xùn)練階段計(jì)算量小，效率高；二是sigmoid激活函數(shù)容易出現(xiàn)梯度消失現(xiàn)象，RELU則可以避免這種狀況；三是RELU會(huì)使得部分神經(jīng)元輸出為0，減少了參數(shù)之間的相互依存關(guān)系，對(duì)防止過(guò)擬合有一定作用。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文模型的輸入數(shù)據(jù)是語(yǔ)義分割后得到的場(chǎng)景元素圖像塊的深度圖，輸出是該圖像塊所屬的精分類類別。為了得到該分類模型的訓(xùn)練數(shù)據(jù)，首先通過(guò)一些免費(fèi)設(shè)計(jì)素材網(wǎng)站下載并整理室內(nèi)場(chǎng)景三維模型，并搜索與之對(duì)應(yīng)的真實(shí)RGB圖像，通過(guò)三維投影的方法，手動(dòng)渲染了帶類標(biāo)的深度圖像。然后通過(guò)對(duì)NYU室內(nèi)場(chǎng)景圖片數(shù)據(jù)集的語(yǔ)義分割，手動(dòng)標(biāo)注了部分真實(shí)場(chǎng)景中的數(shù)據(jù)，混合形成本實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)集，用來(lái)訓(xùn)練網(wǎng)絡(luò)模型。如圖2所示，NYU室內(nèi)場(chǎng)景數(shù)據(jù)集由微軟的Kinect相機(jī)拍攝的各種室內(nèi)場(chǎng)景的視頻序列組成。

圖2 NYU數(shù)據(jù)集樣本

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

本文所提出的基于模型匹配的三維重建技術(shù)其實(shí)就是把重建方法轉(zhuǎn)化成一個(gè)分類問(wèn)題。所以，分類問(wèn)題的評(píng)價(jià)指標(biāo)便是本實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)，即模型匹配的準(zhǔn)確率。

3.3 參數(shù)分析

通過(guò)對(duì)比現(xiàn)階段流行的深度學(xué)習(xí)框架，選擇了高效靈活的Caffe框架作為實(shí)驗(yàn)環(huán)境。實(shí)驗(yàn)環(huán)境配置如下：core i7處理器、NIVIDIA GTX980 GPU、16 GB內(nèi)存、Caffe、Python。

在進(jìn)行網(wǎng)絡(luò)層數(shù)的選擇時(shí)，主要考慮耗時(shí)和準(zhǔn)確率的問(wèn)題，由于深層的深度神經(jīng)網(wǎng)絡(luò)無(wú)論是在訓(xùn)練階段還是測(cè)試階段，網(wǎng)絡(luò)層數(shù)多而導(dǎo)致的計(jì)算過(guò)程中大量的矩陣運(yùn)算會(huì)增加耗時(shí)，所以盡可能在保證準(zhǔn)確率的情況下選擇淺層卷積神經(jīng)網(wǎng)絡(luò)是十分重要的。為此，本文設(shè)計(jì)一組關(guān)于卷積神經(jīng)網(wǎng)絡(luò)層數(shù)對(duì)匹配效果影響的實(shí)驗(yàn)，分別是1～5層卷積層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搭配對(duì)應(yīng)的采樣層來(lái)進(jìn)行試驗(yàn)。實(shí)驗(yàn)效果如表1所示。

表1 不同層數(shù)網(wǎng)絡(luò)結(jié)構(gòu)定量分析

表1中的耗時(shí)指標(biāo)為單張圖像塊進(jìn)行一次模型匹配所耗時(shí)長(zhǎng)。可以看出，當(dāng)網(wǎng)絡(luò)深度逐漸增大時(shí)，進(jìn)行模型匹配的準(zhǔn)確率有一定的增加，但深層的神經(jīng)網(wǎng)絡(luò)又增加了測(cè)試時(shí)長(zhǎng)，使得該算法在實(shí)際應(yīng)用中沒(méi)有很好的使用價(jià)值。且在3層卷積結(jié)構(gòu)，即整體網(wǎng)絡(luò)層數(shù)為7層時(shí)，準(zhǔn)確率和耗時(shí)都在合理范圍內(nèi)，而繼續(xù)增加網(wǎng)絡(luò)深度，對(duì)準(zhǔn)確率的提升并不明顯，反而會(huì)增加耗時(shí)。故在后續(xù)實(shí)驗(yàn)中，將選取3層卷積層，2層下采樣層作為最終網(wǎng)絡(luò)結(jié)構(gòu)，即前文所提出的卷積神經(jīng)網(wǎng)絡(luò)模型。

3.4 實(shí)驗(yàn)結(jié)果

在實(shí)際室內(nèi)場(chǎng)景中地板、天花板、墻和背景不需要參與三維模型匹配。椅子、桌子、沙發(fā)、柜子、床和顯示器這六種室內(nèi)場(chǎng)景元素是有很多精分類的對(duì)象，故本實(shí)驗(yàn)以這六種元素作為討論對(duì)象。為了對(duì)比本文所提出的方法和一些傳統(tǒng)的圖像分類模型的效果，本文使用Cifar-10和LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)做出相關(guān)對(duì)比實(shí)驗(yàn)，結(jié)果如表2所示。

表2 不同結(jié)構(gòu)精度對(duì)比

通過(guò)三維匹配得到模型，從而將匹配得到的室內(nèi)場(chǎng)景元素三維模型和深度圖構(gòu)建的殘缺點(diǎn)云模型相結(jié)合，得到一個(gè)大致的室內(nèi)場(chǎng)景三維重建模型。

3.5 實(shí)驗(yàn)分析

由表2可知，本文提出的基于匹配的三維場(chǎng)景重建技術(shù)能達(dá)到比較好的效果。該算法重建的室內(nèi)場(chǎng)景三維模型基本能夠還原真實(shí)場(chǎng)景的場(chǎng)景畫面。但是有些區(qū)分度不高的元素，例如顯示器和床等，大部分顯示器都具有雷同的外觀，尤其是在對(duì)其進(jìn)行圖像分析過(guò)程中所產(chǎn)生的誤差，使得其最終的模型匹配準(zhǔn)確率整體偏低。

實(shí)驗(yàn)選取的Cifar-10網(wǎng)絡(luò)結(jié)構(gòu)和LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)，都是傳統(tǒng)的圖像分類方法上效果比較好的模型，針對(duì)這些模型進(jìn)行改進(jìn)，使它們適應(yīng)本文問(wèn)題的應(yīng)用場(chǎng)景，訓(xùn)練模型所得結(jié)果對(duì)本文模型的驗(yàn)證有著很大的參考價(jià)值。在大部分場(chǎng)景元素的匹配中，本文算法都能夠取得相對(duì)較高的水平。通過(guò)實(shí)驗(yàn)驗(yàn)證了本文所提的基于卷積神經(jīng)網(wǎng)絡(luò)的三維場(chǎng)景建模方法是一個(gè)高效可行的解決方案。

4 結(jié) 語(yǔ)

本文提出并實(shí)現(xiàn)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的三維場(chǎng)景重建方法。在對(duì)2D圖像進(jìn)行語(yǔ)義分割的基礎(chǔ)上，提取分割后的室內(nèi)場(chǎng)景元素圖像塊，訓(xùn)練了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的三維模型匹配模型，然后將匹配得到的三維模型結(jié)合深度圖構(gòu)造的殘缺三維模型，進(jìn)一步進(jìn)行組合，從而完成室內(nèi)場(chǎng)景的三維重建工作。并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的可行性和優(yōu)異性。隨著深度學(xué)習(xí)等技術(shù)的發(fā)展，一些新的基于深度學(xué)習(xí)的圖像分類算法將會(huì)使圖像分類技術(shù)得到很大的發(fā)展。這是本文三維模型匹配算法的核心，在這方面進(jìn)行進(jìn)一步研究可以提高三維模型匹配算法的準(zhǔn)確率，使得整個(gè)三維場(chǎng)景重建的效果變得更好。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡