姚曉峰 武利秀 章 偉 王 松
(無(wú)錫太湖學(xué)院江蘇省物聯(lián)網(wǎng)應(yīng)用技術(shù)重點(diǎn)建設(shè)實(shí)驗(yàn)室 江蘇 無(wú)錫 214000)
傳統(tǒng)的三維重建方法大部分是借助現(xiàn)有的計(jì)算機(jī)輔助設(shè)計(jì)軟件(CAD,Maya等),通過(guò)專業(yè)三維制圖工程師使用大量的時(shí)間和手工方法對(duì)真實(shí)世界的場(chǎng)景進(jìn)行三維幾何重建。該方法建造的場(chǎng)景具有較好的交互性,但模型真實(shí)感不太強(qiáng),而且大多數(shù)輔助設(shè)計(jì)軟件具有很高的學(xué)習(xí)成本,工作量大,要想完成一個(gè)建模工作需要大量的人機(jī)交互工作,使得工作效率極大降低。這對(duì)于一些不需要高精度建模的使用者望而卻步。為此,如何尋找更快速的三維建模手段成為研究人員的新的研究方向。一種新的角度就是從圖像出發(fā),通過(guò)對(duì)圖像信息的分析與處理,提取三維信息,用來(lái)實(shí)現(xiàn)三維場(chǎng)景的重建技術(shù)。為此,本文提出了一種采用RGBD圖像進(jìn)行三維場(chǎng)景重建的方法。用戶首先通過(guò)Kinect攝像機(jī)獲取到一張室內(nèi)場(chǎng)景的RGBD圖像,然后利用圖像分割技術(shù)將圖像分割成單一的場(chǎng)景元素塊。由于遮擋等問(wèn)題使得分割結(jié)果有可能達(dá)不到滿意的效果,用戶可以手動(dòng)對(duì)分割圖像進(jìn)行相應(yīng)的調(diào)整。分割之后,用每個(gè)元素塊的深度圖去和三維模型庫(kù)中的室內(nèi)元素模型進(jìn)行匹配,從而使其還原到三維場(chǎng)景中。針對(duì)大型的場(chǎng)景圖像,每個(gè)單張的圖像只需要覆蓋一部分的場(chǎng)景,從而用戶可以通過(guò)一組圖像重建整個(gè)場(chǎng)景。
本文創(chuàng)新點(diǎn)如下:
1) 通過(guò)三維模型渲染的方法獲取部分?jǐn)?shù)據(jù)以擴(kuò)展訓(xùn)練數(shù)據(jù)集,并結(jié)合部分真實(shí)數(shù)據(jù)集,得到充足的訓(xùn)練數(shù)據(jù)以用于模型匹配的三維重建方法的模型訓(xùn)練上。
2) 通過(guò)改進(jìn)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)模型,將圖像分類的思想引入本文問(wèn)題上,把室內(nèi)場(chǎng)景元素的三維重建問(wèn)題轉(zhuǎn)化成一個(gè)分類問(wèn)題去解決。
理想情況下的三維場(chǎng)景建模方式是基于單圖像的建模方法,采用立體視覺(jué)的方式對(duì)三維場(chǎng)景進(jìn)行重建[1-2]的研究較多。該方法需要拍攝多幅同一物體的圖像作為參考,或者從不同視點(diǎn)對(duì)物體進(jìn)行數(shù)據(jù)采集,并從中提取相關(guān)特征以用來(lái)達(dá)到物體三維重建的目的。單幅圖像的明暗[3]、焦距[4]、紋理[5]等線索是基于單幅圖像三維場(chǎng)景建模技術(shù)的十分重要的特征來(lái)源。但是,這些線索通常對(duì)圖像質(zhì)量要求很高,使得在不同光照條件和物體遮擋下的效果變得很差,極大地限制了基于單幅圖像進(jìn)行三維場(chǎng)景建模的發(fā)展,使得這項(xiàng)技術(shù)只能在某些特定的場(chǎng)合下完成三維場(chǎng)景重建問(wèn)題。這就促使科研人員找到其他途徑去解決該問(wèn)題。引入人機(jī)交互方法應(yīng)用于三維場(chǎng)景重建問(wèn)題[6-7],恰當(dāng)?shù)娜藱C(jī)交互使得三維重建技術(shù)的相關(guān)難題得到有效的解決。文獻(xiàn)[8]提出了數(shù)據(jù)驅(qū)動(dòng)的三維建模方法,通過(guò)圖像處理、三維檢索等技術(shù)把已有的或者自己創(chuàng)作的三維模型結(jié)合起來(lái),可以迅速地實(shí)現(xiàn)他們的設(shè)計(jì)創(chuàng)意。針對(duì)三維場(chǎng)景的建模問(wèn)題,文獻(xiàn)[9]把上述數(shù)據(jù)驅(qū)動(dòng)的三維重建方法通過(guò)進(jìn)一步的組裝,并對(duì)之進(jìn)行建模,極大地推進(jìn)了三維場(chǎng)景建模問(wèn)題的進(jìn)展,使得三維場(chǎng)景建模變得更加方便。這種方法把三維場(chǎng)景模型庫(kù)中的模型作為單個(gè)部件,通過(guò)部件之間的有機(jī)聯(lián)系組裝起來(lái),從而得到新的三維場(chǎng)景模型。文獻(xiàn)[10]提出一種基于圖像的三維建模方法,通過(guò)對(duì)單張圖像的分析,匹配到三維物體模型庫(kù)中的模型,然后進(jìn)行旋轉(zhuǎn)平移等變換,用來(lái)作為三維建模的組件。這類方法對(duì)三維模型庫(kù)要進(jìn)行大量的手工預(yù)處理工作?;诓輬D的三維模型的幾何重建是另一種三維場(chǎng)景建模方法。文獻(xiàn)[11-12]提出了一種基于草圖的模型檢索方法,通過(guò)輸入草圖,在三維模型庫(kù)中匹配與之對(duì)應(yīng)的三維模型的技術(shù)。文獻(xiàn)[13]在此基礎(chǔ)上提出了一種基于草圖的三維建模方法。隨著觸屏技術(shù)的發(fā)展,這項(xiàng)技術(shù)有了更加廣闊的前景。通過(guò)觸屏的概念,能夠動(dòng)態(tài)的指引用戶迅速完成三維建模任務(wù)。文獻(xiàn)[14]把三維建模技術(shù)轉(zhuǎn)換成搭積木工作,在系統(tǒng)后臺(tái)準(zhǔn)備大規(guī)模的三維模型組件,讓用戶手動(dòng)的組裝創(chuàng)意,并和用戶手繪的元素進(jìn)行有機(jī)的結(jié)合,讓三維建模技術(shù)變得有趣起來(lái)。文獻(xiàn)[15]提出部件組裝的三維重建方法,利用這些殘缺的點(diǎn)云信息和三維檢索技術(shù)所得到的高質(zhì)量的三維模型進(jìn)行有機(jī)結(jié)合,對(duì)殘缺部分進(jìn)行修復(fù)和拼接從而達(dá)到三維重建的目的。通過(guò)修復(fù)三維掃描儀獲取殘缺的場(chǎng)景點(diǎn)云模型以達(dá)到三維場(chǎng)景重建的目的是該方法的核心。文獻(xiàn)[16]提出了一種基于深度相機(jī)的三維場(chǎng)景重建方法。文獻(xiàn)[17]提出了一種交互式語(yǔ)義建模的方法,通過(guò)提取場(chǎng)景的深度信息進(jìn)行分析與處理,從而達(dá)到三維場(chǎng)景重建的目的。文獻(xiàn)[18]也針對(duì)這類方法進(jìn)行了研究。這類方法主要是通過(guò)掃描真實(shí)場(chǎng)景獲取RGBD信息,然后利用這些信息和三維模型數(shù)據(jù)庫(kù)之間的聯(lián)系,通過(guò)語(yǔ)義信息解決三維場(chǎng)景重建問(wèn)題。研究人員對(duì)三維場(chǎng)景的點(diǎn)云信息進(jìn)行分割,獲取單個(gè)物體的三維模型,從而恢復(fù)到原來(lái)的三維場(chǎng)景中去,完成三維場(chǎng)景的建模工作。這類方法雖然能夠取得很好的效果,并且有很高的效率,但是場(chǎng)景的點(diǎn)云信息的獲取成為了制約技術(shù)發(fā)展的絆腳石,也許在不久的將來(lái),手持的深度相機(jī)的發(fā)展能夠彌補(bǔ)這個(gè)問(wèn)題,但現(xiàn)階段這類方法還不能很好的推廣。
在對(duì)RGB圖片進(jìn)行語(yǔ)義分割的基礎(chǔ)上,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的模型匹配方法,在三維模型庫(kù)中匹配到和已知圖像塊最類似的三維模型,然后把它放到適當(dāng)?shù)奈恢?,就可以重建三維場(chǎng)景。模型訓(xùn)練集是圖像分割后的圖像塊,標(biāo)簽是它們對(duì)應(yīng)的精確分類,例如椅子包含各種不同靠背、支撐形式以及形狀的椅子。卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像分類問(wèn)題中具有很好的精確度。
由于不同的場(chǎng)景元素所包含的精分類的類別并不相同,針對(duì)每個(gè)元素主體設(shè)計(jì)不同的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)達(dá)到分類匹配目的。此處不同元素的網(wǎng)絡(luò)結(jié)構(gòu)大體類似,故本節(jié)以椅子作為主要描述對(duì)象。我們獲取到34個(gè)不同的椅子三維模型,即總共有34個(gè)椅子的精分類類別。
如圖1所示,本網(wǎng)絡(luò)結(jié)構(gòu)有三層卷積層以及兩層下采樣層組成。網(wǎng)絡(luò)結(jié)構(gòu)中每層卷積層后都添加激活函數(shù),這里選擇RELU函數(shù),其公式為:
f(x)=max(0,x)
(1)
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
使用RELU激活函數(shù)有三點(diǎn)好處:一是RELU函數(shù)在網(wǎng)絡(luò)訓(xùn)練階段計(jì)算量小,效率高;二是sigmoid激活函數(shù)容易出現(xiàn)梯度消失現(xiàn)象,RELU則可以避免這種狀況;三是RELU會(huì)使得部分神經(jīng)元輸出為0,減少了參數(shù)之間的相互依存關(guān)系,對(duì)防止過(guò)擬合有一定作用。
本文模型的輸入數(shù)據(jù)是語(yǔ)義分割后得到的場(chǎng)景元素圖像塊的深度圖,輸出是該圖像塊所屬的精分類類別。為了得到該分類模型的訓(xùn)練數(shù)據(jù),首先通過(guò)一些免費(fèi)設(shè)計(jì)素材網(wǎng)站下載并整理室內(nèi)場(chǎng)景三維模型,并搜索與之對(duì)應(yīng)的真實(shí)RGB圖像,通過(guò)三維投影的方法,手動(dòng)渲染了帶類標(biāo)的深度圖像。然后通過(guò)對(duì)NYU室內(nèi)場(chǎng)景圖片數(shù)據(jù)集的語(yǔ)義分割,手動(dòng)標(biāo)注了部分真實(shí)場(chǎng)景中的數(shù)據(jù),混合形成本實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)集,用來(lái)訓(xùn)練網(wǎng)絡(luò)模型。如圖2所示,NYU室內(nèi)場(chǎng)景數(shù)據(jù)集由微軟的Kinect相機(jī)拍攝的各種室內(nèi)場(chǎng)景的視頻序列組成。
圖2 NYU數(shù)據(jù)集樣本
本文所提出的基于模型匹配的三維重建技術(shù)其實(shí)就是把重建方法轉(zhuǎn)化成一個(gè)分類問(wèn)題。所以,分類問(wèn)題的評(píng)價(jià)指標(biāo)便是本實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn),即模型匹配的準(zhǔn)確率。
通過(guò)對(duì)比現(xiàn)階段流行的深度學(xué)習(xí)框架,選擇了高效靈活的Caffe框架作為實(shí)驗(yàn)環(huán)境。實(shí)驗(yàn)環(huán)境配置如下:core i7處理器、NIVIDIA GTX980 GPU、16 GB內(nèi)存、Caffe、Python。
在進(jìn)行網(wǎng)絡(luò)層數(shù)的選擇時(shí),主要考慮耗時(shí)和準(zhǔn)確率的問(wèn)題,由于深層的深度神經(jīng)網(wǎng)絡(luò)無(wú)論是在訓(xùn)練階段還是測(cè)試階段,網(wǎng)絡(luò)層數(shù)多而導(dǎo)致的計(jì)算過(guò)程中大量的矩陣運(yùn)算會(huì)增加耗時(shí),所以盡可能在保證準(zhǔn)確率的情況下選擇淺層卷積神經(jīng)網(wǎng)絡(luò)是十分重要的。為此,本文設(shè)計(jì)一組關(guān)于卷積神經(jīng)網(wǎng)絡(luò)層數(shù)對(duì)匹配效果影響的實(shí)驗(yàn),分別是1~5層卷積層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搭配對(duì)應(yīng)的采樣層來(lái)進(jìn)行試驗(yàn)。實(shí)驗(yàn)效果如表1所示。
表1 不同層數(shù)網(wǎng)絡(luò)結(jié)構(gòu)定量分析
表1中的耗時(shí)指標(biāo)為單張圖像塊進(jìn)行一次模型匹配所耗時(shí)長(zhǎng)。可以看出,當(dāng)網(wǎng)絡(luò)深度逐漸增大時(shí),進(jìn)行模型匹配的準(zhǔn)確率有一定的增加,但深層的神經(jīng)網(wǎng)絡(luò)又增加了測(cè)試時(shí)長(zhǎng),使得該算法在實(shí)際應(yīng)用中沒(méi)有很好的使用價(jià)值。且在3層卷積結(jié)構(gòu),即整體網(wǎng)絡(luò)層數(shù)為7層時(shí),準(zhǔn)確率和耗時(shí)都在合理范圍內(nèi),而繼續(xù)增加網(wǎng)絡(luò)深度,對(duì)準(zhǔn)確率的提升并不明顯,反而會(huì)增加耗時(shí)。故在后續(xù)實(shí)驗(yàn)中,將選取3層卷積層,2層下采樣層作為最終網(wǎng)絡(luò)結(jié)構(gòu),即前文所提出的卷積神經(jīng)網(wǎng)絡(luò)模型。
在實(shí)際室內(nèi)場(chǎng)景中地板、天花板、墻和背景不需要參與三維模型匹配。椅子、桌子、沙發(fā)、柜子、床和顯示器這六種室內(nèi)場(chǎng)景元素是有很多精分類的對(duì)象,故本實(shí)驗(yàn)以這六種元素作為討論對(duì)象。為了對(duì)比本文所提出的方法和一些傳統(tǒng)的圖像分類模型的效果,本文使用Cifar-10和LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)做出相關(guān)對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。
表2 不同結(jié)構(gòu)精度對(duì)比
通過(guò)三維匹配得到模型,從而將匹配得到的室內(nèi)場(chǎng)景元素三維模型和深度圖構(gòu)建的殘缺點(diǎn)云模型相結(jié)合,得到一個(gè)大致的室內(nèi)場(chǎng)景三維重建模型。
由表2可知,本文提出的基于匹配的三維場(chǎng)景重建技術(shù)能達(dá)到比較好的效果。該算法重建的室內(nèi)場(chǎng)景三維模型基本能夠還原真實(shí)場(chǎng)景的場(chǎng)景畫面。但是有些區(qū)分度不高的元素,例如顯示器和床等,大部分顯示器都具有雷同的外觀,尤其是在對(duì)其進(jìn)行圖像分析過(guò)程中所產(chǎn)生的誤差,使得其最終的模型匹配準(zhǔn)確率整體偏低。
實(shí)驗(yàn)選取的Cifar-10網(wǎng)絡(luò)結(jié)構(gòu)和LeNet-5網(wǎng)絡(luò)結(jié)構(gòu),都是傳統(tǒng)的圖像分類方法上效果比較好的模型,針對(duì)這些模型進(jìn)行改進(jìn),使它們適應(yīng)本文問(wèn)題的應(yīng)用場(chǎng)景,訓(xùn)練模型所得結(jié)果對(duì)本文模型的驗(yàn)證有著很大的參考價(jià)值。在大部分場(chǎng)景元素的匹配中,本文算法都能夠取得相對(duì)較高的水平。通過(guò)實(shí)驗(yàn)驗(yàn)證了本文所提的基于卷積神經(jīng)網(wǎng)絡(luò)的三維場(chǎng)景建模方法是一個(gè)高效可行的解決方案。
本文提出并實(shí)現(xiàn)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的三維場(chǎng)景重建方法。在對(duì)2D圖像進(jìn)行語(yǔ)義分割的基礎(chǔ)上,提取分割后的室內(nèi)場(chǎng)景元素圖像塊,訓(xùn)練了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的三維模型匹配模型,然后將匹配得到的三維模型結(jié)合深度圖構(gòu)造的殘缺三維模型,進(jìn)一步進(jìn)行組合,從而完成室內(nèi)場(chǎng)景的三維重建工作。并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的可行性和優(yōu)異性。隨著深度學(xué)習(xí)等技術(shù)的發(fā)展,一些新的基于深度學(xué)習(xí)的圖像分類算法將會(huì)使圖像分類技術(shù)得到很大的發(fā)展。這是本文三維模型匹配算法的核心,在這方面進(jìn)行進(jìn)一步研究可以提高三維模型匹配算法的準(zhǔn)確率,使得整個(gè)三維場(chǎng)景重建的效果變得更好。