王歡 門濤 蘇宏魯 王忠生 姜勇
摘要:場景目標幾何變形和運動的同時表述是非剛性動態(tài)場景重建的一個關(guān)鍵問題,出現(xiàn)遮擋、開—合拓撲變化、快速運動等情況都可能導致場景重建失敗。針對這一問題,研究提出了一種基于面元模型的非剛性動態(tài)場景重建方法,利用基于權(quán)值算法的深度相機點到平面迭代最近點(Iterative Closest Point,ICP)算法改進了已有系統(tǒng)非剛性變形場估計中ICP能量函數(shù)的求解過程。與基于SDF模型的重建方法相比較,基于面元模型的方法支持在線高效更新,占用計算資源更少,更加輕量化。在VolumeDeform數(shù)據(jù)集上的對比實驗表明,改進后的方法提高了系統(tǒng)的魯棒性,重建的模型更加完整。
關(guān)鍵詞:面元模型;非剛性動態(tài)場景;深度相機;場景重建
中圖分類號:TP242 ? ?文獻標志碼:A ? ?文章編號:1671-0797(2022)02-0071-05
DOI:10.19514/j.cnki.cn32-1628/tm.2022.02.020
0 ? ?引言
非剛性動態(tài)場景重建問題是當前三維場景重建領(lǐng)域的一個研究熱點,從利用場景特定先驗的方法到在較少約束下基于模板和無模板的重建方法,許多研究者一直活躍在這一領(lǐng)域。非剛性ICP算法[1]最初是針對二維非剛性配準問題提出的,后來擴展到三維非剛性配準中[2]。第一個可以跟蹤復雜變形的非剛性配準方法[3-4]使用變形代理來解耦優(yōu)化問題的維度和模型復雜性,但仍然需要離線運行。近年來,許多魯棒離線的模板跟蹤方法利用關(guān)鍵幀和魯棒優(yōu)化算法[5-6],允許變形場的不連續(xù),更適合關(guān)節(jié)運動的跟蹤問題。
在不使用強先驗的情況下,對任意一般變形對象的在線跟蹤是最近才實現(xiàn)的。Zollhfer等人[7]提出的基于模板的非剛性跟蹤方法,采用一種由粗到細分層次的GPU優(yōu)化策略,使實時性成為可能。這種方法的輸入是由一個定制的RGB-D傳感器捕獲的高質(zhì)量顏色和深度流。在獲取模板后,利用高性能圖形處理器的數(shù)據(jù)并行計算能力和由粗到細分層次的GPU優(yōu)化策略,通過魯棒優(yōu)化實現(xiàn)了非剛性物體運動的實時跟蹤。雖然這種方法可以實時跟蹤一般的目標,但必須預先獲得模板模型。為每個場景獲取這樣的模板非常耗時,這就限制了該方法的實用性。
如果不能預先獲得目標的模板模型,則需要解決更具挑戰(zhàn)性的幾何變形和運動重建問題。魯棒地分離物體的形狀和運動是一個模糊問題,因為兩者都可以解釋觀察到的變化。許多離線方法將時間三維重建看作是一個四維時空優(yōu)化問題[8-9],通過小變形和小幀間運動的設(shè)定使問題得以簡化處理[10]。第一個解決實時無模板重建問題的方法是Newcomebe等人提出的DynamicFusion方法[11]。這種方法能夠基于消費級深度相機來聯(lián)合重建場景目標的幾何變形和運動。首先建立一個在關(guān)鍵幀下的模型,之后場景發(fā)生的變化都可以通過幾何變換對應到這個模型上,新讀取的深度圖都通過幾何變換再融合到模型當中,在配準中其誤差項除剛性配準誤差項外還有正則項,正則項可以很好地處理非剛性的配準。VolumeDeform[12]是DynamicFusion的擴展,利用細尺度變形圖替代粗尺度變形圖來參數(shù)化變形場,從而達到更高的重建質(zhì)量。為了實現(xiàn)實時幀率,該方法采用了一種分級的從粗到細的數(shù)據(jù)并行GPU優(yōu)化策略。此外,將稀疏特征匹配融合到場景目標中,實現(xiàn)了更強的魯棒跟蹤。
Dou等人[13]提出的Fusion4D方法可以實時獲得變形場景的完整、瞬態(tài)重建模型。它基于一個復雜的多視角設(shè)置,由8個視角組成,每個視角由2個紅外和1個彩色相機組成。這種方法的特別之處在于采用了關(guān)鍵體策略,使得該方法對故障跟蹤具有魯棒性。該方法不是將參考體固定在第一個輸入幀上,而是定期將參考體重置到一個融合本地數(shù)據(jù)的關(guān)鍵體中。Fusion4D方法可以實現(xiàn)對任意非剛性場景的高速重建。其中一個關(guān)鍵因素是在輸入和重建之間建立一個密集的三維對應場,使其能夠穩(wěn)健地處理快速運動的場景。
非剛性動態(tài)場景重建是具有很大難度的三維重建問題,不同于靜態(tài)場景重建,場景目標的幾何變形和運動的同時表述是其中一個關(guān)鍵。遮擋的出現(xiàn)、開—合拓撲的變化、快速運動等情況都可能使重建失敗。目前的解決思路主要分為基于SDF模型和基于面元模型兩種,研究者們提出了很多解決方法,如使用模板或先驗信息、加入特征點和光照反射率約束、多視角等。
本文基于深度相機點到平面ICP算法改進了已有系統(tǒng)非剛性變形場估計中ICP能量函數(shù)的求解方法,提出了一種基于面元模型的非剛性動態(tài)場景重建方法,實驗表明,該方法提高了系統(tǒng)的魯棒性,重建的模型更加完整。
1 ? ?非剛性場景重建的總體架構(gòu)
1.1 ? ?符號定義
深度相機獲取的深度圖像序列記為{Dt},其中t是幀標簽。頂點圖V是一個圖像,每個像素記錄一個3D位置;同樣地,法線圖N是一幅每個像素都記錄法線方向的圖像。采用DynamicFusion[11]中的方法將變形場W表示為節(jié)點圖,與體積變形場相比,該節(jié)點圖稀疏但有效。更具體地:
W={[Pj∈R3,σj∈R+,Tj∈SE(3)]} ? ? ? ?(1)
式中:j為節(jié)點的索引;Pj為第j個節(jié)點的位置;σj為半徑參數(shù);Tj為第j個節(jié)點的變換矩陣。
為了更好地插值,Tj用雙四元數(shù)j表示,對于一個3D點x,在x處W的變形可以插值為:
W(x)=normalizedwk(x)k ? ? ? ?(2)
其中,N(x)為點x的最近鄰集,權(quán)值:
wk(x)=exp[-||x-pk||22/(2σk2)] ? ? ? ? ? ? ? ?(3)
面元s是由位置v∈R3,法向量n∈R3,半徑r∈R+,置信度c∈R,初始化時間tinit∈N和最近觀察的時間tobserved∈N組成的元組。用大寫字母S表示面元數(shù)組,S[i]是這個數(shù)組中的第i個面元。在變形場W的作用下,面元可以通過式(4)、式(5)進行變形。
vlive=W(vref)vref ? ? ? ? ? ? ? ? ? ? ? (4)
nlive=rotation[W(vref)]nref ? ? ? ? ? ?(5)
其中,vlive和nlive是變形后點的位置和法向量,vref和nref是變形前點的位置和法向量,其他屬性,如半徑、時間、置信度等,變形后保持不變。
1.2 ? ?場景重建的流程架構(gòu)
如圖1所示,系統(tǒng)以逐幀的方式處理輸入的深度流。在接收到新的深度圖像后,首先計算變形場,使參考幀與當前的深度觀測對齊。初始化前一幀的變形場,然后采用類似于Newcombe等人[14]提出的ICP算法進行優(yōu)化。一旦變形場被更新,就執(zhí)行數(shù)據(jù)融合,將當前的深度觀測數(shù)據(jù)累積到一個全局幾何模型中。
與之前方法最大的不同之處在于,在整個方法中采用了一種有效的基于面元的幾何和變形場表示。系統(tǒng)維護兩個面元組,一個在參考幀sref中,另一個在實時幀slive中。變形場W在參考幀中定義,給定適當維護的最近鄰集和權(quán)值,可以定義變形場的逆為:
vref =W(vref)-1vlive ? ? ? ? ? ? ? ? ?(6)
nref =rotation[W(vref)]-1nlive ? ? ? ? ? ?(7)
其中,變形W(vref)可以通過查詢N(sref)和{W(sref)}計算得到。
因此,與在參考幀中進行幾何更新不同,本文的方法在實時幀中更新幾何模型并將它們變形回參考幀中。
2 ? ?三維場景重建算法
2.1 ? ?深度圖預處理
首先對獲取的深度圖進行雙邊濾波(bilateral filter)處理,雙邊濾波是一種可以達到保持邊緣、降噪平滑效果的濾波器。和其他濾波原理一樣,雙邊濾波也是采用基于高斯分布加權(quán)平均的方法,之所以可以達到保邊去噪的效果,是因為濾波器由兩個核函數(shù)構(gòu)成:一個函數(shù)是由幾何空間距離決定濾波器系數(shù),考慮像素的歐式距離,即空間域(spatial domain S);另一個函數(shù)是由像素差值決定濾波器系數(shù),考慮像素范圍閾的輻射差異,即范圍域(range domain R)。
雙邊濾波的核函數(shù)是空間域與像素范圍域的綜合結(jié)果:在圖像的平坦區(qū)域,像素值變化很小,對應的像素范圍域權(quán)重接近于1,此時空間域權(quán)重起主要作用,相當于進行高斯模糊;在圖像的邊緣區(qū)域,像素值變化很大,像素范圍域權(quán)重變大,從而保持了邊緣的信息。
BF[I]p=G(||p-q||)G(|Ip-Iq|)Iq ? ? ? (8)
其中,σs定義了濾波一個像素空間域的大小,σr控制了范圍閾中由于強度差而使相鄰像素向下加權(quán)的程度。
使用u=(x,y)T∈R2表示像素坐標。在每個像素u處,計算面元sdepth,首先通過V(u)=D(u)K-1(uT,1)T將深度值D(u)轉(zhuǎn)換成面元sdepth處的位置V(u),K是深度相機的內(nèi)參矩陣。然后這個像素點的法向量N(n)通過頂點圖V使用中心差分估計得出。面元sdepth的置信度為c=exp[-γ2/(2?準2)],其中γ是當前深度測量歸一化后的徑向距離。和Whelan等人[15]的方法類似,面元sdepth的半徑r為:
r= ? ? ? ? ? ? ? ?(9)
式中:d=D(u)為深度值;f為相機焦距;nz為法向量的Z軸分量。
2.2 ? ?深度圖融合和變形場更新
假設(shè)已經(jīng)得到了一個變形場,深度圖融合和變形場更新流程首次在當前幀中執(zhí)行數(shù)據(jù)融合,然后將當前面元變形回參考幀中,之后根據(jù)新觀察的參考面元更新變形場。
2.2.1 ? ?當前幀中的融合
在求解變形場后,首先在參考面元組sref上執(zhí)行一個前向變形,以獲得與深度觀測對齊的當前面元組slive。然后,使用類似Keller等人[16]的方法將深度圖與當前面元融合。比較特別的是,當前面元組slive將渲染到索引圖I中:給定相機內(nèi)參K,每個當前面元slive[k]被投影到當前相機視角下的圖像平面中,其中存儲了各自投影點的索引k。在索引圖I中,面元被渲染為未確定大小的點,也就是說,每個面元最多只能被投影到一個像素。索引圖是超采樣的深度圖,以避免附近的面元投影到相同的像素。在實現(xiàn)過程中使用了一個4×4的超采樣索引圖。
對于深度圖D中的每個像素,在索引圖I上通過以u為中心的4×4窗口搜索,最多識別出一個與u處深度觀測相對應的實時面元slive。查找相對應面元的準則如下:
(1)丟棄到深度頂點的距離大于δdistance的面元;
(2)丟棄法向量不與深度圖法向量對齊的面元,dot(ndepth,nsurfel)<δnormal;
(3)對于剩下的面元,選擇置信度高的;
(4)如果有多個這樣的面元,選擇最接近sdepth的那個。
如果找到了對應的面元slive,u處的深度面元sdepth將通過如下公式融合到slive中:
clive_new=clive_old+cdepth ? ? ? ? ? (10)
vlive_new=(clive_old vlive_old+cdepth vdepth)/clive_new ? ? ?(11)
nlive_new=(clive_old nlive_old+cdepth ndepth)/clive_new ? ? ? (12)
tobserved=tnow ? ? ? ? ? ? ? ? ? ? ? (13)
rlive_new=(clive_old rlive_old+cdepth rdepth)/clive_new ? ? ?(14)
式中:c、v、n、t和r分別為面元的置信度、頂點、法向量、最近觀察到的時間點和半徑。
2.2.2 ? ?實時面元再獲取
對于深度圖像素u,如果沒有找到相對應的實時面元slive,該深度圖面元sdepth將被附加到slive面元組中以完成幾何重建。這需要計算最近鄰集N(sdepth)和權(quán)重,將sdepth這個面元變形回參考幀中。但節(jié)點圖G定義在參考幀中,在知道sdepth變形回去的位置之前計算在參考幀中的最近鄰集N(sdepth)并不可行。
解決這個矛盾的一個方法是首先將節(jié)點圖G變形回實時幀中,然后在實時幀中再執(zhí)行面元獲取。但是,在開—合拓撲變化時,面元sdepth可能被附加到不一致的節(jié)點。為了解決這一問題,提出以下準則:
(1)在實時幀中使用節(jié)點圖給面元sdepth計算一個初始化最近鄰集N(sdepth),node0_live∈N(sdepth)表示離面元sdepth最近的節(jié)點;
(2)對于任何node1_live∈N(sdepth),i≠0,如果:
1-ε<<1+ε ? ? ? ? ? (15)
式中:閾值ε表示內(nèi)在變形的程度。
則將nodei_live留在N(sdepth)中,否則移除該節(jié)點。
2.2.3 ? ?開—合拓撲變化問題
在開—合拓撲變化下直接進行數(shù)據(jù)融合會產(chǎn)生錯誤曲面,可以通過壓縮變形場或者在體素方法中碰撞體素解決。本文的解決方法是在實時幀上限制反變形場的靈敏度,并去除實時幀中>1+ε的面元。
正如Dou等人[13]所提到的,不可能從一個參考幀來解釋所有的運動,并且非剛性跟蹤永遠不會失效是不可能的。因此,F(xiàn)usion4D方法使用了兩個TSDF體,一個用于參考幀,另一個用于實時幀,并通過實時幀來恢復參考幀以處理幅度大的運動,跟蹤故障和開—合拓撲變化。然而,維護額外的TSDF體和關(guān)聯(lián)的最近鄰場將增加計算成本和內(nèi)存的使用。
本文以一種更緊湊、更有效的方式實現(xiàn)類似的想法:從深度觀測推斷出錯誤的面元比推斷出錯誤的TSDF值更明確且更容易。該方式丟棄了任何從當前相機視角中可以看到但沒有相應深度觀察的實時面元slive,通過將實時面元slive投影到深度圖中并進行窗口搜索來識別其對應關(guān)系。清理slive后,將sref重置為slive,并初始化其變形場。
2.3 ? ?非剛性變形場估計
給出新的深度圖觀測D、之前的變形場Wprev、幾何模型sref和slive(通過Wprev將sref變形為slive),可以進行SE(3)變形Tj∈W的估計。為了執(zhí)行該估計,首先預測實時面元slive的可見性,然后根據(jù)DynamicFusion方法將變形估計轉(zhuǎn)化成優(yōu)化問題。
可見性預測和Keller等人[16]的方法類似:將實時面元slive渲染為重疊的、圓盤狀的有實時面元slive位置vlive、法向量nlive和半徑rlive的表面元板。
與剛性SLAM不同的是,為了有效地查找最近鄰點和權(quán)重,使用與深度圖相同的分辨率渲染索引圖I。而且,為了改進變形場估計在slive對離群點的魯棒性,只渲染穩(wěn)定的面元。在模型重新初始化后的前幾幀,還渲染了最近觀察到的面元。
遵循DynamicFusion方法,本文解決了如下優(yōu)化問題來估計SE(3)的變換Tj∈W:
Etotal(W)=Edepth+λEregulation ? ?(16)
式中:Edepth為約束變形與輸入的深度D一致的數(shù)據(jù)項;Eregulation為使非剛性運動規(guī)則化的正則項,使其盡可能地剛性;λ為一個常數(shù)值,以平衡兩個能量項。
Edepth是一個點到面的能量函數(shù),這里可以寫成:
Edepth(W)=[ndepthT(vmodel-vdepth)]2 ?(17)
式中:P為與模型和深度圖面元對應的集合;n和v為與面元關(guān)聯(lián)的法向量和頂點。
在給定深度觀測值D和渲染實時幾何圖形下,Eregulation是一個使非剛性運動盡可能剛性的正則項:
Eregulation(W)= ||Tj pj-Ti pj||22 ? ? ? ? (18)
式中:Nj為節(jié)點圖中與第j個節(jié)點相鄰的節(jié)點集。
優(yōu)化問題(16)是一個非線性最小二乘問題,可以用GPU實現(xiàn)的Gauss-Newton算法求解。本文采用基于權(quán)值算法的深度相機點到平面ICP算法計算式(17)點到面的能量函數(shù)Edepth,改進后的系統(tǒng)在ICP算法求解時將對不穩(wěn)定方向點施加更大的權(quán)重,增加配準時對幾何特征單一區(qū)域的約束,且權(quán)值算法中深度二次衰減算法可以更好地處理重建系統(tǒng)中所使用的深度相機數(shù)據(jù)。
3 ? ?實驗分析
為了驗證基于面元模型的非剛性動態(tài)場景重建算法的可行性,在VolumeDeform數(shù)據(jù)集上進行了實驗,重建系統(tǒng)的參數(shù)如表1所示。RGB-D數(shù)據(jù)包含從PrimeSense傳感器獲得的序列。使用boxing數(shù)據(jù)集進行實驗,boxing是一個包含人體對象的數(shù)據(jù)集,圖像序列是一個手臂接觸到臉部再分開的動作,圖2為其三維重建模型序列。實驗結(jié)果表明,本文所提出的方法采用對能量函數(shù)算法的改進,對約束不穩(wěn)定變換的點施加較大的權(quán)重等方式,使得改進后的系統(tǒng)漂移小,可以更好地應對開—合的拓撲變化,生成的非剛性動態(tài)場景模型更加精確,開—合接觸面細節(jié)完整,保證了系統(tǒng)的魯棒性。
4 ? ?結(jié)語
針對場景目標幾何變形和快速運動的同時表述問題,特別是出現(xiàn)遮擋、開—合拓撲變化等情況,研究提出了一種基于面元模型的非剛性動態(tài)場景重建方法,利用基于權(quán)值算法的深度相機點到平面ICP算法,對非剛性變形場估計中ICP能量函數(shù)的求解方法進行了改進。與基于SDF模型的重建方法相比較,基于面元模型的方法支持在線高效更新,占用計算資源更少,更加輕量化。在VolumeDeform數(shù)據(jù)集上的實驗表明,改進后的方法解決了因開—合拓撲變換、遮擋等引起的場景重建信息缺失問題,提高了系統(tǒng)的魯棒性,重建的模型更加完整。
[參考文獻]
[1] PARAGIOS N,ROUSSON M,RAMESH V.Non-rigid regis-
tration using distance functions[J].Computer Vision and Image Understanding,2003,89(2/3):142-165.
[2] FUJIWARA K,NISHINO K,TAKAMATSU J,et al.Locally rigid globally non-rigid surface registration[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision,2011:1527-1534.
[3] CHANG W,ZWICKER M.Range scan registration using reduced deformable models[J].Computer Graphics Forum,2009,28(2):447-456.
[4] LIAO M,ZHANG Q,WANG H M,et al.Modeling deformable objects from a single depth camera[C]//2009 IEEE 12th International Conference on Computer Vision,2009:167-174.
[5] LI H,ADAMS B,GUIBAS L J,et al.Robust single-
view geometry and motion reconstruction[J].ACM Transactions on Graphics,2009,28(5):1-10.
[6] GUO K W,XU F,WANG Y G,et al.Robust non-rigid motion tracking and surface reconstruction using
L0 regularization[C]//2015 IEEE International Conference on Computer Vision,2015:3083-3091.
[7] ZOLLH?魻FER M,NIE?覻NER M,IZADI S,et al.Real-time non-rigid reconstruction using an RGB-D camera[J].ACM Transactions on Graphics,2014,33(4):1-12.
[8] MITRA N J,F(xiàn)L?魻RY S,OVSJANIKOV M,et al.Dynamic geometry registratio[C]//Proceedings of the Fifth Eurographics Symposium on Geometry Pro-
cessing,2007:173-182.
[9] S?譈?覻MUTH J,WINTER M,GREINER G.Reconstructing animated meshes from time-varying point clouds[J].Computer Graphics Forum,2008,27(5):1469-1476.
[10] WAND M,ADAMS B,OVSJANIKOV M,et al.Efficient reconstruction of nonrigid shape and motion from real-time 3D scanner data[J].ACM Transa-
ctions on Graphics,2009,28(2):1-15.
[11] NEWCOMBE R A,F(xiàn)OX D,SEITZ S.M.DynamicFusion: Reconstruction and Tracking of Non-Rigid Scenes in Real-Tim[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015:343-352.
[12] INNMANN M,ZOLLH?魻FER M,NIE?覻NER M,et al.Volume-
Deform:Real-time volumetric non-rigid recons-
truction[C]//European Conference on Computer Vision,2016:362-379.
[13] DOU M S,KHAMIS S,DEGTYAREV Y,et al.Fusion4D: Real-time performance capture of challenging scenes[J].ACM Transactions on Graphics,2016,35(4):1-13.
[14] NEWCOMBE R A,IZADI S,HILLIGES O,et al.Kinec-
tFusion:Real-time dense surface mapping and tracking[C]//2011 10th IEEE International Symposium on Mixed and Augmented Reality, 2011:127-136.
[15] WHELAN T,LEUTENEGGER S,SALAS-MORENO R,et al.ElasticFusion:Dense slam without a pose graph[C]//Robotics:Science and Systems (RSS),2015:1-9.
[16] KELLER M,LEFLOCH D,LAMBERS M,et al.Real-time 3D reconstruction in dynamic scenes using point-based fusion[C]// 2013 International Conference on 3D Vision,2013:1-8.
收稿日期:2021-10-27
作者簡介:王歡(1971—),男,遼寧鞍山人,教授級高級工程師,研究方向:冶金礦山信息化與自動化。