祝 磊,葉海良,楊 冰,曹飛龍
(中國計量大學 理學院,浙江 杭州 310018)
與剛性變換相關(guān)的點云配準,作為3D計算機視覺和圖形學中基本但關(guān)鍵的研究方向,在許多視覺領(lǐng)域都發(fā)揮著重要作用,例如姿態(tài)估計[1-2]、3D對象重建[3]、自動駕駛[4-5]等。點云配準旨在通過預測一個變換矩陣來對齊兩個不同空間中的點云。在這個過程中,檢測兩個點云之間正確的對應(yīng)點對是必不可少的。然而,由于噪聲和遮擋,點云中的某些點在另一個點云中沒有對應(yīng)點,使得點云配準在復雜的實際應(yīng)用中仍然是一個極具挑戰(zhàn)性的問題。
點云配準任務(wù)一般可分為三個階段[6]:首先對兩個點云進行特征提取,分別獲得潛在的判別性特征;其次在對上述特征進行再處理的基礎(chǔ)上,得到兩個點云之間的對應(yīng)關(guān)系;最后通過奇異值分解(singular value decomposition,SVD)計算變換矩陣,對兩個不匹配的點云進行對齊。
近年來,深度學習已經(jīng)成功應(yīng)用于端到端的點云配準。Wang等[7]將動態(tài)圖CNN(dynamic graph CNN,DGCNN)[8]挖掘的結(jié)構(gòu)特征輸入到帶有指針網(wǎng)絡(luò)的transformer中來計算兩個點云間的點對關(guān)系。在迭代配準過程中,Li等[9]結(jié)合幾何和距離特征計算可靠的相似度得分,同時提出兩階段點消除技術(shù),在當時實現(xiàn)了性能和效率雙贏。隨后,Fu等[10]采用基于交互transformer與圖神經(jīng)網(wǎng)絡(luò)(graph neural networks, GNN)[11-12]結(jié)合的方式進行上下文聚合,并應(yīng)用最優(yōu)傳輸技術(shù)獲得可靠的匹配矩陣。最近,Yew等[13]將由核點卷積[14]學習到的嵌入輸入到由自注意力和交叉注意力構(gòu)成的網(wǎng)絡(luò)中,在沒有顯式特征匹配的情況下實現(xiàn)了所需的剛性變換預測。盡管以上成就在點云配準方面取得了很大的突破,但它們傾向于關(guān)注整體配準框架和深度特征交互,而不是力圖去細化對應(yīng)關(guān)系。
對于基于深度學習的點云配準,獲取節(jié)點與節(jié)點間的正確的對應(yīng)關(guān)系是配準成功的關(guān)鍵,而這往往是由所提取特征的質(zhì)量決定的。只要得到足夠準確的對應(yīng)點對,通過SVD就可以很容易地計算出未知的剛性變換。從任務(wù)的角度來看,挖掘合適的判別性特征、優(yōu)化初始對應(yīng)尤為重要。
為了挖掘點云豐富的特征表示,許多研究人員針對不規(guī)則的無序點云開發(fā)了許多特征提取方法。GNN能夠有效地處理不規(guī)則數(shù)據(jù),在知識圖譜[15]、推薦系統(tǒng)[16]等方面展示出了強大的特征挖掘能力。由于點云也是一種不規(guī)則且非結(jié)構(gòu)化的數(shù)據(jù),因此,基于圖的方法也比較適合點云。DGCNN、圖關(guān)注卷積(graph attention convolution,GAC)[17]、串行關(guān)注卷積[18]傾向于在局部圖結(jié)構(gòu)中設(shè)計不同的卷積操作來提取點云的潛在特征。然而,上述方法均利用相鄰點的特征來重建中心點的特征。與以往僅在鄰居節(jié)點之間建立圖結(jié)構(gòu)不同,本文跳出這種模式,尋求凝聚中心點和鄰居點特征的更高級的代理點間的圖結(jié)構(gòu)。這樣,每個代理點將會具有更廣的視野,有利于窺探局域圖結(jié)構(gòu)以及捕捉每個中心節(jié)點有效的判別性表示。
為了達到上述目的,本文利用圖的思想構(gòu)建了一種基于局域自適應(yīng)投票的圖卷積來挖掘點云潛在的判別性語義和結(jié)構(gòu)特征。該卷積首先在局部鄰域中構(gòu)建富含中心點特征和鄰居點特征的代理點,針對具有更廣視野的代理點,設(shè)計自適應(yīng)投票的方式學習代理點間的鄰接矩陣,即結(jié)合坐標和特征自適應(yīng)地學習每個代理點有邊相連的投票,并根據(jù)投票得分計算鄰接矩陣,同時也使每層的鄰接矩陣能夠隨著特征的更新進行動態(tài)調(diào)整,以便使其朝著配準所需的方向更新。設(shè)計的基于自適應(yīng)局域投票的方法,可以讓學習到的局部鄰接矩陣更好地反映出局部特征空間中潛在的圖結(jié)構(gòu)。接著,利用圖卷積網(wǎng)絡(luò)(graph convolutional networks, GCN)[19]來交流和聚合代理點間的信息。最后,將上述獲得的局部幾何特征與每點獨立變換獲得的特征進行融合,從而減少先前信息的丟失以及減緩GCN所具有的結(jié)構(gòu)平滑現(xiàn)象,以增加獲取特征的判別性。
另外,為了進一步縮小兩個點云的圖結(jié)構(gòu)之間的點對特征差異以及緩解深度圖卷積網(wǎng)絡(luò)造成的匹配模糊,本文采用了一種針對對應(yīng)矩陣的二次約束技術(shù)。具體地,本文考慮在深度圖匹配中嵌入二次結(jié)構(gòu)約束,最大化由深度特征學習到的兩個鄰接矩陣之間的一致性,從而減小兩者之間的差異性,達到優(yōu)化對應(yīng)矩陣的目的。故而找到兩個點云間的近似最佳的節(jié)點匹配,實現(xiàn)較高的配準性能。
點云配準旨在預測一個旋轉(zhuǎn)矩陣R∈SO(3)和一個平移向量t∈3。給定源點云X={xi∈3|i=1,2,…,N}和目標點云Y={yi∈3|i=1,2,…,M}。圖1展示出了本文所設(shè)計的點云配準的整體框架。
對應(yīng)矩陣的準確性決定著配準的精確性,而前者往往建立在有效的特征學習上面。為了獲取到有效的高維節(jié)點特征,本文利用圖的思想設(shè)計了一種基于局域自適應(yīng)投票的圖卷積來挖掘點云潛在的判別性特征。該卷積首先在局部鄰域中構(gòu)建富含中心點特征和鄰居點特征的代理點。針對獲得的代理點,采用自適應(yīng)投票的方式學習代理點間的圖結(jié)構(gòu),并利用GCN更新和聚合代理點間的特征。由于每個代理點都凝聚了中心點和鄰居點特征,這將會使每個代理點具有更廣的視野,以捕捉到每個局部鄰域的可靠的鄰接矩陣。上述過程被簡化在圖2中。由于代理點的學習機制是根據(jù)原始坐標和學習到的特征實現(xiàn)的,那么隨著網(wǎng)絡(luò)層數(shù)改變,鄰接矩陣也會隨著動態(tài)調(diào)整,以便使其朝著配準所需的方向更新。設(shè)計的基于自適應(yīng)局域投票的方法,可以讓學習到的局部鄰接矩陣更好地反映出局部特征空間中潛在的圖結(jié)構(gòu)。此外,將上述獲取的節(jié)點特征與直接對節(jié)點進行多層感知機(multi-layer perceptron,MLP)變換所獲得的特征進行融合,在抽取局部幾何信息的同時保留每點獨立的語義信息,形成圖3所示的雙分支融合學習(dual-branch fusion learning, DBFL)模塊,達到減少先前信息的丟失以及減緩GCN所具有的結(jié)構(gòu)平滑現(xiàn)象的目的,以此來突出節(jié)點特征的判別性。
圖2 基于自適應(yīng)局域投票的圖卷積的簡化圖示Figure 2 A simplified illustration of graph convolution based on adaptive neighborhood voting
圖3 雙分支融合學習模塊Figure 3 Dual branch fusion learning module
(1)
式(1)中cat[·,·]表示按通道拼接操作,φ1(·),φ2(·)是由不共享的MLP實現(xiàn),W是一個可學習的參數(shù)矩陣。接著,通過下述簡單的方式預測每個代理點有邊相連的可能性,并將可能性大于0的代理點作為能夠為局部圖結(jié)構(gòu)做貢獻的有邊點,否則為無邊相連的孤立點:
oik=tanh(f(Eik))∈k,
(2)
wik=max(0,oik)。
(3)
式(2)中,f(·)表示一元函數(shù)。于是,可通過wik來衡量一個局域內(nèi)代理點間帶權(quán)的鄰接矩陣A:
(4)
(5)
式(5)中,W′是一個可學習的參數(shù)矩陣,σ(·)表示一個激活函數(shù)?;谧赃m應(yīng)局域投票的圖卷積的具體過程可以參見算法1。
算法1:基于自適應(yīng)局域投票的圖卷積輸入:給定坐標點xi∈X,及其在第l層對應(yīng)的特征對應(yīng)的特征hi;輸出:重構(gòu)特征hi。1.通過k-NN構(gòu)造關(guān)于xi的局部鄰居點集N(xi)={xik|k=1,2,…,K}及其對應(yīng)的特征集N(h(l)i|k=1,2,…,K},h(0)i=xi;2.構(gòu)建局域中坐標間和特征間的相對關(guān)系:Δxik=xik-xi,Δhik=h(l)ik-h(l)i;3.構(gòu)建凝聚中心點和鄰居點特征信息的代理點:hik=φ(Δhik);4.構(gòu)建包含不同語義的差分表示:Eik=cat[Δxik,φ(Δhik,φ1(h(l)ik)-φ2(h(l)i)]W;5.通過對Eik進行自適應(yīng)學習獲得每個代理點有邊相連的投票:oik=tanh(f(Eik))∈?k,wik=max(0,oik);6.根據(jù)投票得分計算代理點間潛在的鄰接矩陣:A=wik·wTik∈?k×k;7.通過GCN更新和聚合局域特征:h(l)i=∑Kk=1σ(AhikW')。
(6)
(7)
式(7)中,φ3(·)是由一個MLP實現(xiàn)。同樣的,對于目標點云Y,FY可按照FX的計算方式得到。
為了更好地實現(xiàn)兩個點云間的特征交互以及獲取后續(xù)用于對應(yīng)優(yōu)化的全局鄰接矩陣,本文采用文獻[9]中的方式來計算兩個輸入點云各自的全局鄰接矩陣AX和AY:
AX=s(Tr(FX,FY)(Tr(FX,FY))T),AY=s(Tr(FY,FX)(Tr(FY,FX))T)。
(8)
式(8)中,Tr(·)表示交互transformer更新,s(·)是一個softmax函數(shù),使每條邊都具有一個權(quán)值以衡量其重要性。對于所獲得的全局鄰接矩陣,利用單層GNN對每個點云進行特征更新,并將兩個點云更新后的全局特征分別記為GX和GY。在此基礎(chǔ)上,采用一個包含可學習參數(shù)的矩陣Ws∈C×C來構(gòu)建兩個點云中節(jié)點間的對應(yīng)關(guān)系:
(9)
為了方便,本文將上述過程賦給一個統(tǒng)一的操作算子FIMCG(·),即有
AX,AY,C=FIMCG(FX,FY)。
(10)
為了明確地利用圖結(jié)構(gòu)信息獲取精確的對應(yīng)關(guān)系,本文通過最小化兩個圖結(jié)構(gòu)間的點對結(jié)構(gòu)差異來細化匹配矩陣。對于Koopmans-Beckmann’s QAP[22],可以在最小化兩個鄰接矩陣間的不一致性的同時優(yōu)化對應(yīng)矩陣,以便使優(yōu)化后的對應(yīng)矩陣更加接近真值矩陣(ground truth)。具體地[25]:
(11)
其中AX∈N×N,AY∈M×M分別是GX和GY中編碼邊信息的鄰接矩陣,Ms∈N×M衡量兩幅特征圖的節(jié)點相似度,‖·‖F(xiàn)表示矩陣范數(shù)。這里,將式(10)得到的可學習的矩陣C作為對應(yīng)矩陣M的初始值,即M0=C,由于C為節(jié)點相似度矩陣,所以Ms=C。
接下來,本文采用一種和文獻[25]相同的可微Frank-Wolfe算法[24]來優(yōu)化q(M),以便獲得一種更可靠的近似解:
vz+1←fsh(vz+1),Mz+1←(1-λz)Mz+λvz+1。
(12)
Mrefined=fsh(α·Mopt+β·C)。
(13)
式(13)中α,β均為可學習的參數(shù)。算法2提供了完整的配準算法流程。
算法2:基于雙分支融合學習和二次圖結(jié)構(gòu)優(yōu)化的點云配準算法輸入:源點云X,目標點云Y,鄰居節(jié)點數(shù)k,迭代次數(shù)T和Z;輸出:對應(yīng)矩陣Mrefined。1)特征提取:雙分支融合學習DBFL(·)FX←DBFL(X,k),FY←DBFL(Y,k);2)特征交互建模及對應(yīng)生成FIMCG(·)AX,AY,C=FIMCG(FX,FY);3)二次圖結(jié)構(gòu)優(yōu)化M←C;for iter=0: Tdofor z=0: Z dov←argminv?q(M)Tvv←fsh(v); //Sinkhorn正則化M←(1-λ)M+λv,λ=2/(z+2);end forend forMrefined=fsh(α·M+β·C); //α和β是可學習的參數(shù)輸出:Mrefined。
因為優(yōu)化的過程主要是利用兩個點云的圖結(jié)構(gòu)信息,這樣在訓練過程中僅少數(shù)次的迭代就能達到一個比較精確的配準效果。由于原始的輸入點云中包含噪聲和離群點,這可能不是一個全局最優(yōu)解,但是全局最優(yōu)解可能也并不是本文所渴望得到的最佳匹配。對于Mrefined,本文按照參考文獻[9]中的處理方式來計算所需的變換參數(shù),實現(xiàn)點云配準。
本文采用了與RGM中相同的針對預測的對應(yīng)矩陣Mrefined的交叉熵損失。這可以更好地監(jiān)督網(wǎng)絡(luò)學習到正確的匹配點對。具體的交叉熵損失函數(shù)描述如下:
(14)
式(14)中M*表示對應(yīng)矩陣的真實結(jié)果(ground truth)。圖4直觀地展示了損失函數(shù)值隨訓練輪數(shù)的變化趨勢。和大多數(shù)文章類似,本文應(yīng)用旋轉(zhuǎn)矩陣R和平移向量t的平均絕對誤差(mean absolute error,MAE)、R和t的平均各向同性誤差(mean isotropic error,MIE)、R和t的均方根誤差(root mean squared error,RMSE)來衡量變換參數(shù)的性能。此外,由于現(xiàn)實條件的配準是不知道兩個點云間的平移向量和旋轉(zhuǎn)矩陣的,因此,本文還采用了RGM使用的經(jīng)裁剪的CD(clip chamfer distance, CCD)這一客觀指標來衡量所提方法的優(yōu)越性。
圖4 損失函數(shù)值隨訓練輪數(shù)的變化趨勢Figure 4 Trend of losses with the number of training epochs
本文通過大量的實驗分析了所構(gòu)建的模型在點云配準中的優(yōu)異性能。數(shù)據(jù)集和預處理描述如下。
ModelNet40[26]數(shù)據(jù)集是一個以物體為中心的合成數(shù)據(jù)集,廣泛用于3D點云配準。它由12 311個CAD模型組成,涉及40個物體類別。實驗中,每個點云均是從其對應(yīng)的網(wǎng)格面中隨機抽取2 048個空間坐標點,并轉(zhuǎn)化到一個單位球體。此外,本文對每個物體點云再隨機采樣1 024個點作為源點云X,然后為X分配一個隨機變換以獲得目標點云Y,最后打亂兩個點云中的點順序。為了探索模型對噪聲的抵抗力,每個點云都被添加了來自分布為N(0,0.012)并被裁剪到[-0.05,0.05]區(qū)間的高斯噪聲。除非另有說明,否則上述設(shè)置默認應(yīng)用于所有實驗。
本文模型由SGD優(yōu)化器訓練200個epochs,初始學習率為0.001,采用多步學習率調(diào)整策略,分別在第120和140 epoch時進行學習率的調(diào)整。所有的實驗都在一臺裝有INTEL Xeon(R)W-2225 CPU和NVIDIA RTX 2080 Ti的機器上操作,并使用PyTorch實現(xiàn)。此外,在所設(shè)計的模型中,L=4,C=512,T=2,Z=3。
為了驗證所提出模型的顯著性能,本文比較了兩種非學習的配準方法ICP[27]和FGR[28],以及基于學習的配準方法,包括DCP[7]、IDAM[8]、RPMNet[20]、DeepBBS[29]、PREDATOR[30]、RGM[9]、ROPNet[31]和MFGNet[32]。除特殊說明外,所有實驗均基于ModelNet40數(shù)據(jù)集。為了消除數(shù)據(jù)處理方法和操作設(shè)備的影響,本文對所有參與對比的模型均重新訓練和測試。
不可見形狀 不可見形狀表示被測對象的類別在訓練中是可見的,但是該對象所具有的形狀并沒有出現(xiàn)在訓練集中。本小節(jié)實驗中將其分為完整到完整的噪聲點云和部分到部分的噪聲點云,并分別討論它們的性能。完整點云意味著每個點云都被均勻采樣1 024個點來表示對象的完整輪廓。為了模擬部分到部分的配準,實驗中按照RPMNet的方式分別從兩個完整點云中刪除30%的點。表1和表2分別展示了上述設(shè)置下的實驗結(jié)果??梢?本文的方法在6個評估指標中均取得了出色的表現(xiàn)。同時也說明了所構(gòu)建的模型在形狀不可見的情況下,無論是針對完整點云還是部分點云,都是有效的。
表1 完整到完整的噪聲點云在不可見形狀上的定量比較
表2 局部到局部的噪聲點云在不可見形狀上的定量比較
不可見類別 為了進一步揭示所提出方法的有效性,本文所構(gòu)建的模型和所有的對比方法都在前20個類別上進行訓練,并在剩余20個類別上進行測試。從表3和表4所展示的結(jié)果可以看出,本文構(gòu)建的模型在未知類別上的泛化性能具有很強的優(yōu)越性。從側(cè)面看,構(gòu)建的基于自適應(yīng)局域投票的圖卷積通過關(guān)注局部結(jié)構(gòu)中高級代理點之間的關(guān)系,可以有效地捕捉到每個節(jié)點的判別性信息。此外,圖5展示了完整到完整點云配準的可視化結(jié)果,圖6展示了局部到局部點云配準的可視化結(jié)果,從中可以觀察到本文模型能夠?qū)崿F(xiàn)較好的視覺效果。
表3 完整到完整的噪聲點云在不可見類別上的定量比較
表4 局部到局部的噪聲點云在不可見類別上的定量比較
圖5 在ModelNet40數(shù)據(jù)集上的完整到完整點云配準的可視化Figure 5 Visualization of complete-to-complete point cloud registration on the modelnet40 dataset
圖6 在ModelNet40數(shù)據(jù)集上的局部到局部點云配準的可視化Figure 6 Visualization of partial-to-partial point cloud registration on the modelnet40 dataset
關(guān)鍵組件的有效性消融實驗針對提出的兩個重要模塊:一是雙分支融合學習模塊,另一個是二次圖結(jié)構(gòu)優(yōu)化模塊。本小節(jié)充分討論了這兩個模塊對于基礎(chǔ)網(wǎng)絡(luò)的改進效果,測試結(jié)果如表5?;A(chǔ)網(wǎng)絡(luò)(baseline,BL):使用DGCNN作為特征提取網(wǎng)絡(luò),并刪去二次圖結(jié)構(gòu)優(yōu)化模塊?!癇L+DBFL”表示將基礎(chǔ)模塊中的特征提取方式替換成本文構(gòu)建的雙分支融合學習模塊,“BL+QGSO”表示在基礎(chǔ)網(wǎng)絡(luò)上增加設(shè)計的二次圖結(jié)構(gòu)優(yōu)化(quadratic graph structure optimization,QGSO)模塊。表5展示了不同關(guān)鍵組件的消融實驗結(jié)果,從中可以發(fā)現(xiàn),本文設(shè)計的兩個模塊均使得基礎(chǔ)網(wǎng)絡(luò)的性能得到了不同程度的提升。
表5 所設(shè)計模型中不同組成部分的實驗效果
關(guān)于局部圖中鄰居點數(shù)的討論在使用k-NN構(gòu)建局部圖的過程中,調(diào)整鄰居點的數(shù)量可能產(chǎn)生不同的實驗結(jié)果。這一部分將詳細討論最近鄰居的數(shù)量k。超參數(shù)討論的實驗依然采用與表4相同的實驗設(shè)置。具體來說,本小節(jié)討論了k值為10、20和30的情況,并在表6中展示了它們的實驗性能。顯然,當k=20時評估結(jié)果是最優(yōu)的。因此,本文在實驗中將鄰居數(shù)k固定為20。
表6 特征提取中不同的鄰居點數(shù)的探討
對于訓練好的模型,在一定條件下,對不同噪聲的容忍性是不確定的。在這一部分中,利用表4中的模型對不同高斯噪聲下的配準性能進行預測。高斯噪聲分別從分布N(0,0.002)、N(0,0.0052)、N(0,0.012)、N(0,0.0152)、N(0,0.022)中進行采樣。從噪聲的角度來看,隨著噪聲的增大,源點云和目標點云的形狀將會發(fā)生變形,導致兩者之間的差異過大而無法識別。同時,這也能增加模型學習對應(yīng)關(guān)系的難度。圖7為上述設(shè)置下的配準性能預測結(jié)果??梢钥吹?本文設(shè)計的模型在平均各向同性誤差上取得了出色的結(jié)果。總體而言,在一定噪聲水平內(nèi),本文模型具有抵抗不同等級高斯噪聲的能力。
圖7 不同噪聲等級下模型的抗噪性能Figure 7 Anti-noise performance of the model under different noise levels
模型在未知的數(shù)據(jù)上的泛化是深度學習任務(wù)應(yīng)該考慮的問題。為了說明本文設(shè)計的網(wǎng)絡(luò)在未知數(shù)據(jù)上確實具有良好的泛化性能,本小節(jié)同樣使用表4中的模型在未知的ShapeNet Parts[33]數(shù)據(jù)集和現(xiàn)實點云數(shù)據(jù)集ScanObjectNN[34]上進行測試。ShapeNet Parts數(shù)據(jù)集包含16個類別,共計16 881個形狀。ScanObjectNN數(shù)據(jù)集包含15 000個對象,這些對象分為15個類,在現(xiàn)實世界中有2 902個對應(yīng)的對象實例。實驗中均采用與ModelNet40相同的設(shè)置。從表7和表8中可以看出,本文的模型在ShapeNet Parts和ScanObjectNN上均取得了最好的測試性能,這同時也說明了所構(gòu)建的模型確實具有良好的泛化能力。
表8 在未知的現(xiàn)實點云數(shù)據(jù)集ScanObjectNN上的測試性能
在點云配準方面,對于非結(jié)構(gòu)化的點云數(shù)據(jù),目前還沒有明確且有效地構(gòu)建鄰接矩陣并利用圖神經(jīng)網(wǎng)絡(luò)進行特征挖掘的工作。因此,本文以此為出發(fā)點,明確地構(gòu)建圖結(jié)構(gòu)并采用GCN來有效地抽取判別性的節(jié)點特征。具體地,本文通過自適應(yīng)局域投票的方式動態(tài)地學習鄰接矩陣并將通過GCN后的特征與經(jīng)多層感知機獲得的特征進行融合,形成雙分支融合學習模塊,從而減少先前信息的丟失以及減緩GCN所具有的結(jié)構(gòu)平滑現(xiàn)象,這為后續(xù)的特征匹配階段提供了良好的判別性特征。此外,為了緩解深度GCN造成的匹配模糊以及獲得節(jié)點間正確的對應(yīng)關(guān)系,本文采用了一種針對對應(yīng)矩陣的二次約束技術(shù),利用Frank-Wolfe算法逐步縮小兩個圖結(jié)構(gòu)之間的點對特征差異,以達到細化對應(yīng)矩陣并實現(xiàn)更好的配準性能之目的。從消融實驗中可以看出,本文所設(shè)計的特征提取方法以及對應(yīng)矩陣細化方法均能夠提高點云配準的性能。本文的方法仍有改進的空間,例如,為對應(yīng)矩陣設(shè)計更加適當且有效的優(yōu)化方案。此外,由于時間成本和設(shè)備問題,還需要考慮和設(shè)計輕量級框架來解決大型場景中的點云配準問題。