梁昊天,鄔義杰
(浙江大學(xué)工程師學(xué)院,杭州 310027)
隨著激光雷達(dá)、RGBD相機(jī)等高精度傳感器的快速發(fā)展,點(diǎn)云數(shù)據(jù)變得更易獲取、成本得到控制[1]。相較于二維圖片,點(diǎn)云能提供豐富的幾何、形狀和尺度信息,使機(jī)器人對(duì)周?chē)h(huán)境的理解更加深刻,因而其已成為計(jì)算機(jī)表示三維世界的主要數(shù)據(jù)格式之一[2]。 由于傳感器只能在其有限的視野范圍內(nèi)捕獲掃描,因此需要配準(zhǔn)算法來(lái)生成大型三維場(chǎng)景。 點(diǎn)云配準(zhǔn)是估計(jì)兩點(diǎn)云之間的變換矩陣的問(wèn)題。 應(yīng)用變換矩陣,我們可以將關(guān)于同一三維場(chǎng)景或?qū)ο蟮牟糠謷呙韬喜⒊梢粋€(gè)完整的三維點(diǎn)云[3]。點(diǎn)云配準(zhǔn)在眾多計(jì)算機(jī)視覺(jué)應(yīng)用中起著關(guān)鍵而不可替代的作用,如三維重建、三維定位、位姿估計(jì)、自動(dòng)駕駛等[4]。
點(diǎn)云配準(zhǔn)按點(diǎn)云來(lái)源分類(lèi)可分為同源配準(zhǔn)和跨源配準(zhǔn),按配準(zhǔn)策略分類(lèi)可分為基于優(yōu)化的配準(zhǔn)方法、基于特征對(duì)應(yīng)的配準(zhǔn)方法和端到端學(xué)習(xí)的配準(zhǔn)方法[5]。
基于優(yōu)化的配準(zhǔn)方法借助優(yōu)化的策略估計(jì)剛體變換矩陣。大部分基于優(yōu)化的配準(zhǔn)方法包含兩個(gè)步驟:對(duì)應(yīng)點(diǎn)搜索和變換估計(jì),兩個(gè)步驟迭代進(jìn)行。其中,BESL等[6]提出的迭代最近點(diǎn)(iterative closest point,ICP)算法,該算法基于奇異值分解(singular value decomposition,SVD),思想簡(jiǎn)單、精度高,然而其計(jì)算開(kāi)銷(xiāo)大,且使用需要滿(mǎn)足兩個(gè)前提條件,即兩個(gè)點(diǎn)云間存在包含關(guān)系且兩個(gè)點(diǎn)云初始位置不能相差太大。YANG、BRENNER等[7-9]對(duì)其提出了改進(jìn)。
不同于經(jīng)典的基于優(yōu)化的配準(zhǔn)算法,基于特征對(duì)應(yīng)的配準(zhǔn)方法分為三步:對(duì)點(diǎn)云中的點(diǎn)進(jìn)行特征提取、在特征空間中搜索點(diǎn)對(duì)、無(wú)需迭代的一步估計(jì)(如隨機(jī)抽樣一致性算法(random sample consencus,RANSAC)[10]、TEASER++算法[11]等)獲得剛體變換矩陣。點(diǎn)的特征描述是其中關(guān)鍵的一環(huán),傳統(tǒng)的特征描述子有FPFH[12]、PPF[13]等。使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征描述子如3DMatch[14]、PPFNet[15]、FCGF[16]等及將注意力機(jī)制應(yīng)用于點(diǎn)云處理的Point Transformer[17],希望通過(guò)深度學(xué)習(xí)的方法得到具有更強(qiáng)的特征表達(dá)能力和更高的魯棒性的特征描述子。其劣勢(shì)在于:①深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù);②當(dāng)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)存在尺度、精度差異時(shí),配準(zhǔn)效果會(huì)大幅下降;③通過(guò)獨(dú)立的訓(xùn)練過(guò)程學(xué)習(xí)的特征提取網(wǎng)絡(luò)確定的是點(diǎn)的配對(duì)關(guān)系而非配準(zhǔn)結(jié)果。
端到端學(xué)習(xí)的配準(zhǔn)方法使用端到端的深度神經(jīng)網(wǎng)絡(luò)解決配準(zhǔn)問(wèn)題,如DGR[18]、DeepGMR[19]、FMR[20]等。網(wǎng)絡(luò)的輸入是兩個(gè)原始點(diǎn)云,輸出是對(duì)齊兩個(gè)點(diǎn)云的剛體變換矩陣。
渲染技術(shù)通常用于計(jì)算機(jī)生成場(chǎng)景與模型的可視化,在眾多計(jì)算機(jī)圖形領(lǐng)域起著不可或缺的作用,如工業(yè)設(shè)計(jì)、醫(yī)學(xué)影像等[21]。在深度學(xué)習(xí)領(lǐng)域,也有使用渲染技術(shù)生成訓(xùn)練集的案例,如HODAN等[22]提出一種使用三維模型合成擬真度較高的圖像的方法,并利用這些生成的PBR(physically-based rendering)圖像訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)在真實(shí)照片中目標(biāo)檢測(cè)的能力。這種物理渲染方法獲得的訓(xùn)練集由于2D目標(biāo)檢測(cè)框、實(shí)例分割掩膜、6D位姿數(shù)據(jù)都可以自動(dòng)生成,相較于時(shí)間、人工成本極高的人工標(biāo)注真實(shí)數(shù)據(jù)集,具有極大的優(yōu)勢(shì)。
本文提出了一套點(diǎn)云配準(zhǔn)實(shí)現(xiàn)及評(píng)價(jià)的算法流程,其核心是改造的將自注意力機(jī)制應(yīng)用于點(diǎn)云處理的Point Transformer點(diǎn)云特征提取網(wǎng)絡(luò)模型,InfoNCE[23]作為其損失函數(shù),通過(guò)應(yīng)用渲染技術(shù),將ShapeNet[24]數(shù)據(jù)集模型在不同視角下投影成外參已知的深度圖,生成其訓(xùn)練集。在點(diǎn)云的特征空間內(nèi)KDTree的方式互相尋找其最近鄰點(diǎn),構(gòu)成點(diǎn)對(duì)關(guān)系。使用RANSAC算法由點(diǎn)對(duì)估計(jì)點(diǎn)云剛體變換矩陣,作為粗配準(zhǔn)結(jié)果。在ICP算法的基礎(chǔ)上開(kāi)發(fā)了Rendering-ICP算法作為精配準(zhǔn)環(huán)節(jié),優(yōu)化得出最終的剛體變換矩陣,即位姿估計(jì)結(jié)果。最后,在Linemod數(shù)據(jù)集上與FPFH、PPF、FCGF的點(diǎn)云描述子進(jìn)行對(duì)比測(cè)試,使用基于渲染的可見(jiàn)表面差異(visible surface discrepancy,VSD)的回歸作為6D位姿估計(jì)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià),驗(yàn)證了本文算法的優(yōu)勢(shì)。
物體的6D位姿是指物體坐標(biāo)系到相機(jī)參考坐標(biāo)系的幾何映射。最常見(jiàn)的,該映射是由三維旋轉(zhuǎn)(物體方向)和三維平移(物體位置)定義的。推斷物體的6D位姿是機(jī)器人與外界環(huán)境交互的一個(gè)關(guān)鍵性問(wèn)題。
在實(shí)際應(yīng)用中,物體的6D位姿估計(jì)通常包含兩個(gè)階段:①將目標(biāo)物體從實(shí)際場(chǎng)景中識(shí)別并分離出來(lái);②根據(jù)分離后的物體信息判斷其6D位姿。第一步由基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)例分割方法完成(如Mask-RCNN[25]等),本文不再贅述,本文給出第二個(gè)階段使用點(diǎn)云配準(zhǔn)方法的解決思路。
本文選用Linemod[26]數(shù)據(jù)集作為本文算法的應(yīng)用場(chǎng)景,Linemod數(shù)據(jù)集包含了15個(gè)物體,提供了這15個(gè)物體的模型文件和真實(shí)采集的每個(gè)模型200張用于測(cè)試的RGBD圖像,及采集所用深度相機(jī)的內(nèi)參、用于評(píng)估6D位姿估計(jì)結(jié)果的真值變換矩陣等。已知相機(jī)內(nèi)參如表1所示。
表1 Linemod數(shù)據(jù)集采集所用Kinect相機(jī)內(nèi)參
由相機(jī)內(nèi)參,對(duì)一張深度圖,已知其上坐標(biāo)為(u,v)的某個(gè)像素點(diǎn)的深度值有效(非零),值為d,則可以計(jì)算得該像素點(diǎn)對(duì)應(yīng)的點(diǎn)云點(diǎn)空間坐標(biāo)(x,y,z),如式(1)~式(3)所示:
(1)
(2)
(3)
圖1a、圖1b分別為L(zhǎng)inemod數(shù)據(jù)集的測(cè)試集的一張RGB圖像與深度圖像樣例,及這兩張圖像合成的點(diǎn)云圖。
(a) Linemod數(shù)據(jù)集測(cè)試集RGB圖(左)、深度圖(右)
目標(biāo)物體的實(shí)例分割結(jié)果由前置的Mask-RCNN算法獲得,將實(shí)例分割獲得的RGB圖像二值掩膜與深度圖點(diǎn)乘獲得濾除了背景的目標(biāo)物體深度圖,由相機(jī)內(nèi)參計(jì)算得獨(dú)立的待估計(jì)6D位姿的目標(biāo)物體點(diǎn)云。從而,將6D位姿估計(jì)問(wèn)題轉(zhuǎn)換為計(jì)算目標(biāo)物體模型點(diǎn)云到實(shí)際采集點(diǎn)云中目標(biāo)物體局部點(diǎn)云的空間變換矩陣,即模型點(diǎn)云和局部點(diǎn)云之間的配準(zhǔn)問(wèn)題。為此,本文設(shè)計(jì)了一套基于深度學(xué)習(xí)的點(diǎn)云配準(zhǔn)流程。
基于優(yōu)化的配準(zhǔn)算法不適用于初始位姿相差大的配準(zhǔn)場(chǎng)景,而端到端學(xué)習(xí)的配準(zhǔn)算法則存在解釋性差、對(duì)模態(tài)不同的輸入點(diǎn)云配準(zhǔn)效果差等問(wèn)題,因而本文選用基于特征對(duì)應(yīng)的配準(zhǔn)方法。傳統(tǒng)的特征描述子對(duì)模型特征的描述注重局部幾何特征,對(duì)全局信息的把握較弱,對(duì)抗噪聲的魯棒性差,而基于深度學(xué)習(xí)的特征描述子則可以通過(guò)合理的網(wǎng)絡(luò)結(jié)構(gòu)和大量充分的訓(xùn)練解決上述問(wèn)題。
Transformer和自注意力機(jī)制對(duì)自然語(yǔ)言處理和機(jī)器視覺(jué)領(lǐng)域都產(chǎn)生了革命性的影響。自注意力算子可以分為兩種類(lèi)型:標(biāo)量注意力和向量注意力。本文使用向量注意力作為基礎(chǔ),設(shè)X={xi}i作為特征向量的集合。通常,注意力權(quán)重是可針對(duì)單個(gè)特征通道進(jìn)行調(diào)節(jié)的向量,其計(jì)算如下:
(4)
式中:yi表示輸出的特征,φ、ψ和α表示逐點(diǎn)特征變換(如線(xiàn)性投影或MLP),δ表示位置編碼函數(shù),β表示關(guān)系函數(shù)(如差),γ表示為特征聚合生成注意力向量的映射函數(shù)(如MLP),ρ表示歸一化函數(shù)(如softmax),⊙表示Hadamard乘積,即對(duì)應(yīng)位置元素相乘。
自注意力機(jī)制對(duì)點(diǎn)云對(duì)象具有天然的適配性,這是由于點(diǎn)云是不規(guī)則地嵌入在三維空間中。本文使用的Point Transformer層基于向量的自注意力機(jī)制,其使用差作為關(guān)系函數(shù),并對(duì)每個(gè)注意力向量γ和特征變換α添加一個(gè)位置編碼,如下:
(5)
本文基于Point Transformer改進(jìn)了一套點(diǎn)云的特征描述學(xué)習(xí)網(wǎng)絡(luò)。Point Transformer原本被設(shè)計(jì)用于點(diǎn)云的語(yǔ)義分割與點(diǎn)云分類(lèi)任務(wù),通過(guò)改造其輸出頭的全局池化層和多層感知器,使得網(wǎng)絡(luò)的輸入是一個(gè)點(diǎn)云對(duì)象,輸出則是該點(diǎn)云中逐點(diǎn)的特征描述。網(wǎng)絡(luò)包含5個(gè)下采樣階段和5個(gè)上采樣階段,對(duì)逐步下采樣的點(diǎn)云進(jìn)行特征編碼操作,其中各個(gè)階段的下采樣率分別為[1,4,4,4,4],因此每個(gè)階段產(chǎn)生的點(diǎn)云的點(diǎn)數(shù)分別為[N,N/4,N/16,N/64,N/256],其中N為輸入點(diǎn)云的點(diǎn)數(shù)。而后對(duì)逐步上采樣的點(diǎn)云進(jìn)行特征解碼操作,之前解碼器階段的特征與相應(yīng)編碼器階段的特征進(jìn)行插值匯總,通過(guò)解碼器后作為當(dāng)前層的解碼后的特征。通過(guò)五層編碼器和解碼器之后的逐點(diǎn)特征作為最后的網(wǎng)絡(luò)輸出。這樣的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)保證了點(diǎn)云中每個(gè)點(diǎn)的特征都包含了5個(gè)不同采樣率下對(duì)全局信息的把握。
(6)
式中:f是對(duì)數(shù)雙線(xiàn)性模型。
(7)
Transformer架構(gòu)解決了卷積神經(jīng)網(wǎng)絡(luò)需要深層次的卷積網(wǎng)絡(luò)對(duì)相距較遠(yuǎn)的元素進(jìn)行交互的限制,然而其訓(xùn)練的難度也更大。點(diǎn)云配準(zhǔn)的數(shù)據(jù)集如3DMatch等,多為室內(nèi)場(chǎng)景點(diǎn)云,與本文算法對(duì)中小型物體6D姿態(tài)估計(jì)的應(yīng)用場(chǎng)景存在尺度差異,適用性較差。因而,本文設(shè)計(jì)了一套利用渲染技術(shù)生成點(diǎn)云特征對(duì)比學(xué)習(xí)數(shù)據(jù)集的算法。
2.2.1 渲染技術(shù)生成點(diǎn)云特征對(duì)比學(xué)習(xí)數(shù)據(jù)集
ShapeNet數(shù)據(jù)集包含了約300萬(wàn)個(gè)模型,其子集ShapeNetCore包含了來(lái)自55類(lèi)的約5萬(wàn)個(gè)模型,根據(jù)模型類(lèi)型和大小篩選后保留了其中約2萬(wàn)個(gè)模型,作為原始模型。對(duì)每一個(gè)原始模型,以其中心點(diǎn)為空間零點(diǎn)與視點(diǎn)球面球心,其隨機(jī)2~5倍直徑作為視點(diǎn)球面半徑,生成16個(gè)同心視點(diǎn)球面,在每個(gè)視點(diǎn)球面上隨機(jī)取1個(gè)點(diǎn),作為模擬的相機(jī)位置,相機(jī)朝向模型中心點(diǎn)并適當(dāng)擾動(dòng),將觀察到的原始模型渲染成RGB圖像和深度圖像,稱(chēng)為一個(gè)視圖,如圖2所示。
圖2 渲染生成的ShapeNet模型的16個(gè)視圖
對(duì)這樣一個(gè)渲染的視圖,其相機(jī)內(nèi)參是自定義的,外參是由相機(jī)在空間確定的,因而可以通過(guò)相機(jī)內(nèi)參重建視圖的點(diǎn)云,通過(guò)相機(jī)外參獲取視圖點(diǎn)云與模型點(diǎn)云間,視圖點(diǎn)云與視圖點(diǎn)云間的真值配準(zhǔn)結(jié)果。這樣的一組初始點(diǎn)云對(duì)和其真值配準(zhǔn)結(jié)果構(gòu)成了訓(xùn)練數(shù)據(jù)集中的一條原始數(shù)據(jù)。
2.2.2 渲染生成數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)
與渲染生成的視圖點(diǎn)云數(shù)據(jù)相比,由于深度相機(jī)分辨率、自然噪聲等影響,真實(shí)采集的視圖點(diǎn)云數(shù)據(jù)具有深度分層,噪聲干擾,深度信息缺失等特點(diǎn),如圖3所示。因此,對(duì)渲染數(shù)據(jù)集中的視圖點(diǎn)云須進(jìn)行數(shù)據(jù)增強(qiáng)操作,使網(wǎng)絡(luò)對(duì)模型和視圖間不同模態(tài)特征一致性的學(xué)習(xí)達(dá)到更加魯棒的效果。
圖3 深度相機(jī)采集的真實(shí)點(diǎn)云的分層現(xiàn)象
針對(duì)以上的真實(shí)采集點(diǎn)云數(shù)據(jù)的特點(diǎn),本文分別設(shè)計(jì)了對(duì)深度圖進(jìn)行深度分層、添加柏林噪聲和生成隨機(jī)多邊形孔洞的數(shù)據(jù)增強(qiáng)操作,圖4b~圖4d分別是圖4a的原始點(diǎn)云經(jīng)上述操作處理后的效果。
(a) 原始點(diǎn)云 (b) 深度分層 (c) 柏林噪聲 (d) 隨機(jī)多邊形孔洞
本文所用的實(shí)驗(yàn)平臺(tái)為NVIDIA DGX系統(tǒng),軟件平臺(tái)為Python 3.8.10,PyTorch 1.10.0,CUDA 11.3。使用8個(gè)NVIDIA GeForce RTX 3090 GPU對(duì)網(wǎng)絡(luò)進(jìn)行多卡訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練的優(yōu)化器使用Adam,各參數(shù)設(shè)置如表2所示,訓(xùn)練30個(gè)epoch。
表2 Point Transformer訓(xùn)練參數(shù)設(shè)置表
通過(guò)訓(xùn)練好的Point Transformer網(wǎng)絡(luò)對(duì)點(diǎn)云的特征提取,點(diǎn)云中的每一個(gè)點(diǎn)獲得了一個(gè)獨(dú)特的64維的特征表達(dá)。將64維的特征使用主成分分析(principal component analysis,PCA)方法降維至3維,并標(biāo)準(zhǔn)化至RGB通道,作為顏色表示,可視化效果如圖5所示。
(a) 臺(tái)鉗(左:模型、右:視圖) (b) 茶杯(左:模型、右:視圖)
一個(gè)視圖的目標(biāo)物體的點(diǎn)云與目標(biāo)物體完整模型的點(diǎn)云在相同位置應(yīng)具有相似的特征表達(dá)。對(duì)物體模型的每個(gè)點(diǎn)的64維特征表達(dá)建立一個(gè)KDTree搜索空間,歐式距離作為距離的度量指標(biāo)。設(shè)x(x1,x2,…,xn)和y=(y1,y2,…,yn)是n維空間中的兩點(diǎn),其歐氏距離計(jì)算如下:
(8)
對(duì)于一個(gè)視圖點(diǎn)云中的每個(gè)點(diǎn),在特征空間中尋找其在模型點(diǎn)云中的最近鄰點(diǎn)(與其具有最小歐式距離的點(diǎn))。將模型與視圖互換進(jìn)行同樣的操作。如果分別來(lái)自模型點(diǎn)云和視圖點(diǎn)云的兩個(gè)點(diǎn)在特征空間中互為最近鄰,則認(rèn)為它們構(gòu)成一個(gè)點(diǎn)對(duì)。
在特征空間搜索到的互相最近鄰點(diǎn)對(duì),由于模型點(diǎn)云和視圖點(diǎn)云間存在模態(tài)差異,并非完全正確,錯(cuò)誤點(diǎn)對(duì)的存在是不可忽略的。因而本文使用RANSAC(隨機(jī)抽樣一致性)算法由點(diǎn)對(duì)估計(jì)點(diǎn)云剛體變換矩陣。RANSAC算法的思想在于假設(shè)與驗(yàn)證,即:①?gòu)乃谢ハ嘧罱忺c(diǎn)對(duì)中隨機(jī)選取3組,假定它們是正確的,并基于其求解剛體變換矩陣;②計(jì)算剩余的點(diǎn)對(duì)在該剛體變換矩陣下的誤差,如果誤差值小于預(yù)定誤差閾值,則被認(rèn)為是樣本內(nèi)點(diǎn),否則為樣本外點(diǎn)。統(tǒng)計(jì)內(nèi)點(diǎn)的數(shù)量;③重復(fù)上述步驟,直到達(dá)到設(shè)定的最大迭代次數(shù);④統(tǒng)計(jì)不同剛體變換矩陣下的樣本內(nèi)點(diǎn)數(shù),內(nèi)點(diǎn)數(shù)最多的矩陣即為最佳數(shù)學(xué)模型。使用最小二乘法對(duì)該模型的所有內(nèi)點(diǎn)重新估計(jì)剛體變換矩陣,作為最終的粗配準(zhǔn)結(jié)果。
RANSAC算法獲得的粗配準(zhǔn)結(jié)果在精度上仍不可避免的存在一定誤差,因而一般需要使用精配準(zhǔn)算法(如ICP算法)優(yōu)化配準(zhǔn)精度,而在實(shí)際測(cè)試中發(fā)現(xiàn)局部視圖點(diǎn)云對(duì)完整模型點(diǎn)云的配準(zhǔn)受不重合部分的影響較大,如圖6a和圖6b所示,鉆孔機(jī)的上半部分近似于圓柱體,當(dāng)視圖點(diǎn)云的上半部分被包裹于模型點(diǎn)云之中時(shí),受模型視圖不重合部分無(wú)關(guān)點(diǎn)的影響,迭代最近點(diǎn)的優(yōu)化策略失效,進(jìn)而導(dǎo)致ICP算法失效。因此,開(kāi)發(fā)了Rendering-ICP算法,即根據(jù)粗配準(zhǔn)結(jié)果,從待估計(jì)位姿的視圖點(diǎn)云的相機(jī)觀測(cè)點(diǎn)觀測(cè)渲染的模型點(diǎn)云,保留可見(jiàn)點(diǎn),剔除不可見(jiàn)點(diǎn),將模型點(diǎn)云投影成局部視圖,以排除模型不重合部分對(duì)配準(zhǔn)的干擾。ICP算法與Rendering-ICP算法的配準(zhǔn)效果對(duì)比如圖6c和圖6d所示。
(a) 粗配準(zhǔn)結(jié)果(軸測(cè)圖) (b) 粗配準(zhǔn)結(jié)果(正視圖) (c) ICP精配準(zhǔn)結(jié)果 (d) Rendering-ICP精配準(zhǔn)結(jié)果
(9)
對(duì)每個(gè)單獨(dú)目標(biāo)的6D位姿估計(jì)結(jié)果,其eVSD若小于設(shè)定的錯(cuò)誤閾值,則視為正確的結(jié)果,否則視為錯(cuò)誤,在實(shí)驗(yàn)中,選取閾值為0.3。則VSD的回歸RecallVSD計(jì)算如下:
(10)
式中:TP為正確的結(jié)果數(shù),FN為錯(cuò)誤的結(jié)果數(shù)。
FPFH、PPF、FCGF算法與Point Transformer算法在Linemod數(shù)據(jù)集上6D位姿估計(jì)結(jié)果的評(píng)價(jià)指標(biāo)如表3所示。
表3 點(diǎn)云描述子在Linemod數(shù)據(jù)集上的VSD回歸評(píng)價(jià)結(jié)果
對(duì)Linemod數(shù)據(jù)集中15個(gè)物體的VSD回歸結(jié)果單獨(dú)分析,結(jié)果如圖7所示。
圖7 點(diǎn)云描述子在Linemod數(shù)據(jù)集上逐物體的VSD回歸評(píng)價(jià)結(jié)果
通過(guò)表3和圖7可以看出Point Transformer點(diǎn)云描述網(wǎng)絡(luò)模型在設(shè)計(jì)的訓(xùn)練集訓(xùn)練后的性能顯著優(yōu)于其他算法。
本文針對(duì)點(diǎn)云的特征描述子在深度學(xué)習(xí)訓(xùn)練中訓(xùn)練集構(gòu)造困難的問(wèn)題,創(chuàng)新性地提出了應(yīng)用渲染技術(shù)將點(diǎn)云模型在不同視角投影后重建,構(gòu)建成點(diǎn)云配準(zhǔn)訓(xùn)練集的方法。立足于6D位姿估計(jì)應(yīng)用場(chǎng)景,改造了被設(shè)計(jì)用于點(diǎn)云語(yǔ)義分割的Point Transformer作為點(diǎn)云的特征描述子,設(shè)計(jì)了局部視圖點(diǎn)云到整體模型點(diǎn)云的配準(zhǔn)訓(xùn)練集,并結(jié)合真實(shí)采集點(diǎn)云的特征,設(shè)計(jì)了深度分層、柏林噪音、隨機(jī)多邊形孔洞等數(shù)據(jù)增強(qiáng)方法,增強(qiáng)了學(xué)習(xí)的點(diǎn)云特征的魯棒性。使用訓(xùn)練好的模型處理點(diǎn)云對(duì)象,推理每個(gè)點(diǎn)的64維特征,并做了可視化呈現(xiàn)。在特征空間中搜索互相最近鄰點(diǎn)構(gòu)建點(diǎn)對(duì),RANSAC方法獲取粗配準(zhǔn)結(jié)果,在ICP算法基礎(chǔ)上創(chuàng)新的Rendering-ICP算法作為精配準(zhǔn)算法獲得最后的配準(zhǔn)結(jié)果,即6D位姿估計(jì)結(jié)果。最后與FPFH、PPF、FCGF等算法進(jìn)行了對(duì)比實(shí)驗(yàn),VSD的回歸作為評(píng)價(jià)指標(biāo),證明了本文算法的優(yōu)勢(shì)。
點(diǎn)云配準(zhǔn)的應(yīng)用場(chǎng)景很多,由于著眼于6D位姿估計(jì)場(chǎng)景,渲染的訓(xùn)練集均為直徑不超過(guò)1米的物體局部視圖到全局點(diǎn)云的配準(zhǔn),因而本文訓(xùn)練出的Point Transformer點(diǎn)云特征描述子是針對(duì)小型物體特化的。在后續(xù)研究中,可以著眼于訓(xùn)練集的擴(kuò)充和泛化性的增強(qiáng),將本文的算法應(yīng)用于室內(nèi)場(chǎng)景、室外大型場(chǎng)景三維點(diǎn)云重建等。