林欽壯,何昭水
(廣東工業(yè)大學(xué)自動化學(xué)院,廣東 廣州 510006)
點云數(shù)據(jù)是一種幾何數(shù)據(jù)格式基本類型,可以理想地表現(xiàn)空間流形的幾何特征[1]。因此,隨著云計算和人工智能算法的發(fā)展,點云數(shù)據(jù)在自動駕駛[2-3]、3D物體識別和檢索[4-6]、機(jī)器人視覺[7],甚至災(zāi)害破壞檢測[8]等諸多方面有日漸廣泛的應(yīng)用。然而,由于點云數(shù)據(jù)具有非結(jié)構(gòu)化、排列不變性以及點云數(shù)量不確定等特點,使得現(xiàn)有的很多深度學(xué)習(xí)方法[9]在點云識別上的運(yùn)用具有效率低、計算量大、場景通用性差等諸多缺點。為此,研究深度神經(jīng)網(wǎng)絡(luò)如何高效地進(jìn)行點云識別對自動駕駛等現(xiàn)實場景應(yīng)用具有重要的研究意義。
深度學(xué)習(xí)方法以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),運(yùn)用在點云數(shù)據(jù)上面臨以下幾點挑戰(zhàn):1)點云數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),即點云是分布在空間中、以坐標(biāo)xyz呈現(xiàn)的點,這使得典型的結(jié)構(gòu)化網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)難以直接使用;2)點云具有排列不變性,即點云數(shù)據(jù)中點的順序是無序的,不同順序的點可以表示一個相同的物體或場景,這使深度神經(jīng)網(wǎng)絡(luò)在獲取特征時更加困難;3)點云數(shù)據(jù)具有數(shù)量變化的不確定性,這是激光雷達(dá)等傳感器在現(xiàn)實場景下常遇到的問題。
針對點云的特點,目前深度學(xué)習(xí)方法在點云識別上的運(yùn)用大致可以分為3類。一類是將三維點云數(shù)據(jù)映射成多個角度的二維圖片,再采用深度神經(jīng)網(wǎng)絡(luò)對映射成的結(jié)構(gòu)化的圖片進(jìn)行處理,典型的如MVCNN[10]、RotationNet[11]等。這種方式雖然可以方便地使用在圖片識別取得良好效果的神經(jīng)網(wǎng)絡(luò)模型上,但需要獲取點云數(shù)據(jù)在不同角度的映射圖片,在自動駕駛等多種現(xiàn)實場景下并不適用。另一類是將三維點云還原成三維空間,再采用空間的3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,典型的如VoxNet[12]、3D ShapeNet[13]等。這類方法計算了整個立體空間,大量為空的空間也參與了計算,使得整個模型計算量很大,通常需要通過降低分辨率等方式來減少計算,但這也在一定程度丟失了數(shù)據(jù)空間聯(lián)系的細(xì)節(jié)特征。第三類則是直接處理點云數(shù)據(jù),通過在網(wǎng)絡(luò)中計算變換矩陣或者近鄰點來獲取特征,從而實現(xiàn)點云識別,典型的如PointNet[14]、PointNet++[15]等。PointNet通過一個子網(wǎng)絡(luò)學(xué)習(xí)點云數(shù)據(jù)及其特征的變換矩陣,從而達(dá)到直接處理點云數(shù)據(jù),但該方法卻忽略了點云數(shù)據(jù)間點與點的關(guān)系,參數(shù)量較大。PointNet++可以看作是在PointNet基礎(chǔ)上加以提升,通過采樣局部近鄰內(nèi)的點來獲取點云局部點的關(guān)系,進(jìn)而提高識別率,該方法雖然減少了參數(shù)量并提高了識別精度,但方法具有計算量大、時間消耗大等缺點。
綜上所述,由于點云數(shù)據(jù)自身特點給深度神經(jīng)網(wǎng)絡(luò)解決方法帶來的困難,目前的研究方法有著計算量大、參數(shù)量大、場景通用性差的缺點。針對現(xiàn)有深度學(xué)習(xí)算法在點云上應(yīng)用存在的問題,本文提出一種結(jié)合注意力機(jī)制(Attention Mechanism)與深度殘差神經(jīng)網(wǎng)絡(luò)的方法,直接處理點云數(shù)據(jù)進(jìn)行高效識別。研究對比了不同的處理點云方式的深度學(xué)習(xí)方法,包括映射成二維圖片的方法、基于空間立體的方法以及直接處理點云的方法,并在MNIST、ModelNet40等數(shù)據(jù)集上對比不同方法對2D點云和3D點云的識別效果。實驗結(jié)果表明,本文提出的方法在保證高識別精度的同時,具有參數(shù)量小、計算量小、更高效等優(yōu)點。
注意力機(jī)制的研究源于人體視覺對環(huán)境的注意力[16]。近年來,隨著深度學(xué)習(xí)的運(yùn)用,注意力機(jī)制在自然語言處理[17]和圖片識別[18]等多個領(lǐng)域均有研究和應(yīng)用。圖1(a)為注意力機(jī)制的結(jié)構(gòu)示意圖,其中FCN為多層全卷積層,包括卷積層、Batch Normalization層[19]以及ReLU激活層[20]等。對于給定輸入x,通過網(wǎng)絡(luò)學(xué)習(xí)得到特征T(x),特征之間權(quán)重W(x),則通過注意力機(jī)制后輸出為:
Fi,c=Wi(x)·Ti,c(x)
其中,i為第i個點(或特征),c∈{1,…,C}為通道索引,特征與權(quán)值間的運(yùn)算為Hadamard乘積。注意力機(jī)制通過網(wǎng)絡(luò)學(xué)習(xí)獲得特征及其相關(guān)權(quán)值,使得重要的點或特征凸顯出來。
(a) 注意力機(jī)制
(b) 結(jié)合殘差學(xué)習(xí)的注意力模塊
為了進(jìn)一步有效地學(xué)習(xí)點云的整體分布,本文方法結(jié)合殘差學(xué)習(xí)的方式。殘差學(xué)習(xí)源于殘差網(wǎng)絡(luò)[21],用于解決深度學(xué)習(xí)中由于梯度消失帶來的性能下降問題。由于點云數(shù)據(jù)具有無序的特點,而殘差學(xué)習(xí)的網(wǎng)絡(luò)可以通過顯式地學(xué)習(xí)多個堆疊的殘差映射,有利于擴(kuò)大網(wǎng)絡(luò)的容量,提高網(wǎng)絡(luò)對數(shù)據(jù)的擬合能力,提高對點云數(shù)據(jù)的識別精度。本文方法采用圖1(b)所示的結(jié)合殘差學(xué)習(xí)的注意力機(jī)制模塊。對給定輸入x,通過該模塊后輸出為:
H(x)=F(x)+x
=Wi(x)·Ti,c(x)+x
本文方法可以直接處理輸入的點云數(shù)據(jù)。該方法的整體框架示意圖如圖2所示,輸入點云的形式為(n×d×1),其中n為點云點的數(shù)量,d為點云的維度,圖中其他模塊的大小設(shè)置也與此類似。點云數(shù)據(jù)流經(jīng)Conv層后流入多個結(jié)合殘差學(xué)習(xí)的注意力模塊堆疊而成的網(wǎng)絡(luò)結(jié)構(gòu),其中Conv層由卷積層、Batch Normalization層以及ReLU激活層組成。由殘差注意力模塊學(xué)習(xí)得到的特征,經(jīng)過最大池化層(Max Pooling)后,再通過多層感知機(jī)(MLP),最后輸出分別隸屬于k個類別的分?jǐn)?shù),得到輸入點云數(shù)據(jù)所屬的類別。對于網(wǎng)絡(luò)輸出,采用Softmax計算,將輸出轉(zhuǎn)化為屬于每個類別的概率:
其中v為輸出向量。網(wǎng)絡(luò)經(jīng)過Softmax計算后,再使用Cross-Entropy計算整體的損失(loss):
其中,y′i為標(biāo)簽中的第i個值,yi為經(jīng)過Softmax歸一化后輸出向量的第i個分量。最后對同個batch中的樣本的loss計算平均值,獲得最后的反饋損失。
圖2 基于注意力機(jī)制的高效點云識別方法的整體框架
本文實驗采用MNIST數(shù)據(jù)集和ModelNet40數(shù)據(jù)集,對比分析在2D點云和3D點云數(shù)據(jù)上不同方法的表現(xiàn)。實驗運(yùn)行的硬件環(huán)境CPU為Intel Xeon E5-1650 v4, GPU為NVIDIA TITAN Xp,實驗運(yùn)行的軟件環(huán)境為64位的Ubuntu 16.4 LTS并采用TensorFlow 1.4進(jìn)行實驗。實驗采用準(zhǔn)確率作為評價指標(biāo),即:
對于2D點云識別,本文采用了典型的手寫數(shù)字?jǐn)?shù)據(jù)集MNIST[22]。該數(shù)據(jù)集包含60000個手寫數(shù)字圖像樣本作為訓(xùn)練集和10000個手寫數(shù)字圖像樣本作為測試集。在預(yù)處理階段,以128作為閾值,將手寫數(shù)字圖像中灰度值大于該閾值的像素點轉(zhuǎn)換為二維點云,點云中的點以二維坐標(biāo)(x,y)的形式組成。實驗設(shè)置了點云集合的大小為256,對于點云數(shù)量大于256的樣本,采用隨機(jī)采樣的方式,對于點云數(shù)量小于256的樣本,則使用其全部的點,并從該樣本中隨機(jī)采樣點補(bǔ)足到256個。
本文將實驗的batch大小設(shè)置為128,將dropout層的神經(jīng)元失活概率設(shè)置為0.3,將學(xué)習(xí)率初始化為0.05并以每30個epoch乘以0.7的速率遞減。實驗結(jié)果如表1所示,本文方法在2D點云識別上展現(xiàn)了優(yōu)于其他方法的準(zhǔn)確率。
表1 各方法在MNIST上進(jìn)行2D點云識別的準(zhǔn)確率比較
針對3D點云識別,本文采用了典型的3D數(shù)據(jù)集ModelNet40[13]。該數(shù)據(jù)集包含了40類物體,一共12311個三維網(wǎng)格化的3D模型。其中,訓(xùn)練集包含9843個樣本,測試集包含2468個樣本。本文采用PointNet方法處理數(shù)據(jù),通過對于每一個3D模型進(jìn)行均勻隨機(jī)采樣1024個點,將網(wǎng)格化的3D模型轉(zhuǎn)換成三維點云的形式,即模型的三維點云以(x,y,z)三維坐標(biāo)存在,并將整個模型的三維點云歸一化到單位空間。
本文實驗采用了Adam優(yōu)化方法,將學(xué)習(xí)率設(shè)置為0.001,將動量(momentum)設(shè)置為0.9,將batch大小設(shè)置為32。為了提高對數(shù)據(jù)的利用,使網(wǎng)絡(luò)學(xué)習(xí)到本質(zhì)的特征,本文在訓(xùn)練過程同時采用了2種數(shù)據(jù)增強(qiáng)操作。一種是隨機(jī)讓3D模型選擇繞x軸、y軸或z軸旋轉(zhuǎn)一定角度,即點云數(shù)據(jù)乘以一個0~2π之間隨機(jī)角度的旋轉(zhuǎn)矩陣。另一種數(shù)據(jù)增強(qiáng)操作是對點云數(shù)據(jù)中的點進(jìn)行隨機(jī)抖動,實驗將抖動范圍設(shè)置在[-0.05, 0.05]區(qū)間。圖3(a)為實驗過程中損失函數(shù)收斂曲線,圖3(b)為隨著訓(xùn)練epoch增加的測試準(zhǔn)確率曲線,可見該網(wǎng)絡(luò)模型具有快速、良好的收斂性能。
(b) 測試準(zhǔn)確率曲線
實驗結(jié)果如表2所示,本文方法在3D點云識別上達(dá)到了與前沿算法近似甚至超過的準(zhǔn)確率。
表2 各方法在ModelNet40上進(jìn)行3D點云識別的準(zhǔn)確率比較
在2D點云識別和3D點云識別實驗中,本文方法表現(xiàn)出了高識別準(zhǔn)確率。為了更全面地分析本文方法的特點,驗證該網(wǎng)絡(luò)算法的優(yōu)勢和實際可應(yīng)用性,選擇了同樣直接處理點云數(shù)據(jù)且具有良好識別率的算法來比較其模型大小與運(yùn)行效率。
表3 各方法在3D點云識別實驗中的網(wǎng)絡(luò)參數(shù)量及運(yùn)行速度比較
以3D點云識別為例,各方法網(wǎng)絡(luò)參數(shù)量和運(yùn)行速度對比如表3所示。從網(wǎng)絡(luò)大小而言,本文方法對比PointNet模型減少了50%以上的參數(shù)量,對比PointNet++減少了17%以上的參數(shù)量,這是由于本文方法采用注意力機(jī)制的方式直接獲取點云特征,避免了采用子網(wǎng)絡(luò)學(xué)習(xí)變換矩陣的方式,從而使模型更加簡單,更有利于實際應(yīng)用。從網(wǎng)絡(luò)運(yùn)行速度而言,本文方法略快于PointNet,對比PointNet++運(yùn)行時間減少60%以上,這是由于通過注意力機(jī)制與殘差學(xué)習(xí)的結(jié)合方式可以獲取點云之間關(guān)系,減少了顯式查找點云局部關(guān)系,使得網(wǎng)絡(luò)模型更為快速和高效。通過對比分析可知,本文方法具有更加簡單、更加高效的特點,也使得其在實際應(yīng)用中更有優(yōu)勢。
針對當(dāng)前深度學(xué)習(xí)方法在點云識別上的運(yùn)用具有效率低、計算量大、場景通用性差等諸多缺點,本文提出了一種高效的點云識別方法。通過結(jié)合注意力機(jī)制與殘差學(xué)習(xí),該方法直接處理點云數(shù)據(jù),并獲取其重要特征,從而達(dá)到對點云數(shù)據(jù)的高效識別。實驗結(jié)果表明,該方法在2D與3D點云數(shù)據(jù)中都具有良好的識別準(zhǔn)確率,并且具有模型簡單、參數(shù)量小、計算量小、更高效等諸多優(yōu)點。