基于注意力機(jī)制的高效點云識別方法

2020-08-17 13:59林欽壯何昭水

計算機(jī)與現(xiàn)代化 2020年8期

林欽壯，何昭水

(廣東工業(yè)大學(xué)自動化學(xué)院，廣東廣州 510006)

0 引言

點云數(shù)據(jù)是一種幾何數(shù)據(jù)格式基本類型，可以理想地表現(xiàn)空間流形的幾何特征[1]。因此，隨著云計算和人工智能算法的發(fā)展，點云數(shù)據(jù)在自動駕駛[2-3]、3D物體識別和檢索[4-6]、機(jī)器人視覺[7]，甚至災(zāi)害破壞檢測[8]等諸多方面有日漸廣泛的應(yīng)用。然而，由于點云數(shù)據(jù)具有非結(jié)構(gòu)化、排列不變性以及點云數(shù)量不確定等特點，使得現(xiàn)有的很多深度學(xué)習(xí)方法[9]在點云識別上的運(yùn)用具有效率低、計算量大、場景通用性差等諸多缺點。為此，研究深度神經(jīng)網(wǎng)絡(luò)如何高效地進(jìn)行點云識別對自動駕駛等現(xiàn)實場景應(yīng)用具有重要的研究意義。

深度學(xué)習(xí)方法以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)，運(yùn)用在點云數(shù)據(jù)上面臨以下幾點挑戰(zhàn)：1)點云數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)，即點云是分布在空間中、以坐標(biāo)xyz呈現(xiàn)的點，這使得典型的結(jié)構(gòu)化網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)難以直接使用；2)點云具有排列不變性，即點云數(shù)據(jù)中點的順序是無序的，不同順序的點可以表示一個相同的物體或場景，這使深度神經(jīng)網(wǎng)絡(luò)在獲取特征時更加困難；3)點云數(shù)據(jù)具有數(shù)量變化的不確定性，這是激光雷達(dá)等傳感器在現(xiàn)實場景下常遇到的問題。

1 點云識別的挑戰(zhàn)與研究現(xiàn)狀

針對點云的特點，目前深度學(xué)習(xí)方法在點云識別上的運(yùn)用大致可以分為3類。一類是將三維點云數(shù)據(jù)映射成多個角度的二維圖片，再采用深度神經(jīng)網(wǎng)絡(luò)對映射成的結(jié)構(gòu)化的圖片進(jìn)行處理，典型的如MVCNN[10]、RotationNet[11]等。這種方式雖然可以方便地使用在圖片識別取得良好效果的神經(jīng)網(wǎng)絡(luò)模型上，但需要獲取點云數(shù)據(jù)在不同角度的映射圖片，在自動駕駛等多種現(xiàn)實場景下并不適用。另一類是將三維點云還原成三維空間，再采用空間的3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理，典型的如VoxNet[12]、3D ShapeNet[13]等。這類方法計算了整個立體空間，大量為空的空間也參與了計算，使得整個模型計算量很大，通常需要通過降低分辨率等方式來減少計算，但這也在一定程度丟失了數(shù)據(jù)空間聯(lián)系的細(xì)節(jié)特征。第三類則是直接處理點云數(shù)據(jù)，通過在網(wǎng)絡(luò)中計算變換矩陣或者近鄰點來獲取特征，從而實現(xiàn)點云識別，典型的如PointNet[14]、PointNet++[15]等。PointNet通過一個子網(wǎng)絡(luò)學(xué)習(xí)點云數(shù)據(jù)及其特征的變換矩陣，從而達(dá)到直接處理點云數(shù)據(jù)，但該方法卻忽略了點云數(shù)據(jù)間點與點的關(guān)系，參數(shù)量較大。PointNet++可以看作是在PointNet基礎(chǔ)上加以提升，通過采樣局部近鄰內(nèi)的點來獲取點云局部點的關(guān)系，進(jìn)而提高識別率，該方法雖然減少了參數(shù)量并提高了識別精度，但方法具有計算量大、時間消耗大等缺點。

綜上所述，由于點云數(shù)據(jù)自身特點給深度神經(jīng)網(wǎng)絡(luò)解決方法帶來的困難，目前的研究方法有著計算量大、參數(shù)量大、場景通用性差的缺點。針對現(xiàn)有深度學(xué)習(xí)算法在點云上應(yīng)用存在的問題，本文提出一種結(jié)合注意力機(jī)制(Attention Mechanism)與深度殘差神經(jīng)網(wǎng)絡(luò)的方法，直接處理點云數(shù)據(jù)進(jìn)行高效識別。研究對比了不同的處理點云方式的深度學(xué)習(xí)方法，包括映射成二維圖片的方法、基于空間立體的方法以及直接處理點云的方法，并在MNIST、ModelNet40等數(shù)據(jù)集上對比不同方法對2D點云和3D點云的識別效果。實驗結(jié)果表明，本文提出的方法在保證高識別精度的同時，具有參數(shù)量小、計算量小、更高效等優(yōu)點。

2 基于注意力機(jī)制的點云識別方法

2.1 注意力機(jī)制與殘差學(xué)習(xí)結(jié)合

注意力機(jī)制的研究源于人體視覺對環(huán)境的注意力[16]。近年來，隨著深度學(xué)習(xí)的運(yùn)用，注意力機(jī)制在自然語言處理[17]和圖片識別[18]等多個領(lǐng)域均有研究和應(yīng)用。圖1(a)為注意力機(jī)制的結(jié)構(gòu)示意圖，其中FCN為多層全卷積層，包括卷積層、Batch Normalization層[19]以及ReLU激活層[20]等。對于給定輸入x，通過網(wǎng)絡(luò)學(xué)習(xí)得到特征T(x)，特征之間權(quán)重W(x)，則通過注意力機(jī)制后輸出為：

Fi,c=Wi(x)·Ti,c(x)

其中，i為第i個點(或特征)，c∈{1,…,C}為通道索引，特征與權(quán)值間的運(yùn)算為Hadamard乘積。注意力機(jī)制通過網(wǎng)絡(luò)學(xué)習(xí)獲得特征及其相關(guān)權(quán)值，使得重要的點或特征凸顯出來。

(a) 注意力機(jī)制

(b) 結(jié)合殘差學(xué)習(xí)的注意力模塊

為了進(jìn)一步有效地學(xué)習(xí)點云的整體分布，本文方法結(jié)合殘差學(xué)習(xí)的方式。殘差學(xué)習(xí)源于殘差網(wǎng)絡(luò)[21]，用于解決深度學(xué)習(xí)中由于梯度消失帶來的性能下降問題。由于點云數(shù)據(jù)具有無序的特點，而殘差學(xué)習(xí)的網(wǎng)絡(luò)可以通過顯式地學(xué)習(xí)多個堆疊的殘差映射，有利于擴(kuò)大網(wǎng)絡(luò)的容量，提高網(wǎng)絡(luò)對數(shù)據(jù)的擬合能力，提高對點云數(shù)據(jù)的識別精度。本文方法采用圖1(b)所示的結(jié)合殘差學(xué)習(xí)的注意力機(jī)制模塊。對給定輸入x，通過該模塊后輸出為：

H(x)=F(x)+x

=Wi(x)·Ti,c(x)+x

2.2 整體學(xué)習(xí)框架

本文方法可以直接處理輸入的點云數(shù)據(jù)。該方法的整體框架示意圖如圖2所示，輸入點云的形式為(n×d×1)，其中n為點云點的數(shù)量，d為點云的維度，圖中其他模塊的大小設(shè)置也與此類似。點云數(shù)據(jù)流經(jīng)Conv層后流入多個結(jié)合殘差學(xué)習(xí)的注意力模塊堆疊而成的網(wǎng)絡(luò)結(jié)構(gòu)，其中Conv層由卷積層、Batch Normalization層以及ReLU激活層組成。由殘差注意力模塊學(xué)習(xí)得到的特征，經(jīng)過最大池化層(Max Pooling)后，再通過多層感知機(jī)(MLP)，最后輸出分別隸屬于k個類別的分?jǐn)?shù)，得到輸入點云數(shù)據(jù)所屬的類別。對于網(wǎng)絡(luò)輸出，采用Softmax計算，將輸出轉(zhuǎn)化為屬于每個類別的概率：

其中v為輸出向量。網(wǎng)絡(luò)經(jīng)過Softmax計算后，再使用Cross-Entropy計算整體的損失(loss)：

其中，y′i為標(biāo)簽中的第i個值，yi為經(jīng)過Softmax歸一化后輸出向量的第i個分量。最后對同個batch中的樣本的loss計算平均值，獲得最后的反饋損失。

圖2 基于注意力機(jī)制的高效點云識別方法的整體框架

3 實驗與結(jié)果分析

本文實驗采用MNIST數(shù)據(jù)集和ModelNet40數(shù)據(jù)集，對比分析在2D點云和3D點云數(shù)據(jù)上不同方法的表現(xiàn)。實驗運(yùn)行的硬件環(huán)境CPU為Intel Xeon E5-1650 v4， GPU為NVIDIA TITAN Xp，實驗運(yùn)行的軟件環(huán)境為64位的Ubuntu 16.4 LTS并采用TensorFlow 1.4進(jìn)行實驗。實驗采用準(zhǔn)確率作為評價指標(biāo)，即：

3.1 2D點云識別

對于2D點云識別，本文采用了典型的手寫數(shù)字?jǐn)?shù)據(jù)集MNIST[22]。該數(shù)據(jù)集包含60000個手寫數(shù)字圖像樣本作為訓(xùn)練集和10000個手寫數(shù)字圖像樣本作為測試集。在預(yù)處理階段，以128作為閾值，將手寫數(shù)字圖像中灰度值大于該閾值的像素點轉(zhuǎn)換為二維點云，點云中的點以二維坐標(biāo)(x,y)的形式組成。實驗設(shè)置了點云集合的大小為256，對于點云數(shù)量大于256的樣本，采用隨機(jī)采樣的方式，對于點云數(shù)量小于256的樣本，則使用其全部的點，并從該樣本中隨機(jī)采樣點補(bǔ)足到256個。

本文將實驗的batch大小設(shè)置為128，將dropout層的神經(jīng)元失活概率設(shè)置為0.3，將學(xué)習(xí)率初始化為0.05并以每30個epoch乘以0.7的速率遞減。實驗結(jié)果如表1所示，本文方法在2D點云識別上展現(xiàn)了優(yōu)于其他方法的準(zhǔn)確率。

表1 各方法在MNIST上進(jìn)行2D點云識別的準(zhǔn)確率比較

3.2 3D點云識別

針對3D點云識別，本文采用了典型的3D數(shù)據(jù)集ModelNet40[13]。該數(shù)據(jù)集包含了40類物體，一共12311個三維網(wǎng)格化的3D模型。其中，訓(xùn)練集包含9843個樣本，測試集包含2468個樣本。本文采用PointNet方法處理數(shù)據(jù)，通過對于每一個3D模型進(jìn)行均勻隨機(jī)采樣1024個點，將網(wǎng)格化的3D模型轉(zhuǎn)換成三維點云的形式，即模型的三維點云以(x,y,z)三維坐標(biāo)存在，并將整個模型的三維點云歸一化到單位空間。

本文實驗采用了Adam優(yōu)化方法，將學(xué)習(xí)率設(shè)置為0.001，將動量(momentum)設(shè)置為0.9，將batch大小設(shè)置為32。為了提高對數(shù)據(jù)的利用，使網(wǎng)絡(luò)學(xué)習(xí)到本質(zhì)的特征，本文在訓(xùn)練過程同時采用了2種數(shù)據(jù)增強(qiáng)操作。一種是隨機(jī)讓3D模型選擇繞x軸、y軸或z軸旋轉(zhuǎn)一定角度，即點云數(shù)據(jù)乘以一個0～2π之間隨機(jī)角度的旋轉(zhuǎn)矩陣。另一種數(shù)據(jù)增強(qiáng)操作是對點云數(shù)據(jù)中的點進(jìn)行隨機(jī)抖動，實驗將抖動范圍設(shè)置在[-0.05, 0.05]區(qū)間。圖3(a)為實驗過程中損失函數(shù)收斂曲線，圖3(b)為隨著訓(xùn)練epoch增加的測試準(zhǔn)確率曲線，可見該網(wǎng)絡(luò)模型具有快速、良好的收斂性能。

(b) 測試準(zhǔn)確率曲線

實驗結(jié)果如表2所示，本文方法在3D點云識別上達(dá)到了與前沿算法近似甚至超過的準(zhǔn)確率。

表2 各方法在ModelNet40上進(jìn)行3D點云識別的準(zhǔn)確率比較

3.3 算法對比分析

在2D點云識別和3D點云識別實驗中，本文方法表現(xiàn)出了高識別準(zhǔn)確率。為了更全面地分析本文方法的特點，驗證該網(wǎng)絡(luò)算法的優(yōu)勢和實際可應(yīng)用性，選擇了同樣直接處理點云數(shù)據(jù)且具有良好識別率的算法來比較其模型大小與運(yùn)行效率。

表3 各方法在3D點云識別實驗中的網(wǎng)絡(luò)參數(shù)量及運(yùn)行速度比較

以3D點云識別為例，各方法網(wǎng)絡(luò)參數(shù)量和運(yùn)行速度對比如表3所示。從網(wǎng)絡(luò)大小而言，本文方法對比PointNet模型減少了50%以上的參數(shù)量，對比PointNet++減少了17%以上的參數(shù)量，這是由于本文方法采用注意力機(jī)制的方式直接獲取點云特征，避免了采用子網(wǎng)絡(luò)學(xué)習(xí)變換矩陣的方式，從而使模型更加簡單，更有利于實際應(yīng)用。從網(wǎng)絡(luò)運(yùn)行速度而言，本文方法略快于PointNet，對比PointNet++運(yùn)行時間減少60%以上，這是由于通過注意力機(jī)制與殘差學(xué)習(xí)的結(jié)合方式可以獲取點云之間關(guān)系，減少了顯式查找點云局部關(guān)系，使得網(wǎng)絡(luò)模型更為快速和高效。通過對比分析可知，本文方法具有更加簡單、更加高效的特點，也使得其在實際應(yīng)用中更有優(yōu)勢。

4 結(jié)束語

針對當(dāng)前深度學(xué)習(xí)方法在點云識別上的運(yùn)用具有效率低、計算量大、場景通用性差等諸多缺點，本文提出了一種高效的點云識別方法。通過結(jié)合注意力機(jī)制與殘差學(xué)習(xí)，該方法直接處理點云數(shù)據(jù)，并獲取其重要特征，從而達(dá)到對點云數(shù)據(jù)的高效識別。實驗結(jié)果表明，該方法在2D與3D點云數(shù)據(jù)中都具有良好的識別準(zhǔn)確率，并且具有模型簡單、參數(shù)量小、計算量小、更高效等諸多優(yōu)點。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡