夏祥騰,王大方,曹 江,趙 剛,張京明
(哈爾濱工業(yè)大學(xué)(威海)汽車工程學(xué)院,威海 264200)
語義分割是無人駕駛汽車中的關(guān)鍵算法之一,對車載激光雷達(dá)掃描獲取的3D 點(diǎn)云數(shù)據(jù)進(jìn)行語義分割,不僅可以保證行車安全,還可以使無人駕駛汽車對周圍環(huán)境進(jìn)行進(jìn)一步的理解,使其更加智能。
由于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的應(yīng)用,對于2D 圖像中的許多問題有了突破性的進(jìn)展,例如圖片分類、圖片語義分割和目標(biāo)檢測等問題。這些突破性的進(jìn)展使得計算機(jī)對2D世界的理解有了質(zhì)的飛躍。但是,對于3D點(diǎn)云數(shù)據(jù)的處理不能簡單地將運(yùn)用在2D 圖像中的算法遷移過來,這不僅僅因?yàn)榫S度的提升帶來了更巨大的計算量和內(nèi)存消耗,還帶來了點(diǎn)云數(shù)據(jù)的無序性、密度不一致性、非結(jié)構(gòu)性和信息不完整性等問題。針對這些問題,3D 點(diǎn)云語義分割算法主要可以分為4 類:基于投影的算法、基于體素化的算法、基于點(diǎn)的算法和結(jié)合多種方法的算法。
早期學(xué)者們借鑒2D 圖像處理的方法,想辦法把3D 點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為2D 數(shù)據(jù),進(jìn)而使用2D 圖像處理中較為成熟的CNN、全連接神經(jīng)網(wǎng)絡(luò)(FCN)算法,于是,基于投影方法應(yīng)運(yùn)而生。MVCNN獲取三維點(diǎn)云形狀在不同視角下的二維圖像,對每個視圖進(jìn)行卷積處理再通過池化層和全連接層將每個視角得到的特征進(jìn)行聚合得到最終的語義分割結(jié)果。SqueezeSeg結(jié)合激光雷達(dá)掃描特點(diǎn),利用球面投影將3D 點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為2D 數(shù)據(jù),結(jié)合CNN 中的輕量化模型SqueezeNet模型進(jìn)行語義分割。SqueezeSegV2在SqueezeSeg 的基礎(chǔ)上,利用上下文聚合模塊增強(qiáng)了該模型的魯棒性,提高了語義分割的準(zhǔn)確率。SqueezeSegV3提出了空間自適應(yīng)卷積模塊根據(jù)輸入投影圖像位置不同使用大小不同的卷積核。SalsaNext提出了像素混合層(pixel-shuffle layer)用來上采樣,并使用了更適合語義分割的Lovasz-Softmax 損失函數(shù),得到了目前基于投影方法的最好分割效果。無論采用哪種投影方法,投影過程中都會產(chǎn)生信息損失,但因?yàn)?D 語義分割技術(shù)較為成熟,這類方法也取得了不錯的效果。
為了將無序點(diǎn)云轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),學(xué)者們將原始點(diǎn)云數(shù)據(jù)進(jìn)行體素化,即將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為立體結(jié)構(gòu),然后使用3D 卷積進(jìn)行處理。3D U-Net首次利用3D 卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造了運(yùn)用于點(diǎn)云語義分割的編碼器結(jié)構(gòu)。使用“1”代表非空的體素網(wǎng)格,“0”代表空白的體素網(wǎng)格。VVNet使用徑向基函數(shù)(radial basis functions,RBF)代替這種布爾表示以獲得連續(xù)的表示,使用基于內(nèi)核的內(nèi)插變分自編碼器(kernel-based interpolated variational autoencoder,VAE)來編碼每個體素內(nèi)的局部幾何信息,將它們映射到一個隱空間中?;隗w素化的方法可以有效結(jié)合領(lǐng)域信息,但三維點(diǎn)云相比圖像多出一維,會造成過多的內(nèi)存消耗和計算開銷。為解決這一問題,子流形稀疏網(wǎng)絡(luò)提出了稀疏卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)保存形式和具體運(yùn)算形式。MinkowskiNet利用稀疏卷積神經(jīng)網(wǎng)絡(luò),構(gòu)造了加上時空維度的4D 卷積。Cylinder3D根據(jù)激光雷達(dá)掃描特性,利用柱坐標(biāo)進(jìn)行體素化,并使用不對稱的卷積核,有效地解決了點(diǎn)云數(shù)據(jù)密度不一致的問題。
為了降低體素化或投影過程中的計算復(fù)雜度,有些研究者開始從三維數(shù)據(jù)著手,直接設(shè)計網(wǎng)絡(luò)提取原始點(diǎn)云數(shù)據(jù)中的特征信息。PointNet使用多層感知機(jī)(multilayer perceptron,MLP)對每個點(diǎn)進(jìn)行特征提取,并利用最大池化函數(shù)直接提取出全局信息,解決了點(diǎn)云的輸入無序性問題。PointNet++對輸入點(diǎn)進(jìn)行最遠(yuǎn)點(diǎn)采樣,再使用KNN 算法尋找周圍點(diǎn)信息,對每個中心點(diǎn)和其鄰近點(diǎn)進(jìn)行PointNet 操作。KPConv通過尋找點(diǎn)核構(gòu)造類似于卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)核卷積Kernel Point Convolution,并且構(gòu)造了剛性和可變兩種核。RandLA-Net針對在大規(guī)模點(diǎn)云中使用基于點(diǎn)的算法在采樣時過于消耗時間這一問題,使用隨機(jī)采樣代替廣泛運(yùn)用的最遠(yuǎn)點(diǎn)采樣,并構(gòu)造LocSE 模塊解決隨機(jī)采樣中信息隨機(jī)丟失的問題,使點(diǎn)云語義分割時間大大減少。
上述3 種算法各有利弊,因此有學(xué)者結(jié)合幾種算法對點(diǎn)云進(jìn)行語義分割。PVCNN結(jié)合基于體素化和基于點(diǎn)的算法,使用基于點(diǎn)的算法減少體素化時的信息損失,使得可以取較小的體素化分辨率。KPRNet將球面投影進(jìn)行語義分割得到的點(diǎn)再利用KPConv進(jìn)一步分割,得到了比上述兩種算法更好的分割效果。
本文中利用稀疏卷積神經(jīng)網(wǎng)絡(luò),不僅保留了體素化便于結(jié)合領(lǐng)域點(diǎn)特征的優(yōu)點(diǎn),還一定程度上解決了3D卷積神經(jīng)網(wǎng)絡(luò)內(nèi)存時間開銷過大的問題。相對于投影的方法和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的方法,利用稀疏卷積神經(jīng)網(wǎng)絡(luò)更好地保留了點(diǎn)云的空間特征,并且無需復(fù)雜的預(yù)處理流程,提高了分割效果且方便高效。
通過對點(diǎn)云進(jìn)行體素化處理,使無序的點(diǎn)云數(shù)據(jù)有了類似于圖片規(guī)則的結(jié)構(gòu)(圖片的數(shù)據(jù)結(jié)構(gòu)為×矩陣,體素化點(diǎn)云的數(shù)據(jù)結(jié)構(gòu)為××的張量)。因此,可以使用三維卷積神經(jīng)網(wǎng)絡(luò)處理點(diǎn)云數(shù)據(jù),但盡管3D 數(shù)據(jù)只比2D 數(shù)據(jù)多了一維,內(nèi)存的消耗和運(yùn)算速度卻是指數(shù)級增長。因此受到計算機(jī)硬件的限制,將3D 卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在大規(guī)模點(diǎn)云場景中十分困難。針對大規(guī)模點(diǎn)云體素化數(shù)據(jù)的稀疏性,3D 稀疏卷積神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。稀疏卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上還是卷積神經(jīng)網(wǎng)絡(luò),但其對輸入輸出數(shù)據(jù)的保存形式和具體運(yùn)算過程和普通的卷積神經(jīng)網(wǎng)絡(luò)有很大的不同。
普通卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)保存形式為××,為小批量,為特征通道數(shù),對于點(diǎn)云來說,為××。由于稀疏性,這些××所對應(yīng)的特征相當(dāng)大一部分都為空點(diǎn),但依然占用內(nèi)存。在稀疏卷積神經(jīng)網(wǎng)絡(luò)中,點(diǎn)云體素化數(shù)據(jù)由一個矩陣和一個哈希表組成。的大小為×,為點(diǎn)云體素化數(shù)據(jù)中不為空的個數(shù)。哈希表的鍵為點(diǎn)云體素化數(shù)據(jù)中不為空的點(diǎn)的坐標(biāo),值為這個坐標(biāo)對應(yīng)于中的那一行。在大規(guī)模點(diǎn)云體素化數(shù)據(jù)中,?××,因此可以節(jié)省大量內(nèi)存。
在稀疏卷積中,當(dāng)卷積核的中心對應(yīng)的點(diǎn)為非空時,才進(jìn)行卷積運(yùn)算,這樣便保證了進(jìn)行步長為1的稀疏卷積運(yùn)算時不會使非空白點(diǎn)數(shù)增加。2D 稀疏卷積如圖1所示,其具體運(yùn)算過程如下。
圖1 2D稀疏卷積示例
(1)建立輸出哈希表和規(guī)則書,規(guī)則書為輸出點(diǎn)和輸入點(diǎn)的對應(yīng)關(guān)系。對每個輸出點(diǎn),檢測其是否為非空點(diǎn),若其為非空點(diǎn),在輸出哈希表中建立一個鍵-值對,根據(jù)卷積核大小找出其對應(yīng)的輸入點(diǎn),并在規(guī)則書中寫入對應(yīng)關(guān)系(輸出Hash 表的值,輸入Hash表的值)。若卷積核大小為,則一個輸出點(diǎn)最多對應(yīng)個輸入點(diǎn)。
(2)建立輸出矩陣。找出輸出點(diǎn)在規(guī)則書中的對應(yīng)關(guān)系,根據(jù)對應(yīng)關(guān)系中輸入Hash 表的值,在輸入矩陣找出該輸入點(diǎn)的特征向量,設(shè)某輸出點(diǎn)共對應(yīng)個輸入點(diǎn),輸入特征數(shù)量為,輸出特征數(shù)量為′,則該輸出點(diǎn)的特征向量為
式中:為輸出點(diǎn)特征向量,大小為1×′;X為第個輸入點(diǎn)的特征向量,大小為1×;為卷積核矩陣(并不是卷積核),大小為×′。
本文中首先將原始點(diǎn)云數(shù)據(jù)進(jìn)行體素化,然后利用稀疏卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造了用于車載激光雷達(dá)點(diǎn)云的語義分割模型。針對體素化時多點(diǎn)落入同一網(wǎng)格造成的信息損失問題,結(jié)合了多層感知機(jī)對原始點(diǎn)云直接處理。并利用通道和空間注意力機(jī)制,構(gòu)造了3D-CA 模塊和3D-SA 模塊,提升語義分割效果。
體素化的主要目的是將無序化的點(diǎn)云結(jié)構(gòu)轉(zhuǎn)化為有序的數(shù)據(jù)結(jié)構(gòu),方便利用稀疏卷積神經(jīng)網(wǎng)絡(luò)對其處理。體素化的具體形式是將原始點(diǎn)云數(shù)據(jù){(P,F)}投影到立方網(wǎng)格結(jié)構(gòu){V}中,其中P代表第個點(diǎn)的原始坐標(biāo),P=(x,y,z),F為第個點(diǎn)的特征向量,則有
相對于體素化,還需要解體素化過程。解體素化即為將網(wǎng)格化的(,,,)數(shù)據(jù)轉(zhuǎn)化為原始點(diǎn)云數(shù)據(jù){(P,F)}。解體素化最簡單實(shí)現(xiàn)方式為最近鄰映射,即直接將某網(wǎng)格對應(yīng)的特征分配給所有落在該網(wǎng)格中的點(diǎn)。但這種方法會使落入同一網(wǎng)格中的點(diǎn)的特征相同,為此,本文中使用三線性插值法實(shí)現(xiàn)解體素化。
整體網(wǎng)絡(luò)模型如圖2 所示。圖中藍(lán)色虛線通道為稀疏卷積部分,也是網(wǎng)絡(luò)模型的主干,以編碼器-解碼器結(jié)構(gòu)為框架,-為編碼過程,該網(wǎng)絡(luò)結(jié)構(gòu)通過稀疏卷積提取點(diǎn)云特征,通過步長為2 的卷積層代替池化層進(jìn)行下采樣。-為解碼過程,采用步長為2的反卷積層進(jìn)行上采樣。
圖2 整體網(wǎng)絡(luò)模型
Sparseconv[,]代表3 個網(wǎng)絡(luò)基本層串聯(lián),每個網(wǎng)絡(luò)基本層代表3 層稀疏卷積神經(jīng)網(wǎng)絡(luò),前兩個網(wǎng)絡(luò)基本層中步長全為1,最后一個基本層中最后一層步長為2 進(jìn)行下采樣。SparseDeconv[,]也代表3個網(wǎng)絡(luò)基本層串聯(lián),每個網(wǎng)絡(luò)基本層代表3層稀疏卷積神經(jīng)網(wǎng)絡(luò),前兩個網(wǎng)絡(luò)基本層中步長全為1,不同的是最后一個基本層中最后一層采用步長為2反卷積進(jìn)行下采樣。
網(wǎng)絡(luò)基本層如圖3所示,每個網(wǎng)絡(luò)基本層含有3個卷積層、1 個3D-CA 模塊和1 個3D-SA 模塊。每個卷積層后采用ReLU 函數(shù)進(jìn)行激活,并使用BN 層進(jìn)行批量歸一化。代表第一層輸入特征數(shù)量,代表最后一層輸出特征數(shù)量。網(wǎng)絡(luò)基本層中還使用了MoblieNetV2中提出反轉(zhuǎn)跳連接結(jié)構(gòu),即將輸入與該基本層的輸出相連,可以有效地抑制深度學(xué)習(xí)中梯度消失現(xiàn)象。3D-CA 模塊和3D-SA 模塊將在下文介紹。
圖3 網(wǎng)絡(luò)基本層
黑色虛線通道為逐點(diǎn)對點(diǎn)云處理過程,為網(wǎng)絡(luò)模型的輔助支路,其中Linear[,]為多層感知機(jī),其輸入特征層數(shù)為,輸出特征層數(shù)為,每個Linear[,]中含有3 個全連接層,每個全連接層后使用ReLU 函數(shù)進(jìn)行激活。通過直接對原始點(diǎn)云數(shù)據(jù)直接提取特征,可以彌補(bǔ)因3D稀疏卷積因體素化時網(wǎng)格邊長過大造成的信息損失。這一通路在因計算機(jī)資源有限不得不增加體素化立方網(wǎng)格邊長時可以起到更大的作用。
CBAM使用兩種注意力機(jī)制在2D 計算機(jī)視覺中的圖像分類任務(wù)中取得了不錯的準(zhǔn)確率增益。本文中將這兩種注意力機(jī)制推廣到3D 計算機(jī)視覺中,構(gòu)造了3D-CA(3D-channel attention,三維通道注意力)模塊和3D-SA(3D-spatial attention,三維空間注意力)模塊,可以使網(wǎng)絡(luò)將注意力放在發(fā)揮更大作用的特征通道和空間中,從而提升點(diǎn)云語義分割效果。3D-CA 模塊如圖4所示,其具體做法為:首先將個特征通道的輸入張量逐通道取全局平均,得到大小為1×的向量;然后將這個向量經(jīng)過多層感知機(jī)(MLP)和Softmax 函數(shù)自動提取權(quán)重,得到權(quán)重向量;最后將輸入張量和權(quán)重向量按照廣播機(jī)制逐元素相乘得到輸出。3D-SA 模塊如圖5 所示,其具體做法為:將大小為×的稀疏矩陣通過全局平均池化和最大池化得到兩個大小為× 1的向量,將這兩個向量并聯(lián)得到大小為× 2的矩陣;將這個矩陣分別經(jīng)過MLP和Softmax函數(shù)自動提取權(quán)重,得到權(quán)重向量;最后將輸入張量和權(quán)重向量按照廣播機(jī)制逐元素相乘得到輸出。
圖4 3D-CA模塊
圖5 3D-SA模塊
針對大規(guī)模道路點(diǎn)云場景,選取點(diǎn)云數(shù)據(jù)集SemanticKITTI和SemanticPOSS作為本文的實(shí)驗(yàn)對象。SemanticKITTI 包含了德國卡爾斯魯厄附近的市內(nèi)交通、居民區(qū)、高速公路場景和鄉(xiāng)村道路場景,是現(xiàn)在最大的汽車激光雷達(dá)點(diǎn)云數(shù)據(jù)集。該數(shù)據(jù)集由22 個點(diǎn)云序列組成,其中00-10 序列作為訓(xùn)練集,一共包含23 201 幀3D 點(diǎn)云場景;11-21 序列作為測試集,一共包含20 351幀3D 點(diǎn)云場景。其中訓(xùn)練集中每點(diǎn)都有自己的標(biāo)簽,人為進(jìn)行了語義標(biāo)注。SemanticPOSS 是北京大學(xué)最新發(fā)布的數(shù)據(jù)集,包含了北京大學(xué)的主要道路場景,含有大量移動的學(xué)生和車輛。該數(shù)據(jù)集由6 個點(diǎn)云序列組成,一共包含2 988 幀點(diǎn)云場景,數(shù)據(jù)集中行人、車輛的比重比SemanticKITTI數(shù)據(jù)集高了10倍,更加適合用于無人駕駛技術(shù)的語義分割技術(shù)研究。
實(shí)驗(yàn)采用深度學(xué)習(xí)框架為Pytorch1.7,CUDA 版本為11.1,處理器為AMD Ryzen 9 3950X,顯卡為Nvidia GTX 3090。實(shí)驗(yàn)中使用AdamW優(yōu)化器,AdamW 在Adam 的基礎(chǔ)上帶有權(quán)重衰減而不是L2正則化。
點(diǎn)云語義分割算法需要有一定的衡量標(biāo)準(zhǔn),最簡單的衡量標(biāo)準(zhǔn)便是分割的逐點(diǎn)平均準(zhǔn)確率,但該標(biāo)準(zhǔn)在全部語義標(biāo)注類別中不同的類別點(diǎn)數(shù)差距很大,不能夠合理地評價兩種算法的優(yōu)劣。而在大規(guī)模點(diǎn)云場景中,各語義標(biāo)注類別點(diǎn)數(shù)差距很大。本文中使用MIOU(mean intersection over union)來評價分割精度:
式中P代表屬于類但被預(yù)測為類的像素數(shù)量。由式(4)可以看出,MIOU 可以通俗地理解為一個點(diǎn)云場景中對類物種分割正確的平均準(zhǔn)確率而不是逐像素的平均準(zhǔn)確率。因?yàn)镸IOU 容易理解且具有準(zhǔn)確的表示形式是現(xiàn)在最常用的度量標(biāo)準(zhǔn)之一。
為驗(yàn)證稀疏卷積的優(yōu)勢,對SemanticKITTI 中大小為100 m×100 m×10 m 的點(diǎn)云場景,體素化時使用不同大小的立方網(wǎng)格邊長,記錄體素化后點(diǎn)云場景中的非空點(diǎn)數(shù)。數(shù)據(jù)如表1所示。
表1 不同網(wǎng)格邊長時的參數(shù)對比
從表1 可以看出,對大規(guī)模點(diǎn)云進(jìn)行體素化,非空白點(diǎn)數(shù)遠(yuǎn)小于網(wǎng)格數(shù),當(dāng)網(wǎng)格邊長為0.05 m 時,網(wǎng)格數(shù)是非空點(diǎn)數(shù)的8 922倍,驗(yàn)證了稀疏卷積節(jié)省內(nèi)存的優(yōu)勢。但隨著網(wǎng)格邊長的減少,MIOU先增加再減少。分析可知,網(wǎng)格邊長越大,體素化后得到的體素化點(diǎn)云越“模糊”,點(diǎn)云場景中物體的特征越不明顯,并且會導(dǎo)致代表不同種物體的點(diǎn)落入一個網(wǎng)格中,造成信息損失,影響分割結(jié)果。因此在一定范圍內(nèi),MIOU 隨著網(wǎng)格的邊長減小而增加。但是,當(dāng)網(wǎng)格邊長繼續(xù)減小時,盡管非空點(diǎn)數(shù)增加,但其所占總網(wǎng)格比例大幅度減少,MIOU便隨之減少。
文中算法網(wǎng)絡(luò)模型主干是由稀疏卷積構(gòu)造的自編碼器。但是由表1可以看出,選取網(wǎng)格邊長為0.05 m,繼續(xù)減小網(wǎng)格邊長,非空點(diǎn)數(shù)也會繼續(xù)增加。說明網(wǎng)格邊長為0.05 m時,依然有大量的點(diǎn)落在了同一個網(wǎng)格中。這必然會導(dǎo)致一部分信息損失,因此通過添加逐點(diǎn)處理分支來彌補(bǔ)這部分的信息損失。為了驗(yàn)證這一分支的具體效果,在SemanticKITTI數(shù)據(jù)集上取立方網(wǎng)格邊長為0.05和0.08 m時,分別去除這一分支和僅利用這一分支進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)如表2所示。
表2 逐點(diǎn)處理分支效果驗(yàn)證
由表2 可以看出,如果僅使用逐點(diǎn)處理分支,得到的分割效果非常不理想,但在PointNet中僅使用這種方法在小規(guī)模的點(diǎn)云數(shù)據(jù)集上進(jìn)行分類任務(wù)可以達(dá)到不錯的精度,這也說明車載激光雷達(dá)點(diǎn)云處理任務(wù)中需要充分考慮周圍點(diǎn)的信息。通過表2 還可以看出,加入逐點(diǎn)處理分支可以明顯提高分割效果,說明了其可以稍微彌補(bǔ)因體素化而造成的信息損失。
在圖2 的整體網(wǎng)絡(luò)構(gòu)架中使用圖3 的網(wǎng)絡(luò)基本層僅去掉3D-CA 模塊、僅去掉3D-SA 模塊和同時去掉兩模塊進(jìn)行實(shí)驗(yàn),得到的結(jié)果如表3所示。從表3中可以看出,相對于網(wǎng)絡(luò)基本層,3D-CA 模塊能夠?qū)IOU 提升0.4%,3D-SA 模塊能夠?qū)IOU 提升0.7%,同時使用3D-CA 模塊和3D-SA 模塊能夠?qū)IOU提升1.2%。
表3 3D-CA、3D-SA模塊效果驗(yàn)證
3.5.1 SemanticPOSS數(shù)據(jù)集
目前在SemanticPOSS數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的算法較少,文中在總12 類語義標(biāo)注物體中選取公路上最常見的行人、汽車和騎手3 類,將這3 類的IOU 和MIOU與其他算法對比,得到的結(jié)果如表4所示。
表4 不同算法在SemanticPOSS上的分割結(jié)果
通過表4 可以看出,文中算法對于行人和汽車都有不錯的分割精度,但對于騎手這一類別,分割效果較差。為了進(jìn)一步分析,將分割后的結(jié)果進(jìn)行可視化,得到的結(jié)果如圖6 和圖7 所示。對比圖6 中第3幀和第4幀結(jié)果,同一個體在不同時間序列上會被預(yù)測成不同的語義類別,在騎手與行人這種難以分辨的語義類別中更為明顯。而在第4 幀中,文中方法預(yù)測結(jié)果不僅相當(dāng)準(zhǔn)確,還預(yù)測出了數(shù)據(jù)集作者并未標(biāo)注的行人,這也表明了算法的相對準(zhǔn)確性。由圖7 可以看出,在路口處的復(fù)雜路況下文中算法可以很好地分割行人、車輛、騎手和停靠在路邊的自行車。但對距離較遠(yuǎn)處較小的行人容易識別錯誤,以及遠(yuǎn)處的騎手易和行人造成混淆。圖6 和圖7 表明了文中算法的可靠性,但也顯現(xiàn)出了該算法不能利用前后的時間序列進(jìn)行分割,以及對遠(yuǎn)處個體預(yù)測準(zhǔn)確性較差的問題。
圖6 SemanticPOSS數(shù)據(jù)集00序列第3幀和第4幀
圖7 SemanticPOSS數(shù)據(jù)集02序列第1幀
3.5.2 SemanticKITTI數(shù)據(jù)集
通過文中的方法,在SemanticKITTI 數(shù)據(jù)集上將其中19 類語義標(biāo)注物體的平均交并比達(dá)到62.7%,超過了目前最好的基于點(diǎn)的方法(KPConv,58.8%)和基于投影的方法(SalsaNext,59.5%),文中算法和其他算法MIOU 以及各語義標(biāo)注物體IOU 對比結(jié)果如表5所示。通過表5可以看出,算法對于駕駛過程中最常見的汽車、建筑分割精準(zhǔn),但對于相似的摩托車與自行車和摩托車騎手與自行車騎手很難分辨。
表5 不同算法在SemanticKITTI數(shù)據(jù)集上的語義分割結(jié)果
本文中使用稀疏卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造自編碼器對車載激光雷達(dá)掃描得到的點(diǎn)云進(jìn)行語義分割,在自編碼器的網(wǎng)絡(luò)基本層中設(shè)計3D-CA 模塊和3D-SA模塊提高語義分割效果;并結(jié)合逐點(diǎn)處理分支彌補(bǔ)因體素化時多點(diǎn)落入同一網(wǎng)格造成的信息損失。本文算法在兩個大型點(diǎn)云數(shù)據(jù)集SemanticKITTI 和SemanticPOSS 上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,在SemanticPOSS 上得到的分割效果超過了其他幾種目前最優(yōu)的針對點(diǎn)云的語義分割技術(shù),證明了稀疏卷積在點(diǎn)云處理中的高效性。
稀疏卷積神經(jīng)網(wǎng)絡(luò)可以充分利用空間信息,在特定的時刻可以得到準(zhǔn)確的分割效果。但其無法利用時間序列進(jìn)行分割,即無法結(jié)合前后兩幀的信息,即在汽車行駛過程中很難利用先驗(yàn)的已知信息對周圍環(huán)境進(jìn)行感知。如何利用歷史掃描信息提高語義分割效果是未來的研究方向之一。在大規(guī)模現(xiàn)實(shí)場景中,將靜止的交通工具和移動的交通工具進(jìn)行區(qū)分可以進(jìn)一步保證行駛安全,而目前的算法對靜止和移動的語義類別很難識別,這也是未來點(diǎn)云處理中的研究熱點(diǎn)之一。