黃潤輝,胡立坤,蘇鳴方,徐大也,陳奧然
(1. 廣西大學(xué)電氣工程學(xué)院,南寧 530004;2. 廣西大學(xué)先進(jìn)測控與智能電力研究中心,南寧 530004)
激光雷達(dá)作為自動(dòng)駕駛汽車或自主移動(dòng)機(jī)器人不可或缺的視覺傳感器,它相比傳統(tǒng)相機(jī)能準(zhǔn)確地測量大范圍環(huán)境的表面三維坐標(biāo)信息及其對應(yīng)屬性信息(如反射強(qiáng)度等),具有全天候運(yùn)行、光照變化不敏感、高分辨率等優(yōu)勢,廣泛應(yīng)用于自動(dòng)駕駛系統(tǒng)的環(huán)境感知、定位和路徑規(guī)劃等任務(wù)。其中,激光點(diǎn)云語義分割是道路環(huán)境感知與理解的重要組成部分之一。
隨著激光傳感器成本不斷降低,點(diǎn)云數(shù)據(jù)的獲得變得更加容易,相繼涌出一些公開大規(guī)模激光點(diǎn)云數(shù)據(jù)集,推動(dòng)了激光點(diǎn)云的語義分割方法研究。由于室外場景下的激光點(diǎn)云具有數(shù)據(jù)點(diǎn)多且無序、密度不均勻、場景范圍大且復(fù)雜多變等特點(diǎn),傳統(tǒng)手工啟發(fā)式特征提取方法已無法準(zhǔn)確與高效地識別,因而需要以數(shù)據(jù)驅(qū)動(dòng)方式自主學(xué)習(xí)激光點(diǎn)云特征的提取與識別。隨著深度學(xué)習(xí)在圖像的目標(biāo)檢測、分割等感知任務(wù)上逐步成熟,研究者們將目光轉(zhuǎn)向3D點(diǎn)云感知任務(wù)上,相繼提出一系列激光點(diǎn)云的語義分割方法。
早期,鑒于深度學(xué)習(xí)方法在二維圖像語義分割的有效性,學(xué)者們將三維激光點(diǎn)云投影成鳥瞰圖或前視圖等二維圖像,并利用成熟的圖像分割方法進(jìn)行處理,再利用重投影方式獲得點(diǎn)云的預(yù)測標(biāo)簽。Wu等從激光雷達(dá)的成像原理出發(fā),采用球面投影方式將三維激光點(diǎn)云轉(zhuǎn)化成二維圖像表示,并利用輕量級網(wǎng)絡(luò)SqueezeNet 進(jìn)行分割處理。Wu 等在SqueezeSeg基礎(chǔ)上提出上下文聚合模塊解決前視圖存在缺失點(diǎn)的問題。Xu 等進(jìn)一步提出空間自適應(yīng)卷積模塊對輸入不同位置的投影圖自適應(yīng)選擇不同卷積核,從而解決激光點(diǎn)云的特征投影到圖像位置對分割結(jié)果的干擾。Milioto 等借鑒Redmon等的DarkNet主干網(wǎng)絡(luò)處理前視圖,并提出了一種高效KNN 聚類的后處理方式優(yōu)化標(biāo)簽。Zhang 等將點(diǎn)云投影到極坐標(biāo)下的鳥瞰圖,平衡了點(diǎn)云在柵格內(nèi)分布。然而,將三維點(diǎn)云投影到圖像的方法不可避免地造成某一維度的信息丟失和三維拓?fù)浣Y(jié)構(gòu)改變,無法充分學(xué)習(xí)相鄰點(diǎn)之間上下文信息。
為了使點(diǎn)云規(guī)則化表述同時(shí)保留三維拓?fù)浣Y(jié)構(gòu),學(xué)者們將激光點(diǎn)云體素化為笛卡爾柵格,并采用三維卷積處理。Maturana等作為該類方法的開山之作,證明了3D卷積模型在體素分支的有效性。由于點(diǎn)云的稀疏性造成卷積過程中存在大量無效計(jì)算,三維稀疏卷積Spconv3D(3D Sparseconv)的提出有效地解決此問題,它只計(jì)算含數(shù)據(jù)點(diǎn)的柵格單元,使得網(wǎng)絡(luò)模型輸入三維柵格可選擇更高分辨率。Choy 等提出了基于時(shí)空三維點(diǎn)云的四維稀疏卷積網(wǎng)絡(luò),并介紹基于稀疏張量的自動(dòng)微分開源庫。Zhu 等利用柱面坐標(biāo)表示原始點(diǎn)云的三維柵格空間,并采用非對稱殘差模塊,緩解了激光點(diǎn)云在水平方向上密度不一致的問題。Cheng 等提出了不同感受野分支的注意力特征融合和自適應(yīng)特征選擇模塊學(xué)習(xí)局部和全局的上下文信息。盡管上述方法在點(diǎn)云分割上取得不錯(cuò)的成績,但面向室外場景下激光點(diǎn)云分割能力仍然有限,其主要問題在于主流的笛卡爾柵格方法忽略了室外激光點(diǎn)云密度不均勻的特點(diǎn),即激光雷達(dá)近距離的點(diǎn)云相對密集,而遠(yuǎn)距離十分稀疏。
為了保留點(diǎn)云的原始信息,Qi 等首次提出基于原始點(diǎn)云的深度學(xué)習(xí)網(wǎng)絡(luò)采用多層感知機(jī)(MLP)學(xué)習(xí)每個(gè)數(shù)據(jù)點(diǎn)的內(nèi)在關(guān)系和最大池化聚合點(diǎn)云全局特征信息,解決點(diǎn)云的無序性。Qi 等采用最遠(yuǎn)點(diǎn)采樣方法對輸入點(diǎn)云進(jìn)行降采樣處理,再利用KNN 尋找鄰近點(diǎn),最后利用文獻(xiàn)[15]中的方法對每個(gè)局部區(qū)域提取特征信息。Thomas 等根據(jù)歐幾里德距離確定鄰近點(diǎn)的空間權(quán)重,提出了一種可變形卷積算子的核點(diǎn)卷積。為了解決大規(guī)模點(diǎn)云采樣的問題,Hu等采用隨機(jī)點(diǎn)采樣方法代替了最遠(yuǎn)點(diǎn)采樣,在內(nèi)存和計(jì)算量上得到了顯著下降,并通過局部特征聚合模塊來彌補(bǔ)隨機(jī)點(diǎn)采樣造成的信息丟失。雖然這些方法在點(diǎn)云分割上取得一定成績,但通常適用于密度均勻、數(shù)據(jù)點(diǎn)少、場景范圍小的室內(nèi)場景點(diǎn)云,難以直接拓展到室外場景點(diǎn)云,主要局限在于點(diǎn)云的采樣、鄰域搜索、模型感受野等問題。
綜上所述,采用何種點(diǎn)云表述方式直接影響后續(xù)點(diǎn)云分割的準(zhǔn)確率和計(jì)算效率。因此,本文中提出一種基于三維錐形柵格的激光點(diǎn)云語義分割方法。結(jié)合激光雷達(dá)成像特點(diǎn),采用稀疏錐形柵格劃分方法解決室外激光點(diǎn)云稀疏性和密度不一致性;并利用重參數(shù)化的三維稀疏卷積網(wǎng)絡(luò)RepSpconv3D(re-parameterizes Spconv3D),在模型推理階段減少模型參數(shù)和推理時(shí)間。
作為主動(dòng)式傳感器,激光雷達(dá)由發(fā)射器快速旋轉(zhuǎn)同時(shí)發(fā)射多股不同入射角度激光光束,并利用接收器接收反射光束,從而得到360°環(huán)視物體的位置和反射強(qiáng)度等表面信息,如圖1 所示。可以看出,盡管激光點(diǎn)云是由三維場景中分散點(diǎn)組成,但激光點(diǎn)云在本質(zhì)上由自上而下多條掃描光束組成,形成的點(diǎn)云在每條掃描光束形成圓錐面內(nèi)。當(dāng)激光雷達(dá)掃描平面道路時(shí),點(diǎn)云呈現(xiàn)類似圓環(huán);當(dāng)激光雷達(dá)掃描平面墻體時(shí),點(diǎn)云呈現(xiàn)多條類似雙曲線輪廓圖。
圖1 激光雷達(dá)生成的點(diǎn)云
基于笛卡爾柵格的點(diǎn)云表述方法是對點(diǎn)云的坐標(biāo)進(jìn)行空間劃分,使點(diǎn)云結(jié)構(gòu)化表述的同時(shí)保留了三維拓?fù)浣Y(jié)構(gòu),折衷了點(diǎn)云處理的計(jì)算性能與精度。然而,由圖1 采集激光點(diǎn)云可知,數(shù)據(jù)點(diǎn)集中靠近于激光雷達(dá)傳感器,而遠(yuǎn)離的點(diǎn)云相對稀疏,這使得數(shù)據(jù)點(diǎn)集中在坐標(biāo)系原點(diǎn)附近柵格,而遠(yuǎn)離原點(diǎn)的柵格幾乎沒有數(shù)據(jù)點(diǎn)。這不僅造成了計(jì)算能力的浪費(fèi),而且無法充分學(xué)習(xí)原點(diǎn)附近柵格單元內(nèi)的特征。此外,柵格單元內(nèi)可能含有不同類別標(biāo)簽的數(shù)據(jù)點(diǎn),這使得柵格內(nèi)的預(yù)測結(jié)果忽略了少類別的點(diǎn)云結(jié)果而偏向相同類別最多,抑制了對少類別物體的識別能力。
文獻(xiàn)[13]中采用柱形柵格劃分的方法處理激光點(diǎn)云,有效地平衡了水平方向上激光點(diǎn)云在柵格內(nèi)分布,緩解了激光點(diǎn)云密度不一致的問題。然而,采用柱形柵格劃分方法只解決激光點(diǎn)云水平方向的密度問題,對其垂直方向密度問題仍然存在。本文的錐形柵格劃分方法是結(jié)合激光雷達(dá)掃描原理進(jìn)行點(diǎn)云處理,從而彌補(bǔ)上述的缺陷。
激光雷達(dá)通常采用前視圖作為輸入點(diǎn)云的原始數(shù)據(jù)。所提的錐形柵格劃分方法是在前視圖的基礎(chǔ)上增加一個(gè)相對傳感器的水平距離維度,從而保留三維柵格表述的幾何結(jié)構(gòu)。具體地說,給定一幀激光點(diǎn)云中數(shù)據(jù)點(diǎn)的笛卡爾坐標(biāo)(),則數(shù)據(jù)點(diǎn)轉(zhuǎn)換為錐形柵格單元坐標(biāo)可表示為
式中:表示相對坐標(biāo)系原點(diǎn)的水平距離;和分別表示激光雷達(dá)的方位角和傾斜角;~、~ 和~ 表示錐形柵格單元的坐標(biāo)位置;?、?和?表示錐形柵格的各維度設(shè)定步長;■■· 為向下取整函數(shù)。
圖2 激光點(diǎn)云水平距離范圍內(nèi)非空柵格的占比
為使網(wǎng)絡(luò)模型充分學(xué)習(xí)點(diǎn)云的三維幾何信息,同時(shí)處理室外激光點(diǎn)云的固有特性(即稀疏性和密度不一致),本文中提出了基于三維表述方式和三維稀疏卷積網(wǎng)絡(luò)的室外激光點(diǎn)云分割方法,整體網(wǎng)絡(luò)模型如圖3 所示。利用稀疏錐形柵格對激光點(diǎn)云進(jìn)行劃分,使生成的柵格內(nèi)點(diǎn)云分布更加均勻,從而解決點(diǎn)云稀疏性和密度不一致性;再采用重參數(shù)化的三維稀疏卷積網(wǎng)絡(luò)充分學(xué)習(xí)點(diǎn)云幾何特性,同時(shí)在模型推理階段提升內(nèi)存使用率和計(jì)算效率。
圖3 整體網(wǎng)絡(luò)模型
具體地說,整體網(wǎng)絡(luò)模型由錐形柵格分區(qū)和重參數(shù)化的三維稀疏卷積網(wǎng)絡(luò)(RepSpconv3D)這兩大主要部分組成。首先,對激光點(diǎn)云進(jìn)行錐形柵格分區(qū),通過密集連接感知機(jī)(MLP)學(xué)習(xí)逐點(diǎn)特征,并利用最大池化聚集柵格單元內(nèi)逐點(diǎn)特征,從而獲得稀疏錐形柵格的特征。然后,以編碼-解碼的網(wǎng)絡(luò)結(jié)構(gòu)作為語義分割的骨干框架,通過RepSpconv3D 模塊提取局部柵格內(nèi)的特征,通過步長為2 的卷積層進(jìn)行下采樣,進(jìn)一步通過步長為2 的反卷積層進(jìn)行上采樣。其中,每個(gè)網(wǎng)絡(luò)基本層由3 個(gè)RepSpconv3D模塊組成。最后,根據(jù)點(diǎn)與柵格之間索引關(guān)系,將錐形柵格的預(yù)測結(jié)果重映射到原始點(diǎn)云,獲得最終的激光點(diǎn)云語義分割結(jié)果。
圖4 錐形柵格分區(qū)網(wǎng)絡(luò)
(1)建立點(diǎn)云與稀疏錐形柵格之間的聯(lián)系。根據(jù)式(1)~式(3),對數(shù)據(jù)點(diǎn)的笛卡爾坐標(biāo)P轉(zhuǎn)換為錐形柵格單元的位置坐標(biāo)C∈{C|k=1},再利用哈希函數(shù)計(jì)算每個(gè)柵格單元對應(yīng)的哈希值:
式中:(·)表示哈希函數(shù);H表示第個(gè)錐形柵格單元對應(yīng)的位置哈希值,從而構(gòu)建數(shù)據(jù)點(diǎn)到錐形柵格單元的哈希映射關(guān)系,同時(shí)可實(shí)現(xiàn)高效的鍵值對搜索。
(2)建立逐點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)。為了解決數(shù)據(jù)點(diǎn)在柵格單元內(nèi)相對空間位置不一致,將數(shù)據(jù)點(diǎn)及所在柵格單元中心的笛卡爾坐標(biāo)、錐形柵格坐標(biāo)、兩者間的歐氏距離與點(diǎn)對應(yīng)激光雷達(dá)的反射強(qiáng)度融合在一起;通過多層密集連接式MLP 獲得逐點(diǎn)的最終幾何特征,使得逐點(diǎn)特征與所在柵格單元中心具有一定的關(guān)聯(lián)性。逐點(diǎn)的幾何特征可表示為
· 表示歐式距離;⊕表示特征拼接操作;(·)為密集連接式MLP 函數(shù),每個(gè)MLP 模塊內(nèi)均含有批歸一化BN(batch normalization)和Relu 激活函數(shù)分別進(jìn)行數(shù)據(jù)歸一化和激活。
(3)建立稀疏錐形柵格池化網(wǎng)絡(luò)。為了解決不同錐形柵格單元內(nèi)數(shù)據(jù)點(diǎn)的數(shù)量不一致性問題,根據(jù)錐形柵格的位置哈希值,利用最大池化將錐形柵格單元內(nèi)的逐點(diǎn)特征進(jìn)行聚合,從而得到稀疏錐形柵格特征,可表示為
式中max(·,·)表示錐形柵格單元內(nèi)數(shù)據(jù)點(diǎn)每個(gè)特征通道的最大值函數(shù)。
為了防止模型梯度消失和爆炸問題,通常采用多分支殘差結(jié)構(gòu)和BN層加以解決,但這使得模型的計(jì)算量和內(nèi)存消耗大大增加。最近,Ding等在2D圖像任務(wù)中采用多分支殘差結(jié)構(gòu)方式訓(xùn)練模型,而在模型推理階段利用結(jié)構(gòu)重參數(shù)化將多分支網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)化為單分支,類似VGG 網(wǎng)絡(luò)結(jié)構(gòu),保持模型預(yù)測精度不變同時(shí)提高其推理效率。受其啟發(fā),將基于二維密集卷積的結(jié)構(gòu)重參數(shù)化方法拓展到三維稀疏卷積處理3D 點(diǎn)云感知任務(wù),進(jìn)一步提高其計(jì)算效率。本文的RepSpconv3D 模塊在模型訓(xùn)練時(shí)由3×3×3稀疏卷積、1×1×1稀疏卷積和Identity層3分支組成,且每一分支都使用BN 層,類似于ResNet 的殘差結(jié)構(gòu)。在模型推理階段,利用重參數(shù)化技術(shù)將多分支網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)化為單分支3×3×3稀疏卷積。結(jié)構(gòu)重參數(shù)化在本質(zhì)上是一種數(shù)學(xué)等價(jià)變換,從而減少模型的計(jì)算參數(shù)和推理速度,具體工作流程如圖5 所示。結(jié)構(gòu)重參數(shù)化主體包括稀疏卷積層與BN 層融合(見圖5(a))、多分支稀疏卷積層融合(見圖5(b))兩部分。其中,為了便于網(wǎng)絡(luò)參數(shù)轉(zhuǎn)換過程的表述,采用二維結(jié)構(gòu)表示三維稀疏卷積核參數(shù)。
圖5 RepSpconv3D網(wǎng)絡(luò)的重參數(shù)轉(zhuǎn)化流程
2.3.1 稀疏卷積層與BN層融合
稀疏卷積層與BN層融合是將BN層的計(jì)算參數(shù)直接合并到稀疏卷積層,從而減少計(jì)算量,提高運(yùn)算效率。稀疏卷積計(jì)算本質(zhì)上跟密集卷積一樣,區(qū)別在于其只對于非空白柵格進(jìn)行卷積計(jì)算而對于空白柵格不做任何操作。則稀疏卷積計(jì)算公式可表示為
式中:3(·)表示稀疏卷積的計(jì)算函數(shù);表示稀疏卷積模塊的輸入;和分別表示稀疏卷積核的權(quán)重和偏置。
而BN層計(jì)算公式可表示為
式中:和分別表示尺寸因子和偏置參數(shù);和分別表示樣本的均值和標(biāo)準(zhǔn)差;為固定的極小值(防止除數(shù)為0)。
值得注意的是,在模型訓(xùn)練階段采用稀疏卷積核不帶偏置參數(shù)(即參數(shù)為0)令(3(,,),,,,,),則稀疏卷積層與BN層融合的計(jì)算公式表示為
通過式(9)變換,得
則稀疏卷積層與BN 層融合的計(jì)算公式最終可簡化為
由于在模型推理階段稀疏卷積核與BN 層的參數(shù)均為固定值,則公式與標(biāo)準(zhǔn)稀疏卷積在模型推理階段計(jì)算過程一致,從而省去了BN層的計(jì)算,提高了模型推理速度。
對于投資方向比較多元化的投資者,恐怕都比較擔(dān)心在貿(mào)易沖突持續(xù)升級、貿(mào)易戰(zhàn)威脅下,資產(chǎn)配置的變動(dòng)對于居民正常生活的影響及應(yīng)該如何應(yīng)對資產(chǎn)配置的問題。目前的這種情況,對資本市場來說,更多是影響心理層面、市場情緒與風(fēng)格偏好。投資股市與基金的投資者,要避免一些前期漲幅較大、估值較高、出口結(jié)構(gòu)不太有利的行業(yè)或公司,并且尋找一些內(nèi)需方面、影響程度相對較小的行業(yè),好好把握買入與賣出的機(jī)會(huì)。而黃金作為標(biāo)準(zhǔn)的避險(xiǎn)資產(chǎn),資金量非常大的投資者可以考慮配置一定比例的黃金資產(chǎn)。資金量不多的投資者,購買黃金以及相關(guān)產(chǎn)品的意義不大,可以考慮與貿(mào)易戰(zhàn)相關(guān)性較低的投資,比如說消費(fèi)金融類投資,注意回避農(nóng)業(yè)相關(guān)投資。
2.3.2 多分支稀疏卷積層融合
當(dāng)輸入輸出通道數(shù)相同且各分支稀疏卷積的步長相同時(shí),可通過稀疏卷積層與BN層融合分別得到3×3×3 稀疏卷積、1×1×1 稀疏卷積和Identity 層3 分支。對于1×1×1 稀疏卷積的權(quán)重參數(shù),通過填充0方式將其轉(zhuǎn)為3×3×3 稀疏卷積形式,而Identity 層可以看作為單位矩陣的1×1×1稀疏卷積權(quán)重參數(shù)進(jìn)行處理。根據(jù)卷積核參數(shù)的可加性,通過對轉(zhuǎn)換后各分支3×3×3 稀疏卷積的權(quán)重和偏置參數(shù)相加,最終獲得單分支的標(biāo)準(zhǔn)3×3×3稀疏卷積參數(shù)。
本文的模型損失函數(shù)由位置幾何各向異性(geo-aware anisotrophic)損失函數(shù)、平均Top-K 損失函數(shù)和Lovász 損失函數(shù)3 部分組成。其中,位置幾何各向異性損失函數(shù)能有助于恢復(fù)激光點(diǎn)云場景中物體邊緣與稀疏點(diǎn)的細(xì)節(jié)信息。平均Top-K損失函數(shù)通過選擇性在網(wǎng)絡(luò)優(yōu)化過程中傾向于復(fù)雜樣本,從而緩解數(shù)據(jù)集樣本不平衡的問題。此外,Lovász 損失函數(shù)是以評價(jià)指標(biāo)交叉比mIoU(mean intersection over union)為優(yōu)化目標(biāo),進(jìn)一步提高語義分割結(jié)果。
位置幾何各向異性損失函數(shù)可表示為
式中:和分別表示真實(shí)標(biāo)簽和預(yù)測標(biāo)簽;表示錐形柵格的單元個(gè)數(shù);表示數(shù)據(jù)集的類別數(shù)量。其中,局部幾何各向異性因子定義為
式中和q分別表示局部幾何各向異性的滑動(dòng)窗口的中心柵格類別和局部相鄰柵格類別。根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)選取滑動(dòng)窗口為中心柵格單元相鄰5 個(gè)單位距離的柵格范圍。
Top-K損失函數(shù)可表示為
式中(·)表示函數(shù)集合內(nèi)第大值。根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),設(shè)置為錐形柵格單元數(shù)量的10%。
式中:(·,·)表示Lovász損失函數(shù);、和分別為各損失函數(shù)的權(quán)重值,在實(shí)驗(yàn)中分別設(shè)置為0.5、1.5和4。
實(shí)驗(yàn)階段采用SemanticKITTI 和nuScenes 兩個(gè)室外道路場景的激光點(diǎn)云數(shù)據(jù)集對所提方法進(jìn)行評估。
3.1.1 SemanticKITTI數(shù)據(jù)集介紹
SemanticKITTI數(shù)據(jù)集是在經(jīng)典自動(dòng)駕駛數(shù)據(jù)集KITTI 的基礎(chǔ)上,對激光點(diǎn)云數(shù)據(jù)精細(xì)化語義標(biāo)注。該數(shù)據(jù)集采用傾斜角-24.8°~2°的64 線激光雷達(dá)Velodyne-HDLE64對德國卡爾斯魯厄的道路場景收集了22 個(gè)點(diǎn)云序列共43 551 幀激光點(diǎn)云數(shù)據(jù),且每幀點(diǎn)云大約含13 萬點(diǎn)。其中,將00-10 序列共23 201幀激光點(diǎn)云作為訓(xùn)練集(08序列共4 071幀激光點(diǎn)云作為驗(yàn)證集),而11-21 序列共20 351 幀激光點(diǎn)云作為測試集。該數(shù)據(jù)集提供了高達(dá)28 類標(biāo)簽,但在官方單次掃描評估中只采用19類高頻標(biāo)簽。
3.1.2 nuScenes數(shù)據(jù)集介紹
nuScenes 數(shù)據(jù)集是用于自動(dòng)駕駛的三維目標(biāo)檢測、跟蹤、分割等感知任務(wù)的多模態(tài)數(shù)據(jù)集。該數(shù)據(jù)集采用傾斜角-30°~10°的32 線激光雷達(dá)Velodyne-HDL32E 對波士頓和新加坡的不同地區(qū)收集了1 000個(gè)場景的點(diǎn)云數(shù)據(jù),且每個(gè)場景采集時(shí)間超過20 s。其中,28 130幀點(diǎn)云用于訓(xùn)練,6 019幀點(diǎn)云用于驗(yàn)證,6 008 幀點(diǎn)云用于測試,且每幀點(diǎn)云大約含3.4 萬點(diǎn)。該數(shù)據(jù)集提供了高達(dá)34 類標(biāo)簽,與SemanticKITTI 數(shù)據(jù)集類似,只有16類高頻標(biāo)簽用于官方評估。與SemanticKITTI 相比,nuScenes 采用傳感器的光束數(shù)較少且水平角分辨率較低,導(dǎo)致點(diǎn)云更加稀疏,這增加了語義分割的難度。
3.1.3 實(shí)驗(yàn)參數(shù)配置
實(shí)驗(yàn)基于Python3.7 編譯器,采用Pytorch 1.7、Spconv 1.2、CUDA11.1等開源庫,在硬件配置為2張Nvidia RTX 3090顯卡的計(jì)算機(jī)上運(yùn)行。
在SemanticKITTI 數(shù)據(jù)集中,使用尺寸為500×720×64 的錐形柵格對水平半徑50 m 且傾斜角-24.8°~2°的激光點(diǎn)云區(qū)域范圍進(jìn)行分區(qū)。而在nuScenes 數(shù)據(jù)集中,使用尺寸為500×720×32 的錐形柵格對水平半徑50 m 且傾斜角-30°~10°的激光點(diǎn)云區(qū)域范圍進(jìn)行分區(qū)。整體網(wǎng)絡(luò)模型設(shè)置初始學(xué)習(xí)率為0.005,batch_size 為6,訓(xùn)練輪次epoch 為30,采用SGD 優(yōu)化器訓(xùn)練網(wǎng)絡(luò)模型,每個(gè)epoch 的學(xué)習(xí)率衰減10%。
3.1.4 評價(jià)指標(biāo)
為了驗(yàn)證所提方法的有效性,本文遵循SemanticKITTI 和nuScenes 數(shù)據(jù)集官方提供的評價(jià)指標(biāo)交叉比mIoU,其表述為
式 中:TP、FP和FN分 別 表 示 第類 別 的 真 陽 性(True Positive)、假陽 性(False Positive)、假陰性(False Negative);為數(shù)據(jù)集的標(biāo)簽類別數(shù)量。
在實(shí)驗(yàn)中,對比了本文所提的方法與目前主流的激光點(diǎn)云語義分割方法在SemanticKITTI 測試集上的評估結(jié)果,如表1 所示。所提方法取得71.0%mIoU,相比目前最先進(jìn)的基于笛卡爾柵格的方法(AF)2-S3Net 高1.3%mIoU 和基于柱形柵格的方法Cylinder3D高3.2%mIoU。尤其,在自行車、桿、交通標(biāo)志等少類別物體能更為準(zhǔn)確地識別。在SemanticKITTI 驗(yàn)證集上,通過實(shí)驗(yàn)從可視化角度分析本文的方法、MinkNet42、Cylinder3D 的錯(cuò)誤識別分布情況,結(jié)果如圖6 所示。其中,紅色點(diǎn)表示各方法的錯(cuò)誤識別數(shù)據(jù)點(diǎn),而灰色點(diǎn)表示各方法準(zhǔn)確地識別??梢钥闯觯岱椒芫哂懈偷腻e(cuò)誤識別率,在貨車、自行車等少類別物體能正確地識別,適用于復(fù)雜場景下運(yùn)行。
圖6 SemanticKITTI驗(yàn)證集的可視化分析
表1 SemanticKITTI測試集的預(yù)測結(jié)果
表2顯示所提方法與目前主流的激光點(diǎn)云語義分割方法在SemanticKITTI 驗(yàn)證集上性能評估結(jié)果,其中,推理時(shí)間是每幀激光點(diǎn)云在單張Nvidia RTX 3090 顯卡上處理的時(shí)間??梢钥闯?,所提方法通過結(jié)構(gòu)重參數(shù)化技術(shù)轉(zhuǎn)換模型,相比于未轉(zhuǎn)換模型具有相同分割精度,但在模型參數(shù)、內(nèi)存消耗、推理時(shí)間方面均有顯著地下降;相比于基于柱形柵格的方法Cylinder3D 在分割精度上提高了3.4% mIoU,推理速度提高1.8 倍。這得益于結(jié)構(gòu)重參數(shù)化引入使得網(wǎng)絡(luò)整體的計(jì)算操作和內(nèi)存操作得以降低。
表2 SemanticKITTI驗(yàn)證集的性能評估結(jié)果
此外,進(jìn)一步在SemanticKITTI 驗(yàn)證集上實(shí)驗(yàn)分析了本文算法、MinkNet42 和Cylinder3D 3 種方法對激光點(diǎn)云與傳感器在不同距離下語義分割的mIoU結(jié)果,如圖7 所示。激光點(diǎn)云的密度隨著水平距離增加逐漸下降,所有方法的分割效果隨之變差。所提方法在激光點(diǎn)云全范圍內(nèi)的預(yù)測結(jié)果都優(yōu)于MinkNet42 和Cylinder3D,尤其在近距離情況下表現(xiàn)更加優(yōu)越。這得益于本文所提錐形方法在近距離的點(diǎn)云劃分柵格更加細(xì)化,使得網(wǎng)絡(luò)能充分學(xué)習(xí)點(diǎn)云的幾何信息。
圖7 激光點(diǎn)云在不同水平距離的預(yù)測結(jié)果
在實(shí)驗(yàn)中,對比了所提方法與目前主流的激光點(diǎn)云語義分割方法在nuScenes 測試集上評估結(jié)果,如表3 所示。所提的方法優(yōu)于目前主流的方法(包括PolarNet、Cylinder3D、JS3C-Net、AMVNet)。具體地說,相比于目前基于笛卡爾柵格的方法JS3C-Net和柱形的方法Cylinder3D,所提的方法分別提高了4.6%和1.0% mIoU;相比于基于二維投影的方法,則提高了0.8%~8.8% mIoU。此外,本文的方法比其他方法能更好地識別自行車、路障、行人等少類別稀疏點(diǎn)云,這也證明了所提出的方法在更加稀疏的激光點(diǎn)云數(shù)據(jù)上仍然有效。
表3 nuScenes測試集的預(yù)測結(jié)果
為了驗(yàn)證所提方法對不同網(wǎng)絡(luò)模塊的有效性,在SemanticKITTI 驗(yàn)證集上進(jìn)行一系列消融實(shí)驗(yàn)。此外,還分析基于三維稀疏卷積的結(jié)構(gòu)重參數(shù)化網(wǎng)絡(luò)不同分支組合對語義分割結(jié)果的影響。
3.4.1 不同網(wǎng)絡(luò)模塊消融結(jié)果分析
通過實(shí)驗(yàn)驗(yàn)證所提方法對不同網(wǎng)絡(luò)模塊的有效性,結(jié)果如表4 所示。其中,采用基于笛卡爾柵格和三維卷積網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò)??梢钥闯?,錐形柵格分區(qū)比基于笛卡爾柵格的基準(zhǔn)網(wǎng)絡(luò)提升了2.4%mIoU,基于三維稀疏卷積的結(jié)構(gòu)重參數(shù)化網(wǎng)絡(luò)進(jìn)一步提升了2.8% mIoU,這表明錐形柵格和基于三維稀疏卷積的結(jié)構(gòu)重參數(shù)化網(wǎng)絡(luò)在所提方法的有效性。此外,平均Top-K 損失函數(shù)通過網(wǎng)絡(luò)優(yōu)化傾向于識別復(fù)雜樣本,有效地提升了2.1%mIoU,再通過添加Geo-aware 損失函數(shù)細(xì)化物體邊緣與稀疏點(diǎn)的細(xì)節(jié)信息,進(jìn)一步提升了2.6%mIoU,從而獲得本文的整體網(wǎng)絡(luò)模型。
表4 不同網(wǎng)絡(luò)模塊消融結(jié)果
3.4.2 重參數(shù)化網(wǎng)絡(luò)的有效性分析
通過實(shí)驗(yàn)進(jìn)一步驗(yàn)證重參數(shù)化網(wǎng)絡(luò)各分支的重要性,結(jié)果如表5 所示。在所提模型的基礎(chǔ)上,通過基于三維稀疏卷積的結(jié)構(gòu)重參數(shù)化網(wǎng)絡(luò)移除Identity 分支或稀疏卷積分支不同組合進(jìn)行消融實(shí)驗(yàn)分析。其中,推理時(shí)間是模型訓(xùn)練階段(未使用網(wǎng)絡(luò)重參數(shù)化轉(zhuǎn)換)在單張Nvidia RTX 3090 顯卡(batch_size=3)上平均每幀激光點(diǎn)云處理的時(shí)間??梢钥闯觯捎脝我环种?×3×3 稀疏卷積層僅得到68.4%。相對于單一分支網(wǎng)絡(luò),僅增加Identity 分支提升了0.1% mIoU,僅增加1×1×1 稀疏卷積分支提升了0.7% mIoU,而同時(shí)增加Identity 分支和1×1×1稀疏卷積分支(即所提模型)能夠提升2.1% mIoU,最終達(dá)到70.5% mIoU。從模型訓(xùn)練階段的推理速度可以看出,通過結(jié)構(gòu)重參數(shù)化去除Identity 和稀疏卷積分支會(huì)帶來推理速度顯著地提升。
表5 重參數(shù)化網(wǎng)絡(luò)不同分支組合消融結(jié)果
本文提出一種基于三維錐形柵格和稀疏卷積的激光點(diǎn)云語義分割方法。結(jié)合激光雷達(dá)點(diǎn)云掃描方式,提出了一種基于錐形柵格的點(diǎn)云分區(qū)解決激光點(diǎn)云的稀疏性和密度不一致性,并保留點(diǎn)云的三維幾何拓?fù)浣Y(jié)構(gòu);進(jìn)一步提出了基于三維稀疏卷積的結(jié)構(gòu)重參數(shù)化網(wǎng)絡(luò)提升模型推理速度。在SemanticKITTI 和nuScenes 兩個(gè)大規(guī)模室外激光點(diǎn)云數(shù)據(jù)集上,通過實(shí)驗(yàn)結(jié)果表明所提方法均優(yōu)于目前主流的幾種點(diǎn)云分割方法,證明了錐形柵格在激光點(diǎn)云處理中的有效性。
此外,本文所提的方法不只局限于激光點(diǎn)云語義分割,未來可進(jìn)一步拓展到激光點(diǎn)云的實(shí)例分割和目標(biāo)檢測等感知任務(wù)。