南京國圖信息產(chǎn)業(yè)有限公司 江蘇 南京 210036
點(diǎn)云的語義分割旨在為每個(gè)點(diǎn)分配一個(gè)類別標(biāo)簽,這是許多工業(yè)應(yīng)用[1]的基礎(chǔ),從土地覆蓋圖、數(shù)字城市、城市場景重建到自動駕駛等。本文專門針對使用移動激光掃描(mobile laser scanning,MLS)數(shù)據(jù)在大規(guī)模市區(qū)中進(jìn)行語義分割的基礎(chǔ)和理論問題。
在過去的幾十年中,已經(jīng)展開了許多MLS點(diǎn)云的自動語義分割的研究,這些研究從不同方面提高了準(zhǔn)確性。在現(xiàn)有方法中,從局部鄰域[1]中提取低層次特征引起了廣泛關(guān)注。由于這些方法主要是各種類型的手工特征,并利用它們來訓(xùn)練傳統(tǒng)的機(jī)器學(xué)習(xí)算法,而不考慮鄰域中的相關(guān)信息,因此語義分割結(jié)果中可能存在明顯的標(biāo)簽不一致之處。為了克服這些缺點(diǎn),許多研究采用概率圖形模型[2]來集成更多的上下文信息。但這些模型在復(fù)雜的場景中會忽略遠(yuǎn)程上下文信息,并且即使進(jìn)一步提高了分割精度,也通常存在魯棒性的不足。
近年來,隨著計(jì)算能力和可用標(biāo)記數(shù)據(jù)的增長,深度學(xué)習(xí)在點(diǎn)云處理方面取得了空前的成功。為了使用于點(diǎn)云的深度神經(jīng)網(wǎng)絡(luò)更直觀和易于實(shí)施,一些研究人員將3D點(diǎn)云轉(zhuǎn)換為體素[3]或2D圖像[4],但不可避免丟失信息。因此,更多的注意力已經(jīng)投入到直接在不規(guī)則點(diǎn)云上工作的點(diǎn)卷積網(wǎng)絡(luò)。為了滿足MLS數(shù)據(jù)的特征,已經(jīng)提出了一些新穎的卷積網(wǎng)絡(luò)[5]。盡管已證明該操作在進(jìn)一步提高分類性能方面非常有效,但是上述卷積忽略了屬于同一物體的點(diǎn)之間的結(jié)構(gòu)連接,并導(dǎo)致不良的物體描繪。為了解決這個(gè)問題,有幾種方法求助于圖卷積神經(jīng)網(wǎng)絡(luò)[6],以更好地了解高維空間中的局部幾何關(guān)系。對于復(fù)雜的城市環(huán)境,動態(tài)保留邊界并適應(yīng)無序點(diǎn)云中的對象結(jié)構(gòu)仍然是挑戰(zhàn)。
本文沒有直接使用現(xiàn)有的基于CNN// GCN的模型進(jìn)行分類,而是通過點(diǎn)云分割和分類過程的協(xié)作,采用了改進(jìn)的GCN網(wǎng)絡(luò)進(jìn)行語義標(biāo)記。
本節(jié)將詳細(xì)介紹提出的3D點(diǎn)云語義分割框架。整個(gè)工作流程可以分為四個(gè)階段,如圖1所示。首先使用拉普拉斯平滑法用于去除離群值并降低測量噪聲,之后使用單個(gè)網(wǎng)絡(luò)預(yù)測點(diǎn)的分組建議,從中可以直接提取全局結(jié)構(gòu)特征。在第三階段,引入圖注意力網(wǎng)絡(luò),以充分利用局部結(jié)構(gòu)特征,并表示點(diǎn)之間的關(guān)系,以增強(qiáng)點(diǎn)云的細(xì)粒度語義分割。最后,通過完全連接的條件隨機(jī)場算法在對象之間使用上下文約束來進(jìn)一步優(yōu)化初始分類。
本文基于SGPN[7],將3D去噪點(diǎn)作為輸入和特征提取。提取特征后,通過將單個(gè)SGPN層傳遞到兩個(gè)分支(分別是相似度矩陣和置信度圖)來獲得維特征矩陣。具體而言,維相似度矩陣S的每一行都可以表示一個(gè)組提議,小于設(shè)置為指示這些點(diǎn)在嵌入空間中屬于同一組的閾值。為了使結(jié)果更好一點(diǎn),在特征空間中相似的點(diǎn)應(yīng)該靠近在一起,在實(shí)驗(yàn)中使用雙鉸鏈損失法。同一語義類別中不同對象的點(diǎn)的邊距大于,而不同語義類別中的點(diǎn)的邊距大于。如果點(diǎn)i和j是同一對象,則將定義的損耗項(xiàng)最小化。
圖1 本文方法的流程
假設(shè)給定的I維點(diǎn)云,考慮一個(gè)簡單的局部有向圖G=(V,E),由一組頂點(diǎn)為和根據(jù)k最近鄰(k-nearest neighbor,kNN)規(guī)則構(gòu)造邊,以確定特征轉(zhuǎn)移的方向。為了更加關(guān)注鄰域中最相關(guān)的部分,以便卷積核可以動態(tài)地適應(yīng)對象結(jié)構(gòu)。從關(guān)注機(jī)制在NLP和圖像分類中的成功經(jīng)驗(yàn)啟發(fā),根據(jù)空間鄰居構(gòu)造圖后,通過計(jì)算節(jié)點(diǎn)之間特征空間中的關(guān)聯(lián)度,引入圖注意模塊進(jìn)行特征學(xué)習(xí)。允許所有鄰居節(jié)點(diǎn)的特征都參與中心節(jié)點(diǎn)的特征計(jì)算,從而最大限度地解決了特征信息丟失的問題,并且聚合了點(diǎn)云識別任務(wù)最有用的結(jié)構(gòu)特征。
所有節(jié)點(diǎn)的狀態(tài)都隨著時(shí)間的發(fā)展而變化,本文提出了一種新穎的節(jié)點(diǎn)狀態(tài)更新功能,以更新圖中每個(gè)節(jié)點(diǎn)的特征表示。連接聚集的特征和狀態(tài)向量以及非線性映射操作后,它將捕獲其附近的結(jié)構(gòu)信息。本文的圖注意力卷積網(wǎng)絡(luò)是在具有不同空間尺度的點(diǎn)云圖金字塔上實(shí)現(xiàn)的,它是通過交替應(yīng)用圖構(gòu)造和粗化技術(shù)而構(gòu)建的。注意模塊應(yīng)用于點(diǎn)云圖金字塔各個(gè)尺度的局部特征學(xué)習(xí)。點(diǎn)云通過圖池操作來學(xué)習(xí)局部特征,同時(shí)還降低了每個(gè)功能通道中的分辨率,并將頂點(diǎn)的整個(gè)鄰域信息匯總到一個(gè)精度中。最后,將學(xué)習(xí)到的特征逐層插值回到最佳比例,并以最佳比例應(yīng)用其他GAC層以進(jìn)行特征細(xì)化,以避免損失特征保真度。
標(biāo)簽預(yù)測結(jié)果中存在不同類別的相似性引起的局部誤差。因此,考慮到中低級細(xì)節(jié)(例如RGB顏色矢量和反射率值)以及更多上下文,使用CRF算法進(jìn)行分類細(xì)化。此類信息對于確保逐點(diǎn)標(biāo)簽預(yù)測的一致性至關(guān)重要,通常,使用以下公式將能量函數(shù)應(yīng)用于CRF模型。
兩個(gè)具有不同的城市場景數(shù)據(jù)集被用來檢驗(yàn)了所提出框架的性能。數(shù)據(jù)集A是Paris-Lille-3D基準(zhǔn)數(shù)據(jù)集,具有1.431百萬個(gè)3D點(diǎn),該數(shù)據(jù)集是使用安裝在卡車后部的Velodyne HDL-32E LiDAR采集的,其旋轉(zhuǎn)軸與水平方向成30°,全長約1.94公里。數(shù)據(jù)集B是使用安裝在車輛上的SICK LMS511激光掃描儀從中國湖北省黃石市捕獲的,覆蓋全長約33.5km,大小為11.7GB。
本文的GCN模型性能是根據(jù)三個(gè)指標(biāo),即精確度、召回率和總體準(zhǔn)確性(OA)進(jìn)行評估的,這三個(gè)指標(biāo)通常用于評估3D語義分割。精確度和召回率分別定義為正確分割的對象數(shù)相對于分割結(jié)果和真值中的對象總數(shù),OA反映了測試集的總體性能。
通過使用兩個(gè)數(shù)據(jù)集進(jìn)行測試的實(shí)驗(yàn)結(jié)果,證明了本文模型在大規(guī)模城市環(huán)境中對點(diǎn)云語義分割的有前途的功能。表1中列出了相應(yīng)的每類準(zhǔn)確性混淆矩陣。如表1中這兩個(gè)數(shù)據(jù)集的準(zhǔn)確性和語義分段的回憶所示,該方法在識別城市物體方面具有良好的性能,總體準(zhǔn)確性為95.5%,這兩個(gè)數(shù)據(jù)集分別為94.6%。根據(jù)表1,本文方法可以正確分類大多數(shù)城市物體。
表1 本文方法在兩個(gè)數(shù)據(jù)集語義分割的性能
為了進(jìn)一步驗(yàn)證本文方法的有效性,基于相同的測試協(xié)議,我們與現(xiàn)有工作進(jìn)行了比較。如表2所示,要注意的是,本文方法在OA方面獲得了最佳結(jié)果,可用于標(biāo)記點(diǎn)云。本文方法的主要優(yōu)點(diǎn)是更有效地保留對象邊界。
表2 本文方法與其他方法之間的性能(OA)比較
總之,該模型可以在雜亂而復(fù)雜的城市環(huán)境中實(shí)現(xiàn)最新的點(diǎn)云語義分割性能。同時(shí),比較研究啟發(fā)我們通過增強(qiáng)模塊嵌入的能力來優(yōu)化GCN模型,這使本文網(wǎng)絡(luò)模型具有較高的代表性和出色的魯棒性。
本文提出了一種改進(jìn)的層次圖卷積神經(jīng)網(wǎng)絡(luò),該方法通過將實(shí)例分割網(wǎng)絡(luò)與細(xì)粒度分類網(wǎng)絡(luò)相結(jié)合來進(jìn)行3D點(diǎn)云語義標(biāo)記,從而提高了對城市物體的識別精度。通過估計(jì)兩個(gè)真實(shí)的城市現(xiàn)場LiDAR數(shù)據(jù)集的準(zhǔn)確性,對所提出的網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)評估,驗(yàn)證了所提出的方法提高了整體準(zhǔn)確性。總體而言,本文語義標(biāo)記框架可以在大規(guī)模點(diǎn)云場景下更準(zhǔn)確,更可靠地實(shí)現(xiàn)支配性能。