楊必勝,韓 旭,董 震
武漢大學測繪遙感信息工程國家重點實驗室,武漢 430079
智慧城市建設、城市精細化管理、自然資源立體監(jiān)測等國家重大戰(zhàn)略對城市立體空間內(nèi)人事物發(fā)生發(fā)展的全過程精細刻畫、仿真建模、模擬預測等需求強烈,尤其對全域、全要素、實時、高質(zhì)量的三維地理信息需求尤其迫切。長期以來,以地圖和影像為代表的二維空間數(shù)據(jù)表達已經(jīng)遠遠不能滿足多種應用需求[1],迫切需要從以4D測繪產(chǎn)品(數(shù)字正射影像DOM、數(shù)字高程模型DEM、數(shù)字線劃地圖DLG、數(shù)字柵格地圖DRG)為基礎的信息化測繪走向智能化測繪,從而滿足智慧社會、智慧城市等對高質(zhì)量、精細化三維地理信息的緊迫需求。近年來,智能小衛(wèi)星、低空無人機、地面移動三維掃描測量等對地對觀測技術的創(chuàng)新發(fā)展快速提升了全空間、全時域的感知能力[2],尤其是以點云為代表的三維數(shù)據(jù)獲取能力,有力促進了三維地理信息快速提取的進步[3]。不同于自然地表空間要素,城市立體空間要素具有高度的復雜性、動態(tài)性、交錯性和多態(tài)性,對三維精準提取城市立體空間地理信息要素提出了巨大挑戰(zhàn)。點云作為矢量地圖和影像數(shù)據(jù)后的一類獨特的時空數(shù)據(jù),已成為物理空間實體對象三維數(shù)字化結(jié)果的重要表達方式[4]。如何利用人工智能手段,高度提升點云的解譯能力,實現(xiàn)城市地物目標的語義標識與三維精準提取成為亟待攻克的難題。
盡管目前一些研究者提出了諸多基于模型擬合或特征聚類的方法[5-6],但是這些方法僅限于較為簡單的實體目標,且對于具有弱泛化性的目標結(jié)構(gòu)需要較多的先驗知識。深度學習在處理具有規(guī)則結(jié)構(gòu)的二維圖像領域(如目標識別、分割等)取得了長足的進步。近年來,點云深度學習日益受到關注,且發(fā)布了一定規(guī)模的點云數(shù)據(jù)集,如ShapeNet[7]、ModelNet[8]、ScanNet[9]、Semantic3D[10]、
KITTI[11]、WHU-TLS[12]、WHU-MLS[13]等,使得深度學習模型從三維點云中學習有效特征成為可能。然而,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(CNN)難以直接應用于空間分布不規(guī)則的點云[14],并且大多數(shù)點云語義分割的方法都難以處理大規(guī)模的點云[15],尤其是城市場景大規(guī)模點云的語義標識。部分學者嘗試將點云投影到不同視角的圖像中,然后利用CNN從圖像中提取特征[16-18],但是在投影過程中,有限的投影視角不可避免地丟失有用的細節(jié),因此不利于目標的準確提取。也有學者將點云體素化為3D網(wǎng)格,通過3D CNN提取目標特征[19-20]。然而,此類方法計算成本高且難以滿足大規(guī)模點云語義分割的需求。顯然,原始點云可以更準確和直接地刻畫目標的幾何結(jié)構(gòu),為此有學者相繼提出了PointNet[21]和PointNet++[22]用于直接學習逐個點的特征。除此之外,圖卷積[23,24]、核卷積[25-27]被提出用于學習不規(guī)則點云的特征。盡管上述方法可以從不同角度有效地學習點云的特征,但它們主要適用于具有簡單結(jié)構(gòu)的模型或室內(nèi)場景點云,難以有效地學習更為復雜的結(jié)構(gòu)。文獻[28]通過融合2D圖像和3D點云對大規(guī)模三維場景進行語義分割,但是需要基準數(shù)據(jù)集(同時包括2D和3D室外數(shù)據(jù))的支撐,且兩者融合的質(zhì)量嚴重影響語義分割結(jié)果。文獻[29]提出了一種具有注意力嵌入模塊的遞歸順序切片網(wǎng)絡,從不同的角度學習空間關系并使用CNN提取高級信息,但是該網(wǎng)絡模型規(guī)模較大,且泛化能力較弱。
不同于規(guī)則格網(wǎng)的二維影像,城市場景大規(guī)模點云具有點位空間分布不均、因遮擋導致的數(shù)據(jù)缺失及目標多樣且尺度差異大等獨特性。點云深度學習需要突破現(xiàn)有的深度學習網(wǎng)絡在點云采樣、局部特征提取與聚合,以及訓練樣本不均衡方面存在的缺陷,從而有望實現(xiàn)點云場景的全面精準感知。為此,本文旨在構(gòu)建一種直接用于城市場景大規(guī)模點云的目標語義標識深度學習網(wǎng)絡,用于解決大規(guī)模點云的有效采樣、點云局部特征自主學習與聚合,以及訓練樣本不平衡等難點,實現(xiàn)多類目標的正確語義標識,為高質(zhì)量三維地理信息的快速提取提供核心支撐。
點云深度學習的本質(zhì)是基于訓練樣本學習點云特征并予以表達,然后通過損失函數(shù)度量數(shù)據(jù)預測值與訓練樣本真值之間的差異(兩者之間的差異越小說明模型與參數(shù)對訓練樣本的擬合越好)。由于城市點云場景的復雜性(點位分布不均且量大、目標多樣等),為保證點云深度學習網(wǎng)絡的高效和準確,必須首先對大規(guī)模點云進行采樣,降低點云的數(shù)據(jù)量,從而減少計算量,保證網(wǎng)絡的高效性;其次,要克服點位不均勻分布和因遮擋導致的不完整對點云特征準確學習的影響;同時要盡量減少由于訓練樣本不均衡而對網(wǎng)絡預測結(jié)果的影響。為此,本文重點圍繞點云深度學習的效率和結(jié)果的準確性,從高效的點云空間降采樣策略,基于點特征抽象表達與傳播以及提升總體表現(xiàn)的損失函數(shù)3個方面出發(fā),構(gòu)建了點云語義標識深度學習網(wǎng)絡。該深度學習網(wǎng)絡直接輸入點云數(shù)據(jù),并端到端地標識每個點的語義類別,其總體框架如圖1所示。
圖1 端到端的點云語義標識深度學習網(wǎng)絡架構(gòu)
該網(wǎng)絡使用下采樣-上采樣結(jié)構(gòu)和跳躍連接的U形結(jié)構(gòu)作為骨干網(wǎng)絡。下采樣過程包括空間下采樣和特征聚合,空間下采樣用于減少點數(shù),而特征聚合則得到空間采樣后的點云特征。下采樣過程將特征逐層映射到更高的特征空間,并擴大感受野以獲得更高層次、更抽象的特征,而上采樣過程旨在逐步將抽象特征傳播到每個點,從而獲得逐點特征。
(1)
圖2 特征聚合模塊
在每個聚合過程之前,對每個下采樣點通過K近鄰(KNN)分組得到用于特征聚合的局部單元N(x)。通過設置一個較大的K=σk(σ為擴張比,σ>1,例如,σ=1.5),然后對k點在前幾層中隨機采樣,以嘗試擴大感受野。在對輸入特征進行編碼的過程中,對點的原始空間位置、相對空間位置和相對特征(邊特征)融合。對于每個位置x,其相鄰ith位置的原始空間信息定義為
(2)
式中,xi∈N(x),xgl是分塊前的全局位置;⊕表示特征級聯(lián)。需要注意:x∈X(空間下采樣后的點集),xi∈Xin(原始點集)。
相對空間位置定義為
(3)
式中,‖·‖表示歐幾里得距離的計算。
邊特征定義為
(4)
式中,f∈F(空間下采樣后的特征集);fi∈Fin(原始特征集)。
最后,通過簡單的級聯(lián)操作獲得位置x的ith鄰域點的融合特征
(5)
(6)
式中,w∈RD表示可學習權(quán)重(有D′個);g∈Rk表示空間映射值(有D′個)。
(7)
式中,w(d′)d表示d'th個w的dth個權(quán)值;σ是一個非線性激活函數(shù)。
(8)
式中,·表示逐元素相乘;max是最大池化操作。
由于城市點云場景中目標類別數(shù)量差異大,且訓練樣本不均衡,簡單地分配不同的類權(quán)重平衡網(wǎng)絡的監(jiān)督信號難以有效控制深度學習網(wǎng)絡的整體性能。如何控制不同類別目標的權(quán)重變得尤為重要?;诩訖?quán)交叉熵的代價函數(shù)更專注于單個類的精度,而不關注特定類中的錯誤,這意味著如果為小樣本分配了更大的權(quán)重,則這些類的錯誤點數(shù)也可能更大。為此,本文提出的深度學習網(wǎng)絡主要根據(jù)訓練過程中存在的點數(shù),合理提高對小樣本學習的關注,定義了代價函數(shù)L,旨在平衡少數(shù)類的表現(xiàn)和整體表現(xiàn)
(9)
式中,Nc是訓練過程中出現(xiàn)的cth類的總點數(shù);M表示類別數(shù);yc、pc分別表示cth類的真實標簽向量和預測標簽向量。
整個場景在訓練期間被分成10 m×10 m的塊,每個塊被隨機采樣到20 000點,使用0.8 m半徑的鄰域范圍進行法向量計算。輸入點的特征包含全局坐標、分塊內(nèi)標準化坐標、法向量和強度。本文構(gòu)造的網(wǎng)絡采用0.05 m網(wǎng)格作為分塊前規(guī)則采樣的分辨率,然后是采樣比為0.25、0.25、0.25、0.25、0.25、0.5、0.5的下采樣層。該網(wǎng)絡在PyTorch平臺上實現(xiàn)。在網(wǎng)絡訓練期間,Adam優(yōu)化器用于更新模型,動量和初始學習率分別設置為0.9和0.001,衰減率設置為0.000 1,學習速率每16個遍歷(epoch)降低一半。該模型在NVIDIA GTX 1080Ti的GPU上訓練了100個批量大小為28的迭代,并且選擇使用具有最佳mIoU的模型進行測試。
為驗證本文構(gòu)建的深度學習網(wǎng)絡性能,使用WHU-MLS數(shù)據(jù)集[13]進行測試。WHU-MLS數(shù)據(jù)集包括40個場景,超過3億點,其中30個場景作為訓練場景和10個場景作為測試。其中的地物目標類包括:行車道(driveway)、非駕駛車道(nd.way)、道路標線(rd.mrk)、建筑物(building)、圍欄(fence)、樹木(tree)、低矮植被(low veg)、路燈(light)、電線桿(tel.pole)、市政立桿(mun.pole)、交通信號燈(trff.light)、監(jiān)控探頭(detector)、廣告牌或提示牌(board)。動態(tài)目標類包括:行人(pedestrian)和車輛(vehicle)。
為評估本文構(gòu)造網(wǎng)絡的性能,采用如下的幾類指標:精度(Precision)、召回(Recall)、F1-Score、IoU和總體精度(OA)
(10)
(11)
(12)
(13)
(14)
式中,TP是預測正確的該類別樣本數(shù)量;FP是將其他類別樣本錯預測成該類別的樣本數(shù)量;FN是將該類比樣本錯預測成其他類別的樣本數(shù)量;N是樣本總數(shù)。精度、召回、F1-Score和IoU在每個類別中分別計算,然后計算平均值。
不同測試場景的預測結(jié)果如圖3所示。圖3(a)所示場景具有較為復雜的結(jié)構(gòu)。圖4和圖5分別從更細節(jié)的角度和駕駛角度展示了語義標識的結(jié)果。從示例結(jié)果可以看出,該網(wǎng)絡語義標識的整體表現(xiàn)較好,但也存在一定的錯誤標識,如圖6所示。造成此類錯誤分類的原因有幾種:①語義模糊性,如某些類定義較為模糊,這意味著一個點可能既屬于某一類,同時也屬于另一類,例如由提示牌和路燈連接的桿狀結(jié)構(gòu),如圖6(a)所示;②多個目標相互重疊,例如在樹叢中豎立的燈,如圖6(b)所示;③局部位置預測出了不同的類別,由于場景在點被送入網(wǎng)絡之前被劃分為塊,推測主要是因為相鄰的區(qū)塊在重疊區(qū)域內(nèi)預測結(jié)果存在不同,如圖6(c)所示。
注:左側(cè)為人工標記的結(jié)果;右側(cè)為預測結(jié)果。
圖4 WHU-MLS數(shù)據(jù)集中部分類別的預測結(jié)果
圖5 WHU-MLS數(shù)據(jù)集中單個場景的預測結(jié)果
圖6 WHU-MLS數(shù)據(jù)集上錯誤的語義標識
為定量地評價本文構(gòu)建的深度學習網(wǎng)絡的效果,分別計算了WHU-MLS數(shù)據(jù)集中17個精細類別(樹木、非機動車道、建筑物、箱狀地物、路燈、電線桿、市政立桿、低矮植被、提示牌、駕駛車道、道路標線、車輛、行人、信號燈、探頭、圍欄和電線)和6個粗分類(動態(tài)物體、桿狀目標、植被、建筑和地面)的IOU、F1-Score、精度、召回率,見表1。由表1可以看出,本文的深度學習網(wǎng)絡在一些大尺寸目標,如車道(IoU:83.6,F(xiàn)1-Score:91.0)、建筑(IoU:77.1,F(xiàn)1-Score:87.1)和樹(IoU:84.5,F(xiàn)1-Score:91.6),以及一些運動目標,如行人(IoU:60.8,F(xiàn)1-得分:75.6)和車輛(IoU:79.1,F(xiàn)1-得分:88.3)上取得較好結(jié)果。
表1 WHU-MLS語義標識結(jié)果
表2比較了本文構(gòu)造的網(wǎng)絡與其他幾個主流的點云深度學習網(wǎng)絡在17個類別語義標識中的表現(xiàn)??梢钥闯?,本文的深度學習網(wǎng)絡在非機動車道、建筑物、箱體、燈、電線桿、市政立桿、提示牌、機動車道、道路標線、車輛、行人、探頭和電線等大多數(shù)類別中優(yōu)于其他幾種方法。
表2 WHU-MLS數(shù)據(jù)集上本文網(wǎng)絡和主流網(wǎng)絡的性能對比
表3給出了本文構(gòu)建的深度學習網(wǎng)絡在不同網(wǎng)絡層中的參數(shù)個數(shù)和推理時間。時間為使用一百萬個點單次前向傳播的耗時??梢姳疚牡纳疃葘W習網(wǎng)絡可以在2 s內(nèi)預測100萬個點,表明了該網(wǎng)絡的輕量級和高性能。
表3 本文構(gòu)建的深度學習網(wǎng)絡在單個GPU單次預測1 000 000點的參數(shù)和平均推理時間
本文構(gòu)造了一種城市大規(guī)模點云語義標識的端到端深度學習網(wǎng)絡,為目標的識別和信息的提取提供了關鍵支撐。該深度學習網(wǎng)絡直接對大規(guī)模三維點云進行特征學習,通過卷積操作模擬人眼擴大視覺感受野,兼顧了單個點的上下文特征,有力提高了不同尺度目標特征準確刻畫和表達的能力,為目標的提取和類別的區(qū)分提供了有益的知識。實際的測試表明:該深度學習網(wǎng)絡在高效的采樣策略、多層的特征聚合與傳播,以及兼顧樣本不平衡的代價損失函數(shù)具有較好的性能,可高效地對大規(guī)模的室外場景點云進行近20類目標的正確語義標識,且性能優(yōu)于現(xiàn)有的幾個主流網(wǎng)絡(如:PointNet等),為三維地理信息的快速有效提取提供了有力支撐。當前,本文構(gòu)造的點云深度學習網(wǎng)絡測試的目標多為人工地物,在自然地物的語義類別的自動識別方面還需要進一步測試。其次,本文當前的研究尚未開展實體對象的識別工作,下一步將在語義類別的基礎上開展實體對象的提取研究。