劉亞文,張 穎
武漢大學(xué)遙感信息工程學(xué)院,湖北武漢430079
移動車載掃描系統(tǒng)能夠?qū)崿F(xiàn)城市街景點云數(shù)據(jù)的快速采集,而對大量、無序的點云數(shù)據(jù)進行聚類是準確分析、解譯場景目標(biāo)的前提.
點云聚類方法的原理是依據(jù)數(shù)據(jù)點的相似性對點云進行分割,從而形成不同的簇,常用的方法有基于點或基于體素的方法.基于點方法的聚類精度會受到點云數(shù)據(jù)質(zhì)量的影響,基于體素方法的聚類精度則會受到點云數(shù)據(jù)體素離散化分辨率的影響.點云聚類的約束逐漸從局部范圍優(yōu)化轉(zhuǎn)向全局優(yōu)化,如條件隨機模型(conditional random field, CRF)及圖割[1]等全局優(yōu)化模型已經(jīng)用于點云數(shù)據(jù)聚類.在基于圖模型的全局優(yōu)化算法中,邊的權(quán)值描述了節(jié)點間的相關(guān)性.現(xiàn)有的算法多用點間距離來定義邊的權(quán)值,而對于點間蘊含的空間和屬性關(guān)聯(lián)則考慮不足,因此容易造成聚類結(jié)果出現(xiàn)過分割的現(xiàn)象.針對上述問題,本文提出一種新的基于上下文特征和圖割算法的車載點云聚類方法,目的在于改善過分割現(xiàn)象,提高點云數(shù)據(jù)聚類精度.
傳統(tǒng)點云聚類方法分為基于劃分的聚類方法(如K-means 算法)、基于層次的聚類方法(如AGNES(AGglomerative NESting)和DIANA(divisive analysis)算法)、基于密度的聚類方法(如DBSCAN(density-based spatial clustering of applications with noise)算法)、基于模型的聚類方法(如COBWEB 算法)和基于智能計算的聚類方法(如SOM(self organizing maps)[2]).一些研究對傳統(tǒng)方法進行了改善,如文獻[3]提出了自適應(yīng)種子點計算的區(qū)域生長點云分割方法,不僅有效降低了噪聲對算法的影響,而且增加了算法的適應(yīng)性.文獻[4]將DBSCAN 聚簇擴展策略改為核心點密度可達策略,解決了當(dāng)兩個物體邊界相鄰很近時DBSCAN 聚簇容易出現(xiàn)錯誤的問題.文獻[5]采用啟發(fā)式算法實現(xiàn)點云數(shù)據(jù)的分割,分割過程中不需要初始化種子點,且分割結(jié)果的分辨率是自適應(yīng)的,從而更好地保持點云數(shù)據(jù)中物體的邊界.總體上來說,上述方法通常是根據(jù)單點的屬性進行聚簇,而未考慮聚類過程中點云數(shù)據(jù)間的關(guān)聯(lián),因此聚類結(jié)果會出現(xiàn)屬性相關(guān)的點云數(shù)據(jù)在空間域聚為不同簇的情況.為了解決空間域和屬性域雙聚類問題,交互聚簇分類(interlaced clustering classification, ICC)[6]、分布式空間信息數(shù)據(jù)庫雙重聚類算法(dual clustering algorithm for distributed spatial databases,DCAD)[7]和基于雙重距離的空間聚類(dual distance based spatial clustering, DDBSC)[8]等算法在空間分割點云數(shù)據(jù)的同時,遵循數(shù)據(jù)屬性最大相似性原則,兼顧了點云數(shù)據(jù)的空間分布和屬性鄰近性,得到了較好的聚類結(jié)果.
為了提高點云聚類算法的抗噪能力,一些聚類算法對點云數(shù)據(jù)進行離散化,用體素作為點云數(shù)據(jù)的最小單元,或者先對點云數(shù)據(jù)進行過分割以形成超體素,再用聚類算法進行合并聚類.如文獻[9]將點云數(shù)據(jù)體素化,兩個體素的連結(jié)性則通過建模及周圍鄰域評估的概率決定,相連的體素形成幾何相鄰的點簇.文獻[10]首先將點云分割成超體素,然后依據(jù)顏色和距離約束的層次聚類方法進一步合并超體素,得到最后的聚簇.文獻[11]首先在體素空間進行超體素聚類的過分割,然后通過規(guī)則判斷邊的凹凸性,用區(qū)域生長法聚類出局部凸連接邊的子圖從而構(gòu)成不同的簇.
最近一些研究將點云聚類視為圖模型構(gòu)建與分割問題,圖模型能很好地組織點云數(shù)據(jù),且能表達點云數(shù)據(jù)間的關(guān)聯(lián)性,在很大程度上提高了點云聚類結(jié)果的可靠性,但對于大數(shù)據(jù)量的點構(gòu)成的圖模型,優(yōu)化模型的計算量巨大.一些算法以體素[12-15]為圖模型的節(jié)點,一方面可以極大地減少圖模型優(yōu)化的時間,另一方面可以減弱數(shù)據(jù)點中噪聲、異常值及點密度不均勻?qū)垲惥鹊挠绊?文獻[12]首先根據(jù)體素的顯著性和知覺分組規(guī)則得到體素間的幾何線索,從而為體素構(gòu)成圖模型的邊賦權(quán)值,然后利用圖割算法得到點云數(shù)據(jù)的聚類結(jié)果.文獻[13]用正態(tài)分布變換特征表示(normal distribution transform feature representation, NDT-FR)來描述每個體素的位置、表面法向量及顏色特征分布;體素鄰域的邊權(quán)值用Heellinger 距離來定義,采用Felzenwalb 分割器分割體素構(gòu)成的圖模型,完成體素的聚類.文獻[14]則利用高階隨機場模型聚類不同點簇的輪廓線圖,然后由圖邊和它們鄰域關(guān)系定義的高階條件隨機場模型(higher-order CRF)推斷最優(yōu)的輪廓線,實現(xiàn)點云數(shù)據(jù)聚簇.文獻[15]在點云體素化基礎(chǔ)上,結(jié)合點嵌入網(wǎng)絡(luò)和圖結(jié)構(gòu)損失函數(shù)進行點云分割,該算法在邊界召回率、準確性和正確率方面的表現(xiàn)優(yōu)于大多數(shù)現(xiàn)有算法.
本文在上述研究的基礎(chǔ)上,提出結(jié)合超體素上下文特征和圖割算法進行車載點云聚類的方法.該方法的主要特點有:1)點云聚類不是基于單個點,而是基于超體素.超體素能更好地體現(xiàn)點云數(shù)據(jù)蘊含的地物特征,減少點云數(shù)據(jù)質(zhì)量對聚簇特征描述的影響,提高了點云聚類的精度;2)在聚類過程中,充分考慮數(shù)據(jù)屬性、空間分布及關(guān)聯(lián),且聚簇結(jié)果為全局條件下的圖割多標(biāo)記優(yōu)化解.實驗結(jié)果顯示,該方法不僅保證了聚類結(jié)果的精度,而且大大改善了過分割現(xiàn)象.
本文的算法包括3 個主要步驟:1)DBSCAN 分割點云形成超體素;2)超體素間上下文關(guān)聯(lián)特征計算;3)基于多標(biāo)記的圖割聚簇.在步驟1)中,點云數(shù)據(jù)根據(jù)空間密度相連性分割成不同的連接區(qū)域,每個連接區(qū)域稱為超體素.在步驟2)中,首先確定超體素間的上下文關(guān)聯(lián)特征,這些特征描述了超體素在方向、距離及拓撲等方面空間關(guān)聯(lián)及在維度和形狀等方面的屬性關(guān)聯(lián);其次確定超體素的上下文關(guān)聯(lián)特征值,這些值將在后續(xù)超體素構(gòu)成的圖模型分割能量函數(shù)中,賦值數(shù)據(jù)項和平滑項.步驟3)則通過圖割算法獲取超體素最佳標(biāo)注配置,即得到最佳點云數(shù)據(jù)聚簇結(jié)果.計算過程如圖1所示.
在利用DBSCAN 算法分割點云數(shù)據(jù)之前,需要先對數(shù)據(jù)進行預(yù)處理,去除噪聲點和地面數(shù)據(jù).點云數(shù)據(jù)中的噪聲點主要為孤立點及產(chǎn)生突變的局部點,這些點通常與周圍點的位置差異大,且鄰域點密度稀疏,因此本文采用點鄰域密度進行判斷并剔除噪聲點.另外本文的目的是從街景點云數(shù)據(jù)中分割出主體景觀,因此需要去除地面點,該過程基于坡度變化濾波方法,即對于任一點,如果該點與其鄰域中的任何點之間的連線斜率的最大值小于給定的斜率閾值,則該點被認為是地面點,反之,為非地面點.
DBSCAN 是密度聚類中有代表性的算法之一,該方法由核心對象和所有密度可達對象共同構(gòu)成一個聚簇,能夠檢測出空間集合中任意形狀的聚簇,特別適合于車載點云這樣含有噪聲或者空間密度分布不均勻數(shù)據(jù)的聚類.該算法無需事先確定聚類數(shù),但鄰域半徑和最小樣本數(shù)的取值不同,點云數(shù)據(jù)聚類的結(jié)果就會不同[16-18].
本文根據(jù)車載街景點云數(shù)據(jù)的特點對DBSCAN算法[19]進行了改進,依據(jù)點云分布密度對數(shù)據(jù)進行分區(qū),不同分區(qū)采用不同最小樣本數(shù)進行聚類.對點云密度較大區(qū)域,進行大樣本數(shù)分割;對點云密度較小的區(qū)域,進行小樣本數(shù)分割.在DBSCAN 算法中,最耗時的環(huán)節(jié)是通過迭代進行鄰域空間搜索,本文采用kd-tree 作為空間索引,可以大大提高鄰域搜索的效率.具體過程如下:首先分析車載點云數(shù)據(jù)在不同高程區(qū)間的密度變化特點,設(shè)定搜索范圍的鄰域半徑Eps 值以及相應(yīng)的最小樣本數(shù)MinPts 值;其次建立kd-tree 空間索引,用于查找待處理數(shù)據(jù)點Eps 鄰域數(shù)據(jù)及其所在高程區(qū)間對應(yīng)的最小樣本數(shù)MinPts;最后在Eps 范圍內(nèi)判斷該數(shù)據(jù)點密度值是否滿足增長條件,如果滿足則進行增長,直到所有點均被標(biāo)記即完成分割.分割后得到密度相連的不規(guī)則點簇,這些點簇為超體素,是本文聚類算法的基礎(chǔ)數(shù)據(jù)單元.
對于城市街景地物,同種地物具有相同的特征,且在空間上滿足如水平或垂直分布等幾何約束.當(dāng)街景點云數(shù)據(jù)中的地物被過分割后,得到的多個超體素依然滿足其所屬地物的屬性和空間分布.超體素的上下文關(guān)聯(lián)[20]包括空間關(guān)聯(lián)和屬性關(guān)聯(lián).
1.2.1 空間關(guān)聯(lián)
兩個超體素vi和vj之間的空間關(guān)聯(lián)可以用它們之間的方向關(guān)系、距離關(guān)系和拓撲關(guān)系來描述(相接和相交),如圖2所示.
超體素的空間位置vi(Xi,Yi,Zi)由超體素中所有點的三維坐標(biāo)均值表示.對于2 個超體素vi和vj的空間關(guān)聯(lián)包括以下部分:
1)方向關(guān)系
超體素的方向關(guān)系用2 個超體素空間位置連線在水平面(O-XY)和豎直面(O-XZ)投影與X軸的夾角θh和θz公式表示為
其水平方向關(guān)聯(lián)度vθh和豎直方向關(guān)聯(lián)度vθz公式分別為
式中,Th.θ和Tz.θ分別為水平方向角和豎直方向角的閾值.
2)距離關(guān)系
超體素的距離關(guān)系用2 個超體素平面距離Dij和高差Hij表示,公式為
平面距離關(guān)聯(lián)度vD和高差關(guān)聯(lián)度vH的公式為
式中,TD為水平距離閾值,TH為高差閾值.
3)拓撲關(guān)系
超體素在空間對應(yīng)一個長方體包圍盒,超體素的拓撲關(guān)系用2個超體素對應(yīng)的長方體包圍盒在空間相交和相接來表示,如圖2(c)所示.拓撲關(guān)聯(lián)度公式為
式中,l、w、h分別為超體素包圍盒的長、寬、高.當(dāng)2 個超體素在X、Y、Z這3 個方向上的坐標(biāo)范圍均有重合時超體素vi和vj相交.若2 個超體素在X、Y、Z中2 個方向坐標(biāo)范圍有重合且第3 個方向坐標(biāo)相接,則超體素vi和vj相接.
1.2.2 屬性關(guān)聯(lián)
超體素的屬性關(guān)聯(lián)可以用2 個超體素的維數(shù)和形狀相似性來表示.對于空間任一點,利用主成分分析(principal component analysis, PCA)算法計算其對應(yīng)的維數(shù),分別用一維、二維及三維點描述空間點的線性、平面性及點狀屬性.λ1D、λ2D和λ3D分別為超體素內(nèi)一維、二維及三維點數(shù)目所占的比例,用來表示超體素的維數(shù)信息.屬于同類地物的超體素,其維數(shù)信息具有相關(guān)性.維數(shù)關(guān)聯(lián)度公式為
式中,c1為vi和vj超體素維數(shù)信息的相似程度比較函數(shù).本文采用差絕對值函數(shù),當(dāng)2 個超體素的3 個維數(shù)值差異性在閾值Tλ之內(nèi),則兩個超體素維數(shù)關(guān)聯(lián).
超體素形狀的相似性用長方體包圍盒邊長比來表示,分別為S1=h/l、S2=h/w及S3=l/w,相應(yīng)的形狀關(guān)聯(lián)度為
式中,c2為vi和vj超體素形狀關(guān)聯(lián)度的比較函數(shù),本文采用差絕對值函數(shù).若2 個超體素形狀相似性差異在閾值Ts之內(nèi),則2 個超體素形狀關(guān)聯(lián).
圖割算法是一種基于最大流最小割理論,求解全局馬爾可夫隨機場(Markov random field, MRF)能量最優(yōu)的算法.如果將超體素作為圖模型的節(jié)點,其連線作為圖模型的邊,則可以構(gòu)成超體素分割的MRF[21].在MRF模型中,超體素分割可以看作是一個多標(biāo)記問題,如圖3所示,其中,fi(i=1,2,···,n)為標(biāo)記端點.
圖3 基于圖割的多標(biāo)記Figure 3 Multi-label based on graph cut
在圖3(a)中,圖模型的節(jié)點包括超體素和標(biāo)記端點,超體素p用正方體表示,標(biāo)記端點用f1,f2,···,fn表示;圖模型的邊包括超體素與鄰域超體素間的連線n-link 及超體素與標(biāo)記端點間的連線t-link.對于任意超體素p,分配有限集合L中一個標(biāo)簽fp,分割的目標(biāo)就是尋找最優(yōu)的標(biāo)簽配置f,使其不僅要保證分塊平滑,而且還要與被觀測數(shù)據(jù)保持一致.在計算機視覺領(lǐng)域中,尋找最優(yōu)的標(biāo)簽配置f的問題可以表達為能量最小化問題,按照式(8)構(gòu)建一個多標(biāo)記能量函數(shù)[22-23].
式中,Edata(f)和Esmooth(f)分別代表數(shù)據(jù)項和平滑項.本文中的數(shù)據(jù)項為
式中,a和b為懲罰值,k為超體素的數(shù)目.在本文算法中,每個超體素的初始狀態(tài)不同,各有一個不同的標(biāo)簽.當(dāng)2 個超體素屬性關(guān)聯(lián)越大時,意味著數(shù)據(jù)和標(biāo)簽的不一致性越大,數(shù)據(jù)項懲罰越大,否則懲罰越小.
平滑項Esmooth(f)的選擇至關(guān)重要,本文平滑項表示為
式中,N為鄰域系統(tǒng),c為懲罰值.當(dāng)鄰域內(nèi)超體素的方向關(guān)聯(lián)、距離關(guān)聯(lián)和拓撲關(guān)聯(lián)度很大時,若標(biāo)記差異越大則懲罰Vp,q越大;否則,若標(biāo)記差異越小則懲罰Vp,q就越小.
本文采用文獻[22-23]提出的α-expansion 近似最小化能量E(f)算法,得到多標(biāo)記全局最優(yōu)解,即最佳標(biāo)簽配置f.
為了驗證模型的有效性,選用車載移動測量系統(tǒng)采集的城市街區(qū)點云數(shù)據(jù)為實驗數(shù)據(jù)進行實驗.該車載移動測量系統(tǒng)的激光掃描儀為Rigel vux-1,掃描分辨率為0.01?.實驗數(shù)據(jù)如圖4(a)所示,點數(shù)為2 180 726,主要包含建筑物、電力線、電線桿、樹木等景觀.
數(shù)據(jù)預(yù)處理[19]去除噪聲點時搜索半徑為1 m,點密度閾值為5;進行地面點濾波時搜索半徑為10 m,傾斜度閾值為10?.實驗結(jié)果如圖4(b)所示,數(shù)據(jù)中散亂的噪聲點和地面點均已被去除.
圖4 點云數(shù)據(jù)及預(yù)處理Figure 4 Point cloud data and preprocessing result
利用改進的DBSCAN 方法進行分割時,搜索鄰域半徑Eps 為0.6 m,不同距離范圍的最小樣本數(shù)目MinPts[19]見表1.
表1 不同距離范圍對應(yīng)的最小樣本數(shù)目Table 1 Minimum sample number corresponding to different distance ranges
點云數(shù)據(jù)分割結(jié)果如圖5(a)所示,超體素為1 509 個,少量的混合超體素出現(xiàn)在樹木、電線桿和電力線緊密相交處;5(b)為局部細節(jié)圖;在圖5(c)中,A所示為在電線桿和電力線混合超體素,B所示為樹木和電力線混合超體素,不同顏色代表不同超體素[19].
圖5 改進的DBSCAN分割結(jié)果Figure 5 Segmentation results of improved DBSCAN
超體素構(gòu)成圖模型,超體素間的屬性關(guān)聯(lián)和空間關(guān)聯(lián)閾值參數(shù)見表2,圖割算法中各參數(shù)為:數(shù)據(jù)項參數(shù)a=2,b=10;平滑項參數(shù)c=2;重復(fù)迭代2 次.
表2 上下文關(guān)聯(lián)閾值Table 2 Context correlation threshold
分割后聚簇數(shù)為226,如圖6(a)所示,不同顏色代表不同簇.相對圖5(a),建筑物、樹木、電力線和電線桿等地物的超體素均有不同程度的合并,建筑物和樹木的超體素聚簇效果更為明顯.對比圖6(b)和5(b),7 個樹冠中的6 個具有同一標(biāo)記,3 個電線桿的超體素也相應(yīng)合并成數(shù)目較少的簇.由上述分析可以看出,基于圖割的聚簇算法極大地減少了過分割現(xiàn)象.
本文采用常用的F_measure 分類評價法對聚類結(jié)果進行評價,類i的F_measure 定義為
式中,P=Nij/Nj,R=Nij/Ni,其中Nij是在聚類j中類i的數(shù)目,Nj是聚類j中所有對象的數(shù)目,Ni是類i中所有對象的數(shù)目.在計算時并不需要知道類i的具體類別.
圖6 圖割聚簇結(jié)果Figure 6 Clustering results of graph cut
本文以實驗數(shù)據(jù)中4 類主要地物(建筑物、電線桿、樹木、電力線)來統(tǒng)計算法聚簇的F_measure,結(jié)果見表3.顯然4 類地物的聚類精度F_measure 均在90%以上.
表3 本文算法聚簇的F_measureTable 3 F_measure of the clustering algorithm in this paper
選擇了2 種聚類方法與本文方法進行聚簇數(shù)目及精度的對比.對比方法分別是以體素為數(shù)據(jù)單元的LCCP(locally convex connected patches)法[11],及以超體素為數(shù)據(jù)單元的區(qū)域生長(region growing, RG)法.采用2 組實驗數(shù)據(jù),如圖7所示.實驗數(shù)據(jù)1 的點數(shù)量為374 879,其中電力線、電線桿和樹木點云有部分重疊區(qū)域.實驗數(shù)據(jù)2 的點數(shù)量為502 979,主要地物為建筑物、樹木、街燈和電力線,其中街燈和樹木點云有部分重疊區(qū)域.與實驗數(shù)據(jù)1 相比,實驗數(shù)據(jù)2 的分辨率要低.圖8和9 給出了數(shù)據(jù)1 和2 的對比實驗結(jié)果,不同顏色表示不同的簇.分別利用實驗數(shù)據(jù)1 和2 并使用不同的方法所得到的聚簇數(shù)目對比結(jié)果如表4和5 所示.
圖7 對比實驗數(shù)據(jù)Figure 7 Comparing experimental data
圖8 對比實驗數(shù)據(jù)1 的結(jié)果Figure 8 Results of comparing experimental 1
圖9 對比實驗數(shù)據(jù)2 的結(jié)果Figure 9 Results of comparing experimental data2
表4 對實驗數(shù)據(jù)1 使用不同方法所得聚簇數(shù)目對比Table 4 Cluster number comparison of different methods for experimental data1
表5 對實驗數(shù)據(jù)2 使用不同方法所得聚簇數(shù)目對比Table 5 Cluster number comparison of different methods for experimental data2
本文方法和區(qū)域生長法在改進DBSCAN 的過分割基礎(chǔ)上進一步合并相似的超體素,因此,地物的聚簇數(shù)目較改進DBSCAN 方法都得到了不同程度的減少.其中,地物在改進DBSCAN 算法中的簇數(shù)越多,聚簇數(shù)目減少幅度越大,如實驗數(shù)據(jù)中的電力線.在地物分布零散的情況下,本文方法的聚簇數(shù)目較區(qū)域生長法和LCCP 算法有更好的表現(xiàn),如實驗數(shù)據(jù)中的樹木,在2 組對比實驗中分別減少到4 個和26 個.
根據(jù)以上分析可以看出,由于考慮了點云數(shù)據(jù)間上下文關(guān)聯(lián),且本質(zhì)上為全局優(yōu)化條件下的點云聚簇,因此本文算法相對局部優(yōu)化的區(qū)域生長和LCCP 算法,大大減少了過分割現(xiàn)象.
表6和7 分別為實驗數(shù)據(jù)1 和2 的不同方法聚簇精度F_measure 對比.
表6 對數(shù)據(jù)1 使用不同方法所得聚簇F_measure 對比Table 6 F_measure comparison of different methods for data 1
表7 對數(shù)據(jù)2 使用不同方法所得聚簇F_measure 對比Table 7 F_measure comparison of different methods for data 2
從表6和7 中可以看出,對于地物空間分布獨立,不同算法的聚簇精度整體都較高,例如數(shù)據(jù)1 中的建筑物,數(shù)據(jù)2 中的建筑物、電力線和樹木.而不同地物存在相互交錯時,聚簇容易產(chǎn)生錯分現(xiàn)象,導(dǎo)致不同方法聚簇精度降低,如數(shù)據(jù)1 中的電力線(與樹木及電線桿點云有交錯)和數(shù)據(jù)2 中的電線桿(與樹木點云有交錯),但在這種情況下,本文方法的聚簇精度要優(yōu)于LCCP 和區(qū)域生長法.
本文提出一種結(jié)合上下文特征及圖割算法的車載點云聚類方法,該算法不需要先驗知識,以密度可達的超體素為節(jié)點構(gòu)成圖模型,以超體素間的空間和屬性上下文關(guān)聯(lián)定義圖模型邊的權(quán)值,采用圖割優(yōu)化算法獲取超體素的最佳聚簇.實驗結(jié)果表明,該方法能夠有效減少點云聚簇過分割現(xiàn)象,尤其在地物分散的情況下,過分割問題得到明顯改善.由于聚簇是在超體素基礎(chǔ)上的重標(biāo)記,計算花費的時間較基于點的聚簇明顯減少,大大提高了算法效率.同時,相對于基于點和體素的聚類方法,超體素的抗噪及圖割的全局優(yōu)化保證了本文方法的精度處于領(lǐng)先地位.
本文方法仍有待進一步完善,特別是超體素上下文關(guān)聯(lián)中的閾值及圖割算法中懲罰值的確定,目前是根據(jù)經(jīng)驗和反復(fù)實驗確定合適的閾值,下一步將研究如何自適應(yīng)確定這些閾值,以增強算法的穩(wěn)健性.