李含倫,張愛武,劉 詔,胡少興,孫衛(wèi)東
(1. 首都師范大學(xué) 三維信息獲取與應(yīng)用教育部重點(diǎn)實(shí)驗室,北京 100048; 2. 北京航空航天大學(xué) 機(jī)械工程與自動化學(xué)院,北京 100191; 3. 清華大學(xué) 電子工程系,北京 100084)
小斑點(diǎn)全波形機(jī)載激光雷達(dá)(LiDAR)與其他類型遙感相比,LiDAR全波形數(shù)據(jù)可以記錄發(fā)射激光脈沖與地物作用形成的后向散射信號的全回波信息,是發(fā)射激光脈沖沿途遇到的所有目標(biāo)回波信號的總和,揭示了地物的幾何和物理屬性,是地物分類的重要依據(jù),并且增加了用于分類的激光數(shù)據(jù)信息,理論上能夠提高地物的分類精度。然而當(dāng)前基于全波形分解的地物分類研究較少,大多數(shù)算法仍然僅依靠激光數(shù)據(jù)的幾何結(jié)構(gòu)信息,如數(shù)學(xué)形態(tài)法、活動等高線法、樣條內(nèi)插法等。數(shù)學(xué)形態(tài)法是借助一個移動窗口,窗口內(nèi)最低點(diǎn)被認(rèn)為是地面點(diǎn)[1-2];活動等高線法和樣條內(nèi)插法的思路是先選出一部分可靠的點(diǎn)形成一個粗劣的面,然后計算其他點(diǎn)與該面的關(guān)系,判定是否是地面點(diǎn),每加入一個點(diǎn),平面改變一次,迭代進(jìn)行直至剩余的點(diǎn)都不滿足判定條件[3-4]。這些方法能夠分出地面點(diǎn),但不能細(xì)分非地面點(diǎn)。喬紀(jì)剛等提出一種利用高度紋理分類的方法,將點(diǎn)云數(shù)據(jù)柵格化,并使用灰度共現(xiàn)矩陣提取圖像的高程紋理,然后使用神經(jīng)網(wǎng)絡(luò)分類[5]。該方法充分利用了城市樓房頂部高程的差別較小,而高大植被的不同部分高程差別較大的特點(diǎn),將地物分離出來。然而,房屋與地面的交界處高程的差別也非常大,這會引起分類誤差。由于不同的紋理都來源于同一幅高程圖像,它們之間的相關(guān)性也需要考慮。也有學(xué)者提出點(diǎn)云與光譜數(shù)據(jù)融合的方法[6-9],將該像元的光譜信息作為點(diǎn)云的新維度進(jìn)行分類。該方法克服了激光點(diǎn)缺少光譜信息的缺點(diǎn),但點(diǎn)云與圖像之間的精確配準(zhǔn)問題依然是個難題。上述方法都沒有深入發(fā)掘LiDAR數(shù)據(jù)所包含的信息。有的僅利用其中一個高程信息;有的則退而求其次,與其他遙感數(shù)據(jù)融合,不但增加了算法復(fù)雜性,而且損失了分類的定位精度。全波形LiDAR數(shù)據(jù)經(jīng)分解后,可以提取振幅、波寬、回波次數(shù)等屬性數(shù)據(jù),并與高程信息結(jié)合,成為地物分類可靠的多源特征信息。本文提出一種基于波形分解的SVM分類方法,該方法充分利用了多源特征信息,提高了分類的精度。
由雷達(dá)方程可知,激光打到的每個地物點(diǎn)返回的回波波形是呈高斯分布的,接收到的能量是由多個高斯函數(shù)疊加而成的,為得到振幅、波寬、回波次數(shù)等參數(shù),需要波形分解方法。
目前最常用的方法是非線性最優(yōu)化算法。它根據(jù)高斯函數(shù)的標(biāo)準(zhǔn)差、波峰對應(yīng)的位置,以及振幅的初值,利用非線性最小二乘法得到初始誤差平方和,之后不斷優(yōu)化初值,當(dāng)目標(biāo)函數(shù)的導(dǎo)數(shù)小于等于容差值或達(dá)到最大迭代次數(shù)時,停止迭代,得到最優(yōu)的結(jié)果。
Levenberg 和 Marquardt采用了阻尼高斯-牛頓法來作優(yōu)化。該方法利用線性模型f在x鄰域線性逼近的性質(zhì)[10],對于一個小的‖h‖,即x的增量,有泰勒展開
f(x+h)≈ξ(h)≡f(x)+Jxh
(1)
(2)
(JTJ+μI)hlm=-g
(3)
式中,g=JTf;μ>0;I為單位矩陣。
(4)
式(4)為判別公式,如果ρ>0,則根據(jù)式(3)求得x的增量,更新待優(yōu)化的參數(shù)值,即x=x+h,然后重新計算新的h,重新判斷ρ,并根據(jù)條件改變μ,不斷地優(yōu)化迭代,最終得到每個目標(biāo)物的振幅和半波寬。
傳統(tǒng)分類技術(shù)在具備大量樣本的情況下,通過最小化訓(xùn)練樣本的分類錯誤來提高預(yù)測樣本的分類精度[11]。由于受現(xiàn)實(shí)條件的限制,研究人員并不能提供充足的訓(xùn)練樣本,且究竟需要多少訓(xùn)練樣本也缺少嚴(yán)格的定義,因此導(dǎo)致在訓(xùn)練樣本較少的情況下,分類精度不高。并且即使提供了充足的分類樣本也容易引起過度擬合,減弱分類器的可推廣性。SVM以最小化結(jié)構(gòu)風(fēng)險為原則,在分類樣本有限的情況下,在模型復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷[12]。因此,SVM傾向于選擇簡單的模型,如二維空間的直線,三維空間的分類平面,多維空間的分類超平面。在線性可分的情況下,選擇最大間隔分類超平面;在線性不可分的情況下,一方面將低維空間映射到高維空間,以增加可分性;另一方面引入松弛變量和懲罰系數(shù),允許部分樣本分類錯誤。與神經(jīng)網(wǎng)絡(luò)相比,分類超平面的構(gòu)建只用到邊界上的訓(xùn)練樣本(支持向量),加快了訓(xùn)練速度;傾向于選擇全局的線性模型避免陷入局部最優(yōu),增加了分類器的可推廣性。
振幅是回波信號的峰值,一般認(rèn)為振幅的大小由目標(biāo)物對激光脈沖的反射系數(shù)決定,而反射系數(shù)的大小取決于脈沖的波長、介質(zhì)材料及介質(zhì)表面的明暗程度。反射介質(zhì)的表面越亮,反射率就越高[13]。
回波的寬度與地物本身的性質(zhì)有關(guān)。絕大部分建筑物與地面激光點(diǎn)的回波寬度分布在一個較狹小的范圍之內(nèi),而植被點(diǎn)的回波寬度相對均勻地分布在一個較寬的范圍內(nèi)。因此,通過一定的方法,使用回波寬度大致可以將植被點(diǎn)從建筑物點(diǎn)和地面點(diǎn)中分離出來。
對于每一條記錄而言,將單個波形分離出來后再按照時間先后順序編號,記錄目標(biāo)物的回波次數(shù)。只有一次回波的激光點(diǎn)大部分是地面點(diǎn)或建筑物頂部[14];具有多次回波的激光點(diǎn)大部分是植被及少數(shù)的建筑物邊緣。因此使用回波次數(shù)可以將高大植被從建筑物或地面中區(qū)分出來。
高程是LiDAR數(shù)據(jù)中較穩(wěn)定的信息,在平原城市地區(qū),僅僅通過高程就能將地面點(diǎn)從地物點(diǎn)中區(qū)分出來。因此本文選擇高程、波寬、回波次數(shù)、振幅4個屬性作為SVM特征空間,具體做法詳見第3節(jié)。
常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)。本文選擇適用性最強(qiáng)的徑向基核函數(shù)。確定了徑向基核函數(shù)后,還需要確定懲罰系數(shù)C及徑向基核函數(shù)內(nèi)部的參數(shù)gamma。本文使用交叉驗證和格網(wǎng)搜索的方法確定C和gamma。交叉驗證的過程是首先將訓(xùn)練樣本隨機(jī)劃分成V個樣本子集,并依次使用其中的V-1個樣本子集訓(xùn)練分類器,然后使用其中一個樣本集驗證分類的精度,直至每個樣本子集都被驗證一次,最終得到較精確的分類精度[15]。格網(wǎng)搜索的過程是首先確定C、gamma的取值范圍,并確定二者的搜索步長,得到m個C和n個gamma,兩個組合將得到m×n組參數(shù),分別計算其精度,選擇最優(yōu)的C、gamma組合[16-17]。
本文采用的LiDAR數(shù)據(jù)是使用RIGEL激光掃描儀獲取的,東西距離1012 m,南北距離708 m,區(qū)域內(nèi)地面高程很小,可忽略不計,地物與地面最大高程差為30 m,總面積為716 496 m2,共5 875 267個激光點(diǎn),點(diǎn)云密度為 8.2個/m2。
1) 本文所描述方法是將LiDAR數(shù)據(jù)轉(zhuǎn)化成多圖層的柵格數(shù)據(jù),然后利用成熟的柵格數(shù)據(jù)分類方法進(jìn)行分類。首先使用RIGEL掃描儀配套的處理軟件將波形分解為波寬、回波次數(shù)、振幅3個屬性,經(jīng)過這種方法處理后,每條記錄包含了X坐標(biāo)、Y坐標(biāo)、高程、波寬、回波次數(shù)、振幅6個屬性;將X坐標(biāo)、Y坐標(biāo)分別與高程、波寬、回波次數(shù)、回波強(qiáng)度結(jié)合生成4個具有3個屬性列的表文件;然后以1 m為分辨率定義1幅708×1012的圖像,使用X坐標(biāo)、Y坐標(biāo)確定每個格網(wǎng)內(nèi)的所有點(diǎn),分別計算4個表文件中落到每一柵格內(nèi)的點(diǎn)的第3列的平均值,將其作為該柵格的值,共生成4幅圖像(如圖1所示),最后將這4幅圖像生成1副含有4個圖層的圖像。
2) SVM分類方法是一種監(jiān)督分類方法,在分類之前應(yīng)先采集訓(xùn)練樣本和驗證樣本,分類時需要使用訓(xùn)練樣本得到分類模型,分類之后需要使用驗證樣本驗證分類精度。本文使用ENVI提供的ROI工具在生成的含有4個圖層的圖像中采集訓(xùn)練樣本和驗證樣本。訓(xùn)練樣本和驗證樣本分布分別如圖2(a)、圖2(b)所示,樣本數(shù)目見表1。
圖2 分類樣本分布和驗證樣本分布
訓(xùn)練樣本驗證樣本房屋33314668植被13741514地面51349997
3) 在使用SVM分類時,需要確定懲罰因子C和核函數(shù)內(nèi)部參數(shù)gamma。目前遙感領(lǐng)域的研究人員大都使用分類軟件默認(rèn)的C和gamma,但軟件默認(rèn)的gamma和C并不一定是最優(yōu)的,造成SVM良好的分類性能不能得到充分發(fā)揮。本文使用臺灣林智仁博士libSVM開源包中的格網(wǎng)搜索工具grid.py。具體做法是先將分類樣本保存成文本文件;然后使用式(5)將所有訓(xùn)練樣本規(guī)定化至(0,1)區(qū)間,并將文本格式的訓(xùn)練樣本轉(zhuǎn)化成grid.py所需格式;最后確定最佳的C為32,gamma為128,如圖3所示,試驗流程如圖4所示。
(5)
式中,z1為z歸一化后的值;z為Z列的某一值;max(Z)為Z列的最大值;min(Z)為Z列的最小值。
圖3 SVM分類器懲罰因子C和gamma的最優(yōu)組合
圖4 試驗流程圖
分類結(jié)果如圖5(a)所示,總分類精度96.248 2%,Kappa值為0.928 1。誤差混淆矩陣見表2,地面分類精度最高,達(dá)98.94%,共有0.23%的地面被誤分成房屋,0.83%的地面被誤分成植被;房屋精度次之,為93.38%,2.19%的房屋被誤分成植被,4.43%的房屋被誤分成地面;植被分類精度最低,為87.32,5.94%的植被被誤分成房屋,6.74%的植被被誤分成地面。由圖5(a)可以發(fā)現(xiàn),大面積植被區(qū)域中有噪聲,這是因為植被對激光的反射特性比地面和房屋對激光的反射特性復(fù)雜。大部分激光束在傳播過程中遇到植物葉片的逐次阻擋,形成一定的波寬、回波次數(shù)、回波強(qiáng)度;少部分激光束在傳播過程中遇到樹干直接返回,這部分波形類似于房屋的波形;另外還有一部分激光束穿過樹葉之間的間隙,直接發(fā)射到地面,這部分激光點(diǎn)的波形與地面的相同。在采樣的過程中,一般直接采集大片的植被區(qū)域。
本文使用同樣的試驗數(shù)據(jù)和樣本進(jìn)行了最大似然法分類和馬氏距離法分類。表3和表4分別是最大似然法和馬氏距離法的誤差混淆矩陣,將表2—表4進(jìn)行對比可以發(fā)現(xiàn),SVM各種類別的錯誤分類程度均小于最大似然法和馬氏距離法的錯誤分類程度。由表5可以看出,SVM分類的總精度和Kappa系數(shù)均高于最大似然法和馬氏距離法,分類精度分別高出1.12%、1.55%,Kappa系數(shù)分別高出0.020 0、0.030 2。SVM分類的各類別的制圖精度和用戶精度都高于馬氏距離法,其中SVM的房屋制圖精度比馬氏距離法高3.34%;除了地面用戶精度和植被制圖精度外,其他4種精度均高于最大似然法,其中SVM分類的植被用戶精度比最大似然高6.26%。
圖5 分類結(jié)果
(%)
注:總分類精度為96.248 2%,Kappa系數(shù)為0.928 1。
表3 最大似然分類誤差混淆矩陣 (%)
注:總分類精度為95.129 5%,Kappa系數(shù)為0.908 1。
表4 馬氏距離分類誤差混淆矩陣 (%)
注:總分類精度為94.696 8%,Kappa系數(shù)為0.897 9。
表5 3種分類方法對比
本文提出一種基于SVM和LiDAR全波形數(shù)據(jù)的分類方法。該方法首先從激光點(diǎn)的全波形數(shù)據(jù)中分出波寬、回波次數(shù)和振幅3個獨(dú)立的屬性,將這3個屬性及點(diǎn)的高程屬性分別與點(diǎn)的位置屬性(點(diǎn)的橫縱坐標(biāo)X、Y)相結(jié)合,生成X、Y、高程,X、Y、波寬,X、Y、回波次數(shù),X、Y、振幅共4個含有3個屬性列的表文件;然后將這4個文件格網(wǎng)化成分辨率為
1 m的圖像,再合成一幅含有4個圖層的圖像,在這幅圖像上采集訓(xùn)練樣本和驗證樣本,使用開源的libSVM中的grid.py工具確定SVM分類器中最優(yōu)的懲罰因子C和gamma;最后進(jìn)行分類和精度驗證。為檢驗這種分類方法的分類性能,本文統(tǒng)計了SVM方法、最大似然方法、馬氏距離法的誤差混淆矩陣和這3個分類方法各類別的制圖精度、用戶精度及總的精度、Kappa系數(shù)。通過對比,可以確定本文提出的方法具有較高的精度。
參考文獻(xiàn):
[1] 賴旭東.機(jī)載激光雷達(dá)基礎(chǔ)原理與應(yīng)用[M]. 北京:電子工業(yè)出版社, 2010 :37-87.
[2] 羅伊萍,姜挺,王鑫,等. 基于數(shù)學(xué)形態(tài)學(xué)的 LiDAR 數(shù)據(jù)濾波新方法[J].測繪通報, 2011(3): 15-19.
[3] 熊娜,程新文. LiDAR數(shù)據(jù)特點(diǎn)及其濾波分類方法[J]. 中國水運(yùn), 2008,8(8): 151-154.
[4] 關(guān)輔興, 李芳偉.LiDAR數(shù)據(jù)特點(diǎn)與分類算法探討[J]. 測繪與空間地理信息, 2009, 32(3): 81-82.
[5] 劉文, 周興華, 王振宇.機(jī)載激光系統(tǒng)的數(shù)據(jù)分類方法及其質(zhì)量評估[J]. 海岸工程, 2008, 27(2): 32-39.
[6] 喬紀(jì)剛,劉小平,張亦漢.基于LiDAR高度紋理和神經(jīng)網(wǎng)絡(luò)的地物分類[J]. 遙感學(xué)報, 2011, 15(3): 546-553.
[7] 楊耘, 隋立春.面向?qū)ο蟮腖iDAR數(shù)據(jù)多特征融合分類[J]. 測繪通報, 2010(8): 11-15.
[8] 管海燕,鄧非,張建清,等. 面向?qū)ο蟮暮娇沼跋衽cLiDAR數(shù)據(jù)融合分類[J]. 武漢大學(xué)學(xué)報:信息科學(xué)版, 2009,34(7): 830-833.
[9] 龔亮,李正國,包全福.融合航空影像的LiDAR地物點(diǎn)云分類[J]. 測繪工程, 2012, 21(1) : 34-39.
[10] MADSEN K, NIELSEN H B, TINGLEFF O. Methods for Non-linear Least Squares Problems[M]. Denmark: Informatics and Mathematical Modelling Technical University of Denmark, 2004 : 1-57.
[11] 楊應(yīng),蘇國中,周梅.影像分類信息支持的LiDAR點(diǎn)云數(shù)據(jù)濾波方法研究[J]. 武漢大學(xué)學(xué)報:信息科學(xué)版, 2010, 35(12): 1353-1458.
[12] 張錚,王艷平,薛桂香.數(shù)字圖像處理與機(jī)器視覺[M]. 北京:人民郵電出版社,2011: 511-521.
[13] 徐光彩.機(jī)載LiDAR波形數(shù)據(jù)處理及分類研究[D]. 南京:南京林業(yè)大學(xué),2010: 30-31.
[14] 曾齊紅.機(jī)載激光雷達(dá)點(diǎn)云數(shù)據(jù)處理與建筑物三維重建[D]. 上海:上海大學(xué), 2009: 54-57.
[15] Vladimir N V. The Nature of Statistical Learning Theory[M].[S.l. ]:Springer-Verlag, 1999.
[16] HSU C W. CHANG C C, LIN C J. A Practical Guide to Support Vector Classification[R]. Taiwan:University of National Taiwan, 2003: 1-12.
[17] 付陽,李昆侖.支持向量機(jī)模型參數(shù)選擇方法綜述[J]. 電腦知識與技術(shù),2010, 6(28): 8081-8085.