宿殿鵬,黃昱,陽凡林,2,趙荻能,楊安秀,2,劉驕陽
1.山東科技大學(xué) 測繪與空間信息學(xué)院,青島 266590;2.自然資源部海洋測繪重點實驗室,青島 266590;3.自然資源部第二海洋研究所 自然資源部海底科學(xué)重點實驗室,杭州 310012
海底底質(zhì)類型是重要的海洋環(huán)境參數(shù)(趙玉新和趙廷,2020),是進行海底科學(xué)研究的基礎(chǔ)。隨著海洋牧場建設(shè)、海洋環(huán)境監(jiān)測、海洋工程應(yīng)用及海底資源調(diào)查等領(lǐng)域發(fā)展,亟需海底底質(zhì)分類為其提供數(shù)據(jù)基礎(chǔ)。因此,探求合理、有效的海底底質(zhì)分類方法對于海上環(huán)境保護活動和海洋學(xué)科建設(shè)等方面具有重要的實際應(yīng)用價值。
目前,海底底質(zhì)分類方法大體可分為實地取樣觀測和聲光遙感探測兩類(劉永明 等,2017)。其中,傳統(tǒng)的實地取樣方法精度高,但效率低、成本高,因此該方法難以實現(xiàn)大范圍高密度的海底底質(zhì)取樣(徐超,2014)。相對于取樣方法,海底底質(zhì)遙感手段具有更高探測效率,且主要分為聲學(xué)遙感與光學(xué)遙感兩種方式。
聲學(xué)遙感方面,側(cè)掃聲吶作為高分辨率的水下聲學(xué)成像設(shè)備,能夠快速獲得大范圍、高分辨率的海底聲學(xué)圖像,在海洋湖泊等水下目標探測中應(yīng)用廣泛(Ge 等,2021)。陳佳兵等(2017)基于珠江口側(cè)掃聲吶圖像數(shù)據(jù),采用灰度直方圖和灰度共生矩陣方法提取特征向量,采用PSO-BP 方法,實現(xiàn)了對砂、礁石和泥3 類底質(zhì)樣本的分類,其分類精度達到90%。然而利用聲吶圖像僅提取了紋理特征,分類特征空間考慮不夠全面,進而影響分類精度,需要結(jié)合其他的特征提取方法提高底質(zhì)分類的適用性。另外,多波束探測作為聲學(xué)海洋遙感的重要技術(shù)之一,也經(jīng)常用于海底底質(zhì)分類(陽凡林 等,2021)。唐秋華等(2014)基于多波束反向散射強度數(shù)據(jù),運用改進的學(xué)習向量量化神經(jīng)網(wǎng)絡(luò),實現(xiàn)對海底粉砂質(zhì)砂、黏土質(zhì)砂以及砂—粉砂—黏土3種底質(zhì)類型的快速自動分類識別,相比改進前分類精度有所提升。然而船只在淺水區(qū)域易發(fā)生觸礁、擱淺等危險,其系統(tǒng)應(yīng)用受到一定限制(劉焱雄 等,2017)。
海洋光學(xué)遙感方面,Ayustina 等(2018)運用Landsat 8 獲取的影像和實地數(shù)據(jù)實現(xiàn)對淺海區(qū)域碎石、海草混合沙、珊瑚礁混合碎石、碎石混合死珊瑚、沙混合碎石和沙混合海草的分類,OA 分類精度為80%,分類精度相對較低。機載LiDAR 測深A(yù)LB(Airborne LiDAR Bathymetry)是一種主動式的海洋探測技術(shù),在淺水區(qū)域具有測量精度高、測量效率高、機動性高、測量連續(xù)性等優(yōu)點(劉焱雄 等,2017)。Velasco 等(2014)基于輻射傳輸模型矯正機載LiDAR 測深強度信息并生成強度圖像,利用K-means 方法對強度圖像進行無監(jiān)督分類,與驗證數(shù)據(jù)相比分類效果較好,但分類精度受限于單一強度特征數(shù)據(jù)。針對該問題,Eren等(2018)基于機載LiDAR 測深數(shù)據(jù)提取了11 維波形特征,并利用SVM 監(jiān)督分類器進行分類,結(jié)果顯示沙子和巖石分類的總體分類精度為96%,細砂和粗砂分類的總體分類精度僅為86%,說明僅利用波形特征進行分類還不夠全面。為了更全面的利用特征信息,Su 等(2019)對分類特征空間做了進一步擴展,利用機載LiDAR 測深系統(tǒng)波形特征和地形特征數(shù)據(jù)建立特征向量,并將其輸入到支持向量機中,將底質(zhì)分為珊瑚礁和其他兩類,OA 精度達到了93.57%。綜上所述,多維特征向量往往包含更多特征信息,其分類精度要比單一特征的分類精度高,但特征冗余也會影響分類效果,因此分類之前進行特征優(yōu)選就顯得尤為重要(戴莫凡 等,2022)。
高維特征信息不僅會增加模型構(gòu)建的復(fù)雜度,還會降低機器學(xué)習算法的性能,造成“維數(shù)災(zāi)難”和“過擬合”問題(陳科,2021;喬紀綱 等,2011)。特征優(yōu)選可移除冗余的干擾特征,有效降低高維數(shù)據(jù)的維數(shù),從而提高分類的準確度。臧卓等(2014)利用PCA 算法對喬木樹種的高光譜數(shù)據(jù)進行降維與分類,實驗結(jié)果表明,適宜的主成分個數(shù)可獲得較高的分類精度,然而無監(jiān)督PCA 投影原則使得不同類別的數(shù)據(jù)混合在一起難以區(qū)分。為找到數(shù)據(jù)中具有判別性的維度,不同類別盡可能區(qū)分開,楊明莉等(2020)利用線性判別分析法對高光譜數(shù)據(jù)降維處理,相比特征降維前分類精度有所提高,然而線性判別分析法不適合對非高斯分布樣本進行降維且線性判別分析法最多降維到比類別數(shù)少1的維數(shù)。因此,找到合適的特征選擇方法至關(guān)重要。
針對海底底質(zhì)分類中存在的特征冗余問題,提出了一種顧及波形和地形特征優(yōu)選的機載LiDAR海底底質(zhì)分類方法。通過提取9 類波形特征變量(偏態(tài)、峰度、反向散射截面系數(shù)、殘差振幅、殘差波寬等)和9類地形特征變量(粗糙度、高斯曲率、高程熵、變異系數(shù)、凹凸系數(shù)等);基于Relief-F方法構(gòu)建特征優(yōu)選模型,設(shè)置貢獻率閾值,精簡18 類特征中貢獻率低于閾值的特征;最后利用SVM、隨機森林、BP 神經(jīng)網(wǎng)絡(luò)分類器,將底質(zhì)劃分為珊瑚礁、礫石、砂、植被和海岸帶5類,并對分類結(jié)果進行精度評定與分析。
波形數(shù)據(jù)預(yù)處理主要包括波形去噪和波形擬合兩部分。數(shù)據(jù)預(yù)處理旨在于更完整和精確地提出波形回波信號各個組分的詳細信息(Lai 和Zheng,2015)。
(1)波形去噪。ALB 系統(tǒng)接收的回波信號是海面回波信號、水體后向散射信號、海底回波信號、背景噪聲等回波信號在時間軸上能量的疊加(Abdallah等,2012)。實測波形回波信號各個組分如圖1所示。公式如下:
式中,PT(t)為ALB 系統(tǒng)接收的總回波信號,PS(t)為海面回波信號,Pc(t)為水體散射信號,Pb(t)為海底回波信號,PBG(t)為背景噪聲,PR(t)為傳感器內(nèi)部噪聲,t為時間。因此,需要在特征提取前對含噪波形信號進行去噪處理,本文利用小波自適應(yīng)閾值去噪方法進行ALB波形去噪。
(2)波形擬合。波形擬合是機載LiDAR 測深數(shù)據(jù)處理的重要環(huán)節(jié),是有效提取波形特征的前提。本文基于分層異構(gòu)算法分別對水面、水體、水底波形進行分解(亓超 等,2021,2019)。
(1)波形特征提取。本文基于2.1 節(jié)波形擬合結(jié)果進行9 類波形特征的提取,其示意圖如圖2所示。
圖2 波形特征變量分布圖Fig.2 Schematic illustration of sea bottom waveform variables
1)振幅(Peak amplitude):回波能量的最大值,表示回波強度(Lee 等,2001)。如圖2(a)所示,波形最高處的能量值。
2)波寬(Pulse width):回波波形的平展距離。如圖2(a)所示。
3)半幅波寬(Full width at half maximum):如圖2(a)所示,回波能量為振幅的一半時所對應(yīng)的波寬(Hou 等,2019)。
式中,GSE為高斯擬合時波形的標準偏差。
4)波形面積(Area):海底波形響應(yīng)過程中激光脈沖能量的積累。當回波高度為振幅高度的20%時,兩者之間對應(yīng)的面積S,如圖2(a)所示。
式中,Si為第i段回波波形對應(yīng)的采樣面積。
5)偏態(tài)(Skewness):對回波能量分布的偏移程度,如圖2(b)所示。用式(4)來計算回波能量的分布趨勢對稱性的量度(Joanes和Gill,1998)。
式中,Pi為回波波形采樣點的能量,為波形采樣點處回波能量的平均值,n為采樣點個數(shù)。
6)峰度(Kurtosis):表示回波波峰的尖銳程度,如圖2(b)所示。由下式可計算出(Matsatsinis和Samaras,2000):
7)反向散射截面系數(shù)(Backscatter crosssection):如圖2(c)所示,反映出海底水波和回波信號之間的有效碰撞面積(Alexander等,2010)。
式中,Ccal為校準常數(shù),,R為激光發(fā)射器中心到海底的距離,βt為激光束發(fā)射角,P為振幅,W為脈寬,ρ為海底發(fā)射率。
8)殘差振幅(Residual amplitude):是殘差信號的振幅值。在75%峰值強度點處用于平均斜率擬合,所形成的多余線性回歸與底部收益之間的面積作為殘差信號,交點處的振幅值與底部收益點處的振幅值之差就是殘差振幅(Li 等,2012),如圖2(a)所示。
式中,PRES是殘差振幅,PCL是交點處線性回歸的振幅值,PCW是對應(yīng)的底部收益點處的振幅值。
9)殘差波寬(Residual pulse width):模擬底部收益率的線性部分頂部處的脈沖寬度,如圖2(a)所示。
式中,WRES是殘差波寬,WCR是右側(cè)頂點處的脈沖寬度,WCL是左側(cè)頂點處的脈沖寬度。
(2)地形特征提取。地形特征則采用局部二次曲面擬合算法進行提取。其主要步驟為:首先,設(shè)定擬合半徑r,并基于LM 算法建立海底點的二次曲面擬合模型,根據(jù)擬合時間和擬合精度確定最優(yōu)半徑為2 m,進而得到最優(yōu)半徑下的最佳擬合參數(shù);然后,根據(jù)最優(yōu)擬合參數(shù)確定地形模型,依據(jù)表1 中的特征定義獲取9 類地形特征數(shù)據(jù)。其中部分地形特征變量分布圖如圖3所示。
表1 海底地形特征參數(shù)表Table1 Description of sea bottom geometric variables
圖3 部分地形特征變量分布圖Fig.3 Schematic illustration of partial geometric variables
(3)特征優(yōu)選模型構(gòu)建。為精簡并優(yōu)化特征空間,分類之前需要進行特征優(yōu)選處理,本文采用Relief-F 算法進行特征優(yōu)選?;舅枷胧菫閷嶒灁?shù)據(jù)特征集中的每一個特征賦予不同的權(quán)重,隨后遵循“聚集同類樣本,離散異類樣本”的原則迭代更新權(quán)值,即根據(jù)其權(quán)值大小進行排序,并設(shè)立閾值舍棄貢獻率較小的特征,最后得到優(yōu)選的特征子集(黃莉莉 等,2012)。
首先找出k個與任意特征xi同類的最近鄰樣本集合H,其中表示特征xi與H內(nèi)各特征在特征集A上的差異量化表達為式(9):
式中,j=1,2,3,…,k。然后找出與xi不同類的k個最近鄰特征樣本集合M(c),其中n行1列表示特征xi與M(c)各特征在特征集A上的差異量化表達為公式(10)(張鴻,2012):
隨機森林分類器構(gòu)建,首先利用Bootstrap 隨機有放回的選取M個訓(xùn)練集且每個的大小約占原始數(shù)據(jù)的三分之二;然后訓(xùn)練每個樣本集為單個決策樹,根據(jù)Gini 系數(shù)的最小原則隨機選取最優(yōu)特征進行分裂,直到該節(jié)點訓(xùn)練樣例都屬于同一類;最后,按照決策樹投票結(jié)果決定最終分類結(jié)果。隨機森林分類輸出判別式如下式所示:
式中,H(x)為最終分類結(jié)果;hi(x)表示單一決策樹分類結(jié)果;argmax 表示函數(shù)取得最大值時的參數(shù)值;Y表示目標向量;I()為示性函數(shù)(表示當集合內(nèi)有此數(shù)時該函數(shù)值為1,無此數(shù)時該函數(shù)值為0)(陳進 等,2020)。
本文是顧及波形特征和地形特征優(yōu)選的海底底質(zhì)分類,具體流程包括:
(1)對原始回波信號進行小波去噪,對原始點云進行點云去噪處理;
(2)對去噪后的回波信號進行峰值探測,然后分別利用高斯函數(shù)擬合水面反射回波,利用韋伯函數(shù)擬合水底反射回波,利用雙指數(shù)函數(shù)擬合水體反射回波,進而提取出波形特征;
(3)對去噪后的點云數(shù)據(jù)采用LM 算法建立二次曲面擬合模型,迭代尋優(yōu)獲得最優(yōu)化的擬合參數(shù),提取出地形特征;
(4)基于提取的波形和地形特征,利用Relief-F 算法計算其貢獻率排序,保留貢獻率較大的特征;
(5)利用隨機森林分類器提取出珊瑚礁、砂、海岸帶、礫石、植被5類底質(zhì)類型。
實驗所用數(shù)據(jù)采集自中國西沙群島永樂環(huán)礁西北側(cè)的甘泉島水域,南海西沙群島區(qū)域。該島是典型的珊瑚島且島內(nèi)環(huán)境相對比較原始,擁有豐富的海底底質(zhì)類型,有利于開展淺水環(huán)境下的海底底質(zhì)分類研究。
實驗中機載LiDAR測深數(shù)據(jù)由Optech Aquarius ALB 系統(tǒng)采用532 nm,70 kHz 綠激光采集,飛機飛行高度為300 m,激光掃描最低角為15°,激光發(fā)射角為1 mrad,脈沖寬度為8.3 ns。經(jīng)數(shù)據(jù)預(yù)處理后,共獲得1.8×107個海底點,海底點云密度約為4 pts/m2。同時采集了部分高清數(shù)碼相片,分辨率5 cm,以此為參考進行訓(xùn)練樣本和驗證樣本的選擇,樣本采集區(qū)域如圖4(a)A區(qū)所示。
圖4 研究區(qū)域圖Fig.4 Study area
(1)波形和地形特征提取結(jié)果。根據(jù)波形和地形特征的提取方法,對ALB數(shù)據(jù)進行9維波形和9 維地形特征變量的特征提取,波形特征提取結(jié)果如圖5所示,地形特征提取結(jié)果如圖6所示。
圖5 波形特征提取結(jié)果圖Fig.5 Result diagram of waveform feature extraction
圖6 地形特征提取結(jié)果圖Fig.6 Result diagram of terrain feature extraction
(2)特征優(yōu)選結(jié)果與分析。采用Relief-F 算法對9 類波形特征和9 類地形特征,根據(jù)其貢獻率值由高到低進行排序。依據(jù)選取的特征輸入到分類器內(nèi)分類精度最高的原則,人工設(shè)置貢獻率閾值為0.0048,貢獻率小于此閾值的特征被去除。
如圖7 所示,特征優(yōu)選后,保留了13 類特征,其中波形特征有4個,分別是波寬、半幅波寬、波形面積、后向散射截面系數(shù);地形特征有9個,分別是高斯曲率、坡度、水深標準差、平均偏差、高程熵、海底起伏度、粗糙度、凹凸系數(shù)、變異系數(shù)。進一步分析可知:地形特征貢獻率占3/4 左右,證明了地形特征對于底質(zhì)分類的重要性,但僅僅使用地形特征缺乏詳細的空間尺度過程信息,需結(jié)合波形特征,波形特征約占比1/4,證明波形特征在此特征空間中對分類的有效性。
圖7 特征優(yōu)選結(jié)果貢獻率分布圖Fig.7 Distribution diagram of contribution rate of feature optimization results
如圖9(a)所示,將實驗區(qū)域劃分為5種底質(zhì)類型,并從實驗區(qū)域A 中選取總訓(xùn)練樣本,其中珊瑚礁點8601 個、植被點8104 個、海岸帶點3976個、砂點8727 個、礫石點6323 個。在分類過程中,隨機選取總訓(xùn)練樣本的70%、20%和10%分別作為訓(xùn)練樣本、驗證樣本和測試樣本,3 個樣本集之間沒有重疊的點。為了減小分類特征過多或過少對分類精度產(chǎn)生的負面影響,本實驗采用Relief-F 算法對18 類波形和地形特征進行特征優(yōu)選,并設(shè)計對照實驗對比分析。
由圖8 可知,特征優(yōu)選后,3 種分類方法的總體精度均有所提升,表明使用Relief-F 算法能夠減少特征冗余度帶來的不利影響,進而達到提高分類精度的目的。
圖8 特征優(yōu)選前后精度對比圖Fig.8 Comparison diagram of accuracy before and after feature optimization
將最優(yōu)的13 類特征輸入到SVM,BPNN,RF 3 種經(jīng)典分類器算法中進行分類,并利用用戶精度、生產(chǎn)者精度、總精度OA 和Kappa 系數(shù)對分類精度進行精度評定,結(jié)果如表2所示。
表2 特征優(yōu)選后分類精度對比結(jié)果Table2 Comparison of classification accuracy
由表2 實驗結(jié)果分析可知,實驗比對3 種分類方法中,隨機森林分類器泛化性強且分類精度最高,總體精度達到95.36%,Kappa系數(shù)為0.94。
最后基于上述分類過程中訓(xùn)練好的SVM,BPNN,RF 共3 個分類器模型,對測區(qū)A 進行預(yù)測,預(yù)測結(jié)果如圖9(b)、圖9(c)、圖9(d)所示,RF 分類器的預(yù)測結(jié)果與圖9(a)最為相近;其次為SVM,BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果較差。
圖9 實驗區(qū)域預(yù)測結(jié)果圖Fig.9 Diagram of prediction results in the experimental area
針對海底底質(zhì)分類中存在的冗余特征問題,提出了一種顧及波形和地形特征優(yōu)選的機載LiDAR 測深海底底質(zhì)分類方法。將所提算法應(yīng)用于實測機載LiDAR 測深數(shù)據(jù),通過對分類結(jié)果進行精度評定與分析,得出以下結(jié)論:
(1)基于9 類波形特征和9 類地形特征變量,利用構(gòu)建的特征優(yōu)選模型進行特征優(yōu)選?;趦?yōu)選特征,利用3種分類器進行分類。實驗結(jié)果表明Relief-F 特征優(yōu)選模型減小了冗余特征對分類精度的負面影響,基于優(yōu)選特征進行分類可獲取更高的分類精度。
(2)為了選擇有效的分類器,進行特征優(yōu)選后,基于隨機森林,SVM,BP神經(jīng)網(wǎng)絡(luò)3種分類器分別提取珊瑚礁、砂、礫石、海岸帶、植被5 種底質(zhì)。實驗結(jié)果表明隨機森林分類器的分類效果最好,OA精度和Kappa系數(shù)分別達到了95.36%和0.94。
通過本文顧及波形和地形特征優(yōu)選的機載LiDAR 測深底質(zhì)分類方法研究,相關(guān)成果能夠為海洋工程等領(lǐng)域?qū)5椎踪|(zhì)分類需求提供有效的技術(shù)支撐。