王鑫,貝祎軒,陳卓,張凱,2*
( 1. 山東科技大學(xué) 測(cè)繪與空間信息學(xué)院,山東 青島 266590;2. 自然資源部第二海洋研究所,浙江 杭州 310012;3. 中兵勘察設(shè)計(jì)研究院有限公司,北京 100053;4. 廣州三海海洋工程勘察設(shè)計(jì)有限公司,廣東 廣州 510220)
隨著我國(guó)海洋強(qiáng)國(guó)戰(zhàn)略的逐步實(shí)施,近岸水深數(shù)據(jù)的需求顯著增加。因此,如何高效、準(zhǔn)確地獲取近岸水深信息成為當(dāng)前研究熱點(diǎn)。目前,水深測(cè)量主要依靠船載聲吶測(cè)量[1–2]與機(jī)載激光雷達(dá)測(cè)量[3–4]。其中,船載多波束測(cè)深系統(tǒng)橫向覆蓋寬度達(dá)深度的3~4 倍,可高效獲取海底的準(zhǔn)確水深信息,但在淺水區(qū)效率較低且存在擱淺風(fēng)險(xiǎn)。機(jī)載激光雷達(dá)測(cè)量系統(tǒng)可高效測(cè)量淺水區(qū)域水深信息,但其廣泛應(yīng)用受到測(cè)量成本高和飛行區(qū)域合法性的限制。相比之下,利用遙感衛(wèi)星的多光譜影像反演近岸水深信息[5–6],因其高效、高時(shí)空分辨率、低成本的特點(diǎn),表現(xiàn)出顯著的應(yīng)用價(jià)值。
自20 世紀(jì)80 年代Lyzenga[7]提出雙層流理論水深反演模型以來(lái),遙感衛(wèi)星技術(shù)的進(jìn)步有力推動(dòng)了多光譜遙感影像反演水深理論的發(fā)展[8],所形成的反演方法大致可分為3 類:理論解釋模型、半理論半經(jīng)驗(yàn)?zāi)P?、統(tǒng)計(jì)模型。其中,理論解釋模型基于水光場(chǎng)輻射傳輸方程[7,9–11],通過(guò)建立光學(xué)傳感器接收到的輻亮度與水深和底質(zhì)反射的解析表達(dá)式來(lái)反演水深。這類方法理論嚴(yán)密,但所需水體光學(xué)參數(shù)較多且獲取困難,模型構(gòu)造復(fù)雜。而半理論半經(jīng)驗(yàn)?zāi)P屯ㄟ^(guò)結(jié)合理論模型和經(jīng)驗(yàn)參數(shù)來(lái)實(shí)現(xiàn)水深反演,其中以Stumpf對(duì)數(shù)比值[12]為代表的方法,將輻射亮度表示為深水區(qū)與海底反射輻亮度之和,建立其與水深之間的解析表達(dá)式來(lái)預(yù)測(cè)水深,得益于模型構(gòu)造簡(jiǎn)單與物理機(jī)制清晰的優(yōu)勢(shì)被廣泛應(yīng)用[13–16]。然而對(duì)數(shù)比值法特征維度較少,導(dǎo)致反演精度受到模型表達(dá)能力的限制[17]。近年來(lái),隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,基于機(jī)器學(xué)習(xí)算法的統(tǒng)計(jì)模型逐漸成為水深反演最熱門的前沿研究領(lǐng)域[18–21]。該方法不需要考慮水深遙感的物理機(jī)制,而是從水深與圖像輻亮度值之間的統(tǒng)計(jì)關(guān)系出發(fā),自發(fā)學(xué)習(xí)數(shù)據(jù)之間的本質(zhì)聯(lián)系來(lái)建立模型。憑借其在解決多變量、非線性復(fù)雜問(wèn)題等方面的優(yōu)勢(shì),被引入統(tǒng)計(jì)水深反演模型中,取得了優(yōu)于對(duì)數(shù)比值法的反演效果。然而受衛(wèi)星影像信噪比低和實(shí)測(cè)數(shù)據(jù)量少的制約,多光譜水深反演精度提升有限,成為限制該方法廣泛應(yīng)用的瓶頸。因此,通過(guò)深入挖掘數(shù)據(jù)潛在信息提高水深反演精度,是多光譜水深反演方法研究的一個(gè)發(fā)展方向。
上述方法通過(guò)挖掘影像光譜值與水深之間的函數(shù)關(guān)系與統(tǒng)計(jì)互相關(guān)特征進(jìn)行水深反演。除此之外,水深信息本身的空間統(tǒng)計(jì)自相關(guān)特征亦可用于估計(jì)未采樣點(diǎn)位上的水深信息,如基于稀疏水深數(shù)據(jù)進(jìn)行空間插值(如反距離加權(quán)法[22]、克里金法[23–24])估計(jì)未采樣位置的水深信息。因此,在上述傳統(tǒng)水深反演方法基礎(chǔ)上,通過(guò)挖掘水深信息的空間自相關(guān)特征,有望有效提高水深反演精度。對(duì)此,Su 等[25]提出回歸克里金法(Regression Kriging, RK),將空間相關(guān)性特征納入了Stumpf 對(duì)數(shù)比值模型中,有效提升了水深反演精度。然而,RK 和Stumpf 模型皆屬于線性模型,在描述復(fù)雜非線性映射關(guān)系時(shí)表達(dá)能力有限。同時(shí),RK 基于平穩(wěn)假設(shè)的前提在實(shí)際觀測(cè)環(huán)境中也常常難以得到有效滿足[26]。因此,該方法的效果在環(huán)境各向異性顯著的區(qū)域明顯下降。
針對(duì)上述問(wèn)題,本文以提高多光譜水深反演精度為目標(biāo),利用機(jī)器學(xué)習(xí)在解決多變量與非線性問(wèn)題方面的優(yōu)勢(shì),通過(guò)融合數(shù)據(jù)源的空間自相關(guān)特征與統(tǒng)計(jì)互相關(guān)性來(lái)研究高精度水深反演方法,以期在現(xiàn)有研究基礎(chǔ)上,進(jìn)一步提高預(yù)測(cè)水深的準(zhǔn)確性。
對(duì)數(shù)比值法是代表性的半理論半經(jīng)驗(yàn)水深反演模型[12],該方法以藍(lán)、綠波段反射率的對(duì)數(shù)比值作為反演因子,其模型表達(dá)式為
式中,d為反演出的水深;β0和β1是通過(guò)回歸方程得到的系數(shù);n為縮放比例因子;Rw(λb)和Rw(λg)分別是藍(lán)、綠波段的反射率。
該方法具有構(gòu)造簡(jiǎn)單,對(duì)環(huán)境因素干擾(如大氣、水體和海底反射率的變化)不敏感等優(yōu)勢(shì)。但作為線性擬合模型,該方法在實(shí)際應(yīng)用中仍然受到復(fù)雜水質(zhì)和海底底質(zhì)變化的顯著影響,難以準(zhǔn)確描述復(fù)雜海區(qū)反射率與水深呈現(xiàn)出的非線性關(guān)系[27]。同時(shí),未能綜合利用多個(gè)波段的光譜測(cè)量信息亦是該方法的一個(gè)缺點(diǎn)。
機(jī)器學(xué)習(xí)方法可以對(duì)不同變量之間的復(fù)雜映射機(jī)制進(jìn)行有效學(xué)習(xí)和表達(dá)。其中,隨機(jī)森林(Random Forest,RF)模型憑借其優(yōu)秀的非線性回歸和泛化能力、多變量特征融合能力以及運(yùn)算速度快等優(yōu)勢(shì)[28–30],得到廣泛應(yīng)用。用于多光譜反演水深時(shí),RF 模型通過(guò)并行處理策略將一組回歸決策樹(shù)組合生成學(xué)習(xí)器,并利用未抽取樣本來(lái)泛化模型誤差,綜合分析每個(gè)模型的預(yù)測(cè)結(jié)果。通過(guò)上述學(xué)習(xí)過(guò)程,RF 模型可以獲得優(yōu)于對(duì)數(shù)比值法的水深反演精度,其算法流程如圖1 所示。
圖1 隨機(jī)森林算法示意圖Fig. 1 Schematic diagram of random forest
光學(xué)水深遙感反演的物理基礎(chǔ)是光對(duì)水體的穿透能力,受水體的漫衰減影響,光在水體中的穿透深度與水體特性、不同譜段的漫衰減系數(shù)密切相關(guān)性,可通過(guò)機(jī)器學(xué)習(xí)發(fā)掘其中顯著而復(fù)雜的函數(shù)關(guān)系。RF 模型的數(shù)學(xué)表達(dá)式為
式中,h( )代表隨機(jī)森林算法的函數(shù)關(guān)系式;N為決策樹(shù)的總數(shù);輸入向量X為波段光譜值;Θk為樣本通過(guò)模型訓(xùn)練得到的第k棵樹(shù)的參數(shù)向量;d為綜合所有決策樹(shù)預(yù)測(cè)結(jié)果的平均值所得到的反演水深。
2.3.1 空間自相關(guān)隨機(jī)森林模型
傳統(tǒng)RF 模型通過(guò)分析多光譜數(shù)據(jù)與實(shí)測(cè)水深數(shù)據(jù)之間的統(tǒng)計(jì)互相關(guān)特征預(yù)測(cè)水深,但忽視了數(shù)據(jù)自身的空間自相關(guān)特征,故未能充分利用有效信息進(jìn)行學(xué)習(xí)和表達(dá)[31]。為此,本文在訓(xùn)練模型過(guò)程中,以實(shí)測(cè)水深及對(duì)應(yīng)的波段光譜值作為基礎(chǔ)因/自變量前提下,將待測(cè)點(diǎn)周圍具有高度空間自相關(guān)性的已知點(diǎn)所對(duì)應(yīng)的屬性值作為自相關(guān)變量納入RF 的學(xué)習(xí)框架中,以此實(shí)現(xiàn)統(tǒng)計(jì)互相關(guān)特征與空間自相關(guān)特征的融合。其算法流程圖如圖2 所示。
圖2 空間自相關(guān)隨機(jī)森林算法示意圖Fig. 2 Schematic diagram of spatial autocorrelation random forest
2.3.2 空間自相關(guān)與最佳空間間隔
空間自相關(guān)特征在遙感圖像分析中的應(yīng)用十分廣泛,常用于變化檢測(cè)與分類優(yōu)化[32–33]??臻g自相關(guān)性指的是研究區(qū)域內(nèi)要素的屬性值之間潛在的相互依賴性,可用來(lái)衡量地理現(xiàn)象空間聚集程度。研究表明,預(yù)測(cè)點(diǎn)周圍具有較高自相關(guān)性的已知點(diǎn)所包含的屬性信息可用來(lái)提高預(yù)測(cè)的精度[34],理論上,數(shù)據(jù)之間的統(tǒng)計(jì)相關(guān)性越強(qiáng),預(yù)測(cè)精度提升幅度越大。對(duì)此,全局莫蘭指數(shù)(Moran’s I)[35]常用于度量研究數(shù)據(jù)的聚集性于自相關(guān)程度。莫蘭指數(shù)越大,表明研究對(duì)象的聚集性越強(qiáng),自相關(guān)程度越高。其計(jì)算公式為
式中,N為要素的總數(shù)目;xi和xj分別為第i和第j個(gè)要素的光譜值與水深值;x為上述屬性值的均值;wij為要素i和j的空間權(quán)重值,這里為基于距離的鄰接矩陣。
由于Moran’s I 基于空間隨機(jī)性分布的零假設(shè),因此需要利用Z得分和P值來(lái)判斷假設(shè)是否成立,并檢驗(yàn)自相關(guān)指數(shù)的顯著性[36]。其中,P值是由已知分布的曲線得出的面積近似值,而Z值按以下形式計(jì)算:
式中,E[I]和V[I]分別為Moran’s I 指數(shù)的期望值和方差。
受空間距離的影響,變量的自相關(guān)程度僅在一定范圍內(nèi)較為顯著,若超過(guò)該距離,則認(rèn)為發(fā)生了空間變異。為確定局部最佳自相關(guān)的空間間隔,采用半方差來(lái)體現(xiàn)空間變異程度[37],半方差越大,自相關(guān)越弱,其計(jì)算公式為
式中,h為樣本點(diǎn)之間的距離;n為距離h范圍內(nèi)成對(duì)樣本點(diǎn)的數(shù)量;Z為樣本點(diǎn)所對(duì)應(yīng)的不同波段光譜值與水深值。
2.3.3 空間自相關(guān)變量
為了獲取訓(xùn)練樣本的自相關(guān)特征信息,需要建立局域子窗進(jìn)行提取,具體步驟如下:
(1)計(jì)算訓(xùn)練樣本的水深與不同波段值的半方差函數(shù)和莫蘭指數(shù),用于確定搜索窗口初始尺寸。
(2)根據(jù)計(jì)算窗口中待測(cè)點(diǎn)到m個(gè)已知點(diǎn)的二維歐式距離進(jìn)行排序,得到衡量自相關(guān)程度的距離向量Dn,并將遍歷所有待測(cè)點(diǎn)得到的n個(gè)距離向量,合成為空間自相關(guān)距離矩陣(EDF)。
(3)由于訓(xùn)練數(shù)據(jù)分布的不均勻性,Dn中元素?cái)?shù)量k應(yīng)取所有距離向量的最少元素?cái)?shù)目,且需保證不等于0,以滿足向量組成矩陣的條件;此外,為在不影響預(yù)測(cè)精度條件下,提升模型訓(xùn)練效率,還需對(duì)搜索窗口大小進(jìn)行調(diào)整并重復(fù)步驟(2),將得到的EDF作為表征數(shù)據(jù)空間自相關(guān)特征的補(bǔ)充變量,EDF的具體計(jì)算公式計(jì)算為
2.3.4 空間自相關(guān)隨機(jī)森林模型訓(xùn)練/驗(yàn)證
基于上述步驟,空間自相關(guān)隨機(jī)森林(Spatial Autocorrelation Random Forest,SARF)模型訓(xùn)練與驗(yàn)證過(guò)程存在一定差異,下面列出關(guān)鍵步驟說(shuō)明。
(1)對(duì)水深點(diǎn)個(gè)數(shù)為a的訓(xùn)練數(shù)據(jù)而言,所用的水深點(diǎn)既充當(dāng)待測(cè)點(diǎn),也作為已知點(diǎn)參與模型訓(xùn)練,即按給定的搜索半徑計(jì)算每個(gè)當(dāng)前水深點(diǎn)到周圍鄰近點(diǎn)的距離,用以構(gòu)成大小為a×k的自相關(guān)矩陣EDF。將當(dāng)前點(diǎn)水深值作為監(jiān)督學(xué)習(xí)的因變量,與空間自相關(guān)變量、基礎(chǔ)自變量輸入RF 模型中訓(xùn)練,得到訓(xùn)練參數(shù)。
(2)對(duì)于驗(yàn)證數(shù)據(jù)(數(shù)量為b)來(lái)說(shuō),每個(gè)水深點(diǎn)都為待測(cè)點(diǎn),故需將訓(xùn)練數(shù)據(jù)中的所有水深點(diǎn)作為已知點(diǎn)來(lái)構(gòu)建自相關(guān)矩陣(大小為b×k),并將待測(cè)點(diǎn)對(duì)應(yīng)的空間自相關(guān)變量與基礎(chǔ)自變量輸入訓(xùn)練好的模型中,即可求得待測(cè)點(diǎn)水深。
本文研究區(qū)域?yàn)楸睄u周邊淺海水域。北島位于南海西沙群島海域七連嶼的中部,面積約為3.6 km2,島礁呈長(zhǎng)條形(圖3a)。作為典型的珊瑚島,其底質(zhì)由珊瑚、砂和貝屑組成,水下地形特征復(fù)雜。由于遠(yuǎn)離大陸且受人類活動(dòng)影響小,島嶼周邊水質(zhì)清澈,適合多光譜水深反演。式中,Dn為距離向量;EDF為n個(gè)距離向量的集合。
圖3 北島地理位置(a)及原位水深點(diǎn)測(cè)量分布(b)Fig. 3 Location of Beidao (a) and distribution of in situ depth measurements (b)
以每個(gè)距離向量中k個(gè)元素為前提,按其自相關(guān)程度的強(qiáng)弱順序,依次獲取每個(gè)已知點(diǎn)所對(duì)應(yīng)的屬性值并將其與EDF共同組成空間自相關(guān)變量X2,與基礎(chǔ)變量X1構(gòu)成反演因子。
式中,r1、r2、r3為預(yù)測(cè)點(diǎn)對(duì)應(yīng)的藍(lán)、綠、紅波段光譜值比值,即Bblue/Bgreen,Bgreen/Bred,Bblue/Bred;r1k、r2k、r3k、zk分別為k個(gè)已知點(diǎn)的光譜值比值與水深值。
本研究使用的原始影像為高分辨率的World-View-2 衛(wèi)星影像(圖3b),拍攝于2017 年3 月11 日11 時(shí)。多光譜分辨率為1.84 m,包含藍(lán)、綠、紅以及近紅外4 個(gè)波段。使用的數(shù)據(jù)來(lái)自于2013 年4 月測(cè)量得到的北島1:2 000 陸域及水下地形測(cè)量圖,對(duì)其進(jìn)行矢量化與篩選后得到1 700 個(gè)水深點(diǎn)(圖3b)。
數(shù)據(jù)的獲取過(guò)程中存在時(shí)間、空間以及儀器測(cè)量帶來(lái)的誤差,因此在利用遙感影像與水深數(shù)據(jù)進(jìn)行定量水深研究前需要對(duì)這兩類數(shù)據(jù)源進(jìn)行預(yù)處理。對(duì)于Worldview-2 影像,首先通過(guò)輻射定標(biāo)和大氣校正得到真實(shí)地物反射率,并對(duì)影像進(jìn)行幾何校正以及云霧和陸地部分的掩膜,使用Hedley 法[38]消除受到太陽(yáng)光、海面波浪和光線入射角度等因素造成的太陽(yáng)耀斑。對(duì)于水深數(shù)據(jù)而言,將其坐標(biāo)轉(zhuǎn)換到與影像同一坐標(biāo)系UTM WGS-84 下,并進(jìn)行地理配準(zhǔn),以提取水深點(diǎn)對(duì)應(yīng)的像元值。由于遙感影像采用的是衛(wèi)星過(guò)境時(shí)瞬時(shí)海面深度,而實(shí)測(cè)水深數(shù)據(jù)是以理論深度基準(zhǔn)面為基準(zhǔn)的穩(wěn)態(tài)水深,因此還需要根據(jù)潮位預(yù)報(bào)表提供的潮高進(jìn)行潮汐改正。
本文中水深分布區(qū)如圖4 所示,主要集中于0~6 m淺水區(qū)域。為模擬小樣本淺海水深反演這一常見(jiàn)應(yīng)用場(chǎng)景,同時(shí)確保數(shù)據(jù)具有代表性,以1 m 為間隔分層抽樣,共選取150 個(gè)水深數(shù)據(jù)作為訓(xùn)練樣本,而剩余1 550 個(gè)水深點(diǎn)則作為驗(yàn)證樣本。為定量比較4 種反演模型效果,本文選取決定系數(shù)(R2),均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)進(jìn)行精度評(píng)價(jià)。
圖4 水深點(diǎn)分布區(qū)間與數(shù)量Fig. 4 Distribution interval and number of water depth points
通過(guò)計(jì)算訓(xùn)練樣本的Moran’s I 指數(shù)、Z值和P值對(duì)水深與波段光譜值的空間自相關(guān)性加以評(píng)估(表1)。以藍(lán)光波段為例,Moran’s I 指數(shù)為0.631,說(shuō)明該波段光譜值呈現(xiàn)出較強(qiáng)的聚類型式,而其Z值(10.967)和P值(0.001)則表明可以拒絕空間隨機(jī)性分布的零假設(shè),并通過(guò)了置信度為99%的顯著性檢驗(yàn)。表1 中結(jié)果顯示,訓(xùn)練數(shù)據(jù)的水深、藍(lán)、綠波段皆具有顯著的自相關(guān)性,而紅光波段自相關(guān)性較弱。
表1 研究區(qū)變量的全局莫蘭指數(shù)、Z 值和P 值Table 1 Global Moran’s I, normalized Z value and P value of variables in the study area
研究區(qū)域變量的全局Moran’s I 及半方差隨空間間隔的變化如圖5 所示,通過(guò)計(jì)算波段值的半方差,并除以最大值歸一化后與全局Moran’s I 對(duì)比發(fā)現(xiàn),隨著空間間隔變大,全局Moran’s I 減小,而半方差值呈上升趨勢(shì),這表明變量的空間變異程度增加,而空間自相關(guān)性逐漸減小。值得注意的是,二者相交所產(chǎn)生的交點(diǎn)反映了空間自相關(guān)與空間變異的平衡。對(duì)于水深及藍(lán)、綠、紅波段而言,對(duì)應(yīng)的最佳空間間隔分別為175 m、156 m、152 m 和76 m,這表明上述變量在該局域內(nèi)具有顯著空間自相關(guān)性?;谏鲜鲇^察,本文將初始搜索窗口尺寸定為175 m,并根據(jù)距離向量的最小元素?cái)?shù)原則,將搜索窗口尺寸擴(kuò)大為220 m,用以獲取空間自相關(guān)變量并構(gòu)建SARF 水深反演模型。
圖5 全局的全局莫蘭指數(shù)及半方差的變化Fig. 5 Global Moran’s I and semivariance with different lags of variable
為驗(yàn)證實(shí)驗(yàn)方法效果,本文首先將反演結(jié)果與傳統(tǒng)方法進(jìn)行了對(duì)比(表2)??梢钥吹?,受限于模型表達(dá)能力,Stumpf 模型反演精度最低,RMSE 為2.067 m,R2僅為0.797,相關(guān)性也最低。普通克里金(Ordinary Kriging, OK)模型受限于空間插值方法對(duì)樣本點(diǎn)密度等要求,在小樣本實(shí)測(cè)水深數(shù)據(jù)集的條件下,其預(yù)測(cè)精度亦不甚理想(RMSE 為1.894 m)。RF 模型得益于綜合多個(gè)波段光譜信息,RMSE 為1.635 m,決定系數(shù)達(dá)到0.888,相比前兩種模型預(yù)測(cè)結(jié)果更準(zhǔn)確。在這4 種模型中,SARF 模型表現(xiàn)效果最好,RMSE 僅為1.338 m,相對(duì)于RF 模型預(yù)測(cè)精度提升18%,同時(shí)相關(guān)性參數(shù)也提高到0.923。
表2 驗(yàn)證數(shù)據(jù)測(cè)試精度對(duì)比Table 2 Accuracy comparison of different methods
4.3.1 誤差分析
為了比較4 種模型的反演精度和優(yōu)劣性,根據(jù)水深反演圖(圖6)對(duì)不同方法的預(yù)測(cè)結(jié)果與真實(shí)水深進(jìn)行對(duì)比分析。圖6 中黑線是斜率為1 的指標(biāo)線,黑線上方表示預(yù)測(cè)水深值大于實(shí)測(cè)水深值,下方則表示預(yù)測(cè)值偏??;紅線是通過(guò)最小二乘擬合的趨勢(shì)線,用以衡量與指標(biāo)線的擬合程度;為體現(xiàn)預(yù)測(cè)值聚集區(qū)間,采用色棒來(lái)標(biāo)識(shí),聚集程度越高,則數(shù)值越大且顏色越淺。
Stumpf 模型的水深反演效果如圖6a 所示,在水深淺于10 m 的區(qū)域,反演結(jié)果與實(shí)測(cè)水深符合較好。但是受限于線性表達(dá)方式,出現(xiàn)反演水深值小于0 的不合理情況,且對(duì)于深于10 m 的數(shù)據(jù),水深反演結(jié)果產(chǎn)生了明顯的偏差。很顯然,該偏差現(xiàn)象產(chǎn)生的根源在于線性模型無(wú)法準(zhǔn)確擬合數(shù)據(jù)的非線性特征;類似地,作為非線性局部擬合方法,OK 模型較為準(zhǔn)確地預(yù)測(cè)了0~8 m 區(qū)域水深(圖6b),而受制于8 m以深實(shí)測(cè)數(shù)據(jù)量的減少,無(wú)法真實(shí)還原深水區(qū)情況。雖然該方法顧及了水深的自相關(guān)特征信息,但未考慮水深與光譜值之間的相關(guān)性,因此只能通過(guò)增加實(shí)測(cè)數(shù)據(jù)量來(lái)彌補(bǔ)模型的缺陷。對(duì)比前兩種模型,圖6c和圖6d 中機(jī)器學(xué)習(xí)預(yù)測(cè)精度提升效果明顯,較為完整地還原了研究區(qū)域內(nèi)真實(shí)水深分布情況。但從細(xì)節(jié)上比較發(fā)現(xiàn),RF 模型受訓(xùn)練過(guò)程中低信噪比與實(shí)測(cè)數(shù)據(jù)量不足影響,指標(biāo)線上方出現(xiàn)大量離散點(diǎn)且與趨勢(shì)線相距較遠(yuǎn),并影響了預(yù)測(cè)結(jié)果可靠性;與之相比,SARF 模型具有明顯的抗離群值效果以及更高的反演精度。
圖6 對(duì)數(shù)比值(a)、普通克里金(b)、隨機(jī)森林(c)和空間自相關(guān)隨機(jī)森林(d)模型反演水深散點(diǎn)圖(訓(xùn)練數(shù)量為150)Fig. 6 Scatter diagram of predicted depth values by Stumpf (a), ordinary Kriging (b), random forest (c), and spatial autocorrelation random forest (d) models (the number of training data points is 150)
殘差分布圖分別給出了不同方法在表達(dá)水深-波段值耦合機(jī)制過(guò)程中的差異,從而通過(guò)殘差的分布形式來(lái)對(duì)4 種模型的細(xì)節(jié)差異進(jìn)行比較(圖7)。圖7a顯示,Stumpf 模型的殘差在10 m 以深區(qū)域呈現(xiàn)出明顯的遞增趨勢(shì),預(yù)測(cè)值與真實(shí)值存在較大差異;由圖7b 可知,OK 模型整體殘差值較大,特別是在8 m 以深區(qū)間,大量的離散點(diǎn)明確顯示出模型自身的缺陷;而RF 模型在淺水區(qū)域的效果較好(圖7c),殘差值在0 兩側(cè)均勻分布,但在水深超過(guò)10 m 的區(qū)域,其預(yù)測(cè)結(jié)果受到離群值干擾;與前者相比,無(wú)論是從殘差整體分布形式,亦或是深水區(qū)數(shù)據(jù)受自身統(tǒng)計(jì)值波動(dòng)影響所產(chǎn)生的離群點(diǎn)數(shù)量,SARF 模型都表現(xiàn)出更明顯的優(yōu)勢(shì)(圖7d)。
圖7 對(duì)數(shù)比值(a)、普通克里金(b)、隨機(jī)森林(c)和空間自相關(guān)隨機(jī)森林(d)模型的殘差散點(diǎn)圖(訓(xùn)練數(shù)量為150)Fig. 7 Scatter diagram of residual error by Stumpf (a), ordinary Kriging (b), random forest (c), and spatial autocorrelation random forest(d) models (the number of training data points is 150)
4.3.2 不同訓(xùn)練樣本數(shù)量下反演結(jié)果的精度對(duì)比
訓(xùn)練樣本數(shù)量的變化可顯著影響機(jī)器學(xué)習(xí)方法的預(yù)測(cè)效果。通過(guò)計(jì)算訓(xùn)練樣本數(shù)為500 時(shí)SARF 模型和RF 模型的殘差標(biāo)準(zhǔn)差(圖8a)可以看到,RF 模型殘差標(biāo)準(zhǔn)差(1.295)遠(yuǎn)高于SARF 模型(1.012),因此后者殘差離散程度較小,分布更為集中;其次,通過(guò)觀察0.05 顯著性水平下殘差分布區(qū)間發(fā)現(xiàn),RF 模型殘差主要分布于[1.25, 1.35],而SARF 模型殘差分布區(qū)間集中在[0.97, 1.05],后者的殘差分布幅度更小,說(shuō)明預(yù)測(cè)值與實(shí)測(cè)值擬合效果更好。除此之外,通過(guò)觀察訓(xùn)練樣本占全部樣本比例下的均方根誤差(圖8b)發(fā)現(xiàn),SARF 模型的誤差大小及其下降速率始終小于RF 模型,且隨著訓(xùn)練數(shù)據(jù)量的增加,該優(yōu)勢(shì)愈加明顯;當(dāng)訓(xùn)練樣本占比達(dá)到60%時(shí),相比于RF 模型,SARF 模型的誤差降低約27%,該結(jié)果進(jìn)一步驗(yàn)證了將數(shù)據(jù)源的空間自相關(guān)特征納入機(jī)器學(xué)習(xí)框架中,可顯著提升預(yù)測(cè)結(jié)果的準(zhǔn)確性。
圖8 訓(xùn)練樣本量500 時(shí)殘差分布直方圖(a)和不同訓(xùn)練數(shù)據(jù)占比下的均方根誤差(b)Fig. 8 The histogram of error distribution when the training sample is 500 (a) and root mean square error for different training data shares (b)
本文基于SARF 模型使用350 個(gè)訓(xùn)練數(shù)據(jù)得到北島海域反演水深,并將其與實(shí)測(cè)陸上高程點(diǎn)生成反演水深與陸域地形圖(圖9a)??梢钥吹?,珊瑚島周圍海底地形分布表現(xiàn)出復(fù)雜的特征。近岸淺水區(qū)域海底主要由沙質(zhì)沉積物構(gòu)成,水深變化較為平衡。而在離岸較遠(yuǎn)的區(qū)域,受海流的影響,島嶼南北兩側(cè)呈現(xiàn)出截然不同的海底地貌細(xì)節(jié)特征(圖9b)。顯然,海底地形信息表現(xiàn)出較強(qiáng)的空間相關(guān)性,從而驗(yàn)證了利用空間相關(guān)性輔助水深反演的有效性。
圖9 反演的陸域與水下地形圖(a)和地貌細(xì)節(jié)圖(b)Fig. 9 Bathymetry retrieval of onshore and inversion bathymetric topographic map (a) and geomorphic details (b)
隨著多光譜衛(wèi)星反演水深技術(shù)的發(fā)展,如何在小樣本現(xiàn)場(chǎng)實(shí)測(cè)數(shù)據(jù)的前提下,有效提高預(yù)測(cè)精度一直是研究熱點(diǎn)。為此,本研究基于機(jī)器學(xué)習(xí)的框架,提出了結(jié)合數(shù)據(jù)源自相關(guān)特征的空間自相關(guān)隨機(jī)森林水深反演模型,并在北島海域開(kāi)展多光譜水深反演實(shí)驗(yàn)。通過(guò)對(duì)比改進(jìn)方法與對(duì)數(shù)比值、普通克里金、隨機(jī)森林方法的實(shí)驗(yàn)結(jié)果,得到以下結(jié)論:
(1)Stumpf 模型通過(guò)建立波段反射率與水深之間的數(shù)學(xué)關(guān)系進(jìn)行預(yù)測(cè),具有模型構(gòu)造簡(jiǎn)單、對(duì)實(shí)測(cè)數(shù)據(jù)量要求較低等優(yōu)勢(shì),因此得到了廣泛應(yīng)用。然而在水深反演過(guò)程中,受到來(lái)自深度、水質(zhì)以及底質(zhì)等因素變化影響,反射率與水深之間的線性關(guān)系通常不成立,而Stumpf 這類線性模型受限于模型的表達(dá)能力,漸漸無(wú)法滿足日益增長(zhǎng)的高精度遙感測(cè)深需求。對(duì)此,以RF 模型為代表的機(jī)器學(xué)習(xí)方法憑借其優(yōu)異的非線性映射能力,可有效提升水深反演精度。
(2)實(shí)驗(yàn)表明,以O(shè)K 模型為代表的空間插值方法僅僅利用實(shí)測(cè)水深的自相關(guān)性特征信息,即取得與Stumpf 模型相似的水深預(yù)測(cè)精度。這一結(jié)果客觀上印證了本文通過(guò)引入空間自相關(guān)特征信息以提高水深反演精度這一思路的可行性。對(duì)此,本文在機(jī)器學(xué)習(xí)框架下引入空間自相關(guān)特征進(jìn)行建模,提出了空間自相關(guān)隨機(jī)森林模型,通過(guò)深入挖掘不同數(shù)據(jù)源之間、相鄰像元內(nèi)部觀測(cè)值的有效信息,將輸入變量的統(tǒng)計(jì)互相關(guān)性與空間自相關(guān)性兩類特征進(jìn)行融合,得到了更準(zhǔn)確的預(yù)測(cè)模型。該方法比單獨(dú)使用兩類特征的反演模型更具優(yōu)勢(shì)。SARF 模型在輸入反演因子時(shí)引入兩類相關(guān)性變量的信息,提高了預(yù)測(cè)過(guò)程中的信噪比,具有比傳統(tǒng)機(jī)器學(xué)習(xí)更出色的抗噪能力。同時(shí),SARF 模型在建模過(guò)程中充分利用訓(xùn)練樣本的觀測(cè)值,通過(guò)建立訓(xùn)練樣本與測(cè)試樣本之間的聯(lián)系,從而提高有效信息的利用率。除此之外,將數(shù)據(jù)源的空間自相關(guān)特征融入機(jī)器學(xué)習(xí)算法中,有效減弱了空間非平穩(wěn)性因素、極淺區(qū)域高輻射亮度值以及深水區(qū)統(tǒng)計(jì)值波動(dòng)的影響,可顯著提升不同實(shí)測(cè)數(shù)據(jù)量條件下的多光譜水深反演結(jié)果的精度。
(3)鑒于SARF 模型在遙感測(cè)深研究中取得了顯著的精度優(yōu)勢(shì),基于相同思路,將自相關(guān)性特征引入其他機(jī)器學(xué)習(xí)模型中亦可望取得類似的提升效果。需要注意的是,本研究區(qū)域內(nèi),水深主要集中于0~6 m淺水區(qū),而考慮到不同研究區(qū)數(shù)據(jù)源的差異,將其應(yīng)用于更多地區(qū)還需要進(jìn)一步探討?;诂F(xiàn)有方法,未來(lái)的研究方向可考慮挖掘額外的環(huán)境信息,利用機(jī)器學(xué)習(xí)融合多變量的優(yōu)勢(shì),增加更多環(huán)境相關(guān)特征(如水體指數(shù)、葉綠素濃度)并融合不同時(shí)序的多光譜影像數(shù)據(jù)源進(jìn)行研究。