常江 丁雷
摘 ?要: 通過神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)算法,對SMAP土壤濕度數(shù)據(jù)進行降尺度反演,提高空間分辨率。采用GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)算法和隨機森林算法,建立“天宮二號”8,9,10通道光譜反射率與土壤濕度數(shù)據(jù)之間的模型,進行降尺度反演。結(jié)果表明,SMAP土壤濕度數(shù)據(jù)的空間分辨率由3 km提高至100 m,采用GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)反演算法時,R2為0.788,RMSE為 0.142 m3·m-3 ;采用GA改進的隨機森林算法進行反演時,R2為0.825, RMSE為 0.125 m3·m-3。對SMAP土壤濕度數(shù)據(jù)進行降尺度反演時,GA改進的隨機森林方法模型精度更高,訓(xùn)練效果更好,算法復(fù)雜度更低, 可以實現(xiàn)較為準確的大范圍土壤濕度降尺度反演。
關(guān)鍵詞: SMAP土壤濕度; 降尺度反演; 算法改進; 數(shù)據(jù)處理; 模型建立; 相關(guān)性分析
中圖分類號: TN206?34 ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)12?0009?05
Abstract: The downscaling inversion of the SMAP soil moisture data is performed by means of the neural network and machine learning algorithms to improve the spatial resolution. A model between the spectral reflectance of the 8th, 9th and 10th channels of Tiangong?2 and soil moisture data is established by means of the GA?modified Bayesian neural network algorithm and random forest algorithm to carry out the downscaling inversion. The results show that the spatial resolution of SMAP soil moisture data is increased from 3 km to 100 m; when adopting Bayesian neural network inversion algorithm modified with GA, R2 is 0.788 and RMSE is 0.142 m3·m-3; when using random forest algorithm improved with GA for the inversion, R2 is 0.825 and RMSE is 0.125 m3·m-3. The result of comparison indicates, when the downscaling inversion of the SMAP soil moisture data is conducted, that the random forest method model improved with GA has higher precision, better training effect and lower algorithm complexity, and can realize the more accurate downscaling inversion of wide?scale soil moisture.
Keywords: SMAP soil moisture; downscaling inversion; algorithm improvement; data processing; model building; correlation analysis
0 ?引 ?言
土壤濕度,也稱為土壤含水量,是用來表示一定深度的土壤干濕程度的物理量。目前,針對土壤濕度的測量方法主要有傳統(tǒng)方法和遙感方法兩種,測量土壤含水量的傳統(tǒng)方法是使用重量法或者探針法來確定各個深度層面下的土壤濕度指數(shù),雖然這種方法采集的土壤濕度精度較高,但是只適合用于小范圍的測量和采樣,并且需要花費大量的人力物力[1?2]。采用遙感方法可以便捷地獲取大范圍區(qū)域的土壤水分含量數(shù)據(jù),但是獲取土壤濕度數(shù)據(jù)的空間分辨率普遍比較低。傳統(tǒng)的觀測方法不能獲取大范圍的土壤濕度數(shù)據(jù),遙感觀測方法又不能獲得高分辨率的土壤濕度數(shù)據(jù)。針對以上現(xiàn)狀,一種減少開銷又便捷高效的方法則是對SMAP被動微波土壤濕度數(shù)據(jù)等較高精度的衛(wèi)星觀測數(shù)據(jù)進行降尺度反演,繼承其大范圍觀測土壤濕度的優(yōu)點并提高數(shù)據(jù)的空間分辨率[3]。
本研究采用GA遺傳算法改進的貝葉斯神經(jīng)網(wǎng)絡(luò)算法和隨機森林算法建立預(yù)處理后的“天宮二號”寬波段成像儀可見光近紅外光譜數(shù)據(jù)與SMAP微波土壤濕度之間的關(guān)系模型,從而對SMAP土壤濕度進行降尺度反演。探討各個通道下的光譜反射率與土壤濕度之間的相關(guān)性,并使用相關(guān)性較強的幾個通道替換原有光學(xué)影像數(shù)據(jù)源,從而對反演模型進行迭代,最后分析算法的復(fù)雜度。
1 ?數(shù)據(jù)選取及預(yù)處理
1.1 ?“天宮二號”寬波段成像儀影像
本文使用的影像數(shù)據(jù)源是美國科羅拉多州奎斯塔城市(33°4′48"N,105°34′98"W)在2016年9月24日的影像數(shù)據(jù)。數(shù)據(jù)從載人航天空間應(yīng)用數(shù)據(jù)推廣服務(wù)平臺獲取,申請了寬波段成像儀可見光近紅外譜段的二級影像產(chǎn)品,影像空間分辨率是100 m,視場角為42°,刈幅300 km,采用大幅寬虛擬相機高精度傳感器校正模型進行寬波段數(shù)據(jù)無控制點幾何校正處理,定位精度在8個像元內(nèi)[4]。
1.2 ?SMAP土壤濕度數(shù)據(jù)
本研究中土壤濕度數(shù)據(jù)選擇的是NASA SMAP/Sentinel?1 L2土壤濕度數(shù)據(jù)產(chǎn)品,空間分辨率3 km,數(shù)據(jù)的格式是HDF5。該二級產(chǎn)品是由SMAP?L波段輻射計獲取的亮度溫度和Sentinl?1A,Sentinl?1B雷達獲取的反向散射系數(shù)重采樣后生成的土壤水分數(shù)據(jù)。選用與“天宮二號”相同采集時間(2016年9月24日)的數(shù)據(jù),從中提取經(jīng)度、緯度、土壤濕度三個參數(shù)并與所選“天宮二號”影像進行經(jīng)緯度匹配。為了方便程序的讀寫,提取后的土壤濕度用Excel格式存儲[5]。
1.3 ?QUAC大氣校正
從空間數(shù)據(jù)中心獲取的“天宮二號”寬波段成像儀二級數(shù)據(jù)已經(jīng)做過幾何校正和輻射定標處理,將DN值轉(zhuǎn)化成了輻亮度值,因此只需要進行大氣校正即可。選用ENVI快速大氣QUAC校正工具對“天宮二號”寬波段成像儀可見光近紅外數(shù)據(jù)進行大氣校正,該工具的特點是:可以自動地從數(shù)據(jù)中獲得各個地物的波譜信息,采用先驗知識來進行較高精度的多光譜和高光譜數(shù)據(jù)大氣校正。由于空間中心提供的“天宮二號”影像頭文件中缺少各通道中心波長的信息,所以需要手動編寫影像的頭文件。大氣校正前后光譜信息如圖1所示[6]。
1.4 ?影像套合
本研究采用基于光譜指數(shù)的云和陰影檢測算法對圖像進行去云處理,以此可以得到“天宮二號”的無云影像,隨后進行影像值的提取,采用ArcGIS軟件中的多值提取到點工具對圖像和濕度數(shù)據(jù)進行套合,設(shè)定為地理坐標系WGS84[7]。因為通道8,9,10與土壤濕度具有更強的相關(guān)性,因此挑取此3個波段下云掩膜后的“天宮二號”數(shù)據(jù)與對應(yīng)區(qū)域的SMAP土壤濕度數(shù)據(jù)進行套合后,最終套合的結(jié)果如圖2所示,并把經(jīng)緯度、土壤濕度以及該處各通道光譜反射率數(shù)據(jù)提取至Excel。
2 ?研究算法
2.1 ?貝葉斯神經(jīng)網(wǎng)絡(luò)
在傳統(tǒng)的貝葉斯統(tǒng)計方法中,先驗以及后驗方法通常考慮觀測值的概率密度函數(shù),而該概率密度函數(shù)往往是不同權(quán)重的重要參考依據(jù),這一點是貝葉斯神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的重要區(qū)別。然而,由于初始的先驗分布設(shè)置不同,最終得到的參數(shù)估計結(jié)果也會有較大的差異,因此這也增加了貝葉斯神經(jīng)網(wǎng)絡(luò)模型的估計難度。針對這個問題,可以通過貝葉斯轉(zhuǎn)化一個后驗分布來設(shè)定觀測樣本的概率密度函數(shù)的先驗分布,繼而通過樣本觀測值獲得整體的分布狀況[8]。本文選用的樣本先驗分布為高斯分布:
2.2 ?隨機森林算法
隨機森林算法是基于抽樣模型的一種機器學(xué)習(xí)算法,隨機森林方法主要根據(jù)如下核心實現(xiàn):
1) 選擇原始訓(xùn)練集以及測試集(一般情況下訓(xùn)練集與測試集的維度N已知)。在此基礎(chǔ)上,需要確定隨機森林模型的拓撲結(jié)構(gòu),也就是森林樹木數(shù)量,樹木深度以及每個節(jié)點需要用到的特征數(shù),一般而言,還需要根據(jù)樣本結(jié)構(gòu)設(shè)定決策終止條件。
2) 從上述原始訓(xùn)練集中隨機抽取一定的樣本作為待測試樣本,也就是所謂的根節(jié)點樣本并開始進行訓(xùn)練。
3) 如果計算到某一節(jié)點時滿足終止條件,設(shè)置當(dāng)前節(jié)點為葉子節(jié)點。如果是分類問題,則輸出當(dāng)前節(jié)點樣本集合中數(shù)量最多的那一類。也可通過頻率代替概率的方式以概率模型輸出。如果是回歸模型問題,則采用平均值數(shù)據(jù),然后依次訓(xùn)練其他節(jié)點。比較特殊的情況是,如果終止條件始終無法被滿足,則可采用閾值的方法進行設(shè)定。
4) 重復(fù)上述過程得到所有的葉子節(jié)點。
5) 重復(fù)上述過程訓(xùn)練所有的決策樹[9]。
2.3 ?GA遺傳算法改進原理
在神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)的訓(xùn)練中,需要對模型的超參數(shù)進行設(shè)置,參數(shù)設(shè)置得過大或者過小都可能影響到擬合曲線的收斂速度和擬合效果。因此,本研究采用GA(Genetic Algorithm)遺傳算法對神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)進行改進,將遺傳算法和學(xué)習(xí)算法進行融合,自適應(yīng)地判斷超參數(shù)最優(yōu)解,進一步優(yōu)化和提升學(xué)習(xí)模型的精度[10]。GA改進神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)算法的主要步驟為:
1) 隨機初始化種群,分配N個神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)超參數(shù)進入該群體。
2) 采用適應(yīng)性函數(shù)f(x)對種群中每個個體進行適應(yīng)度的評估。
3) 采用輪盤賭法,去掉劣質(zhì)個體的同時保留優(yōu)質(zhì)個體,優(yōu)質(zhì)個體保留數(shù)量為(1-P)N,其中P表示個體之間交叉的概率,個體i被保留的概率為:
4) 對選取PN個父代個體進行配對交叉處理,產(chǎn)生子代并加入輪盤賭法后的新種群中。
5) 選取QN個子代個體進行變異處理,Q為種群中個體變異產(chǎn)生偏差的概率,判斷新生成的種群是否滿足要求,不滿足要求則返回步驟2),滿足要求則輸出該種群。
6) 最后,從輸出的新種群中挑選適應(yīng)度最大的個體作為神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)超參數(shù)的最優(yōu)解。
2.4 ?預(yù)測模型建立
在訓(xùn)練的過程中按照85∶15設(shè)定訓(xùn)練集和測試集樣本的比例,基于Matlab 2018A神經(jīng)網(wǎng)絡(luò)工具箱和GUI頁面對貝葉斯神經(jīng)網(wǎng)絡(luò)模型進行設(shè)計。設(shè)置學(xué)習(xí)速率為0.01,最大迭代次數(shù)為500。
GA遺傳算法的參數(shù)設(shè)定參考改進貝葉斯神經(jīng)網(wǎng)絡(luò)時使用的數(shù)值:種群規(guī)模數(shù)為30,遺傳算法終止進化迭代次數(shù)為150次,交叉概率0.90,變異概率0.05。
因為通道8,9,10與土壤濕度之間的相關(guān)性更高,因此選取此3個通道作為反演模型的輸入數(shù)據(jù),SMAP土壤濕度數(shù)據(jù)作為輸出數(shù)據(jù),以此建立反演模型。經(jīng)測試確定改進的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為3?5?1,隨機森林的決策樹個數(shù)設(shè)置為20。
3 ?結(jié)果與分析
3.1 ?通道反射率與土壤濕度相關(guān)性分析
“天宮二號”寬波段成像儀各通道下的光譜反射率與土壤濕度數(shù)據(jù)之間存在不同的相關(guān)性,因此選取較強相關(guān)性的反射率數(shù)據(jù)可以提高反演的精度。各通道與土壤濕度之間的相關(guān)系數(shù)如表1所示。
計算相關(guān)系數(shù)后發(fā)現(xiàn):在可見光近紅外譜段內(nèi),土壤濕度和對應(yīng)的光譜反射率之間存在反比例的關(guān)系,即隨著土壤含水量的增加,光譜反射率會處于一個下降的趨勢。通過比較發(fā)現(xiàn),“天宮二號”寬波段成像儀可見光近紅外的8,9,10波段與土壤濕度之間有更強的相關(guān)性?;谝陨戏治?,本研究對相關(guān)性高的通道進行組合,進一步探討反演模型的精度。
3.2 ?精度評價
通過GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)和隨機森林算法對SMAP土壤濕度數(shù)據(jù)進行降尺度反演,反演模型的精度如表2所示。
使用神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)方法在每次學(xué)習(xí)之后得出的結(jié)果會有小范圍的波動,所以在每個節(jié)點下都訓(xùn)練了至少5次,以防止模型精度的偶然性。結(jié)果表明:在進行“天宮二號”數(shù)據(jù)土壤濕度反演時,GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)反演模型精度R?squre為0.788,均方根誤差為0.142 m3·m-3。使用GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)算法得到的預(yù)測值和真實值比較結(jié)果如圖3所示。
GA改進的隨機森林反演模型R?squre為0.825 3,均方根誤差達到了0.125 m3·m-3,可知模型反演的精度要優(yōu)于GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)算法。使用GA隨機森林算法得到的預(yù)測值和真實值比較結(jié)果如圖4所示。
通過比較可以發(fā)現(xiàn),GA改進的隨機森林反演模型較GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)反演模型可決系數(shù)更高,均方根誤差更低,可以實現(xiàn)高精度大范圍的土壤濕度反演。
研究表明,針對大尺度范圍內(nèi)的土壤濕度高精度的應(yīng)用需求,比起傳統(tǒng)的土壤重量和探針測量法,選用GA改進的隨機森林算法建立光譜反射率與土壤濕度之間聯(lián)系,從而進行降尺度反演的方法,可以大大減少人力資源和財產(chǎn)的投入,在較短時間內(nèi)獲得高空間分辨率的土壤濕度數(shù)據(jù)的同時滿足了監(jiān)測氣候和環(huán)境的變化、農(nóng)作物旱澇災(zāi)害預(yù)警等實際應(yīng)用的需求,加快推動了我國農(nóng)林業(yè)大范圍地理信息預(yù)測和氣候監(jiān)測的發(fā)展。
3.3 ?算法復(fù)雜度
算法的評價主要分為時間復(fù)雜度和空間復(fù)雜度。時間復(fù)雜度為算法運行的時間成本開銷,而空間復(fù)雜度則表示算法運行時需要占用的內(nèi)存開銷。
基于上述分析,本文利用Matlab Tic和Toc函數(shù)計算時間尺度。本文樣本規(guī)模為光譜反射率和土壤濕度的集合,因為數(shù)據(jù)源較大,所有量級均采用標準尺度計算,將本文算法中重要參數(shù)的設(shè)置值標準化至10。利用Tic函數(shù)記錄程序運行時間,并利用Matlab擬合工具箱對數(shù)據(jù)進行擬合,得到兩種改進算法的時間復(fù)雜程度如圖5所示。
通過觀察圖5中兩種算法的時間復(fù)雜度函數(shù)可以發(fā)現(xiàn),改進后的神經(jīng)網(wǎng)絡(luò)模型大致呈現(xiàn)出指數(shù)增加的時間復(fù)雜度;而對于改進后隨機森林模型的時間復(fù)雜度而言,雖然該模型的耗時比貝葉斯神經(jīng)網(wǎng)絡(luò)模型要長,但是隨著樣本個數(shù)的增加,模型耗時的增速逐漸減慢,因此可以認為該模型在大樣本估計時有著較好的運算效率。
4 ?結(jié) ?論
本文對“天宮二號”影像進行了大氣校正、云掩膜等預(yù)處理步驟。通過分析光譜反射率與土壤濕度之間的相關(guān)性得出:“天宮二號”寬波段成像儀可見光近紅外的8,9,10波段與土壤濕度之間有更強的相關(guān)性。分別選用GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)和GA改進的隨機森林算法,基于這3個波段下的“天宮二號”可見光近紅外影像對SMAP土壤濕度數(shù)據(jù)進行降尺度反演,均取得了不錯的結(jié)果。SMAP土壤濕度數(shù)據(jù)的空間分辨率由3 km提高至100 m。采用GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)反演算法時,模型精度達到0.788,均方根誤差RMSE為 0.142 m3·m-3 ;采用GA改進的隨機森林算法進行反演時,模型精度達到了0.825,均方根誤差RMSE為 0.125 m3·m-3。比較發(fā)現(xiàn),在對SMAP土壤濕度數(shù)據(jù)進行降尺度反演時,GA改進的隨機森林方法模型精度更高,訓(xùn)練效果更好。在處理大數(shù)據(jù)樣本時,GA改進的隨機森林算法時間復(fù)雜度低于GA改進的貝葉斯神經(jīng)網(wǎng)絡(luò)算法。
研究表明,針對大尺度范圍內(nèi)的土壤濕度高精度的應(yīng)用需求,比起傳統(tǒng)的土壤重量和探針測量法,選用GA改進的隨機森林算法建立光譜反射率與土壤濕度之間聯(lián)系,從而進行降尺度反演的方法,可以大大減少人力資源和財產(chǎn)的投入,在較短時間內(nèi)獲得高空間分辨率的土壤濕度數(shù)據(jù)的同時滿足了監(jiān)測氣候和環(huán)境的變化、農(nóng)作物旱澇災(zāi)害預(yù)警等實際應(yīng)用的需求,加快推動了我國農(nóng)林業(yè)大范圍地理信息預(yù)測和氣候監(jiān)測的發(fā)展。
參考文獻
[1] SENEVIRATNE S I, CORTI T, DAVIN E L, et al. Investigating soil moisture?climate interactions in a changing climate: a review [J]. Earth?science reviews, 2010, 99(3/4): 125?161.
[2] 劉虹利,王紅瑞,吳泉源,等.基于MODIS數(shù)據(jù)的濟南市農(nóng)田區(qū)土壤含水量模型[J].中國農(nóng)村水利水電,2012(8):12?15.
[3] BROWN M E, ESCOBAR V, MORAN S, et al. NASA's soil moisture active passive (SMAP) mission and opportunities for applications users [J]. Bulletin of the American meteorological society, 2013, 94(8): 1125?1128.
[4] ZHENG S J, GE M Y, HAN D W, et al. Test of pulsar navigation with POLAR on TG?2 space station [J]. Scientia sinica physica, mechanica & astronomica, 2017, 47(9): 120?128.
[5] ENTEKHABI D, NJOKU E G, O"NEILL P E, et al. The soil moisture active passive (SMAP) mission [J]. Proceedings of the IEEE, 2010, 98(5): 704?716.
[6] VERMOTE E F, EL SALEOUS N Z, JUSTICE C O. Atmospheric correction of MODIS data in the visible to middle infrared: first results [J]. Remote sensing of environment, 2002, 83(1/2): 97?111.
[7] ZHAI H, ZHANG H Y, ZHANG L P, et al. Cloud/shadow detection based on spectral indices for multi/hyperspectral optical remote sensing imagery [J]. ISPRS journal of photogrammetry and remote sensing, 2018, 144: 235?253.
[8] HERN?NDEZ?LOBATO J M, ADAMS R. Probabilistic back propagation for scalable learning of Bayesian neural networks [J]. Harvard intelligent probabilistic system, 2015(12): 1861?1869.
[9] MUTANGA O, ADAM E, CHO M A. High density biomass estimation for wetland vegetation using WorldView?2 imagery and random forest regression algorithm [J]. International journal of applied earth observation and geo?information, 2012, 18: 399?406.
[10] YU W, LI B Z, JIA H Y, et al. Application of multi?objective genetic algorithm to optimize energy efficiency and thermal comfort in building design [J]. Energy and buildings, 2015, 88: 135?143.