于新洋,趙庚星,常春艷,袁秀杰,王卓然
(1. 土肥資源高效利用國家工程實(shí)驗(yàn)室,山東 泰安 271028;2. 山東農(nóng)業(yè)大學(xué) 資源與環(huán)境學(xué)院,山東 泰安 271028)
遙感分類作為遙感技術(shù)應(yīng)用最重要的組成部分,研究方法日漸多樣。典型的遙感監(jiān)督分類法如分類回歸樹(classification and regression tree,CART)[1-2]、支持向量機(jī)(support vector machine,SVM)[3-4]及人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)[5-6]算法目前應(yīng)用較多。然而,隨著土地利用范圍及程度的不斷拓展深化以及區(qū)域資源環(huán)境變化,陸表土地利用已趨于類型復(fù)雜化、格局破碎化,“物譜兩異”現(xiàn)象普遍存在[7],單分類器已難以滿足更高的分類精度需求[8]。
隨機(jī)森林分類器(random forest classifier,RFC)[9]自2001年提出伊始便以處理流程穩(wěn)健高效等優(yōu)勢引起遙感領(lǐng)域的關(guān)注,相關(guān)研究逐漸增多[10-12]。RFC可在縮短處理時(shí)間[13]的前提下有效應(yīng)對(duì)變量數(shù)量遠(yuǎn)多于訓(xùn)練樣本量引發(fā)的“維度詛咒”現(xiàn)象[14]。目前已有較多利用RFC用于遙感領(lǐng)域的相關(guān)研究[15],但尚未見其應(yīng)用及發(fā)展趨勢的系統(tǒng)綜述。本研究在對(duì)遙感集成分類器簡要概述、探討RFC基本原理的基礎(chǔ)上,綜述RFC的研究應(yīng)用現(xiàn)狀與發(fā)展展望,旨在對(duì)RFC已有研究進(jìn)行梳理,總結(jié)其在遙感中的應(yīng)用成果,并討論其主要發(fā)展方向,為相關(guān)研究應(yīng)用提供參考。
為克服單分類器無法應(yīng)對(duì)復(fù)雜土地利用覆被現(xiàn)狀的問題,集成分類器的概念進(jìn)入遙感領(lǐng)域[16-17]。集成分類器可以是單分類器的組合,也可以是基于引導(dǎo)聚集算法(bootstrap aggregating,Bagging)[18]或提升算法(Boosting)[19-20]方法訓(xùn)練生成的分類器。二者的不同在于Bagging選取訓(xùn)練樣本集的隨機(jī)子集對(duì)每個(gè)分類器進(jìn)行訓(xùn)練;Boosting則使用樣本集中的全部樣本進(jìn)行迭代訓(xùn)練,并在此過程中增加錯(cuò)誤分類樣本的權(quán)重。已有研究發(fā)現(xiàn)使用此2種方法均比單分類器分類準(zhǔn)確性更高[21]。亦有研究提出Boosting可以減少分類偏差[13],比Bagging結(jié)果準(zhǔn)確性更高[22]。然而,Boosting方法需要進(jìn)行大量迭代計(jì)算,訓(xùn)練樣本量不足時(shí)易出現(xiàn)過度擬合,且其對(duì)訓(xùn)練樣本異常值極為敏感[23]。Bagging在減少分類差異的情況下對(duì)分類結(jié)果影響極小[24],為主流集成分類器所采用。
作為數(shù)據(jù)驅(qū)動(dòng)的非參數(shù)分類方法,RFC使用CART集群進(jìn)行預(yù)測分類[9]。其利用自助抽樣技術(shù)通過有放回地抽取訓(xùn)練樣本集的一部分(Bagging)創(chuàng)建回歸樹集群,通過投票方式得到最終分類結(jié)果。約三分之二的訓(xùn)練樣本(袋內(nèi)樣本)會(huì)用于訓(xùn)練回歸樹(圖1),剩余三分之一樣本(袋外樣本)用于內(nèi)部驗(yàn)證,以估計(jì)RFC分類結(jié)果的誤差[25],稱袋外(out of bag,OOB)誤差。隨機(jī)森林中的每棵決策樹都是獨(dú)立生長的,無需任何修剪,在每個(gè)節(jié)點(diǎn)使用隨機(jī)選擇的用戶定義特征變量參數(shù)(Mtry)進(jìn)行分叉。通過將森林?jǐn)U大到用戶定義的決策樹棵數(shù)(Ntree),該算法會(huì)創(chuàng)建出具有高方差及低偏差的決策樹集群[9]。在分類階段,當(dāng)新的待分類數(shù)據(jù)輸入時(shí),所有集成決策樹會(huì)對(duì)其所屬類的分配概率進(jìn)行估算,通過每棵樹的投票結(jié)果決定其歸屬(圖1)。目前RFC已集成于多個(gè)軟件,如eCognition、imageRFID、R以及Matlab等。
圖1 隨機(jī)森林分類流程圖
為保證隨機(jī)森林的生成,需設(shè)置兩個(gè)關(guān)鍵參數(shù):決策樹的棵數(shù)(Ntree)和完成分類所需的變量參數(shù)(Mtry)[26]。由于RFC計(jì)算效率高且不會(huì)過度擬合,Ntree的取值可以大一些[27]。已有研究多將Ntree值設(shè)置為500,因?yàn)橛醒芯刻岢鲈谶_(dá)到這種數(shù)量的分類樹之前,分類誤差便已趨于穩(wěn)定[28]。R語言包中RFC處理程序“randomForest”中Ntree默認(rèn)值也為500[29]。另有研究探索了Ntree其他取值如5 000[30-32]、1 000[33-34]、200[25]或100[27],均發(fā)現(xiàn)RFC決策樹棵數(shù)對(duì)分類結(jié)果沒有影響[10]??傮w而言,基于RFC處理遙感數(shù)據(jù)Ntree取值500是可行的。另一個(gè)重要參數(shù)Mtry取值的研究則結(jié)論各異,目前通常設(shè)置為輸入變量數(shù)量的平方根的倍數(shù)[13]。此外,有研究認(rèn)為取值為1即可獲得較好的精度[35]。另有學(xué)者發(fā)現(xiàn)隨著取值的增大,預(yù)測結(jié)果精度會(huì)更高[36];Ghosh等[14]嘗試將Mtry設(shè)置為輸入變量的總數(shù),考慮到RFC須計(jì)算所有分叉節(jié)點(diǎn)變量的信息增益,這就增加了模型的運(yùn)算時(shí)間。
目前RFC已成功用于多光譜影像的土地利用分類[37-40]、城市信息提取[41]、病蟲害監(jiān)測[42]及植被生物量計(jì)算[43]等多個(gè)方面。在土地利用分類方面,如田紹鴻、張顯峰基于天繪一號(hào)衛(wèi)星多光譜數(shù)據(jù)及RFC對(duì)新疆北屯市及周邊區(qū)域的土地覆蓋進(jìn)行了分類研究[44];劉毅、杜培軍等基于RFC對(duì)環(huán)境一號(hào)小衛(wèi)星和北京一號(hào)小衛(wèi)星數(shù)據(jù)進(jìn)行了分類,發(fā)現(xiàn)結(jié)果較最大似然法和SVM分類結(jié)果有更好的穩(wěn)定性和分類精度以及更快的運(yùn)算速度[45];杜政、方耀將高分一號(hào)PMS多光譜影像與多種指數(shù)及共生矩陣紋理疊加,利用RFC對(duì)該組合進(jìn)行了土地利用分類,發(fā)現(xiàn)分類精度比傳統(tǒng)方法提高顯著[46]。城市信息提取方面,顧海燕、閆利等以西安臨潼的WorldView-2影像為例,構(gòu)建了基于RFC的地理要素面向?qū)ο蠼庾g方法[25];Deng等利用RFC基于MODIS數(shù)據(jù)對(duì)城市不透水面進(jìn)行分類嘗試[47]。病蟲害監(jiān)測方面,R?s?nen等利用WorldView-2影像對(duì)北方森林棲息地進(jìn)行繪圖[42];Wang等利用IKONOS數(shù)據(jù)及RFC識(shí)別樹種的健康狀況[48]。在植被生物量計(jì)算方面,岳繼博等利用RFC對(duì)覆蓋陜西省楊凌區(qū)的GF1-WFV多光譜數(shù)據(jù)進(jìn)行了分類,并對(duì)比分析了冬小麥生物量的遙感估算模型[49];吳超凡結(jié)合多時(shí)相Landsat影像及RFC估算了浙江省杭州市中部地區(qū)的森林地上生物量[50];Karlson等利用多時(shí)相Landsat影像和RFC準(zhǔn)確繪制了研究區(qū)樹冠覆蓋度和生物量圖[43]。
高光譜影像維度較高,可用訓(xùn)練數(shù)據(jù)相對(duì)較少,誤分類情況較多[51-52]。RFC作為一種特征空間優(yōu)化技術(shù),可自動(dòng)選擇和排序主要的分類變量,克服高維遙感影像導(dǎo)致的變量選擇困難及存在的主觀性問題[12]。韓兆迎等基于RFC進(jìn)行了山東省棲霞市的蘋果樹冠層葉面積的高光譜估算,結(jié)果精度較SVM對(duì)照模型有顯著提高[53];程立真等選取山東省棲霞市25個(gè)果園100株新梢旺長期蘋果樹,基于RFC進(jìn)行了葉片磷元素含量的監(jiān)測[54];郭澎濤等分析了橡膠小苗葉片磷元素含量監(jiān)測,以指導(dǎo)橡膠苗施肥管理[55]。此外,將RFC及高光譜影像相結(jié)合在樹草種制圖與區(qū)分[56-58]、土地利用分類[59-60]、植被入侵監(jiān)測[61-62]以及病蟲害監(jiān)測[63]等方面均取得了更為精確的結(jié)果,應(yīng)用廣泛。
RFC在雷達(dá)(SAR)數(shù)據(jù)的應(yīng)用層面除與多光譜影像處理相似的基于多時(shí)相SAR數(shù)據(jù)[64]和全極化雷達(dá)(Pol-SAR)數(shù)據(jù)[65-66]的土地利用分類,亦有利用RFC與SAR數(shù)據(jù)進(jìn)行溢油區(qū)制圖的案例[67]。已有研究表明機(jī)載激光測距儀(LiDAR)數(shù)據(jù)與星載遙感影像各有優(yōu)勢,RFC可用于LiDAR數(shù)據(jù)特征選擇與海岸帶地物分類[68]。LiDAR數(shù)據(jù)與RFC相結(jié)合在城市信息提取[69-70]、林分平均樹高估算[71]、森林丘陵地形誤差分析[72]及像元尺度的森林滑坡體地圖繪制[73]等方面均有研究。此外,亦有研究探討了RFC在無人機(jī)數(shù)據(jù)分類[74-75]以及熱紅外遙感信息提取方面的應(yīng)用[76]。
RFC可用于評(píng)估多源傳感器影像與多種輔助數(shù)據(jù)(如DEM、土壤類型數(shù)據(jù))對(duì)分類結(jié)果的貢獻(xiàn)[77-80],遴選與分類聯(lián)系最為密切的數(shù)據(jù)集。如Gislason等使用RFC辨別Landsat MSS影像、高程(10 m間隔)、坡度和坡向數(shù)據(jù)集中對(duì)于分類最重要的變量,結(jié)果發(fā)現(xiàn)海拔是確定土地利用類別唯一重要的地形變量[13]。Corcoran等評(píng)估了Landsat TM影像、雷達(dá)數(shù)據(jù)、地形變量(曲率和高程)以及土壤參數(shù)等多源多時(shí)相遙感及輔助數(shù)據(jù)對(duì)明尼蘇達(dá)州北部濕地RFC制圖精度的影響,發(fā)現(xiàn)由海拔、曲率、土壤參數(shù)和春季影像組成的分類模型精度最高[81]。
遙感分類方法的準(zhǔn)確性評(píng)估需要另外采集地物類型估算樣本,費(fèi)事費(fèi)力。有研究提出RFC的袋外誤差可作為分類精度加以對(duì)待[6,82],以簡化和節(jié)約時(shí)間精力。這一倡議是否可行需大量的應(yīng)用研究加以評(píng)估。此外,有研究發(fā)現(xiàn)對(duì)不同研究區(qū)進(jìn)行訓(xùn)練時(shí),RFC的整體分類精度會(huì)有降低[83];Juel等[84]發(fā)現(xiàn)航空影像和DEM數(shù)據(jù)組成的植被監(jiān)測RFC不能適用于新的研究區(qū)域。如何克服RFC的不可移植性,使其具有更為普適的功能是未來值得研究的問題。另一方面,目前已有研究主要關(guān)注RFC的像元尺度分類,對(duì)RFC與面向?qū)ο蟮挠跋穹治黾夹g(shù)(OBIA)耦合研究相對(duì)較少。通過影像分割生成的變量數(shù)量越來越多,使得OBIA具有高度的主觀性和時(shí)間成本[85-86]。通過與RFC相結(jié)合,OBIA可以借助RFC計(jì)算特征變量的重要性來優(yōu)化特征空間,進(jìn)行更多領(lǐng)域?qū)用娴膽?yīng)用。
RFC中的樣本臨近度計(jì)算可用于訓(xùn)練樣本的異常值檢測。2個(gè)樣本之間的臨近度是通過相同終端節(jié)點(diǎn)樹的數(shù)量與全體樹總數(shù)的比值來表示的[13]。未來可以將臨近度檢測和其他監(jiān)督分類器(如SVM或ANN)相結(jié)合。另一方面,有關(guān)訓(xùn)練樣本的數(shù)量增加或減少[87]以及特征變量中存在噪聲時(shí)重要性檢測的穩(wěn)健性問題,需加以深入研究[88]。
為進(jìn)一步減少錯(cuò)誤分類,可考慮對(duì)RFC從方法上加以改進(jìn)。例如針對(duì)遙感信息處理的目標(biāo)檢測、土地覆蓋分類和變化檢測3個(gè)方面提出顏色增強(qiáng)的旋轉(zhuǎn)不變霍夫森林、條件紋元森林及四叉樹雙模態(tài)紋元森林等改進(jìn)進(jìn)行研究[89]。也可從隨機(jī)森林樣本相似度計(jì)算的角度進(jìn)行改進(jìn)[90]。另有Zhang、Suganthan提出旋轉(zhuǎn)RFC,在訓(xùn)練階段通過鏈接每棵樹在根節(jié)點(diǎn)處的旋轉(zhuǎn)空間生成更高空間以提高樹的多樣性[91]。Xia等將主成分分析(PCA)等特征空間轉(zhuǎn)換方法與旋轉(zhuǎn)RFC相結(jié)合,發(fā)現(xiàn)結(jié)果優(yōu)于RFC、SVM、AdaBoost及“變量分解和增強(qiáng)拉格朗日邏輯回歸”(LORSA)分類器[51]。Du等基于SVM、RFC和旋轉(zhuǎn)RFC使用極化Pol-SAR數(shù)據(jù)和空間特征進(jìn)行分類,發(fā)現(xiàn)旋轉(zhuǎn)RFC結(jié)果優(yōu)于RFC和SVM分類,但需增加計(jì)算量[10]。
本研究介紹了RFC的基本原理及參數(shù)設(shè)置,綜述了其作為分類器及遴選器在多源影像分類和參量選取方面的應(yīng)用研究進(jìn)展。與其他機(jī)器學(xué)習(xí)分類器相比,RFC對(duì)訓(xùn)練樣本的質(zhì)量和過度擬合問題包容性更強(qiáng)。未來可從RFC分類精度檢驗(yàn)、樣本異常檢測及算法改進(jìn)等方面促進(jìn)其在遙感領(lǐng)域的更佳應(yīng)用和深入發(fā)展。
構(gòu)建廬山市溫泉鎮(zhèn)的過程中,我們要盡可能地深入挖掘當(dāng)?shù)靥攸c(diǎn),行業(yè)特征、文化特征、管理、服務(wù)特色、民族特色,等等,打造旅游主題小鎮(zhèn),突出特色。廬山市溫泉鎮(zhèn)擁有眾多的溫泉資源,可以說溫泉產(chǎn)業(yè)是廬山市溫泉鎮(zhèn)實(shí)現(xiàn)收入的主要產(chǎn)業(yè)。根據(jù)《健康中國2030年規(guī)劃綱要》,等一系列強(qiáng)民性質(zhì)的政府性文件,廬山市溫泉鎮(zhèn)可以以溫泉療養(yǎng)為主題,從這一主題上進(jìn)行產(chǎn)業(yè)鏈的延伸。