摘要為了深入了解高光譜分類領域的研究現(xiàn)狀,基于Web of Science數(shù)據(jù)庫和CNKI數(shù)據(jù)庫,檢索了關于高光譜遙感分類的相關文獻,并對文獻的分布情況和研究方法等進行了歸納和分析。結果表明,關于高光譜分類的文獻發(fā)布數(shù)量總體呈上升趨勢,其中美國的文獻發(fā)布量最多,熱帶森林類型受關注最多。采用最多的分類方法有最大似然法、支持向量機、隨機森林、光譜角度制圖和判別分析5種,5種方法各有優(yōu)缺點,分類精度都較高,分類敏感波段大多在可見光、近紅外和短波紅外等波段。該研究可為高光譜林業(yè)遙感分類領域森林類型和分析方法的進一步研究提供參考。
關鍵詞高光譜遙感;文獻分布;分類方法
中圖分類號S-058文獻標識碼A文章編號0517-6611(2014)09-02801-05
基金項目國家“十二五”科技支撐項目(2012BAC01B03);教育部新世紀優(yōu)秀人才支持計劃項目(NCET100230);國家自然科學基金項目(41171278)。
作者簡介李瑞平(1990-),女,河北滄州人,碩士研究生,研究方向:林業(yè)遙感。
準確地獲取土地類型和森林樹種分布信息一直是林業(yè)遙感中的熱點課題,對林業(yè)資源管理具有重要意義。然而,傳統(tǒng)的資源調查方法一般都費時、費力,而且當調查面積很大時,獲取的信息具有一定的滯后性。利用多光譜遙感進行資源調查的方法受到光譜分辨率的影響,且受到“同物異譜”和“同譜異物”等現(xiàn)象的干擾。
高光譜數(shù)據(jù)具有光譜范圍廣、光譜分辨率高、數(shù)據(jù)量大等特點,這使得利用高光譜數(shù)據(jù)實現(xiàn)土地類型或樹種的精細識別成為了可能。而且,隨著高光譜遙感的迅猛發(fā)展,數(shù)據(jù)的即時性得到了很大提高。自高光譜遙感技術誕生以來,已有大批學者利用高光譜技術進行分類研究[1-3], 部分學者從不同的角度對文獻進行了總結[4-10]。然而,較少見到系統(tǒng)的文獻分析。因此,筆者從文獻計量的角度對文獻庫中的文獻進行了分析和總結,希望能增加對該領域研究進展的系統(tǒng)性了解,有利于把握該技術的研究進展和發(fā)展方向。
1 材料與方法
1.1數(shù)據(jù)庫基于Web of Science和CNKI(http://www.cnki.net)兩個數(shù)據(jù)庫對高光譜數(shù)據(jù)分類文獻進行基于文獻計量的分析。Web of Science數(shù)據(jù)庫收錄了世界各領域一流期刊的高質量文獻,CNKI也收錄了國內高質量的論文,因此這兩個數(shù)據(jù)庫中的文獻可以代表各研究領域的發(fā)展前沿,具有較好的代表性。
以Endnote軟件為整理工具,對檢索的文獻進行歸類和分析。
1.2分析方法以主題詞“hyperspectral”、“classification”和“forest”在Web of Science數(shù)據(jù)庫中進行檢索,對應以“高光譜”、“分類”、“林”為主題詞在CNKI數(shù)據(jù)庫中進行檢索。
首先,按照文獻計量方法對文獻年代分布、國家分布和森林類型分布進行統(tǒng)計分析。然后,按照技術方法對分類方法、精度和敏感波段幾個部分進行剖析。
2 文獻分布結果
分別從年代、國家和文獻涉及到的森林類型3個方面對文獻的分布進行了描述和分析。在Web of Science數(shù)據(jù)庫中共檢索到2003~2013年214篇文獻;在CNKI數(shù)據(jù)庫中檢索到1998~2013年共476條文獻。
2.1年代分布從圖1可以看出,與高光譜分類相關的文獻數(shù)量從1998年起總體呈上升趨勢,2012年文獻數(shù)量最多,2013年有所下降,這可能是因為2013年目前文獻未收錄完整,只有從1~9月份的文獻。結果表明,森林高光譜分類仍然是研究熱點。Web of Science數(shù)據(jù)庫增幅最大的是2008、2012年,這兩個年份的文獻數(shù)量相比前一年增長了將近1倍。CNKI數(shù)據(jù)庫增幅最大的年份是2004、2011年。CNKI從2004年開始,文章數(shù)量均超過20篇,說明國內對高光譜分類的關注較為持續(xù)。
2.2國家分布基于Web of Science可以統(tǒng)計國家分布結果。從圖2可以看出,文獻數(shù)量最多的國家是美國,占26%。其次是加拿大占9%,德國占7%,中國、澳大利亞、意大利和南非分別占了文獻總量的5%,也是研究的重要主體。文獻數(shù)量≤5的國家歸并到其他類中,數(shù)量占總量的29%。
2.3森林類型分布從圖3可以看出,涉及到熱帶森林的文章最多,占總體的31%,其次是城市森林,占總體23%,再次是濕地,占總體19%, 熱帶草原相對最少,占12%,其他森林類型占15%。需要注意的是,熱帶森林包括熱帶干森林和
3 主要分類方法
根據(jù)分類的主要步驟不同,將高光譜數(shù)據(jù)分類方法分為預處理方法、降維方法、分類方法和驗證方法分別進行分析。
3.1預處理預處理是高光譜數(shù)據(jù)處理的第1步,是為后續(xù)工作做準備的。預處理的目標是去除數(shù)據(jù)噪聲,或者對數(shù)據(jù)進行變換以利于分類。根據(jù)統(tǒng)計,常用的高光譜數(shù)據(jù)預處理方法有導數(shù)變換、小波變換和光譜曲線平滑法等。
3.1.1導數(shù)法(Derivative)。導數(shù)法中的一階導數(shù)法和二階導數(shù)法是高光譜曲線常用的處理方法[11]。植被光譜曲線有一些特征吸收波段,這些波段特征比較穩(wěn)定,能夠用于區(qū)分不同樹種。經(jīng)過變換后的高光譜數(shù)據(jù)之間的波形差異性會被增強,而且系統(tǒng)誤差和光譜散射會被消除[12]。
3.1.2小波變換(Wavelet Transformation, WT)。是在傅里葉變換的基礎上改進而來的[13]。小波變換可以通過對光譜噪聲和信號的分離達到去噪的目的。小波變換的基本原理是通過對信號的伸縮平移變換,將其多尺度細化,然后將對信號的高頻部分進行濾波處理,最后通過信號重構生成新的信號。根據(jù)實際要求,采用WT方法對高光譜數(shù)據(jù)進行濾波去噪,使光譜曲線變得平滑,利于分類分析[14]。
3.1.3包絡線法(Continuum removal)。是一條“包”在高光譜曲線外側的曲線,即把高光譜曲線的峰點連接起來得到的一條相對頻率較低的曲線,該曲線可以有效突出光譜的吸收和反射特征,有利于相似光譜曲線的區(qū)分[15-16]。
3.2降維方法 高光譜數(shù)據(jù)波段數(shù)多, 包含信息多,但是這也造成了高光譜數(shù)據(jù)量大、處理過程復雜、耗費資源和時間等一系列問題。為了避免高光譜數(shù)據(jù)給用戶帶來的“維數(shù)災難”,在對其分類之前有必要對其進行降維處理[17]。一般高光譜數(shù)據(jù)的降維方法分為特征降維和波段選擇兩種,作者將文獻所涉及到的降維進行了分類統(tǒng)計,發(fā)現(xiàn)特征降維方法的應用比波段選擇方法廣泛。
3.2.1特征降維。高光譜數(shù)據(jù)維數(shù)多,且不同維光譜之間大多都有聯(lián)系,特征降維的主要思想是將高維的數(shù)據(jù)經(jīng)過某種轉換降到低維空間,使不同維的光譜數(shù)據(jù)盡量保持獨立,以減少數(shù)據(jù)的冗余。文獻中提到最多的特征降維方法是主成分分析和最小噪聲分離變換。
(1)主成分分析(Principal Components Analysis, PCA)。是廣大學者采用的一種最普遍的降維分析方法[18-19]。主成分分析首先對數(shù)據(jù)的協(xié)方差矩陣進行維數(shù)分解,然后按照方差貢獻率的大小排列不同的數(shù)據(jù)分量,保留方差貢獻最大的若干數(shù)據(jù)維用于分析,即在降維的同時可以保證數(shù)據(jù)重要信息不丟失[20]。
(2)最小噪聲分離變換(Minimum Noise Fraction, MNF)。實質上是進行了兩次主成分變換的成分分解法[21]。與主成分分析不同的是,該方法分離出的不同分量是按照信噪比的大小進行排序的,影像質量隨著信噪比的減小越來越差[22]。
3.2.2波段選擇。 波段選擇也是高光譜數(shù)據(jù)降維的常用方法之一,其原理是按照一定的方法挑選對分類有效的特征波段(或者叫做敏感波段),也就是對分類對象來說差異較大的波段。最開始波段選擇是專家根據(jù)經(jīng)驗進行波段選擇,不過隨著研究的深入這種方法逐漸顯露出弊端,新的研究方法被逐漸提出。下面介紹兩種常見的波段選擇方法。
(1)自適應波段選擇(Adaptive Band Selection, ABS)?;驹硎窃谕瑫r考慮各個波段的空間和譜間相關性的基礎上建立模型,計算各波段指數(shù)并按大小排列,設定閾值,系統(tǒng)將自動選擇所需要的波段[23]。
(2)前向特征選擇(Forward Feature Selection, FFS)。是指特征數(shù)據(jù)集一開始是空集,在搜索未分類特征的過程中逐一將符合條件的特征值加入的特征選擇方法[24]。
分析總結前人的研究成果發(fā)現(xiàn),分類的敏感波段都分布在可見光、近紅外和短波紅外波段,然而不同情境下具體敏感波段分布均不同。例如,Mansour等利用重采樣過的高光譜數(shù)據(jù)對草地物種進行分類,以評估牧場的退化情況,結果表明,利用8個波段(966.7、877.6、691.9、718.7、902.7、854.8、674.1和703 nm)進行分類所獲得的袋外數(shù)據(jù)(Out of Bag,OOB)誤差是最小的,為11.36%[25];Pu用高光譜數(shù)據(jù)識別闊葉樹種,研究過程中發(fā)現(xiàn)波段970、1 200和1 750 nm解釋了水分的吸收特征[26];Wang等利用實驗室獲取的葉片光譜識別紅樹林樹種,結果表明,紅樹林的最佳分類波段位于780、790、800、1 480、1 530和1 550 nm[27]。
3.3分類方法 分類方法的研究與探索一直以來都是廣大學者研究的重點內容。文獻分析發(fā)現(xiàn)以下幾種方法應用頻率最高。
3.3.1最大似然法(Maximum Likelihood, ML)。使用基于概率最大相似的判別模型,首先假設樣本呈正態(tài)分布,計算某個樣本屬于每一個類別的概率,然后將樣本歸類到概率最大的類別中去[28]。Mollot等用高光譜圖像針對水畔的空間異質性進行研究,用最大似然法將水畔區(qū)域分成了9個土地類型,總分類精度大約可達到80%[29]。
3.3.2 光譜角度制圖(Spectral Angle Mapping, SAM)。根據(jù)測試光譜與參考光譜之間的夾角來確定光譜之間的相似程度,從而實現(xiàn)對光譜曲線的分類,最終達到識別地物的目的[30-32]。Christian等利用高光譜數(shù)據(jù)和光譜角度制圖算法對熱帶森林進行樹種分類,當數(shù)據(jù)為196個高光譜波段時5個熱帶樹種的總分類精度可以達到51%,當波段選擇最小噪聲分離變換的前10個特征時達到的最好的分類效果為59.57%[33]。Lass等根據(jù)高光譜圖像的分類結果來判定矢車菊和滿天星的入侵情況,分類方法采用光譜角度制圖法,經(jīng)地面驗證后可知有57%的矢車菊和97%的滿天星被正確識別[34]。
3.3.3 支持向量機(Support Vector Machine, SVM)?;驹硎窃跀?shù)據(jù)向量形成的高維空間中建立一個最優(yōu)分類超平面。在分隔數(shù)據(jù)的超平面兩側建立與之平行的兩個超平面,使這兩個超平面之間的距離最大化。支持向量機法尋求模型復雜性和無誤識別新樣本能力之間的最佳折中,以獲得最好的分類效果和對新數(shù)據(jù)的適應能力[35-36]。Kumar等利用高光譜圖像對印度的某紅樹林進行分類,支持向量機分類器得到了最佳的分類精度96.85%[37]。Mirik等利用高光譜圖像和支持向量機來識別有害雜草,花前期和盛花期的分類精度分別達到了79%和91%[38]。
3.3.4 隨機森林(Random Forest,RF)。RF是一個包含了多個決策樹的分類器。假設共有n個屬性,在決策樹的每個節(jié)點處,隨機抽取m(m≤n)個屬性參與分類運算,結點以這m個屬性最好的分裂方式分裂,最后輸出類別由個別樹輸出類別的眾數(shù)決定[39-40]。Adam等用隨機森林法對沼澤濕地物種進行分類,利用樹冠光譜區(qū)分莎草紙沼澤和與它共生的物種。結果,隨機森林分類器達到了90.50%的總體分類精度,kappa系數(shù)0.87;單獨類精度在93.73%~100.00%[41]。Mansour等通過研究4個指示物種的冠層反射光譜的可分性來推斷牧場的退化水平,分類方法采用隨機森林,結果表明,隨機森林可以達到88.64%的總體分類精度[42]。
3.3.5 判別分析法(Discriminant Analysis,DA)?;驹硎前凑找欢ǖ呐袆e準則,建立相應的判別函數(shù),然后根據(jù)大量研究對象屬性確定函數(shù)待定系數(shù),進而計算判別指標。然后用該判別函數(shù)對未知類別研究對象進行分類計算,依據(jù)指標確定類別[43]。判別分析方法有很多種,例如線性判別、逐步判別等等。Banskota等對小波離散變換分析對3種針葉樹分類效果進行評價,分類方法采用逐步判別法,最后的分類精度達到了74.2%[44]。Lucas等利用空間分辨率1 m的高光譜圖像繪制混交林的樹冠分布圖,利用逐步判別分析,主要樹種的分類精度可以達到87%[45]。
上述5種分類方法的優(yōu)缺點對比見表1。盡管各有優(yōu)缺點,但5種分類方法的效果都比較理想。由圖4可知,以上介紹的5種分類方法的識別能力相對較高,分類精度大部分都可以達到80%或者90%以上。
3.4.1交叉驗證(CrossValidation,CV)。有時也叫做循環(huán)估計,是一種常用的精度驗證方法[47-48]。首先將樣本隨機分成若干子集,其中一個樣本子集用于分類分析,建立分類模型,稱為訓練集級。其余樣本子集則作為驗證數(shù)據(jù)用于檢驗分類模型的精度,稱為測試集。
3.4.2混淆矩陣(Confusion Matrix,CM)?;煜仃囃ǔS糜谠u價一個分類器的精度?;煜仃嚨拿恳涣写頂?shù)據(jù)集的真實類別信息,每一列的數(shù)據(jù)代表該列數(shù)據(jù)集分別分到不同類的數(shù)據(jù)量。矩陣的每一行代表了數(shù)據(jù)總體的分類信息,矩陣每一行數(shù)據(jù)等于每個類別中的真實數(shù)據(jù)量[49-50]?;诖?,可以計算出總體分類精度、kappa系數(shù)、生產(chǎn)者和用戶精度等指標。
3.4.3歐氏距離法(Euclidean Distance Method,EDM)?;驹硎怯嬎阃悩颖鹃g的歐式距離和不同類型樣本間的歐式距離,如果后者相較前者大,那么說明分類效果好[51]。歐氏距離是指n維空間中兩個點的真實距離。
4結論與討論
綜上所述,關于高光譜分類的文獻發(fā)布數(shù)量總體呈上升趨勢,其中美國的文獻發(fā)布量是最多的,大家關注最多的林型是熱帶森林。各研究學者采用最多的分類方法有最大似然法、支持向量機、隨機森林、光譜角度制圖和判別分析這5種,這5種算法各有優(yōu)缺點,分類精度總體較高,分類敏感波段大多在可見光、近紅外和短波紅外等波段。分析中也發(fā)現(xiàn)如下現(xiàn)象值得探討。
(1)從文獻發(fā)布數(shù)量上來看,利用高光譜數(shù)據(jù)進行分類正受到越來越多的國內外學者關注,這也從一定程度上反映了高光譜數(shù)據(jù)在分類方面的實用性,具有很大的研究價值。
(2)在國際期刊中,美國的文獻發(fā)布數(shù)量是我國的5倍之多,足可以反映出我國在高光譜分類領域與美國差距甚遠,研究需要深化創(chuàng)新發(fā)展。
(3)熱帶森林,特別是熱帶雨林,生態(tài)環(huán)境復雜,樹種數(shù)量多,普通的多光譜數(shù)據(jù)無法滿足精細分類的需要,因此高光譜分類對于熱帶森林來說有很大的研究空間與研究價值。城市與現(xiàn)代人的生活息息相關,城市中人口密集,城市森林因而備受關注,實現(xiàn)城市森林的精細分類對整個城市的綠化和發(fā)展都具有重要意義。濕地資源現(xiàn)在有不斷退化的趨勢,濕地生態(tài)系統(tǒng)保護受到越來越多的重視,了解濕地的樹種組成結構是保護濕地的前提,而高光譜數(shù)據(jù)分類基本可以滿足要求。
(4)高光譜數(shù)據(jù)分類方法有很多,很多新算法都是以上文介紹的5種方法為原型,通過改進而得到的。這5種方法各有優(yōu)缺點,用戶可結合數(shù)據(jù)特征和硬件設施條件來選擇合適的分類器??偲饋碚f,隨機森林和支持向量機考慮的變量多,可以實現(xiàn)光譜的精細識別,但是算法復雜,耗費計算機資源多。其他3種分類器算法相對簡單,不過算法的適用性受到限制,當條件無法滿足時分類精度低。
(5)分類敏感波段相對集中在可見光、近紅外和短波紅外波段,然后對于不同的分類來說,波段分布并不統(tǒng)一。造成這種現(xiàn)象的原因可能有很多,比如樹種之間存在差異、同種樹種之間也會有區(qū)別、不同儀器的波段數(shù)和波段值不同、儀器的系統(tǒng)誤差等。
參考文獻
[1] MANJUNATH K R,KUMAR T,KUNDU N,et al.Discrimination of mangrove species and mudflat classes using in situ hyperspectral data:A case study of Indian Sundarbans[J].Giscience & Remote Sensing,2013,50(4):400-417.
[2] ZHANG H,HINZE L L,LAN Y,et al.Discriminating among cotton cultivars with varying leaf characteristics using hyperspectral radiometry[J].Transactions of the Asabe,2012,55(1):275-280.
[3] RODRIGUEZGALIANO V F,CHICAOLMO M,ABARCAHERNANDEZ F,et al.Random forest classification of mediterranean land cover using multiseasonal imagery and multiseasonal texture[J].Remote Sensing of Environment,2012,121:93-107.
[4] FAUVEL M,TARABALKA Y,BENEDIKTSSON J A,et al.Advances in spectralspatial classification of hyperspectral images[J].Proceedings of the IEEE,2013,101(3):652-675.
[5] CAMPSVALLS G,TUIA D,BRUZZONE L,et al.Advances in hyperspectral image classification:Earth monitoring with statistical learning methods[J].IEEE Signal Processing Magazine,2014,31(1):45-54.
[6] FAUVEL M,TARABALKA Y,BENEDIKTSSON J A,et al.Advances in spectralspatial classification of hyperspectral images[J].Proceedings of the Ieee,2013,101(3):652-675.
[7] 朱煒,李東,沈飛,等.高光譜遙感森林樹種分類研究進展[J].浙江林業(yè)科技,2013(2):84-90.
[8] 黃瑋.高光譜遙感分類與信息提取綜述[J].數(shù)字技術與應用,2010(5):134-136.
[9] 許衛(wèi)東.高光譜遙感分類與提取技術[J].紅外,2004(5):28-34.
[10] PLAZA A J.Recent developments and future directions in hyperspectral data classification[C]//BRUZZONE L.Proc.SPIE 6748,Image and Signal Processing for Remote Sensing XIII.Florence,Italy,2007:67480.
[11] DEMETRIADESSHAH T H,STEVEN M D,CLARK J A.High resolution derivative spectral in remote sensing[J].Remote Sensing of Environment,1990,33:55-64.
[12] 褚西鵬.基于葉片非成像高光譜數(shù)據(jù)樹種分類[D].杭州:浙江農(nóng)林大學,2012.
[13] 秦俠,沈蘭蓀.小波分析及其在光譜分析中的應用[J].光譜學與光譜分析,2000(6):892-897.
[14] 王強,束炯.高光譜遙感圖像光譜域去噪的小波變換方法[J].大氣科學研究與應用,2008(2):9-17.
[15] 丁麗霞,王志輝,葛宏立.基于包絡線法的不同樹種葉片高光譜特征分析[J].浙江林學院學報,2010(6):809-814.
[16] KOKALY R F,CLARK R N.Spectroscopic determination of leaf biochemistry using banddepth analysis of absorption features and stepwise multiple linear regression[J].Remote Sensing of Environment,1999,67(3):267-287.
[17] 柳萍萍,林輝,孫華,等.高光譜數(shù)據(jù)的降維處理方法研究[J].中南林業(yè)科技大學學報,2011(11):34-38.