徐衛(wèi)霄,余旭初,王善秀
(1.信息工程大學測繪學院,鄭州 450052;2.266240部隊,北京 100042)
高光譜影像數(shù)據(jù)將光譜信息 (反映地物輻射屬性)與圖像信息(反映地物空間幾何關(guān)系)有機地結(jié)合在一起,具有“圖譜合一”的優(yōu)點,與傳統(tǒng)的全色、多光譜遙感影像相比有著顯著的不同:高光譜影像光譜分辨率更高,能夠滿足地物探測的一般要求;高光譜影像中蘊含的地物信息更為豐富,可減少“異物同譜”、“同譜異物”等現(xiàn)象;由于影像光譜響應(yīng)范圍廣,波段非常狹窄,而高光譜數(shù)據(jù)的波段眾多,這就使得數(shù)據(jù)量巨大,波段間相關(guān)性強,信息冗余多。從而造成高光譜影像分類處理技術(shù)也就更加復雜[1]。而集成學習是機器學習領(lǐng)域最重要的一支,致力于解決Kearns和Valiant提出的能否將弱學習算法提升成強學習算法的問題。因此,結(jié)合高光譜影像數(shù)據(jù)特點,本文采用CART決策樹作為弱學習算法,利用Boosting和Bagging集成學習算法進行高光譜影像分類研究,旨在提高分類的精度和速度。
決策樹是一種從無次序、無規(guī)則的樣本數(shù)據(jù)集中推理出決策樹表示形式的分類規(guī)則方法.采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進行屬性值的比較,并根據(jù)不同屬性值判斷從該節(jié)點向下的分枝,在決策樹的葉結(jié)點得到結(jié)論,因此從根節(jié)點到葉節(jié)點的一條路徑就對應(yīng)一條規(guī)則,整棵決策樹就對應(yīng)著一組表達式規(guī)則。Breiman于1984年提出一種決策樹構(gòu)建算法—分類回歸樹(CART),并不斷得到改進。該算法基本原理是通過對由測試變量和目標變量構(gòu)成的訓練數(shù)據(jù)集的循環(huán)二分形成二叉樹形式的決策樹結(jié)構(gòu)[2,3]。 具體如下:
“能夠解釋數(shù)據(jù)的最簡單的模型就是最好的模型”,此為Occam剃刀原則的一個版本,本著這一目標,應(yīng)尋找一個查詢判斷T,使得后繼節(jié)點數(shù)據(jù)盡可能的“純”。為此,定義一“不純度”指標來表示節(jié)點N的“不純度”。越小,表示節(jié)點N越純。本文采用“Gini不純度”(entropy imputy)作為查詢判斷指標,可用于多類分類問題,定義如下[4]:
另外,為使不純度下降最快,本文選擇不純度的下降落差為:
由于CART分析得到的完整決策樹往往對訓練樣本特征的描述“過于精確”,從而會出現(xiàn)“過度擬合”的現(xiàn)象,失去了一般性而無法對新數(shù)據(jù)進行準確分類,因此有必要對樹的結(jié)構(gòu)進行修剪。CART算法采用交叉驗證的方法進行修剪,將樣本數(shù)據(jù)分為訓練數(shù)據(jù)和檢測數(shù)據(jù)兩部分,如此循環(huán)交替進行驗證,最后結(jié)果是一棵二叉樹,由一系列二分點定義的每條途徑都對應(yīng)了一個最可能歸屬類別的判斷條件。
1990年,Schapire通過一個構(gòu)造性方法對能否將弱學習算法提升成強學習算法做出了肯定證明,其構(gòu)造過程就是最初的Boosting算法。一年后,F(xiàn)reund提出了另一種Boosting算法,其效率更高。1995年,F(xiàn)reund和Schapire提出了AdaBoost (Adaptive Boost)算法,其效率與Freund提出的方法效率幾乎一樣,但是可以較容易在實際問題中應(yīng)用[5]。
Boosted CART的基本思想是:給定一個訓練樣本集和決策樹CART作為弱分類器。首先給每個樣本賦予相同的權(quán)值,即,每個樣本權(quán)值初始化值為,然后調(diào)用加權(quán)的弱分類器進行次迭代。在第次迭代中,要求弱分類器比隨機猜測要好,即訓練誤差否則迭代結(jié)束,根據(jù)弱分類器的訓練誤差,設(shè)置弱分類器權(quán)值,更新訓練樣本權(quán)值,將權(quán)值進行歸一化。在次迭代結(jié)束后,得到弱分類器序列和相應(yīng)的權(quán)值序列最終分類器采用帶權(quán)值的投票法集成。該算法及實現(xiàn)過程如下:
Step 3: For t=1,…,T
Step 4:輸出強分類器
Breiman提出的Bagging算法與Boosting技術(shù)相似。他指出,Bagging能否提高預測準確率的關(guān)鍵因素是穩(wěn)定性。學習算法的不穩(wěn)定性是指如果訓練集發(fā)生較小的變化,學習算法產(chǎn)生的預測函數(shù)將發(fā)生較大的變化。Breiman指出,決策樹、神經(jīng)網(wǎng)絡(luò)是不穩(wěn)定的,K近鄰方法是穩(wěn)定的[6]。
Bagged CART的基本思想是:給定一個弱分類器CART決策樹和一個訓練集,訓練弱分類器T輪,每輪的訓練集由初始訓練集中隨機取出的n個訓練樣本組成,每輪訓練完成后得到的一個預測函數(shù)hi,訓練T輪得到T個預測函數(shù)。用此預測函數(shù)序列對樣本集進行預測,然后按照多數(shù)投票規(guī)則得到最后的預測結(jié)果。該算法及實現(xiàn)過程如下:
Step 2:For t=1,…,T
本文所采用數(shù)據(jù)為某研究所獲取的高光譜影像,地面分辨率為6.6m,波長范圍為455.7nm~1642.4nm,共128波段。該影像覆蓋范圍中的延河流域位于黃土高原中部,屬于東部季風溫帶區(qū)與內(nèi)陸干旱區(qū)的過渡帶,呈現(xiàn)森林和森林灌木叢草原景觀,是保存較好的溫帶落葉林區(qū),生物資源豐富,是“西部金睛計劃”重點研究區(qū)域。原始數(shù)據(jù)經(jīng)過了一系列預處理,包括大氣糾正、幾何糾正、光譜定標和反射率轉(zhuǎn)換等。因為一部分波段受水汽、噪聲影響較嚴重,所以本文只采用前80個波段進行分類實驗。樣本分布情況如圖1。
本文分別利用Boosted CART、Bagged CART和CART決策樹方法對實驗數(shù)據(jù)進行了分類實驗,表1從分類錯誤率、相應(yīng)的迭代次數(shù)、訓練時間以及測試時間四個方面進行了量化比較。圖2、3、4分別是基于Boosted CART、Bagged CART和CART得分類結(jié)果。
表1
圖1 高光譜影像樣本分布
圖2 Boosted CART分類實驗
圖3 Bagged CART分類實驗
圖4 CART分類實驗
通過對分類實驗結(jié)果的比較分析,我們可以得出以下結(jié)論:
(1)分類精度方面:從分類結(jié)果可以看出,Boosted CART和Bagged CART方法明顯優(yōu)于CART決策樹方法,Boosted CART方法較CART決策樹方法分類錯誤率降低了近9%,Bagged CART方法較CART決策樹方法分類錯誤率降低了近8%,但是總體來說,Boosted CART集成學習方法比Bagged CART的分類精度高。
(2)訓練速度方面:Boosted CART和Bagged CART訓練速度與其所采用的弱分類器訓練算法復雜度和數(shù)量有關(guān),弱分類器使用CART時,由于CART是通過對由測試變量和目標變量構(gòu)成的訓練數(shù)據(jù)集的循環(huán)二分形成二叉樹形式的決策樹結(jié)構(gòu),使得Boosted CART和Bagged CART計算速度很快。Boosting和Bagging都屬于集成學習算法,迭代一定次數(shù)后即可以檢驗分類器是否滿足精度要求,如果滿足要求則停止迭代,不滿足要求則繼續(xù)增加迭代次數(shù)。
(3)分類速度方面:Boosting和Bagging都屬于一種集成學習算法,分類速度跟其所選分類器有關(guān),本文所選CART決策樹為弱分類器,因其采用循環(huán)二分而形成二叉樹決策樹結(jié)構(gòu),使得Bagged CART和Bagged CART分類速度加快。
通過本文高光譜影像數(shù)據(jù)分類實驗分析得出:高光譜影像數(shù)據(jù)光譜分辨率高,數(shù)據(jù)量大,波段多,針對該數(shù)據(jù)特點,使用Boosting和Bagging兩種集成學習算法用于分類,充分體現(xiàn)了該集成算法的有效性。這樣使得我們只需找到一個精度略好于隨機猜測的弱分類器算法,就可以克服尋找預測精度很高的強分類器算法的困難,從而大幅度提高了預測準確率。另外,Bagging與Boosting也有所區(qū)別:訓練樣本選擇方面Bagging是隨機選擇,各個訓練樣本集之間是相互獨立的,而Boosting選擇訓練樣本與前面各輪的學習結(jié)果有關(guān)系,其各個預測函數(shù)需要權(quán)重;生成預測函數(shù)時,Bagging可以并行產(chǎn)生,而Boosting只能按順序生成;在分類精度,訓練速度,分類速度方面Boosting優(yōu)于Bagging。
[1]童慶禧,張兵,鄭蘭芬等.高光譜遙感—原理、技術(shù)和應(yīng)用[M].北京:高等教育出版社,2006.
[2]Richard O.Duda,Peter E.Hart David G.Stork等. 模式分類[M].北京:機械工業(yè)出版社,2009.
[3]高雋,謝昭等.圖像理解理論和方法[M].北京:科學出版社,2009.
[4]王大鵬,王周龍等.綜合非光譜信息的荒漠化土地CART分類[J].遙感學報,2007,4(11):487-491.
[5]沈?qū)W華,周志華等.Boosting和Bagging綜述[J].計算機工程與應(yīng)用,2000,12(4):31-32.
[6]ZHOU Zhi-hua,YU Yang.Adapt Bagging to Nearest Neighbor Classifiers[J].Comput.Sci.&Technol,2005,1(20):48-54.