陳青蓮 方曉平 蔡之華
(中國(guó)地質(zhì)大學(xué) 武漢 430074)
高光譜遙感圖像分類(lèi)技術(shù)已大量應(yīng)用于土地利用、地物識(shí)別、環(huán)境監(jiān)測(cè)等領(lǐng)域[1]。現(xiàn)有的高光譜遙感圖像分類(lèi)算法有監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí),現(xiàn)在倍受關(guān)注的是監(jiān)督學(xué)習(xí)。然而此類(lèi)方法需要大量的標(biāo)記樣本。在高光譜遙感圖像信息提取中,標(biāo)記樣本非常困難,其代價(jià)極其昂貴,這使得高光譜遙感圖像的標(biāo)記樣本數(shù)目非常少,而未標(biāo)記樣本數(shù)目非常多。主動(dòng)學(xué)習(xí)能夠以極少標(biāo)記成本獲得較高分類(lèi)性能,能很好地解決此類(lèi)問(wèn)題。
目前,主動(dòng)學(xué)習(xí)已被諸多學(xué)者成功地應(yīng)用于高光譜遙感圖像的分類(lèi)應(yīng)用中。Jashi 等[2]用支持向量機(jī)的主動(dòng)學(xué)習(xí)對(duì)高光譜遙感圖像分類(lèi),并得到了較高的分類(lèi)精度;Scheffer 等[3]用樸素貝葉斯的主動(dòng)學(xué)習(xí)成功提取信息;Lindenbaum 等[4]用K 近鄰作為分類(lèi)器進(jìn)行主動(dòng)學(xué)習(xí),表現(xiàn)出較好的泛化能力。然而,這些算法在實(shí)驗(yàn)中都存在一些局限性。Yu等[5]提出性能更優(yōu)越的基于超限學(xué)習(xí)機(jī)的主動(dòng)學(xué)習(xí)算法(Active Learning Based on Extreme Learning Machine,AL_ELM),該算法以超限學(xué)習(xí)機(jī)為分類(lèi)器,與以往主動(dòng)學(xué)習(xí)算法相比,該算法有更快反應(yīng)速度,較高泛化能力并能直接對(duì)多類(lèi)別進(jìn)行分類(lèi),既能夠解決支持向量機(jī)和K 近鄰等分類(lèi)時(shí)間長(zhǎng)的問(wèn)題,還能解決樸素貝葉斯分類(lèi)精度不高的問(wèn)題。然而,該算法用于高光譜遙感圖像分類(lèi)時(shí)效果不佳。我們通過(guò)研究與實(shí)驗(yàn),引入核學(xué)習(xí)機(jī)制。實(shí)驗(yàn)結(jié)果表明,基于核超限學(xué)習(xí)機(jī)的主動(dòng)學(xué)習(xí)算法與其他算法相比,有較強(qiáng)的泛化能力及更快的反應(yīng)速度。
超 限 學(xué) 習(xí) 機(jī)(Extreme Learning Machine,ELM)[6,15~16]的基本思路是:設(shè)有N 個(gè)不同的訓(xùn)練樣本(xi,ti)∈Rn×Rm,i=1,…,N ,xi是n 維特征向量xi=(xi1,…,xin)T,n 為輸入結(jié)點(diǎn)數(shù)目。ti是xi對(duì)應(yīng)的類(lèi)標(biāo)記,是m 維輸出向量ti=(ti1,…,tim)T,m是輸出結(jié)點(diǎn)數(shù)目。訓(xùn)練樣本類(lèi)標(biāo)記與ti之間的關(guān)系為:如果xi原本的類(lèi)標(biāo)記是p,那么ti={0,…,0,1,0,…,0},其中,ti的第p 個(gè)元素為1,其他的元素為0。
根據(jù)超限學(xué)習(xí)機(jī)的理論,如果帶有L 個(gè)隱藏結(jié)點(diǎn)的單隱層前饋神經(jīng)網(wǎng)絡(luò)(Single-hidden Layer Feedforward Networks,SLFNs)能以零誤差近似于N個(gè)樣本,那么就存在βi,ai和bi,使得
其中,ai=(ai1,…,ain)T表示第i 個(gè)隱藏層結(jié)點(diǎn)與輸入結(jié)點(diǎn)之間的輸入權(quán)值,bi表示第i 個(gè)隱藏層結(jié)點(diǎn)對(duì)應(yīng)的隱藏偏置,βi=(βi1,…,βim)T表示第i 個(gè)隱藏層結(jié)點(diǎn)與輸出結(jié)點(diǎn)之間的輸出權(quán)重,xj=(xj1,…,xjn)T表示第j 個(gè)樣本。上面的公式用矩陣的形式可以表示如下:
其中
其中,G(ai,bi,xj)用來(lái)計(jì)算針對(duì)第j 個(gè)訓(xùn)練示例的第i 個(gè)隱藏層結(jié)點(diǎn)的輸出,其解析形式如下:
超限學(xué)習(xí)機(jī)的目的是:在滿(mǎn)足約束條件的情況下,懲罰函數(shù)誤差最小化。而其中,最關(guān)鍵的問(wèn)題是求出β 。在神經(jīng)網(wǎng)絡(luò)中,輸出權(quán)重的范式‖ ‖β與網(wǎng)絡(luò)的泛化性能有著十分緊密的聯(lián)系?!?‖β 越小,泛化性能越好;反之,泛化性能越差。求解輸出權(quán)重β 的問(wèn)題轉(zhuǎn)化成求以下優(yōu)化問(wèn)題[7]:
其中,εi=[εi,1,…,εi,m]T是對(duì)于訓(xùn)練樣本xi的m 個(gè)輸出結(jié)點(diǎn)構(gòu)成的訓(xùn)練誤差向量。超限學(xué)習(xí)機(jī)的輸出函數(shù)為:
然而當(dāng)用戶(hù)不確定隱藏層輸出向量時(shí),定義核超限學(xué)習(xí)機(jī)的核矩陣:
輸出權(quán)重為
此時(shí),核超限學(xué)習(xí)機(jī)的輸出函數(shù)為
此時(shí)并不需要知道隱藏層結(jié)點(diǎn)數(shù)目,只需知道核函數(shù)即可。本文核函數(shù)為RBF函數(shù),具體形式為
在求出f(x)之后,就可以求出樣本xi的類(lèi)標(biāo)記。對(duì)于樣本xi而言,該樣本的標(biāo)記為
其中
主動(dòng)學(xué)習(xí)(Active Learning,AL)由Lewis和Gale于1994 年提出[8]。主動(dòng)學(xué)習(xí)的目的在于以盡可能少的訓(xùn)練樣本盡可能高地提高分類(lèi)精度[13]。在執(zhí)行主動(dòng)學(xué)習(xí)的過(guò)程中,從未標(biāo)記樣本集選擇有利于提高分類(lèi)性能的樣本,并將這部分樣本交給專(zhuān)家標(biāo)記,然后一起加入到訓(xùn)練樣本集中,增大訓(xùn)練樣本集的規(guī)模。利用更新后的訓(xùn)練樣本集,重新訓(xùn)練分類(lèi)器,并用新的分類(lèi)器對(duì)測(cè)試樣本集預(yù)測(cè),如此迭代下去,使得訓(xùn)練樣本集的規(guī)模越來(lái)越大,分類(lèi)器性能越來(lái)越好,就達(dá)到以盡可能少的訓(xùn)練樣本得到盡可能高的泛化性能的目的。
核超限學(xué)習(xí)機(jī)的輸出向量元素值并不一定在0 和1 之間,因而不能直接當(dāng)作概率來(lái)使用。當(dāng)處理二分類(lèi)問(wèn)題時(shí),可以按照下面公式將輸出向量轉(zhuǎn)化成后驗(yàn)概率[5]:
其中,每個(gè)樣本x 的輸出向量為f(x)=[f1(x),…,fm(x)]T,fi為樣本x 的輸出向量的第i 個(gè)元素,p(y=1|fi(x))表示樣本x 的輸出向量的第i 個(gè)元素為1的概率,即樣本屬于第i 類(lèi)的后驗(yàn)概率。
然而,以上的方法僅僅在處理二分類(lèi)問(wèn)題時(shí)有效。在處理多分類(lèi)問(wèn)題時(shí),樣本的后驗(yàn)概率之和有時(shí)候并不等于1,相反,后驗(yàn)概率之和往往還大于1。為了解決該問(wèn)題,需要將每個(gè)樣本的后驗(yàn)概率歸一化處理,使樣本的后驗(yàn)概率之和等于1??梢圆捎靡韵路椒▽⒚總€(gè)樣本的后驗(yàn)概率歸一化處理:
其中,p'(y=1|fi(x))為樣本x 進(jìn)行歸一化處理之后的后驗(yàn)概率,而p(y=1|fi(x))表示樣本x 屬于第i類(lèi)的原始后驗(yàn)概率。
從上面的兩個(gè)公式中可知,在核超限學(xué)習(xí)機(jī)中,樣本x 所屬的類(lèi)別可以標(biāo)記為該樣本x 的輸出向量中值最大的元素所在的位置。而不管是對(duì)于二分類(lèi)問(wèn)題,還是多分類(lèi)問(wèn)題,將輸出向量的元素值轉(zhuǎn)化成后驗(yàn)概率之后,樣本x 所屬的類(lèi)別同樣地可以標(biāo)記為樣本所屬類(lèi)別中后驗(yàn)概率最大的類(lèi)別的標(biāo)記。如此,就可以將核超限學(xué)習(xí)機(jī)的輸出向量成功轉(zhuǎn)化成后驗(yàn)概率,這是基于核超限學(xué)習(xí)機(jī)的主動(dòng)學(xué)習(xí)算法中最關(guān)鍵的問(wèn)題。
假設(shè)標(biāo)記樣本集XL={(xi,ti)|xi∈Rn,ti∈Rm,i=1,2,…,NL} ,未 標(biāo) 記樣本集XU={xi|xi∈Rn,i=1,2,…,NU},每次被選樣本的個(gè)數(shù)h,核函數(shù)G(x),懲罰因子C 和核參數(shù)γ。根據(jù)以上討論的思想,基于核超限學(xué)習(xí)機(jī)的主動(dòng)學(xué)習(xí)算法按照以下步驟選擇候選樣本:
算法 基于核超限學(xué)習(xí)機(jī)的主動(dòng)學(xué)習(xí)算法流程
1.通過(guò)式(7)用標(biāo)記樣本集XL計(jì)算極限學(xué)習(xí)機(jī)的核矩陣;
2.用式(8)計(jì)算初始輸出權(quán)重β0;
3.設(shè)置算法迭代次數(shù)k=0 ;
4.迭代以下步驟,直至算法終止:
4.1 運(yùn)用式(9)計(jì)算未標(biāo)記樣本集XU中每個(gè)候選樣本的輸出向量;
4.2 針對(duì)二分類(lèi)問(wèn)題用式(13),針對(duì)多分類(lèi)問(wèn)題用式(14),將樣本的輸出向量轉(zhuǎn)化成后驗(yàn)概率;
4.3 根據(jù)式(15)計(jì)算未標(biāo)記樣本集XU中每個(gè)樣本的適應(yīng)值,即不確定度值;
4.4 將未標(biāo)記樣本集XU中樣本適應(yīng)值排序,根據(jù)式(16)從中選出適應(yīng)值最小的前h 個(gè)樣本組成批樣本集合Sk;
4.5 將批樣本集合交給專(zhuān)家標(biāo)記,可以表示為Sk={(xi,ti)|xi∈XU,ti∈Rm};
4.6 將這批樣本集加入到標(biāo)記樣本集中,XL=XL∪Sk;同時(shí),將這批樣本從未標(biāo)記樣本集中刪除,XU=XUSk;
4.7 由新的標(biāo)記樣本集XL用式(8)更新隱藏層輸出權(quán)重βk+1;
4.8 k=k+1;轉(zhuǎn)入4.1。
基于核超限學(xué)習(xí)機(jī)的主動(dòng)學(xué)習(xí),正是依據(jù)上面的步驟,將核超限學(xué)習(xí)機(jī)的輸出向量轉(zhuǎn)化成后驗(yàn)概率,實(shí)現(xiàn)對(duì)樣本的分類(lèi)。
實(shí)驗(yàn)采用的數(shù)據(jù)集是Indian Pine,KSC 和DC三種數(shù)據(jù)集,分別從候選樣本集中選擇三種不同規(guī)模的樣本。實(shí)驗(yàn)結(jié)果以分類(lèi)精度和運(yùn)行時(shí)間兩種評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)算法性能。從表1 中可以看出,Mclu_Kelm 比Mclu_Elm,Mclu_Nb 和Mclu_Knn 有更高的分類(lèi)精度。而在處理這三種數(shù)據(jù)集時(shí),Mclu_Kelm 與Mclu_Svm 有極為相近的分類(lèi)精度。該實(shí)驗(yàn)表明,Mclu_Kelm算法有較強(qiáng)的泛化能力。
表1 在不同數(shù)據(jù)集和不同選擇規(guī)模的情況下,各個(gè)算法的分類(lèi)精度(%)
從表2 中可以看出,Mclu_Kelm 所用時(shí)間始終遠(yuǎn)遠(yuǎn)少于Mclu_Svm 和Mclu_Knn,在很多情況下,與Mclu_Nb相似甚至要快。但因?yàn)楹藢W(xué)習(xí)的引入,所用時(shí)間比Mclu_Elm 要長(zhǎng)??偠灾?,該實(shí)驗(yàn)表明,Mclu_Kelm 在處理高光譜遙感圖像分類(lèi)時(shí)比現(xiàn)有的常見(jiàn)算法有更快的響應(yīng)速度。
表2 在不同數(shù)據(jù)集和不同選擇規(guī)模的情況下,各個(gè)算法的運(yùn)行時(shí)間(ms)
從表1 和表2,綜合分類(lèi)精度與運(yùn)行時(shí)間兩個(gè)方面來(lái)看,在處理高光譜遙感圖像的分類(lèi)任務(wù)時(shí),Mclu_Kelm 不僅有比較高的分類(lèi)精度,而且有更短的響應(yīng)時(shí)間。由此說(shuō)明,Mclu_Kelm 非常適用于實(shí)時(shí)性高光譜遙感圖像分類(lèi)應(yīng)用。
主動(dòng)學(xué)習(xí)在高光譜遙感圖像分類(lèi)中得到廣泛應(yīng)用[14],并取得很高的分類(lèi)精度。然而,由于分類(lèi)器的選擇及存在大量非線性數(shù)據(jù),導(dǎo)致高光譜遙感圖像分類(lèi)精度有待提高,而響應(yīng)時(shí)間都比較長(zhǎng)。在超限學(xué)習(xí)機(jī)中加入核學(xué)習(xí),不但提高了學(xué)習(xí)速度,還可以改善處理非線性數(shù)據(jù)的分類(lèi)泛化能力。實(shí)驗(yàn)表明Mclu_Kelm 在處理三個(gè)高光譜遙感數(shù)據(jù)集時(shí),不僅分類(lèi)精度比較高,而且有更短的響應(yīng)時(shí)間。因此,論文提出的算法可以應(yīng)用于軍事偵察、危險(xiǎn)環(huán)境監(jiān)測(cè)等實(shí)時(shí)性場(chǎng)景之中。