曹峰,李文濤,駱劍承,李德玉,3,錢宇華,3,4,白鶴翔,張超
1.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院(大數(shù)據(jù)學(xué)院),山西 太原 030006;
2.中國(guó)科學(xué)院空天信息創(chuàng)新研究院遙感科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101;
3.山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;
4.山西大學(xué)大數(shù)據(jù)與產(chǎn)業(yè)研究院,山西 太原 030006
隨著高光譜遙感技術(shù)的飛速發(fā)展,高光譜遙感圖像數(shù)據(jù)日益豐富,面向大規(guī)模高光譜遙感圖像進(jìn)行信息處理和信息提取,已成為大數(shù)據(jù)時(shí)代對(duì)地觀測(cè)的重要手段。高光譜遙感圖像分類作為高光譜遙感圖像信息處理和信息提取的主要研究方向之一,已被廣泛應(yīng)用于地質(zhì)制圖、植被調(diào)查、城市規(guī)劃、軍事偵查和環(huán)境監(jiān)測(cè)等領(lǐng)域。高光譜遙感圖像包含豐富的光譜和空間信息[1],可以更加細(xì)致地區(qū)分不同類型地物之間的差異,實(shí)現(xiàn)地物的精準(zhǔn)分類。因此,結(jié)合光譜和空間特征的光譜-空間分類算法研究已成為當(dāng)前高光譜遙感圖像分類研究的熱點(diǎn)[2]。
高光譜遙感圖像光譜-空間分類算法主要包括3類:有監(jiān)督、無(wú)監(jiān)督以及半監(jiān)督[3-4]。有監(jiān)督分類算法基于有標(biāo)記像元的光譜和空間特征構(gòu)建分類器,并對(duì)未標(biāo)記像元進(jìn)行分類。無(wú)監(jiān)督分類算法(通常稱為聚類)不對(duì)像元進(jìn)行類別標(biāo)注,僅通過(guò)計(jì)算不同像元之間光譜和空間特征的差異來(lái)實(shí)現(xiàn)像元的分類[5]。因?yàn)橛斜O(jiān)督分類算法利用了像元的標(biāo)記信息,所以往往可以獲得比無(wú)監(jiān)督分類算法更優(yōu)的分類性能。但是,對(duì)像元進(jìn)行正確標(biāo)記需要借助專家經(jīng)驗(yàn),甚至需要進(jìn)行實(shí)地調(diào)研,因此會(huì)付出大量的人力和時(shí)間成本。尤其是當(dāng)面向大數(shù)據(jù)量的高光譜遙感圖像分類任務(wù)時(shí),獲取大量標(biāo)記樣本變得尤為困難。半監(jiān)督分類算法利用少量有標(biāo)記像元和大量無(wú)標(biāo)記像元進(jìn)行分類器訓(xùn)練,既可以彌補(bǔ)有監(jiān)督分類算法的不足之處,又可以獲得更優(yōu)的分類性能。
高光譜遙感圖像光譜-空間半監(jiān)督分類研究受到了眾多學(xué)者的普遍關(guān)注,并取得了一系列的研究成果。當(dāng)前,光譜-空間半監(jiān)督分類研究主要包括基于圖、基于自訓(xùn)練和基于集成學(xué)習(xí)的半監(jiān)督分類算法?;趫D的半監(jiān)督分類以所有樣本為節(jié)點(diǎn)、以樣本相似度為邊的權(quán)重構(gòu)造圖模型,類標(biāo)記通過(guò)圖結(jié)構(gòu)逐步傳遞至圖中的其他樣本。程志會(huì)等[6]提出了基于空間特征與紋理特征的高光譜圖像半監(jiān)督分類算法,將空間特征與紋理特征相結(jié)合,并利用圖進(jìn)行半監(jiān)督分類。何浩等[7]提出了空間-光譜約束的圖半監(jiān)督高光譜圖像分類算法,將樣本的空間相似性與光譜相似性相結(jié)合,并用相似性測(cè)度進(jìn)行約束,進(jìn)而基于圖進(jìn)行半監(jiān)督分類?;谧杂?xùn)練的半監(jiān)督分類算法,通過(guò)有標(biāo)記樣本訓(xùn)練出來(lái)的分類器對(duì)無(wú)標(biāo)記樣本進(jìn)行預(yù)測(cè),選擇高置信度的“偽標(biāo)記”樣本加入訓(xùn)練集并不斷迭代更新分類器,直至收斂。王俊淑等[8]在自訓(xùn)練迭代訓(xùn)練過(guò)程中,用最近鄰域規(guī)則的數(shù)據(jù)剪輯策略對(duì)誤標(biāo)記樣本進(jìn)行過(guò)濾,提出了高光譜遙感圖像DE-self-training半監(jiān)督分類算法。王春陽(yáng)[9]提出了基于信息熵的自訓(xùn)練半監(jiān)督高光譜遙感影像分類算法,利用多分類Logistic算法得到類別概率信息,然后利用Renyi熵理論對(duì)無(wú)標(biāo)記標(biāo)簽進(jìn)行標(biāo)注,擴(kuò)充訓(xùn)練集后再進(jìn)行迭代并預(yù)測(cè)分類?;诩蓪W(xué)習(xí)的半監(jiān)督分類算法訓(xùn)練若干個(gè)基分類器,并通過(guò)一定的集成策略獲得分類能力更強(qiáng)的學(xué)習(xí)器。Romaszewski M等[10]受到視頻物體跟蹤算法的啟發(fā),基于光譜特征和空間特征分別設(shè)計(jì)了兩個(gè)分類器,共同組成Cotraining模型。Tri-training作為一種經(jīng)典的基于分歧的集成學(xué)習(xí)方法,十分適用于高光譜圖像分類等多分類問(wèn)題。王立國(guó)等[11]提出了基于改進(jìn)Tri-training的高光譜圖像半監(jiān)督分類算法,在高光譜圖像處理的各個(gè)環(huán)節(jié)均引入了空間信息。在基于Tri-training的光譜-空間高光譜遙感圖像半監(jiān)督分類研究中,研究者發(fā)現(xiàn)差異化的Tri-training基分類器即組合3種基于不同理論或方法的基分類器,可以獲得穩(wěn)定性和泛化性較好的分類模型[11-12],因此得到了廣泛使用。
Tri-training算法試圖通過(guò)少量的初始有標(biāo)記樣本來(lái)學(xué)習(xí)較為完整的分類規(guī)則,故在擴(kuò)充訓(xùn)練集的過(guò)程中難免會(huì)產(chǎn)生錯(cuò)分的情況,帶有錯(cuò)誤標(biāo)記的樣本進(jìn)入訓(xùn)練集后會(huì)進(jìn)一步影響正確分類規(guī)則的學(xué)習(xí),從而嚴(yán)重影響分類結(jié)果?;诖?,本文提出了一種融合光譜度量(spectral measure,SM)標(biāo)記遷移和Tri-training的高光譜遙感圖像光譜-空間半監(jiān)督分類算法(簡(jiǎn)記SMT)。該算法充分利用高光譜遙感圖像的光譜和空間特征,通過(guò)光譜度量標(biāo)記遷移修正Tri-training算法來(lái)擴(kuò)充樣本的類標(biāo)記,降低擴(kuò)充樣本的錯(cuò)分率,進(jìn)而提高半監(jiān)督分類算法的精度。
Tri-training算法又被稱為三重訓(xùn)練算法[13],是在Co-training算法基礎(chǔ)上發(fā)展起來(lái)的半監(jiān)督協(xié)同訓(xùn)練分類算法。該算法重復(fù)訓(xùn)練3個(gè)基分類器,直到3個(gè)基分類器的分類結(jié)果不再變化時(shí),算法的訓(xùn)練過(guò)程停止。Tri-training算法利用集成學(xué)習(xí)的思想進(jìn)行未標(biāo)記樣本擴(kuò)充,這種策略提高了未標(biāo)記樣本標(biāo)記預(yù)測(cè)的置信度。與Goldman S提出的僅靠一個(gè)分類器來(lái)檢測(cè)另一個(gè)分類器的經(jīng)典Co-training算法[14]相比,Tri-training算法不但更加可靠有效,且無(wú)須進(jìn)行交叉驗(yàn)證。Tri-training算法對(duì)基分類器的選擇并沒(méi)有特定要求,但研究表明,當(dāng)3個(gè)基分類器不同時(shí),該算法的預(yù)測(cè)精度和泛化性能往往更優(yōu)。Tritraining算法通過(guò)計(jì)算樣本錯(cuò)誤率來(lái)改善錯(cuò)誤分類的問(wèn)題,然而當(dāng)錯(cuò)誤率滿足更新條件時(shí)依然存在錯(cuò)分樣本進(jìn)入訓(xùn)練集的風(fēng)險(xiǎn)[15]。Tri-training算法的偽代碼如算法1所示:
算法1Tri-training
Input:L:初始有標(biāo)記樣本集U:無(wú)標(biāo)記樣本集Learn:機(jī)器學(xué)習(xí)算法
Output:h(x)
1 fori∈{1,…,3}do
3 end for
4 repeat until none ofhi(i∈{1,…,3})changes
5 fori∈{1,…,3}do
6Li←?;
8 ifhj(x)=hk(x)(j,k≠i)then
9 end if
10 end for
12 end if
16 end if
17 end if
18 end if
19 end if
20 end for
21 fori∈{1,…,3}do
22 if updatei=TUREthenhi←Learn
23 end for
24 end repeat
25 for restx∈Udo
27 end for
高光譜遙感圖像數(shù)據(jù)具有自身的一些特點(diǎn),如豐富的光譜信息和空間信息;同類地物光譜特征相似,異類地物光譜特征不同;存在空間相關(guān)性和異質(zhì)性等。當(dāng)Tritraining算法應(yīng)用于高光譜遙感圖像分類任務(wù)時(shí),如何充分利用圖像自身特性并結(jié)合算法的強(qiáng)大分類性能來(lái)設(shè)計(jì)更加高效的半監(jiān)督分類方法,并進(jìn)一步提升高光譜遙感圖像的分類效果成為一項(xiàng)有意義的研究工作。
高光譜遙感圖像同類地物之間具有較強(qiáng)的光譜相似性,而不同地物之間的光譜差異性則相對(duì)較大。另外,不同的光譜特征包含的信息量也具有差異性,因此,光譜特征在區(qū)分不同地物時(shí)發(fā)揮的作用不同。除了光譜特征,高光譜遙感影像還具有豐富的空間特征?;诖?,本文充分利用光譜相似性、光譜信息量的差異性以及高光譜遙感影像的空間特征,通過(guò)集成Tri-training算法,提出了融合光譜度量標(biāo)記遷移和Tri-training的高光譜遙感圖像半監(jiān)督分類算法,通過(guò)定義光譜度量來(lái)刻畫(huà)樣本之間的相似性,將基于光譜度量的標(biāo)記遷移和Tri-training的基分類器相結(jié)合,減少錯(cuò)分樣本進(jìn)入訓(xùn)練集的風(fēng)險(xiǎn)。SMT算法將提高基于Tri-training算法的高光譜遙感圖像分類的精度。融合光譜度量標(biāo)記遷移和Tri-training的半監(jiān)督分類算法流程如圖1所示。
圖1 融合光譜度量標(biāo)記遷移和Tri-training的半監(jiān)督分類算法流程
光譜特征是高光譜遙感圖像區(qū)分地物類別的主要特征,然而不同的光譜特征對(duì)分類的作用存在差異性。為了更好地區(qū)分這種差異,本文引入了基于相關(guān)性度量特征的重要性指標(biāo)Merit(式(1))[16],用來(lái)評(píng)價(jià)不同光譜特征的重要性并據(jù)此進(jìn)行光譜特征排序。一個(gè)重要的特征應(yīng)該與類標(biāo)記之間具有較強(qiáng)的相關(guān)性,與其他特征具有較弱的相關(guān)性。Merit基于該思想,通過(guò)計(jì)算特征與類標(biāo)記以及特征與特征之間的相關(guān)性來(lái)評(píng)價(jià)不同的特征對(duì)分類的重要性。
其中,k是已選特征子集中的特征數(shù);表示特征和類標(biāo)記之間相關(guān)性的平均值;表示特征和特征之間相關(guān)性的平均值。
特征和類標(biāo)記以及特征和特征之間的相關(guān)性定義如下:
I(?)表示兩個(gè)隨機(jī)變量之間的互信息,H(?)表示單個(gè)隨機(jī)變量的信息熵。
高光譜遙感圖像具有極高的光譜相似性,一般情況下,光譜特征相近的兩個(gè)像元極有可能屬于同類地物。本文通過(guò)定義光譜度量來(lái)評(píng)價(jià)兩個(gè)像元之間光譜特征的差異,實(shí)現(xiàn)有標(biāo)記像元到無(wú)標(biāo)記像元的標(biāo)記遷移。無(wú)標(biāo)記像元u與類標(biāo)記為c的像元v的光譜度量定義如下:
其中,k為波段數(shù),σi為第i個(gè)波段的權(quán)重,dui為像元u在第i個(gè)波段的取值,表示類標(biāo)記為c的像元v在第i個(gè)波段的取值。
考慮到光譜特征具有不同的分類能力,本文在定義光譜度量時(shí)對(duì)不同波段的光譜特征進(jìn)行加權(quán)。對(duì)分類能力較強(qiáng)的波段賦予較大的權(quán)值,而對(duì)分類能力較弱的賦予較小的權(quán)值。對(duì)k個(gè)波段的光譜特征按照式(1)的相關(guān)性度量進(jìn)行重要性排序后,其權(quán)值設(shè)定為:
當(dāng)類標(biāo)記取不同值時(shí),未標(biāo)記像元u的類y定義為:
即選擇光譜度量值最小的類作為待分類像元的類標(biāo)記。
高光譜遙感圖像不僅包含豐富的光譜信息,還包含豐富的空間信息。融合了光譜和空間特征的分類算法輸入的分類信息更加豐富,因此可以獲得更優(yōu)的分類性能。紋理特征是高光譜遙感圖像相鄰像元或相鄰區(qū)域內(nèi)幾何位置等相互關(guān)系的表征,是一種重要的空間特征?;叶裙采仃囃ㄟ^(guò)計(jì)算圖像各像元灰度級(jí)之間的聯(lián)合條件概率表示紋理,可以提取多種紋理特征[17]。本文利用灰度共生矩陣提取了對(duì)比度、熵、二階矩和反差分矩陣4種重要紋理特征,結(jié)合光譜特征和紋理特征,構(gòu)建基于光譜-空間特征的高光譜遙感圖像半監(jiān)督分類算法。
對(duì)比度(contrast)反映了圖像的清晰度和紋理的溝紋深淺,如式(7)所示。紋理越清晰、反差越大,對(duì)比度也就越大。
熵(entropy)度量了圖像包含的隨機(jī)性,表現(xiàn)了圖像的復(fù)雜程度,如式(8)所示。當(dāng)灰度共生矩陣所有值均相等或像素值表現(xiàn)出最大的隨機(jī)性時(shí),熵最大。
二階矩(angular second moment,ASM)又稱能量,是圖像灰度分布均勻程度和紋理粗細(xì)的一個(gè)度量,如式(9)所示。當(dāng)圖像紋理均一且規(guī)則時(shí),能量值較大;反之,灰度共生矩陣的元素相近時(shí),能量值較小。
反差分矩陣(inverse differential moment,IDM)又稱逆方差,反映了紋理的清晰程度和規(guī)則程度,如式(10)所示。紋理清晰、規(guī)律性較強(qiáng)時(shí),逆方差值較大。
Tri-training算法在擴(kuò)充訓(xùn)練樣本的過(guò)程中,采用隨機(jī)策略選擇未標(biāo)記樣本,并不區(qū)分未標(biāo)記樣本之間的差異。高光譜遙感圖像數(shù)據(jù)是空間地理實(shí)體的描述數(shù)據(jù),具有很強(qiáng)的空間相關(guān)性。因此,本文基于高光譜遙感圖像數(shù)據(jù)的空間相關(guān)性,以相近相似原理為理論依據(jù),優(yōu)先選擇已標(biāo)記樣本的鄰接像元進(jìn)行標(biāo)記擴(kuò)充,增強(qiáng)樣本擴(kuò)充過(guò)程中標(biāo)記的準(zhǔn)確性。圖2展示了基于空間相關(guān)性的樣本擴(kuò)充過(guò)程,可以看出,標(biāo)記像元n個(gè)鄰域的全部未標(biāo)記像元優(yōu)先進(jìn)入擴(kuò)充樣本集。
圖2 基于空間相關(guān)性的樣本擴(kuò)充方法示意
當(dāng)初始有標(biāo)記樣本數(shù)量較少時(shí),Tritraining算法會(huì)存在兩個(gè)分類器出現(xiàn)相同錯(cuò)分結(jié)果的現(xiàn)象,此時(shí)的待測(cè)樣本會(huì)被標(biāo)記為錯(cuò)誤的類別,并進(jìn)入訓(xùn)練集參與分類器的訓(xùn)練,從而影響分類效果。本文將光譜度量標(biāo)記遷移和Tri-training算法相融合,當(dāng)兩個(gè)分類器與光譜度量的預(yù)測(cè)類別一致時(shí),待測(cè)樣本才會(huì)被標(biāo)記為該類別,并進(jìn)入訓(xùn)練集,直到訓(xùn)練集不再發(fā)生變化,迭代過(guò)程停止。本文所提算法的偽代碼如算法2所示。
算法2融合光譜度量標(biāo)記遷移和Tri-training的SMT算法
Input:L:初始標(biāo)記樣本集,U: 無(wú)標(biāo)記樣本集,Learn: 機(jī)器學(xué)習(xí)算法,More:空間鄰域樣本擴(kuò)充方法,CFS: 基于CFS的特征排序算法,k:光譜維數(shù),M: 光譜特征集,dp:光譜特征p∈(0,k),
SM: 光譜度量算法, GLCM: 灰度共生矩陣算法,M′:排序后的光譜特征集,σp:光譜權(quán)值,
Con、Ent、ASM、IDM:紋理特征,TT:Tri-training算法各分類器分類結(jié)果,Vote:絕對(duì)多數(shù)投票法
Output: C
1M′←CFS(M),
2 Con, Ent, ASM, IDM←GLCM(dp)(p∈{0,…,4})
3M′←M′∪Con∪Ent∪ASM∪IDM
4 forp∈[0,k]
5if () then
7 end if
8 end for
9 fori∈{1,…,3}do
11 end for
12UL←More(S1,S2,S3)
13 repeat until none ofhi(i∈{1,…,3})changes
14 forx∈ULdo
15cj,ck←TT(x) ;y←SM(x)
16ci←Vote(cj,ck,y)
17Li←Li∪{(x,c)}
18 end for
19 fori∈{1,…,3}do
20hi←Learn(Si∪Li)
21 end for
22 end repeat
23 for everyx∈Udo
24ci,cj,ck←TT(x) ; y ←SM(x)
25c←Vote(ci,cj,ck,y)
26 end for
Indian Pines數(shù)據(jù)集是由AVIRIS傳感器拍攝的一幅美國(guó)西北部印第安納州的高光譜遙感圖像的一部分,如圖3所示。其圖像大小為145×145(空間分辨率為200 m),圖像共有16個(gè)地物類別、220個(gè)波段。其中,第104~108個(gè)、第150~163個(gè)和第220個(gè)波段不能被水反射,在經(jīng)過(guò)修正后,去除了其中20個(gè)低信噪比的波段,最終共有200個(gè)波段參與實(shí)驗(yàn)。
圖3 Indian Pines高光譜遙感圖像
Pavia University數(shù)據(jù)集是由ROSIS光學(xué)傳感器拍攝的意大利帕威亞大學(xué)的高光譜遙感圖像,如圖4所示。圖像大小為610×340(空間分辨率為1.3 m),圖像共有9個(gè)地物類別、115個(gè)波段。在經(jīng)過(guò)修正后,去除了12個(gè)受噪聲影響嚴(yán)重的波段,最終共有103個(gè)波段參與實(shí)驗(yàn)。
圖4 Pavia University高光譜遙感圖像
使用本文提出的融合光譜度量和Tritraining的高光譜遙感圖像半監(jiān)督分類算法對(duì)以上兩個(gè)數(shù)據(jù)集進(jìn)行分類。為了確保實(shí)驗(yàn)的準(zhǔn)確性,對(duì)每個(gè)數(shù)據(jù)集分別進(jìn)行10次獨(dú)立重復(fù)實(shí)驗(yàn),獲得分類結(jié)果的總體分類精度(overall accuracy,OA)、平均分類精度(average accuracy,AA)和Kappa系數(shù)的平均值并將其作為算法性能的評(píng)價(jià)指標(biāo)。
本文實(shí)驗(yàn)中SMT-RSK表示所提算法中Tri-training算法的基分類器為SVM(支持向量機(jī))、RF(隨機(jī)森林)和KNN(最近鄰分類器)。SMT-RF、SMT-SVM和SMT-KNN表示SMT算法中,Tri-training算法分別使用的是3個(gè)RF、3個(gè)SVM和3個(gè)KNN基分類器。T-RF、T-SVM和T-KNN分別表示使用3個(gè)RF、3個(gè)SVM和3個(gè)KNN基分類器的Tri-training算法。實(shí)驗(yàn)對(duì)比了SMT與Tri-training算法當(dāng)基分類器不同時(shí)分類性能的差異。
3.3.1 Indian Pines數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文所提SMT算法的有效性,首先對(duì)不同集成方式下的多種半監(jiān)督分類算法在Indian Pines數(shù)據(jù)集上的分類性能進(jìn)行了對(duì)比。分類結(jié)果如圖5所示,分類結(jié)果的OA、AA和Kappa系數(shù)見(jiàn)表1所示。由表1可以看出,融合光譜度量的SMT-RSK算法的OA值比未融合光譜度量的Tri-training算法T-RSK的OA值提高了8.98%。融合了光譜度量和單一基分類器Tri-training的SMT-RF、SMT-SVM和SMT-KNN算法的OA值比未融合光譜度量的T-RF、T-SVM和T-KNN算法分別提高了8.3%、9.8%、9.28%。SMT-RSK算法的AA值較T-RSK算法提高了8.97%,融合了光譜度量的SMTRF、SMT-SVM和SMT-KNN算法的AA值比未融合光譜度量的T-RF、T-SVM和T-KNN算法分別提高了7.64%、9.33%、9.7%。對(duì)比Kappa系數(shù),SMT-RSK比T-RSK提高了0.108,SMT-RF、SMT-SVM和SMT-KNN比T-RF、T-SVM和T-KNN算法分別提高了0.1389、0.1348、0.1231。由此可見(jiàn),融合光譜度量和Tri-training算法的半監(jiān)督分類算法在Indian Pines數(shù)據(jù)集上取得了良好的分類性能。
表1 Indian Pines數(shù)據(jù)集在不同集成方式下的多種半監(jiān)督分類算法分類結(jié)果
此外,本文還將所提算法與其他高光譜圖像半監(jiān)督分類算法,如CMSI[18]、3CLL[19]、LGC[6]、SFCM[20]、MT[21]算法在Indian Pines數(shù)據(jù)集上的分類性能進(jìn)行了對(duì)比,結(jié)果見(jiàn)表2,本文算法得到的分類結(jié)果在各方面大多優(yōu)于CMSI、LGC、SFCM、MT算法。雖然在總體分類精度(OA)上略低于3CLL算法,但本文算法的各類別平均分類精度(AA)高于3CLL算法(約2%)。
表2 Indian Pines數(shù)據(jù)集在不同半監(jiān)督分類算法下的分類結(jié)果對(duì)比
3.3.2 Pavia University數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與分析
為了進(jìn)一步驗(yàn)證本文所提算法的有效性,對(duì)不同集成方式下的多種半監(jiān)督分類算法在Pavia University數(shù)據(jù)集上的分類性能進(jìn)行了同樣的對(duì)比實(shí)驗(yàn)。分類結(jié)果如圖6所示,分類結(jié)果的OA、AA和Kappa系數(shù)見(jiàn)表3。從表3可以看出,融合光譜度量后,SMT-RSK的OA值、AA值和Kappa系數(shù)比未融合光譜度量的Tritraining算法T-RSK分別提高了8.88%、8.65%和0.1059。同樣,融合了光譜度量的SMT-RF、SMT-SVM和SMT-KNN算法比T-RF、T-SVM和T-KNN算法的OA值、AA值和Kappa系數(shù)均有不同程度的提高。由此可知,融合光譜度量和Tri-training的半監(jiān)督分類算法在Pavia University數(shù)據(jù)集上同樣取得了良好的分類性能。
表3 Pavia University數(shù)據(jù)集在不同集成方式下的多種半監(jiān)督分類算法分類結(jié)果對(duì)比
圖6 Pavia University數(shù)據(jù)集在不同集成方式下的多種半監(jiān)督分類算法分類結(jié)果
本文還將所提算法與其他高光譜圖像半監(jiān)督分類算法CMSI、FWA[22]、SDME[23]、SFCM、MT在Pavia University數(shù)據(jù)集上的分類性能進(jìn)行了比較,對(duì)比結(jié)果見(jiàn)表4??梢钥闯觯疚乃惴ǖ玫降姆诸惤Y(jié)果在3項(xiàng)評(píng)價(jià)指標(biāo)上均優(yōu)于對(duì)比算法。
表4 Pavia University數(shù)據(jù)集在不同半監(jiān)督分類算法下的分類結(jié)果對(duì)比
圖7對(duì)表1和表3中不同集成方式下的多種半監(jiān)督分類算法在Indian Pines和Pavia University兩個(gè)數(shù)據(jù)集上的分類結(jié)果的OA、AA和Kappa系數(shù)進(jìn)行了直觀的對(duì)比,可以看出融合了光譜度量標(biāo)記遷移和Tri-training的分類算法比Tritraining算法的分類性能有比較顯著的提升。當(dāng)所提算法中Tri-training的基分類器不同時(shí),分類效果最優(yōu)。
圖7 Indian Pines 和 Pavia University數(shù)據(jù)集在不同集成方式下的半監(jiān)督分類結(jié)果的總體精度(OA)、平均精度(AA)和Kappa系數(shù)對(duì)比
3.3.3 消融實(shí)驗(yàn)
為了研究本文算法中光譜度量標(biāo)記遷移和Tri-training算法在融合過(guò)程中發(fā)揮的作用,本文在Indian Pines和Pavia University兩個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表5。由表5可以看出,在兩個(gè)數(shù)據(jù)集上,使用基分類器不同的Tri-training進(jìn)行分類時(shí),分類結(jié)果的OA、AA和Kappa系數(shù)均高于使用光譜度量標(biāo)記遷移進(jìn)行分類時(shí)相對(duì)應(yīng)的評(píng)價(jià)指標(biāo)的值,表明Tritraining算法的分類性能優(yōu)于光譜度量標(biāo)記遷移。而當(dāng)光譜度量標(biāo)記遷移和Tritraining進(jìn)行融合時(shí),分類結(jié)果的OA、AA和Kappa系數(shù)得到了較大的提升,由此可見(jiàn)二者的融合可以明顯改善分類的性能。
表5 消融實(shí)驗(yàn)對(duì)比結(jié)果
3.3.4 重要參數(shù)對(duì)算法性能的影響分析
初始樣本數(shù)量N和擴(kuò)充鄰域數(shù)n是Tritraining算法的兩個(gè)重要參數(shù),它們的取值將直接影響算法的性能。下面以Indian Pines數(shù)據(jù)集為例,通過(guò)觀察樣本數(shù)量和擴(kuò)充鄰域數(shù)的取值對(duì)總體分類精度OA的影響,探討如何獲取最優(yōu)參數(shù)值。圖8和圖9分別描述了初始樣本數(shù)量N和擴(kuò)充鄰域數(shù)n與OA的關(guān)系。通過(guò)圖8可以看出,隨著初始樣本數(shù)量的增長(zhǎng),SMT-RSK和T-RSK算法的OA值都在不斷提升。當(dāng)初始樣本數(shù)量從10增長(zhǎng)至20時(shí),兩種算法的OA值分別提升至0.89和0.85,提升效果顯著。之后OA值隨著初始樣本數(shù)量的增加呈緩慢上升趨勢(shì)。因此,初始樣本數(shù)量的取值設(shè)定為20,即按比例提取各類初始樣本最多不超過(guò)20個(gè),此時(shí)總體分類精度較高且所需的有標(biāo)記樣本數(shù)量較少。
圖8 初始樣本數(shù)量N與OA關(guān)系
圖9 擴(kuò)充鄰域數(shù)n與OA關(guān)系
由圖9可以看出,從有標(biāo)記樣本向外擴(kuò)充5~7個(gè)鄰域時(shí),總體分類精度OA提升至0.9~0.91,提升效果顯著。而當(dāng)擴(kuò)充8個(gè)以上鄰域時(shí),OA值有所下降。因此,在同時(shí)滿足OA值較高且所需標(biāo)記樣本數(shù)量較少的條件下,本文設(shè)定n的取值為5。
本文主要研究基于光譜-空間特征的高光譜遙感圖像的半監(jiān)督分類,提出了一種融合光譜度量標(biāo)記遷移和Tri-training算法的半監(jiān)督分類算法。該算法綜合運(yùn)用了高光譜遙感圖像的光譜特征和空間特征,以增強(qiáng)分類過(guò)程中樣本的區(qū)分度。在結(jié)合Tri-training算法進(jìn)行有標(biāo)記樣本擴(kuò)充的過(guò)程中,定義了一種新的光譜度量標(biāo)記遷移方法,并基于該方法增強(qiáng)擴(kuò)充樣本標(biāo)記的準(zhǔn)確性,減少錯(cuò)誤標(biāo)記樣本的引入。實(shí)驗(yàn)結(jié)果證明,本文算法具有良好的分類性能。
形態(tài)學(xué)特征也是高光譜遙感圖像包含的重要空間特征。形態(tài)學(xué)特征有助于選擇更具有光譜代表性及空間合理性的初始有標(biāo)記像元。當(dāng)高光譜圖像分類中包含的地物類別較多時(shí),可以借助形態(tài)學(xué)特征將全局的多分類問(wèn)題轉(zhuǎn)化為局部的二分類問(wèn)題,更易于提高圖像分類的精度。因此,未來(lái)筆者將對(duì)融合光譜度量標(biāo)記遷移和Tri-training的高光譜遙感圖像分類算法進(jìn)行改進(jìn),通過(guò)融合形態(tài)學(xué)特征進(jìn)一步提升圖像分類的精度。