【摘 要】 利用流形學(xué)習(xí),可以找出高維空間的低維結(jié)構(gòu)。本文把流形學(xué)習(xí)方法應(yīng)用到地物光譜數(shù)據(jù)庫(kù)中,并進(jìn)行地物光譜的相關(guān)性分析,同時(shí)與主成分分析、核主成分分析方法進(jìn)行對(duì)比。試驗(yàn)結(jié)果表明,用流形學(xué)習(xí)的方法進(jìn)行地物光譜數(shù)據(jù)庫(kù)的降維,發(fā)現(xiàn)隱藏在高維空間下的低維結(jié)構(gòu),用于進(jìn)行相似性度量,為地物進(jìn)一步的本質(zhì)特征光譜提取與分析提供有利的支持,并間接證明了利用流形學(xué)習(xí)的方法進(jìn)行降維后,并未降低地物的識(shí)別能力。
【關(guān)鍵詞】 流形學(xué)習(xí);光譜數(shù)據(jù)庫(kù);Isomap;降維
【中圖分類(lèi)號(hào)】 P23;TP751 【文獻(xiàn)標(biāo)識(shí)碼】 A
【文章編號(hào)】 2096-4102(2020)05-0100-03
流形學(xué)習(xí)作為一種新的非監(jiān)督學(xué)習(xí)方法,近幾年在模式識(shí)別、機(jī)器學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。
本文把流形學(xué)習(xí)方法應(yīng)用到地物光譜數(shù)據(jù)庫(kù)中,首先把流形學(xué)習(xí)方法應(yīng)用到光譜數(shù)據(jù)庫(kù)中的礦物類(lèi)樣本,進(jìn)行降維,并與PCA和KPCA進(jìn)行比較。然后為進(jìn)一步驗(yàn)證對(duì)不同礦物和同類(lèi)礦物之間降維后的可分性,選取了兩類(lèi)典型礦物進(jìn)行相似性度量。這為地物進(jìn)一步的特征光譜提取與分析提供有利的支持。
1數(shù)據(jù)介紹
本文中應(yīng)用的是美國(guó)地質(zhì)調(diào)查局的USGS光譜數(shù)據(jù)庫(kù),可以在USGS的網(wǎng)站上獲取。USGS光譜數(shù)據(jù)庫(kù)是美國(guó)地質(zhì)調(diào)查局為研究礦產(chǎn)資源遙感勘探,在1993年USGS光譜實(shí)驗(yàn)室建立了波長(zhǎng)在0.2~3.0μm之間的光譜庫(kù),包含218種礦物,444個(gè)樣本的498個(gè)波譜,光譜分辨率為4nm(波長(zhǎng)0.2~0.8μm)和10nm(波長(zhǎng)0.8~2.35μm),所有光譜反射率都校正到絕對(duì)反射率。光譜數(shù)據(jù)庫(kù)中地物的詳細(xì)信息可以通過(guò)USGS光譜數(shù)據(jù)庫(kù)網(wǎng)站得到。隨著對(duì)地探測(cè)技術(shù)的發(fā)展及地物精細(xì)的識(shí)別需求,USGS光譜數(shù)據(jù)庫(kù)也在不斷地更新,目前更新到了第7版。光譜覆蓋范圍從可見(jiàn)光到紅外0.2μm~150μm,光譜數(shù)量達(dá)到了2000余條。本論文中用到的是USGS光譜數(shù)據(jù)庫(kù)中的礦物類(lèi)樣本進(jìn)行試驗(yàn)。
2基于流形學(xué)習(xí)的光譜數(shù)據(jù)庫(kù)降維
2.1基于流形學(xué)習(xí)的光譜數(shù)據(jù)相關(guān)性分析
特征提取的方法主要分為線性的和非線性的,主成分分析(PCA)是常用的線性特征提取的方法,核主成分分析(KPCA)是對(duì)主成分分析的推廣。主成分分析是線性變換方法,處理的是線性關(guān)系,核主成分分析是非線性變換,可以處理非線性的變量關(guān)系。本文選擇PCA和KPCA作為傳統(tǒng)線性變換和非線性變換方法的代表,進(jìn)行光譜數(shù)據(jù)降維試驗(yàn),并與流形學(xué)習(xí)方法Isomap進(jìn)行比較。這里的Isomap用到的光譜維度為歐氏距離。圖1(a)、(b)和(c)分別為USGS數(shù)據(jù)庫(kù)進(jìn)行Isomap、PCA和KPCA降維后前兩維的散點(diǎn)圖。
需要注意的是:圖中所有坐標(biāo)均表示光譜的距離,其值的大小取決于所用的相異性度量函數(shù),因此,不同圖之間不具有可比性,但它們之間的可分性是可以比較的,即分開(kāi)的程度。
從圖1中可以看出用Isomap降維后的散點(diǎn)分布呈圓形均勻分布,而利用PCA降維后的散點(diǎn)圖分布趨向于橢圓,利用KPCA降維后散點(diǎn)圖分布雖然趨向于圓,但是分布不均勻,有一個(gè)角的密度過(guò)大。這些分布情況說(shuō)明Isomap降維后的數(shù)據(jù)波段之間的相關(guān)性減弱,PCA目的是把多波段的信息集中到前幾個(gè)分量上,因此它對(duì)于波段之間相關(guān)性的減弱不具備優(yōu)勢(shì),KPCA雖然可以處理非線性的情況,但它在高維空間仍是應(yīng)用PCA進(jìn)行降維,所以也不具有降低波段相關(guān)性的優(yōu)勢(shì)。所以利用Isomap方法進(jìn)行降維后的數(shù)據(jù)極大地降低了波段間的相關(guān)性,得到的結(jié)果比較可靠。
2.2基于流形學(xué)習(xí)礦物類(lèi)別間和類(lèi)別內(nèi)相關(guān)性分析
由于USGS中礦物的種類(lèi)豐富,同一種類(lèi)的不同情況也多,而且礦物之間有一定關(guān)系,所以關(guān)于不同類(lèi)別和相同類(lèi)別之間降維后關(guān)系,本文用USGS中的礦物數(shù)據(jù)來(lái)說(shuō)明,具體的用硅酸鹽與氧化物之間的分布情況說(shuō)明。圖2為硅酸鹽與氧化物共7類(lèi),每一類(lèi)取代表樣本的原始光譜曲線圖。圖3為硅酸鹽與氧化物各種方法降維后前兩個(gè)成分的散點(diǎn)分布圖:圖(a)為PCA降維結(jié)果,圖(b)為KPCA降維結(jié)果,圖(c)為Isomap方法降維結(jié)果。每個(gè)圖中三角形圖標(biāo)代表的是氧化物,圓形圖標(biāo)代表硅酸鹽。
從圖3中可以得到Isomap方法的降維結(jié)果都明顯好于PCA和KPCA的降維結(jié)果。在PCA的前兩維的散點(diǎn)分布中,硅酸鹽和氧化物分布混亂,兩者之間不易區(qū)分,KPCA中雖然點(diǎn)與點(diǎn)之間分散度較好,但是硅酸鹽與氧化物之間界線不明顯,兩者分布混雜。而用Isomap降維后,硅酸鹽和氧化物分布呈分開(kāi)狀態(tài),氧化物分布在硅酸鹽的外圍。硅酸鹽有三個(gè)相對(duì)集中的分布,這樣可以判斷大致有三類(lèi)地物,而且實(shí)際上本實(shí)驗(yàn)也是選用了三種硅酸鹽。氧化物的總數(shù)比較少,分布在大概四個(gè)集中區(qū)域,類(lèi)內(nèi)和類(lèi)別間分布重疊度少,較易區(qū)分。緊靠氧化物的硅酸鹽是橄欖石,其次是白云母,較遠(yuǎn)的是黃玉。橄欖石為島硅酸鹽,白云母為頁(yè)硅酸鹽,黃玉為島硅酸鹽,這三種硅酸鹽也可以在Isomap降維后的圖中明顯區(qū)分開(kāi)來(lái)。
3結(jié)論
本文將流形學(xué)習(xí)應(yīng)用于地物光譜數(shù)據(jù)庫(kù),進(jìn)行光譜曲線中本質(zhì)光譜特征提取。以美國(guó)地質(zhì)調(diào)查局(USGS)光譜數(shù)據(jù)庫(kù)為操作對(duì)象,首先對(duì)整體數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)經(jīng)過(guò)流形學(xué)習(xí)方法Isomap特征提取后,樣本點(diǎn)之間的可分性比用PCA和KPCA特征提取結(jié)果樣本間的可分性強(qiáng);取其中的氧化物與硅酸鹽特征提取結(jié)果作比較,發(fā)現(xiàn)Isomap可以把氧化物與硅酸鹽很好地分開(kāi)來(lái),且兩類(lèi)礦物內(nèi)的不同種類(lèi)的樣本之間也具有可分性與聚類(lèi)性。因此通過(guò)試驗(yàn)可以得出,可以把流形學(xué)習(xí)方法應(yīng)用到光譜相似性分析中,為高光譜數(shù)據(jù)的特征光譜提取與分析提供有利的支持,并間接證明了利用流形學(xué)習(xí)的方法進(jìn)行特征提取后,并未降低地物的識(shí)別能力。
【參考文獻(xiàn)】
[1]徐蓉,姜峰,姚鴻勛. 流形學(xué)習(xí)概述[J].智能系統(tǒng)學(xué)報(bào),2006,1(1):44-51.
[2]Zhang,J.P.,Li,S.Z.,Wang,J. Manifold learning and applications in recognition[C]. Intelligent Multimedia Processing with Soft Computing,2004.
[3]趙連偉,羅四維,趙艷敞,等. 高維數(shù)據(jù)流形的低維嵌入及嵌入維數(shù)研究[J].軟件學(xué)報(bào),2005,16(8):1423-1430.
[4]翁時(shí)鋒,張長(zhǎng)水,張學(xué)工. 非線性降維在高維醫(yī)學(xué)數(shù)據(jù)處理中的應(yīng)用[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,44(4):485-488.
[5]黃啟宏.流形學(xué)習(xí)方法理論研究及圖像中應(yīng)用[D].成都:電子科技大學(xué),2007.
[6]馬瑞,王家廞,宋亦旭. 基于局部線性嵌入(LLE)非線性降維的多流形學(xué)習(xí)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,48(4):582-585.
[7]劉小明.數(shù)據(jù)降維及分類(lèi)中的流形學(xué)習(xí)研究[D].杭州:浙江大學(xué),2007.
[8]徐志節(jié),楊杰,王猛.一種新的彩色圖像降維方法[J].上海交通大學(xué)學(xué)報(bào),2004,38(12):2063-2067.
[9]Bachmann C.M.,Ainsworth T.L.,F(xiàn)usina R.A. Exploiting Manifold Geometry in Hyperspectral Imagery[J]. IEEE Trans Geosci and Remote Sensing,2005,43(3): 441-454.
[10]Bachmann C.M.,Ainsworth T.L.,F(xiàn)usina R.A. Improved Manifold Coordinate Representations of Hyperspectral Imagery [C]. International Geoscience and Remote Sensing Symposium, 2005(6):4307-4310.
[11]Bachmann C.M.,Ainsworth T.L.,F(xiàn)usina R.A. Improved Manifold Coordinate Representations of Large-Scale Hyperspectral Scenes[J]. IEEE Trans Geosci and Remote Sensing,2006,44(10):2786-2803.
[12]Bachmann C.M.,Ainsworth T.L.,F(xiàn)usina R.A. Automated Estimation of Spectral Neighborhood Size in Manifold Coordinate Representations of Hyperspectral Imagery: Implications for Anomaly Finding,Bathymetry Retrieval,and Land Applications [C]. International Geoscience and Remote Sensing Symposium,2008(1):I-56-I57.
[13] Chen Y.C.,Crawford M.M.,Ghosh J. Applying Nonlinear Manifold Learning to Hyperspectral Data for Land Cover Classification [C]. International Geoscience and Remote Sensing Symposium,2005: 4311-4314.
[14]杜培軍,王小美,譚琨,等.利用流形學(xué)習(xí)進(jìn)行高光譜遙感影像的降維與特征提取[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2011(2):148-152.