李 瓊,龔 力,孔令罔
(1.武漢工程大學(xué) 電氣信息學(xué)院,武漢 430205;2.武漢大學(xué) 土木建筑工程學(xué)院,武漢 430072)
物體的顏色是通過對物體表面未被吸收的反射光的光譜所決定的。近年來,對色彩復(fù)制與再現(xiàn)的精度要求越來越高,多光譜技術(shù)是通用圖像色彩表示的研究內(nèi)容之一。由于多光譜圖像包含的信息量很大,并且每個譜段之間有著很強的相關(guān)性[1],存在大量冗余信息,這些冗余信息不僅會對結(jié)果產(chǎn)生影響,而且對存儲和處理方面有著更高的要求。因此可以利用稀疏理論對數(shù)據(jù)進行挖掘,即利用高維數(shù)據(jù)的高冗余性與感興趣信號的稀疏性,能夠有效提取出多光譜中必要信息,從而提高光譜的分析和使用效率等。
為了對高維海量的光譜數(shù)據(jù)進行稀疏表示以達到降維的目的,目前比較常用的降維方法有主成分分析(PCA),奇異值分解(SVD)等。PCA 是數(shù)據(jù)處理中用于特征提取的一種常用方式。有研究表明,通過PCA 方法在對光譜數(shù)據(jù)進行降維后可以在少數(shù)主成分的情況下原始光譜空間有效的表示[2],但是這個方法的局限在于想要提高色彩再現(xiàn)的精度只能通過增加主成分的個數(shù)的方式,這樣就在一定程度上失去了數(shù)據(jù)壓縮的意義。SVD 是矩陣分析中正規(guī)矩陣酉對角化的推廣[3],通過將一個復(fù)雜矩陣分解成幾個較小特征矩陣的乘積,將復(fù)雜的問題簡化,但這樣獲得的峰值信噪比較小,目前多應(yīng)用在高光譜遙感圖像的去噪和分類[4]。
鑒于此,本文主要研究在按照CIE 的命題所建立起來,積分上下限分別為700 nm 和400 nm 的波長的多光譜色彩表示空間,利用獨立成分分析方法(ICA)對稀疏字典進行構(gòu)造,將原始色彩空間稀疏表示,從而實現(xiàn)對數(shù)據(jù)的降維。
稀疏表示理論指出,信號可以通過一個過完備字典中的少數(shù)基元通過線性表示。因為過完備字典的原子互不相關(guān),并且冗余性不受限制,以此可以找到表示信號的最佳線性組合,如圖1所示。稀疏表示系統(tǒng)的設(shè)計歸結(jié)為過字典的設(shè)計,再通過稀疏編碼得到每個信號的稀疏表示系數(shù)向量。
圖1 稀疏表示示意圖Fig.1 Parse representation of schematics
過字典可以使用基于特定信號結(jié)構(gòu)的正交基函數(shù)組合來構(gòu)造,并且有研究表明稀疏表示對噪聲表現(xiàn)出很強的魯棒性[5]。在對光譜數(shù)高維海量數(shù)據(jù)進行稀疏表示以實現(xiàn)降維的問題上,基于高維光譜信息的二階統(tǒng)計來實現(xiàn)的主成分分析法應(yīng)用的最為廣泛[6],但通過此方法得到的特征向量之間雖然具有不相關(guān)性,但它們不具有獨立性。而獨立成分分析(ICA) 是基于高維光譜信息的高階統(tǒng)計來實現(xiàn)的,相比于PCA 方法,具有更好的數(shù)據(jù)提取能力,并且它與主成分分析的不同之處在于不要求信源一定是高斯的,并且計算所得的獨立成分之間相互獨立。
設(shè)一組隨機向量X= [x1,x2,…,xn]T來表示混合信號,同理,用S= [s1,s2,…,sm]T來表示源信號,在無噪聲或只有低的添加性噪聲的前提下,那么有:
假設(shè)源信號s1,s2,…,sm之間是相互獨立的,并且最多只有一個源信號是高斯分布的,A 為滿秩矩陣,即混合信號X 的個數(shù)要大于或等于源信號S 個數(shù),為了簡化模型,使得混合信號和源信號個數(shù)相同,即m=n。用混合矩陣A 來表示線性組合系數(shù)aij:
進而可以將ICA 的模型[7]表示為
ICA 的基本思想為計算出混合矩陣A 的逆,即解混矩陣W,通過它來觀測信號X,從而尋找源信號S 的最有估計Y:
式中:Y= [y1,y2,…,ym]T。
FastICA 算法又稱快速ICA 算法,Aapo Hyv?rinen等人[8]在固定點迭代的基礎(chǔ)上提出的一種盲源分離算法。FastICA 算法具有基于似然最大、基于負熵最大、基于峭度等形式[9],本文考慮基于負熵最大的形式。根據(jù)提取獨立成分求解的具體方式不同,F(xiàn)astICA 算法可以分為串行正交化算法 (即漸進算法)和并行正交化算法(即并行算法)。串行正交化算法是將所求的獨立成分逐一估計出來;并行正交化算法就與之相反,即一次將所有的獨立成分估計出來。這里采用并行算法,因為該算法是并行批量迭代,沒有累積誤差,結(jié)果誤差與串行正交算法相比相對較小。
FastICA 算法用以分離光譜中的弱目標信號,求解步驟如下:
(1)對光譜X 進行中心化,使其均值為0。
(2)對中心化的光譜X 進行白化得到Z。
(3)設(shè)置預(yù)估的獨立成分個數(shù)m。
(4)任意選取所有初始權(quán)矢量Wj,j=1,2,…,m,并對其單位標準化。
(5)更新Wj,對Wj進行迭代。
(6)將上述步驟結(jié)果的Wj進行歸一化。
(7)若Wj不收斂,則返回第五步。
(8)依照Wj取獨立成分分量構(gòu)建稀疏表達字典D。
為了比較稀疏表示后的光譜特征,在這里對光譜反射率進行重構(gòu),其數(shù)學(xué)形式表示為
光譜數(shù)據(jù)在稀疏表示時不可避免的會出現(xiàn)誤差,因此這里采用光譜均方根誤差[10](RMSE)和光譜擬合度系數(shù)(GFC)。光譜均方根誤差能夠評價不同光譜曲線之間在每個波長上的平均誤差程度,光譜擬合度系數(shù)能夠在不同的光譜曲線之間從整體評價它們形狀的相似程度。其數(shù)學(xué)表達式如下:
(1)光譜均方根誤差(RMSE)
式中:S(λi)表示原始光譜反射率;S′(λi)表示重建后的光譜反射率;λ 表示波長;n 表示樣本數(shù)。當(dāng)RMSE的值越小,則表示比較的兩條光譜曲線的誤差越小。
(2)光譜擬合度系數(shù)(GFC)
GFC 用作表示降維后的重建光譜反射率曲線與原始光譜反射率曲線之間的相似度,兩者尺度不會影響該值的結(jié)果。GFC 的取值在0~100%之間,如果GFC≥99.5%,則認為重建結(jié)果可以接受;如果GFC≥99.9%,則認為重建反射率曲線與原始反射率幾乎完全擬合[11]。
研究采用芬蘭Kuopio 大學(xué)的AOTF Munsell Color Matt 光譜數(shù)據(jù)集,包含有1250 個色樣樣本的光譜反射率[12],包含了自然界中絕大部分顏色。此光譜數(shù)據(jù)集是以5 nm 間隔,在波長為400~700 nm 范圍內(nèi)進行采樣,采樣維度為61 維,形成61×1250 矩陣。實驗分別采用PCA 法和ICA 法對原始光譜數(shù)據(jù)稀疏表示以實現(xiàn)降維。
由表1可以看出,通過ICA 方法構(gòu)造出過完備字典,選取少數(shù)基元對原始光譜數(shù)據(jù)稀疏表示后再過重建后的平均RMSE 均保持在較低的0.01 以下,相比于PCA 所產(chǎn)生的結(jié)果接近ICA 的結(jié)果的4倍左右,結(jié)合圖2和圖3,可以直觀地看出ICA 法得到的RMSE 保持在相對較低的水平。同樣,通過ICA 得到的平均GFC 均大于PCA 所得到的GFC,說明了通過ICA 降維重建的光譜反射率曲線相比于PCA 有著與原始光譜反射率曲線效果更佳的相似度。
圖2 PCA 降維方法的RMSEFig.2 RMSE for PCA dimensionality reduction method
圖3 ICA 降維方法的RMSEFig.3 RMSE for ICA dimensionality reduction method
表1 PCA 法和ICA 法光譜重建精度比較Tab.1 Comparison of spectral reconstruction accuracy between PCA method and ICA method
圖4為選取的部分樣本的光譜反射率曲線,可以直觀地看出不同擬合度下的樣本在重建光譜曲線與原始光譜曲線的誤差。圖4(a)樣本為重建光譜曲線與原始光譜曲線擬合程度相對較好的樣本。圖4(b)和圖4(c)分別為重建光譜曲線與原始光譜曲線擬合程度相對一般和較差的樣本。綜合圖4三幅圖可以表明ICA 法相對于PCA 法原始光譜曲線和重建光譜曲線擬合效果更好。在420 nm 以下,光譜曲線都出現(xiàn)了很明顯的跳躍,這主要是由于成像系統(tǒng)的光敏元件在這個區(qū)間的非線性響應(yīng)導(dǎo)致的噪聲的引入[13]。
圖4 部分樣本光譜反射率曲線Fig.4 Partial sample spectral reflectance curve
本文使用基于ICA 方法構(gòu)建稀疏表達字典對多光譜數(shù)據(jù)空間進行稀疏表示以達到降維的目的,并通過光譜均方根誤差和光譜擬合度系數(shù)作為評價指標,通過ICA 構(gòu)造的字典在對原始光譜數(shù)據(jù)降維后進行重建的結(jié)果優(yōu)于PCA。當(dāng)將原始光譜數(shù)據(jù)從61 維降到5 維后能有效地重建光譜數(shù)據(jù)。