魏國忠
(山東省國土測繪院,濟南 250102)
模糊聚類中認為待分數(shù)據(jù)集中的樣本都以一定的隸屬度歸屬于每個類別,隸屬度越大,則歸屬程度越高。高光譜圖像的空間分辨率一般不高,其光譜信息往往是多種地物目標的綜合反映,圖像上存在大量的混合像元具有模糊性,造成同物異譜現(xiàn)象嚴重。因此,利用模糊聚類對高光譜圖像的像元進行分析較硬分類方式更具優(yōu)勢。在模糊聚類分析中,模糊均值聚類(fuzzy C-means,F(xiàn)CM)是一種經(jīng)典的方法,近些年來,圍繞高光譜圖像聚類問題以FCM方法為基礎(chǔ)進行改進,出現(xiàn)了一些新的研究。主要包括3個角度:1)FCM中利用歐式距離度量不同像元間的相似性,通過綜合考慮高光譜數(shù)據(jù)光譜曲線形狀、地物輻射等特性,改進測度對高光譜圖像進行聚類。如劉偉等[2]采用乘性和加性相似性測度方式,陳偉等[3]基于角度余弦提出的新型光譜相似度,及焦洪贊等[4]提出的改進條件隨機場模型相似性測度,都結(jié)合FCM方法應用在高光譜圖像聚類中。2)FCM通過迭代計算不斷優(yōu)化聚類中心位置和隸屬度,這種方法可能會陷入局部解,造成聚類精度不高。于文博等[5]利用峰值密度函數(shù),王秀和[6]利用蟻群算法優(yōu)化目標函數(shù)的求解過程,往往能夠最大程度地逼近全局最優(yōu)解,令聚類過程和結(jié)果更加穩(wěn)定和優(yōu)化。3)FCM中采用原始像元特征作為聚類的基本單位進行處理,但在光譜特征的變換空間中可能獲得更高的可分性。如先進行圖像分割后以分割結(jié)果為處理單元再聚類[5],或者利用極限學習機將原始圖像像元光譜特征變換到更高維度后進行聚類[7]。從這些角度均有助于較好地提高結(jié)果的聚類精度。但這些方法多圍繞像元的光譜信息進行分析和處理,對像元之間的空間信息未做考慮。而事實上,在遙感影像中,相鄰的像元趨向于相同或相近的地物類型,也就是說相鄰像元間存在著統(tǒng)計意義上的相互依賴關(guān)系,通常稱為上下文信息[8]。目前,在監(jiān)督分類中,研究表明,空-譜聯(lián)合進行高光譜圖像分類能夠顯著提高結(jié)果的分類精度[9],而無樣本監(jiān)督下結(jié)合空間和光譜信息進行模糊聚類的研究相對較少。
因此,本文通過在模糊聚類中結(jié)合空間和光譜2類信息,在馬爾科夫場模型框架(Markov random field framework)的基礎(chǔ)上,對FCM方法進行改進,提出了一種新的高光譜圖像模糊聚類算法。
圖像空間上下文特征可以采用馬爾科夫隨機場模型進行建模,Zhang等[10]在傳統(tǒng)馬爾科夫隨機場模型的基礎(chǔ)上進行擴展,提出了馬爾科夫場模型框架,它能夠在分類過程中有效地結(jié)合空間和光譜2類信息。假設將高光譜圖像上N個像元聚為K類,任一像元j(1≤j≤N)屬于類別k(1≤k≤K),像元j的光譜向量表示為sj,該框架的數(shù)學表達如式(1)所示。
Fk(sj)=aj(k)+βbj(k)
(1)
式中:aj(k)稱為光譜項,表示像元j從光譜相似性角度隸屬于類k的概率;bj(k)稱為空間項,表示像元j從空間性相似角度隸屬類k的概率;β(≥0)是一個調(diào)節(jié)聚類過程中光譜項與空間項影響程度的權(quán)重系數(shù),β=0表示不考慮空間信息,僅利用光譜信息進行聚類。若β取值越大,則表示空間信息在聚類中的權(quán)重越大。
FCM的目標函數(shù)如式(2)所示。
諾基亞是一家老牌手機制造廠商,其品質(zhì)過硬、經(jīng)久耐用,深受消費者歡迎。意想不到的事,面對新一輪的手機行業(yè)革命,諾基亞開始衰落并最終被微軟收購。近幾年,互聯(lián)網(wǎng)信息技術(shù)的跨越式發(fā)展,使得電子商務得到了以往從未有過的發(fā)展機會并深刻的改變了人們的生活方式。很多電子商務企業(yè)通過傳新發(fā)展模式,不再需要進行原材料的采購和產(chǎn)品的生產(chǎn),轉(zhuǎn)而采取代工的模式,節(jié)省了很多中間環(huán)節(jié)以及生產(chǎn)成本,小米就是在這種模式下快速發(fā)展起來的,并迅速成為一家成功的互聯(lián)網(wǎng)公司。
(2)
式中:vk表示類別k的質(zhì)心向量;q∈[1,∞)是一個加權(quán)指數(shù)。其中,隸屬度可以用ukj表示,即像元j隸屬于類k的概率(隸屬度),必須滿足式(3)。
(3)
在此基礎(chǔ)上考慮像元的上下文相關(guān)性,即如果某點處為A類地物,那么在此點鄰域上是A類地物的可能性最大[11]。在空間上下文信息的影響下,像元j在聚類過程中,不僅取決于自身光譜信息,也受到臨近像元的影響。由于鄰域像元對空間像元的影響隨其與中心像元的距離增大而影響逐漸減弱,為簡化目標函數(shù),如圖1所示,本文中僅考慮中心像元j的一階鄰域Nj,l∈Nj表示該一階鄰域內(nèi)任一像元。
圖1 像元j的一階鄰域Nj(l∈Nj)
馬爾科夫隨機場模型中,利用Gibbs分布描述圖像上臨近像元間的空間關(guān)系,一般采用Kroneker函數(shù)進行建模[8],本文考慮其鄰域像元l對中心像元j的影響與其聚類的隸屬度存在相關(guān)性,即像元l屬于聚類k的概率值越高,該類別對中心像元j的影響越大,反之,則越小。因此,目標函數(shù)可定義為式(4)。
(4)
式中:Nj表示像元j的一階鄰域;ul k表示鄰域像元l隸屬于類k的概率;β(≥0)為全局空間權(quán)重系數(shù)。其中,光譜項與傳統(tǒng)FCM目標函數(shù)保持一致,即與當前像元j的光譜特征相關(guān);空間項表示在光譜特征基礎(chǔ)上,像元j與類k空間上的相似性。將目標函數(shù)對ukj求偏導,結(jié)合式(3)的歸一化項,得到隸屬度矩陣ukj,如式(5)所示。
(5)
然后,將目標函數(shù)對質(zhì)心vk求偏導,并令其為零,得到質(zhì)心,如式(6)所示。
(6)
得到基于全局空間權(quán)重的馬爾科夫隨機場模糊聚類模型(global weight Markov random field-fuzzy C-means,GWMRF-FCM)。
在全局權(quán)重馬爾科夫隨機場模糊聚類算法中,采用固定的常數(shù)值作為權(quán)重系數(shù)控制空間特征在目標函數(shù)中的比例。但由于遙感圖像上不同地物分布復雜且尺度的差距很大,像元的空間相關(guān)性各不相同。比如在同質(zhì)性區(qū)域中,像元的連續(xù)性很強,上下文關(guān)系對像元的類別影響較大,此時需要給予較大的空間項權(quán)重;反之,在邊界區(qū)域,由于像元的光譜特征發(fā)生突變而不具備相關(guān)性,此時應忽略空間關(guān)系的影響,僅依靠光譜特征即可進行區(qū)分,此時空間項權(quán)重應趨近于0。根據(jù)此原則,本文提出利用邊緣提取方法得到像元的相關(guān)性特征,確定單個像元對應的局部權(quán)重系數(shù)。
局部權(quán)重系數(shù)βj要求能夠針對當前像元j位于同質(zhì)區(qū)或邊界區(qū)域進行自適應的變化。因此,可以通過計算像元j的梯度信息來獲得。這里采用高斯-拉普拉斯算子(Laplacian of Gaussian,LoG)計算獲取高光譜圖像每個波段的梯度,分別對應0°、45°、90°以及135° 4個方向,如式(7)所示。
(7)
式中:xj,yj分別表示當前像元j的行列號;σ表示高斯核寬度。LoG算子實質(zhì)是先利用高斯函數(shù)對圖像進行低通濾波平滑噪聲,再使用拉普拉斯算子進行邊緣檢測,能夠有效避免噪聲的影響[12]。然后,將高光譜圖像每波段像元的各方向梯度信息累計平均后,得到式(8)。
(X)={ρj∈R,j=1,2,…,N}
(8)
式中:ρj表示像元的平均梯度值。為保證像元的光譜項與空間項在數(shù)值上對聚類影響的一致性,根據(jù)梯度信息與權(quán)重系數(shù)間的關(guān)系定義邊界函數(shù),如式(9)所示。
(9)
式中:α為常數(shù),將像元j的空間權(quán)重值控制在(0,1]范圍內(nèi)。那么,若像元j位于邊界處時,其梯度值ρj值較大,則考慮其空間權(quán)重βj較?。幌喾?,若像元j位于類別連續(xù)的同質(zhì)區(qū)域內(nèi),其梯度值ρj值較小,則考慮給予其較大的空間權(quán)重。
將該局部權(quán)重系數(shù)帶入式(4),獲得新的目標函數(shù)表達式,如式(10)所示。
(10)
此時,隸屬度矩陣表達式變?yōu)槭?11)。
(11)
得到空間權(quán)重自適應馬爾科夫隨機場模糊聚類方法(adaptive weight Markov random field fuzzy C-means,AWMRF-FCM)。
若將高光譜圖像上N個像元聚為K類,本文算法流程如圖2所示。
圖2 空間權(quán)重自適應馬爾科夫隨機模糊聚類算法流程圖
步驟1:對高光譜圖像進行邊緣檢測,根據(jù)式(7)至式(9)計算像元空間權(quán)重系數(shù)βj;
步驟2:設置初始值,最大迭代次數(shù)T和停止閾值條件θ,隨機初始化隸屬度矩陣ukj,并計算初始質(zhì)心vk;
步驟3:根據(jù)式(11)更新隸屬度矩陣ukj;
步驟4:根據(jù)式(6)更新聚類質(zhì)心vk;
步驟5:根據(jù)式(10)計算目標函數(shù)J,重復步驟3~步驟4,計算目標函數(shù)直至其差異小于閾值θ或者達到最大迭代次數(shù)T,結(jié)束計算;
步驟6:根據(jù)隸屬度最大原則獲得聚類結(jié)果。
本文采用模擬及真實高光譜數(shù)據(jù)集進行實驗,目的是比較僅考慮光譜及結(jié)合光譜與空間信息進行模糊聚類方法的精度。對標準FCM算法、FCM聚類后中值濾波(FCM-median filtering)、GWMRF-FCM和AWMRF-FCM 4種算法的聚類結(jié)果,利用生產(chǎn)者精度、總體分類精度指標進行定量評價對比。實驗數(shù)據(jù)中,模擬數(shù)據(jù)根據(jù)先驗知識從真實高光譜圖像上獲取,其每個像元類別標號均為已知,有利于通過實驗結(jié)果評價本文算法對空間信息的利用程度及空間信息對最終聚類結(jié)果,特別是邊界處像元的影響。真實數(shù)據(jù)實驗用于證明本文算法在真實數(shù)據(jù)中的效果。
模擬數(shù)據(jù)從PHI(pushbroom hyperspectral imager)航空高光譜相機觀測的日本精細農(nóng)業(yè)數(shù)據(jù)中獲取[13]。該傳感器覆蓋從400~850 nm的80個譜段,空間分辨率為3 m。如圖3所示,根據(jù)地面調(diào)查結(jié)果,從高光譜圖像上分別取出林地、草地和裸地3類地物像元構(gòu)成模擬高光譜圖像。圖4(a)為模擬高光譜圖像3個譜段(760 nm、650 nm、560 nm)假彩色合成結(jié)果。在樣本參考圖圖4(b)中,海藍色表示大面積林地區(qū)域;中間綠色區(qū)域表示草地;白色表示的裸地,作為林地和草地的邊界。
圖3 模擬高光譜圖像樣本來源分布
圖4 模擬高光譜圖像及樣本參考圖
在模擬和真實高光譜對比實驗中,為保證實驗的可對比性,參數(shù)保持一致。其中,F(xiàn)CM聚類數(shù)K=3,參數(shù)q=2;FCM聚類后進行中值濾波選擇一階3×3窗口;GWMRF-FCM中全局權(quán)重系數(shù)β取值為1,表示聚類中光譜權(quán)重與空間權(quán)重同等重要;AWMRF-FCM中自適應權(quán)重系數(shù)計算時,高斯核寬度σ=0.5,α取值30。4種方法迭代開始均采用隨機初始化隸屬度矩陣,閾值條件θ=0.001作為迭代停止條件。
4種方法的聚類結(jié)果如圖5所示??梢园l(fā)現(xiàn),F(xiàn)CM聚類結(jié)(果圖5(a))中,由于林地和草地光譜異變,存在較為嚴重的同物異譜現(xiàn)象,在聚類過程中出現(xiàn)了較多的誤分,其中林地部分像元被誤分為裸地,草地的部分像元被誤分為林地。通過對該聚類結(jié)果進行濾波后處理,即利用空間連續(xù)性對噪聲進行去除,從圖5(b)中看出圖5(a)中分類結(jié)果的麻點噪聲得到較好的抑制,林地和草地的地塊完整性增強。通過表1中林地和草地的生產(chǎn)者精度發(fā)現(xiàn),該方法處理獲得這2類地物的精度得到明顯提高,整體分類精度也較FCM獲得較大幅度提高,但裸地的分類精度卻嚴重下降,這主要是由于裸地位于林地和草地的邊界處,為線狀地物,在處理過程中很容易發(fā)生過平滑現(xiàn)象。在GWMRF-FCM方法中,聚類過程具有明顯噪聲抑制的效果,并且圖5(c)的中心區(qū)域的草地區(qū)域聚類更加完整,但由于其空間項權(quán)重沒有考慮不同地物的連續(xù)性程度,在對不同地物處理時的權(quán)重完全一致。在本實驗中,草地的效果很好,精度達到100%,但較草地噪聲影響更嚴重的林地中,由于空間信息考慮的程度不足,造成麻點在聚類過程中未被完全去除;相反,裸地在考慮空間信息時又產(chǎn)生了過分類的情況,造成其分類精度下降。但表1中顯示GWMRF-FCM較FCM-median filtering分類結(jié)果中裸地的精度略高。最后,通過圖5(d)可以看出,本文提出的AWMRF-FCM自適應地考慮了不同地物的空間連續(xù)性程度,其中林地和草地由于連續(xù)性較強,其梯度信息較弱,則給予較高的空間權(quán)重,而裸地處于地物的邊界處,梯度信息很強,則給予較低的空間權(quán)重,保留其細節(jié)信息。表1中的分類結(jié)果證明,通過自適應權(quán)重馬爾科夫隨機場模型聚類方法處理獲得3類地物的分類精度沒有明顯很低的情況,整體分類精度最高。
圖5 模擬高光譜圖像4種不同方法聚類結(jié)果
表1 模擬高光譜數(shù)據(jù)生產(chǎn)者精度及整體精度比較 %
本文選擇的真實高光譜圖像采用高光譜成像光譜儀AVIRIS數(shù)據(jù),該數(shù)據(jù)覆蓋了美國印第安納州西北部地區(qū)的一個農(nóng)業(yè)與森林混合地區(qū),拍攝時間在作物的生長季節(jié),是高光譜數(shù)據(jù)分類方法研究中常用的數(shù)據(jù)集。數(shù)據(jù)大小為145行,145列,共220個波段,空間分辨率為30 m。去除水吸收和噪聲波段(104~108、150~163、200),最終剩200個波段。高光譜圖像假彩色合成影像和地面參數(shù)據(jù)如圖6所示,地物分別由林地、玉米、草地、干草、大豆5種植被組成。實驗地面參考數(shù)據(jù)用于定量評價高光譜圖像的聚類精度。
圖6 原始高光譜圖像假彩色合成及地面參考數(shù)據(jù)
如圖7所示,考慮空間信息時,圖7(b)、圖7(c)、圖7(d)與僅使用像元光譜的聚類方法結(jié)果圖7(a)相比,圖像上噪聲影響明顯減少,但圖7(b)中圖像的邊界也由于平滑處理變得模糊。GWMRF-FCM和AWMRF-FCM聚類結(jié)果中,同類地物區(qū)域內(nèi)保持了更好的同質(zhì)性,且圖像的邊界保持較為完整。如表2所示,空間濾波后處理對聚類精度提高十分有限,而本文提出的2種方法較FCM聚類的整體分類精度提高幅度分別達到27.69%和31.39%,其中,AWMRF-FCM整體精度最高,達到85.52%。
圖7 真實高光譜圖像4種不同方法聚類結(jié)果
表2 真實高光譜數(shù)據(jù)各類生產(chǎn)者及整體精度對比 %
本文提出了一種整合空間與光譜信息的高光譜圖像模糊聚類方法,即在光譜信息相似性聚類基礎(chǔ)上,引入鄰域像元間相關(guān)性和連續(xù)性;提出了一種基于空間權(quán)重自適應馬爾科夫隨機場模型的高光譜圖像模糊聚類算法,在FCM光譜聚類基礎(chǔ)上,通過馬爾科夫隨機場模型對空間信息進行建模,并利用自適應權(quán)重系數(shù)控制其在聚類中的影響程度。通過模擬和真實高光譜圖像實驗證明,在聚類過程中,當光譜信息區(qū)分度相對較弱情況下,本文方法通過加入空間上下文信息,有效提高聚類判別的正確性,增強了抗噪能力,極大減少了由于混合像元和“同物異譜”現(xiàn)象造成的噪聲影響,提高了聚類精度,有利于進一步對地物提取和識別。