張應(yīng)剛
(中國機(jī)械科學(xué)研究總院集團(tuán)有限公司,北京 100044)
對全色(PANchromatic,PAN)圖像和多光譜(Multi-Spectral,MS)圖像進(jìn)行融合,可以獲得同時(shí)具有高空間分辨率和高光譜分辨率的遙感圖像。經(jīng)典的分量替換法(Component Substitute,CS)[1~3],多分辨率分析法(Multi-resolution Analysis,MRA)[4,5]和基于模型的方法[6,7]等已取得了一定得融合效果,但仍存在空間細(xì)節(jié)和光譜失真問題[8]。大多數(shù)融合算法將源圖像視為單個(gè)成分并直接對其進(jìn)行處理,而沒有考慮具有不同屬性的圖像的特性差異很大,因此通常會(huì)忽略源圖像中的某些細(xì)節(jié)。
Starck等人[9,10]提出了一種信號(hào)稀疏表示方法——形態(tài)成分分析(Morphological Component Analysis,MCA)。MCA在圖像分解[11]、圖像去噪[12]、圖像修復(fù)[13]等方向中都取得了良好的成效,它集合了多種經(jīng)典變換基的優(yōu)點(diǎn),把圖像分解為多個(gè)形態(tài)成分,有效的表達(dá)了圖像成分。
隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展與廣泛應(yīng)用[14],越來越多的研究人員將深度學(xué)習(xí)引入遙感圖像分類[15]、圖像融合[16]等。其中卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)[17,18]能夠更加出色的提取圖像的非線性特征,相較于眾多傳統(tǒng)的遙感圖像融合方法,基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像融合方法能夠?qū)W習(xí)全色圖像和多光譜圖像波段間的相關(guān)性,從而使該方法取得了顯著的融合效果,且端到端的融合更加便捷。
因獲取遙感圖像常攜帶高頻的噪聲和干擾,現(xiàn)有的經(jīng)典融合算法和深度學(xué)習(xí)法把源圖像視為單個(gè)成分并直接對其進(jìn)行處理,而沒有考慮具有不同源圖像的差異性,常會(huì)忽略圖像內(nèi)容中的某些細(xì)節(jié)。因此,本文結(jié)合稀疏分解MCA法和CNN,提出了一種基于多形態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Multi-morphological Convolution Neural Network,MCNN)的遙感圖像融合方法,對待融合的源圖像先進(jìn)行多形態(tài)成分的稀疏分解,獲得不同源圖像的紋理成分和平滑的卡通成分,然后利用CNN最終獲得具有高空間分辨率的多光譜圖像。
聯(lián)合局部離散余弦變換(Local Discrete cosine Transform,LDCT)和曲波變換(Curved Wave Transform,CT)作為MCA的字典,分別對單通道的PAN圖像和三個(gè)通道的MS圖像進(jìn)行形態(tài)成分分析,提取其紋理成分和卡通成分?;贛CA的PAN圖像和MS圖像的稀疏分解分別如式(1)、式(2)所示。
假設(shè)待處理圖像是僅包含紋理或卡通成分且大小為的圖像,將該圖像表示為長度為的一維向量,該圖像就可以通過LDCT字典D1和CT字典D2來提取其紋理成分和卡通成份,即:
在融合網(wǎng)絡(luò)中,假設(shè)F(i,j)是融合圖像在(i,j)處的像素,PAN(i,j)和MS(i,j)分別是PAN和MS圖像的對應(yīng)像素,T(i,j)和C(i,j)分別是紋理成分和卡通成分的對應(yīng)像素。卷積運(yùn)算定義為式(6)所示:
其中,x是卷積的輸入,w是卷積核,ReLU為非線性激活函數(shù)。
融合網(wǎng)絡(luò)包含10個(gè)卷積層,其中6個(gè)卷積層的大小為N×N(N>1),其余為(1×1)。通過這個(gè)網(wǎng)絡(luò)來表示融合函數(shù)F(PAN,MS)→F。設(shè)Tk(k=1,2,3)和Ck(k=1,2,3)分別表示紋理成分和卡通成分的第k層卷積層的輸出。
通過T(i,j)和C(i,j)計(jì)算融合像素F(i,j)。融合過程如式(6)所示:
在卷積運(yùn)算的整個(gè)過程中,每一層都是在融合過程中參考前一層的融合結(jié)果,即多尺度成分融合,通過卷積運(yùn)算獲得的最終融合圖像是不同成分比例圖像融合的結(jié)果。
基于MCNN的遙感圖像融合方法的流程圖如圖1所示。詳細(xì)步驟如下:
圖1 MCNN算法流程圖
1)聯(lián)合LDCT基D1和CT基D2作為形態(tài)成分分析的分解字典D=[D1,D2],對輸入的源圖像PAN和MS分別進(jìn)行形態(tài)成分分析,提取兩幅圖像的紋理和卡通成分。
3)將步驟2輸出的紋理分量和卡通分量再次作為輸入圖像,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的融合后,得到最終輸出的融合圖像。
基于MCNN的遙感圖像融合方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 MCNN 網(wǎng)絡(luò)結(jié)構(gòu)圖
較大的卷積核和深度網(wǎng)絡(luò)會(huì)削弱融合的特性,增加計(jì)算的代價(jià),因此在CNN模型中,我們將卷積核的大小N設(shè)為3,網(wǎng)絡(luò)深度設(shè)為4。根據(jù)原始圖像分別計(jì)算兩幅圖像的紋理成分和卡通成分。在生成Ti(i,j)和Ci(i,j)時(shí),分別使用了兩個(gè)大小為3×3和1×1的卷積層,T1(i,j)/C1(i,j),T2(i,j)/C2(i,j),T3(i,j)/C3(i,j)的特征圖個(gè)數(shù)分別為32,64和128。最終的融合圖像有三個(gè)特征圖(R,G,B三通道),在生成融合的特征圖是,使用了3個(gè)1×1的卷積層,且特征圖的個(gè)數(shù)相同。
選取了兩組地形區(qū)域不同的遙感圖像進(jìn)行融合效果測試。第一組實(shí)驗(yàn)數(shù)據(jù)(圖2(a)~圖3(j))分別取自Landsat-TM影像中分辨率為30m的MS圖像和SPOT影像中分辨率為4m的PAN圖像,實(shí)驗(yàn)區(qū)位于吉林地區(qū),涵蓋了植被、建筑用地、交通道路等多種類型,圖像大小為256×256像素。第二組實(shí)驗(yàn)數(shù)據(jù)(圖3(a)~圖3(j))分別取自中巴地球資源一號(hào)衛(wèi)星(CBERS)影像中分辨率為19.5m的MS圖像和Landsat ETM+影像中分辨率15m的PAN圖像,實(shí)驗(yàn)區(qū)位于廣東省珠海市斗門區(qū),包含林地、水體、農(nóng)業(yè)用地等,圖像大小為512×512像素。
本文使用回歸模型訓(xùn)練融合函數(shù):
其中為訓(xùn)練集的原始圖像,PAN是全色圖像,MS是低分辨率多光譜圖像。F(θ;PAN,MS)是模型輸出的融合函數(shù),n是訓(xùn)練樣本的個(gè)數(shù),我們通過最小化函數(shù)I來求解融合函數(shù)F。另外,圖像的像素值范圍為0~255,在輸入模型之前歸一化到區(qū)間[0,1]。
模型的優(yōu)化算法為Adam算法,這是一種基于隨機(jī)梯度下降的自適應(yīng)學(xué)習(xí)率優(yōu)化算法。該模型的初始學(xué)習(xí)率設(shè)置為0.001,在訓(xùn)練階段總數(shù)的50%和75%時(shí)除以10??傆?xùn)練時(shí)間為40分鐘,模型最終訓(xùn)練均方差為0.00012。
為了能夠客觀的驗(yàn)證不同方法的性能,選取了以下五種常用的客觀評價(jià)指標(biāo)對實(shí)驗(yàn)結(jié)果圖像進(jìn)行了評價(jià),分別是相對平均光譜誤差(Relative Average Spectral Error Index,RASE)、均方根誤差(Root Mean Square Error,RMSE)、全局相對光譜損失(Erreur Relative Globale Adimensionnelle de Synthese,ERGAS)、光譜信息散度(Spectral Information Divergence,SID)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)。其中,RASE反映所有通道平均光譜表現(xiàn),融合圖像光譜質(zhì)量越高,則RASE越低,理想值為0。RMSE是計(jì)算融合圖像與參考圖像之間像素值差異,差異越小說明光譜保持越好,理想值為0。ERGAS是評價(jià)融合圖像的空間和光譜質(zhì)量,其值越小說明融合圖像質(zhì)量越好,理想值為0。SID是基于信息論衡量兩幅光譜差異的方法,值越小說明差異越小,即光譜保留越好,理想值為0。PSNR反映了圖像的噪聲和失真水平,PSNR值越大,圖像與參考圖像越接近,質(zhì)量越好。
實(shí)驗(yàn)對HIS[1]、PCA[2]、Brovey[3]、DWT[4]、NSCT[5],ATWT[6]、FCNN[19]和本文的MCNN融合方法進(jìn)行了結(jié)果的比較。
第一組遙感數(shù)據(jù)中不同融合方法的結(jié)果如圖2所示。從對比實(shí)驗(yàn)中可以看出,與輸入的PAN圖像和MS圖像相比,這些方法都可以一定程度的提高融合圖像的質(zhì)量。然而,圖3(c)~圖3(i)都呈現(xiàn)了不同程度的失真,圖3(c)和圖3(d)發(fā)生了融合過飽和的情況,圖3(e)~圖3(h)可以明顯的看出,都具有不同程度的頻譜失真,圖3(i)的紋理和光譜信息相較于輸入原圖像,都得到了很好的保留,但是MCNN融合法在光譜信息的保留方面仍優(yōu)于FCNN。
圖3 第一組遙感影像數(shù)據(jù)的不同融合方法實(shí)驗(yàn)結(jié)果
圖4是第二組遙感數(shù)據(jù)通過不同融合方法的最終結(jié)果。圖4(c)~圖4(i)都具有不同程度的空間結(jié)構(gòu)模糊和光譜畸變,圖4(c)~圖4(d)在左上角的山體部分和右下角的植被部分都有著明顯的光譜失真,色度偏暗,圖4(e)~圖4(g)中,可以看到整體的光譜畸變情況嚴(yán)重,分別存在著光譜過為深重和過為明亮的情況,圖4(h)的光譜信息保留較好,但是可以看出在山體與林地的交界處,邊緣較為模糊,紋理的可視程度差;圖4(i)~圖4(j)從主觀視覺效果來看,無論是在光譜保留方面還是紋理細(xì)節(jié)方面,均優(yōu)于其他算法。
圖4 第二組遙感影像數(shù)據(jù)的不同融合方法實(shí)驗(yàn)結(jié)果
表1列出了通過對第一組數(shù)據(jù)進(jìn)行不同融合而產(chǎn)生的結(jié)果的客觀評估指標(biāo)。表1中的粗體數(shù)字表示各評價(jià)指標(biāo)的最佳值??梢钥闯?,MCNN除了SID指標(biāo)以外,均取得最高結(jié)果。綜合圖2的視覺效果,MCNN優(yōu)于其他融合方法。
表1 吉林省實(shí)驗(yàn)數(shù)據(jù)融合結(jié)果的評價(jià)指標(biāo)
表2所示為第二組數(shù)據(jù)融合結(jié)果的評價(jià)指標(biāo),其中粗體數(shù)字表示每個(gè)評價(jià)指標(biāo)的最佳值。與其他七種方法相比,MCNN具有更好的評價(jià)指標(biāo)結(jié)果。結(jié)合圖3主觀視覺效果,MCNN優(yōu)于其他融合方法。
表2 廣東省實(shí)驗(yàn)數(shù)據(jù)融合結(jié)果的評價(jià)指標(biāo)
本文提出了一種基于多形態(tài)卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像融合方法,通過形態(tài)成分分析提取遙感圖像的紋理成分和卡通成分,并將該方法與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,在避免源圖像信息丟失的同時(shí)又加強(qiáng)了對輸入圖像細(xì)節(jié)的提取。通過對不同的衛(wèi)星獲取的不同類型的數(shù)據(jù)進(jìn)行融合實(shí)驗(yàn)與結(jié)果分析,結(jié)果表明本文的方法能夠較好地保持光譜信息,且獲得了更為豐富的空間細(xì)節(jié)。