楊勇, 蘇昭, 黃淑英, 萬偉國, 涂偉, 盧航遠
1. 江西財經(jīng)大學 信息管理學院, 南昌 330032;
2. 天津工業(yè)大學 軟件學院, 天津 300387;
3. 江西財經(jīng)大學 軟件與物聯(lián)網(wǎng)工程學院, 南昌 330032
由于受遙感衛(wèi)星傳感器設(shè)計、遙感成像機理等因素的影響,單源遙感圖像在空間、光譜分辨率等方面相互制約,一般遙感衛(wèi)星只能獲得單幅低空間分辨率的MS(Multispectral)圖像或高空間分辨率的PAN (Panchromatic) 圖像(Vivone 等,2015;Li 等,2020a);然而,在實際遙感應用中,如地物分類(Aguilar 等,2013; Gianinetto 等,2017)、目標識別(Chen 等,2019;Mohammadzadeh 等,2006)和地表變化檢測(Chen 等,2018;Souza等,2003)等任務往往需要高空間分辨率多光譜HRMS(High Spatial Resolution Multispectral)的圖像。全色圖像銳化又稱Pansharpening 是將PAN 圖像的高分辨率空間細節(jié)信息與MS 圖像的豐富光譜信息進行融合,得到高質(zhì)量、理想的HRMS 圖像(陳毛毛 等,2021)。因此,如何有效提取MS圖像和PAN 圖像的相關(guān)信息,并通過融合得到HRMS圖像,一直都是遙感圖像處理領(lǐng)域亟待解決的重要問題(Yang 等,2018b)。
遙感圖像融合起源于20 世紀70 年代,按照不同的處理級別,可以劃分為3 個層次:像素級融合、特征級融合和決策級融合。其中,像素級融合是直接在原始遙感圖像各像素上的直接融合處理,其目的是為了獲得質(zhì)量更高的融合圖像,如提升觀測圖像的分辨率、增強原始圖像的清晰度等。像素級融合在3個層次的融合中應用范圍最為廣闊、研究成果最為豐富,也是目前研究的熱點之一 (李樹濤 等,2021;Zhou 等,2022)。因此,本文將立足于像素級層次的全色圖像銳化展開綜述。
像素級全色圖像銳化方法通常分為3 類(Yang 等,2018a):(1)成 分 替 換CS(Component Substitution)法(Yang 等,2018c;Liu 等,2018a;Shahdoosti 和Javaheri,2017;Li 等,2018)。CS 方法先將MS 圖像轉(zhuǎn)換到一個新的空間,然后在新的映射空間用PAN 圖像對轉(zhuǎn)換后的MS圖像空間信息成份進行替換(Alparone 等,2015),其不足在于光譜失真較為明顯;(2) 多分辨率分析MRA(Multi-Resolution Analysis)法(Khan 等,2008;Lu等,2017;Xing 等,2018b)。MRA 方法首先利用多尺度變換方法,如小波變換或者金字塔變換等,將源圖像分解獲得高、低頻成份,再運用適當?shù)娜诤弦?guī)則對不同尺度的高、低頻成份進行融合,最后將融合后的高、低頻成份反變換獲得融合圖像(陳毛毛 等,2021),其不足在于空間細節(jié)失真較為嚴重;(3)基于模型MB(Model-Based)的方法(Kang 等,2014;Palsson 等,2015)。MB 方法根據(jù)理想的融合圖像與PAN 圖像、MS 圖像之間的關(guān)系建立能量函數(shù),并通過最優(yōu)化求解獲得HRMS融合圖像,但其計算較為復雜(Lee 等,2021)。此外,也有不少學者(Yang 等,2018c;He 等,2019)將CS、MRA 兩種方法進行結(jié)合來構(gòu)建注入模型融合框架。
近年來,由于深度神經(jīng)網(wǎng)絡具有能夠自動發(fā)現(xiàn)數(shù)據(jù)特征表示的能力,它促進了自然語言處理、計算機視覺等研究取得巨大進展(Bowman 等,2015;He 等,2016;Huang 等,2017)。因此,近6 年來(2015 年以來),許多研究者對基于深度學習的像素級全色圖像銳化進行了深入的研究,并取得了豐碩的研究成果(Yang 等,2017;王芬等,2021;Lee 等,2021;Zhou 等,2022);同時,已有幾位學者對深度學習在全色圖像銳化領(lǐng)域中的研究進行了部分的總結(jié)和評述(Liu 等,2018c;Ma 等,2019;Tsagkatakis 等,2019;Javan 等,2021)。Liu 等(2018c)綜述了基于深度學習的各種像素級圖像融合的研究進展,包括多聚焦、醫(yī)學及遙感圖像融合等,文中對7個代表性的基于深度學習的全色圖像銳化模型進行了較為詳盡的評述,但對方法缺乏定量化的比較及分析;Ma 等(2019)從元分析(Meta-analysis)的角度對深度學習在全色圖像銳化等多個應用領(lǐng)域進行了綜述,但對全色圖像銳化方法也缺少具體的算法性能分析;Tsagkatakis 等(2019)從自編碼器AE(Autoencoders)和卷積神經(jīng)網(wǎng)絡CNN(Convolutional Neural Networks)兩個方面對基于深度學習的全色圖像銳化算法進行了闡述,但論文未涉及到深度學習與傳統(tǒng)方法相結(jié)合的融合模型;Javan 等(2021)主要從CS、MRA、Hybrid 和VO(Variational Optimization)等4類方法對傳統(tǒng)全色圖像銳化算法進行詳盡闡述,然而對基于深度學習的全色圖像銳化算法僅做了簡要介紹,缺乏對算法的定量化比較及分析。總體而言,以上文獻(Liu 等,2018c;Ma 等,2019;Tsagkatakis 等,2019;Javan 等,2021)只是部分地或從某一角度對基于深度學習的像素級全色圖像銳化研究成果進行闡述,在系統(tǒng)性和定量化分析方面存在一定的不足。為此,本文將對基于深度學習的全色圖像銳化研究成果進行全面和系統(tǒng)的歸納與總結(jié),建立一個較完整的領(lǐng)域研究視圖、給出該領(lǐng)域的發(fā)展脈絡,并提出未來5 個重要的研究方向。本文的創(chuàng)新工作包括:(1)提出從經(jīng)典方式和協(xié)同方式兩個方面對基于深度學習的像素級全色圖像銳化研究成果進行綜述;(2)對一些代表性的融合算法運用有參考和無參考圖像質(zhì)量評價指標進行了性能提升比的對比、分析和歸納,并以此給出其發(fā)展脈絡;(3)結(jié)合深度學習和全色圖像銳化的發(fā)展態(tài)勢,給出基于深度學習的像素級全色圖像銳化的5個主要研究方向。
本文給出了遙感衛(wèi)星圖像常用數(shù)據(jù)集,并對全色圖像銳化質(zhì)量評價進行介紹,以經(jīng)典方式與協(xié)同方式兩個方面分門別類地介紹了基于深度學習的全色圖像銳化方法,同時對代表性的算法進行對比、分析和歸納,最后對全色圖像銳化的3個常見應用領(lǐng)域進行分析以及對該領(lǐng)域的發(fā)展前景進行展望。
全色圖像銳化所采用的數(shù)據(jù)為PAN 圖像和MS圖像,數(shù)據(jù)集多由遙感光學衛(wèi)星商業(yè)公司提供。常用的遙感圖像數(shù)據(jù)集主要來自國外Digital Globe衛(wèi)星公司的WorldView 系列、IKONOS、QuickBird和GEOEYE 等衛(wèi)星數(shù)據(jù)集。WorldView 系列中的WorldView-2 衛(wèi) 星(https://gbdxdocs.digitalglobe.com/docs/worldview-2[2021-06-18])2009 年發(fā)射,能夠提供0.46 m 全色和1.85 m 多光譜影像,其星載多光譜傳感器不僅有4 個標準波段(紅、藍、綠和近紅外),還含有4 個額外波段(黃、紅邊、海岸和近紅外2);Pléiades 衛(wèi)星(https://www.geoimage.com.au/satellite/Pleiades[2021-06-18])發(fā)射于2011 年,能夠提供0.5 m 全色和2.0 m 多光譜影像,多光譜傳感器有4個標準波段。其他衛(wèi)星數(shù)據(jù)集還有Landsat 等。部分衛(wèi)星圖像參數(shù)見表1(Yang 等,2020b);https://gbdxdocs.digitalglobe.com/docs/worldview-3[2021-06-18];https://gbdxdocs.digitalglobe.com/docs/quickbird[2021-06-18];https://gbdxdocs.digitalglobe.com/docs/ikonos[2021-06-18])。
表1 常用國外衛(wèi)星基本參數(shù)Table 1 Basic parameters of common foreign satellites
國內(nèi)遙感圖像數(shù)據(jù)集多來自高分衛(wèi)星家族,如“GF-1”與“GF-2”,但“GF-2”的PAN 圖像和MS 圖像分辨率比“GF-1”都提高1 倍,分別達到了1 m 和4 m 的空間分辨率,其技術(shù)參數(shù)如表2(http://www.kosmos-imagemall.com/[2021-06-18])所示。GF-1 技術(shù)參數(shù)在光譜范圍與GF-2一致,全色圖像分辨率是2 m,多光譜圖像分辨率為8 m。高分衛(wèi)星家族在環(huán)保、農(nóng)業(yè)等領(lǐng)域都發(fā)揮了重大的經(jīng)濟價值與社會價值。
表2 GF-2衛(wèi)星基本參數(shù)Table 2 Basic parameters of GF-2 satellite
全色圖像銳化質(zhì)量評價,通常包括主觀評價和客觀評價兩部分。主觀評價是從視覺的角度判斷融合圖像的清晰度與原始MS 圖像之間的光譜相似度(Alparone 等,2015);客觀評價是一種對融合圖像進行定量化的評價方法,該方法通常分為兩類,即有參考和無參考質(zhì)量評價(Alparone 等,2015)。下面就常用的客觀評價指標給出其定義和說明。
(1) 相 關(guān) 系 數(shù)CC (Correlation Coefficient)(Alparone 等,2015)。計算公式如下:
式中,M×N為圖像的大小,R為參考圖像,F(xiàn)為融合圖像。R(i,j)是R中位置坐標(i,j)的像素值,-R為R的平均像素值;F(i,j)是F中位置坐標(i,j)的像素值,-F為F的平均像素值。CC用于對融合圖像在空間上的扭曲度進行定量評價。CC的值域區(qū)間是[0,1],CC越趨近于理想值1,表明融合圖像的質(zhì)量越趨近于參考圖像。
(2)光譜角映射SAM(Spectral Angle Mapper)(Alparone 等,2007)。計算公式如下:
式中,uR、uF分別為標準圖像和融合圖像的譜向量。SAM 用于定量評價標準圖像與融合圖像光譜信息的相似度。SAM 的值越趨近于理想值0,融合圖像與參考圖像的光譜信息相似度越高,表明融合圖像的光譜失真越小。
(3)全局相對光譜損失ERGAS(Erreur Relative Global Adimensionnelle de Synthèse)(Wald,2000)。計算公式如下:
式中,h表示PAN 圖像的空間分辨率,l表示MS圖像的空間分辨率,-Fk為各個通道的總體像素平均值。ERGAS 用來對融合圖像的光譜與空間質(zhì)量進行定量評估,ERGAS的值越趨近于最優(yōu)值0,表明融合圖像與參考圖像的相似度越高。
(4)全局融合指標(Q4)(李紅 等,2016)。對圖像進行分塊(D×D),每塊計算Q4。
式中,X(i,j)為參考圖像,F(xiàn)(i,j)為融合圖像,Q4反映了參考圖像與融合圖像在空間和光譜間的整體相似度,融合結(jié)果越好,Q4的值越接近于1。
QNR(楊勇 等,2020)是遙感圖像融合領(lǐng)域常用的無參考圖像質(zhì)量定量評價指標,它是基于UIQI的質(zhì)量評價指標,用來表征對比圖像與融合圖像間的亮度、對比度以及局部相關(guān)性。令Q(?)是計算UIQI的函數(shù),則QNR可用如下公式定義。
式中,PN為PAN 圖像,PNL為低空間分辨率的PN,q代表范數(shù)。Ds的值越小,代表空間失真度低(楊勇 等,2020),即圖像融合算法的實際效果越理想。
式中,p是一個正整數(shù),用來表征光譜差,t和d為通道的數(shù)量。Mt為MS 圖像的第t個通道,F(xiàn)t為融合圖像的第t個通道。Dλ的值越小,即融合算法的效果越好(楊勇 等,2020)。
Ds和Dλ的最優(yōu)值均為0,Ds和Dλ值越小,則QNR值越大,融合圖像的質(zhì)量越高,QNR的理想值為1。
深度學習DL(Deep Learning)的概念由Hinton和Salakhutdinov(2006)以及Hinton 等(2006)提出,屬于機器學習的范疇,其目標是構(gòu)建模擬人類大腦自動分析并能夠理解數(shù)據(jù)的神經(jīng)網(wǎng)絡,并于2018年獲得圖靈獎。
本節(jié)與像素級全色圖像銳化相關(guān)的5種重要的DL 模型,分別是AE、CNN、深度殘差網(wǎng)絡DRN(Deep Residual Network)、生成對抗網(wǎng)絡GAN(Generative Adversarial Nets)和循環(huán)神經(jīng)網(wǎng)絡RNN(Recurrent Neural Network)。
深度學習因提取特征能力強,識別精度高等優(yōu)點被廣泛應用在計算機視覺領(lǐng)域,許多研究人員將深度學習應用到像素級全色圖像銳化中,在最近6年中取得了巨大的進步。通過對現(xiàn)有諸多文獻的分析挖掘,本文給出了基于深度學習的全色圖像銳化方法的發(fā)展歷程及其分類,如圖1 所示。下面將根據(jù)深度學習模型與傳統(tǒng)融合算法,從經(jīng)典方式與協(xié)同方式兩個方面來分門別類地綜述這些研究成果。
圖1 基于深度學習的像素級全色圖像銳化發(fā)展歷程及分類Fig. 1 Deep learning based pixel-level pansharpening development and classification
經(jīng)典方式主要是直接把深度學習的一種模型單獨應用于全色圖像銳化。當前,常見的是基于AE、CNN、DRN 和GAN 等4 種深度學習模型的全色圖像銳化方法的研究。
4.1.1 基于AE的全色圖像銳化
AE 是由輸入層、隱含層(編碼層)和輸出層構(gòu)成的3層深度神經(jīng)網(wǎng)絡,其中,輸入層X 和輸出層Z 具有同樣大小。輸入層X 到隱含層Y 是一個編碼過程;隱含層Y 到輸出層Z 是一個解碼過程。AE通過BP反向傳播算法訓練,不斷調(diào)整編碼器和解碼器的參數(shù)(權(quán)重),重構(gòu)損失最小化,使輸入層X 等于輸出層Z,最后得到編碼層Y 的結(jié)果(低維向量的形式)即是對輸入層X的特征表達。
Huang 等(2015) 首次把DNN (Deep Neural Network)應用于遙感圖像融合,假定 HR/LR PAN圖像之間的映射關(guān)系與HR/LR MS 圖像的映射關(guān)系是一致的,提出了一個主體包含MSDA(Modified Sparse Denoising Autoencoder)的深度神經(jīng)網(wǎng)絡融合模型。MSDA 能夠?qū)W習獲得LR PAN 圖像與HR PAN圖像之間的映射關(guān)系,然后把訓練后的MSDA通過疊加構(gòu)造一個DNN,最后通過DNN 完成從LR MS 圖像到HR MS 圖像的重構(gòu),從而達到融合目的。
為訓練網(wǎng)絡中的參數(shù),Huang等(2015)定義了以下?lián)p失函數(shù):
Huang等(2015)提出的方法與數(shù)個傳統(tǒng)融合算法進行了比較,在QuickBird 和IKONOS 兩個衛(wèi)星數(shù)據(jù)集上,前者能得到更優(yōu)的主客觀融合圖像,驗證了基于DL的全色圖像銳化的有效性。
Cai 等(2018)提出了一個CSDA(Coupled Sparse Denoising Autoencorder)的融合框架。CSDA由4個子網(wǎng)絡組成,分別是LM-HP 網(wǎng)絡、HR-MS 網(wǎng)絡、特征映射網(wǎng)絡FMN(Feature Mapping Network)和微調(diào)網(wǎng)絡(Fine-Tuning Network)。其中LM-HP 網(wǎng)絡和HR-MS 網(wǎng)絡是SAE(Sparse AutoEncoder)網(wǎng)絡,分別用來學習MS、PAN 圖像和HRMS 圖像的特征表達信息;特征映射網(wǎng)絡SDAE (Sparse Denoising Autoencoder)用來對由SAE 提取的兩個特征建立映射關(guān)系;微調(diào)網(wǎng)絡通過BP 算法對CSDA的參數(shù)進行調(diào)整。
LM-HP網(wǎng)絡的損失函數(shù)定義如下:
優(yōu)化網(wǎng)絡的損失函數(shù)定義如下:
式(10)—(13)中,LRi表示LM-HP 圖像向量,Pani表示HR-MS 圖像向量真實值,HRi表示CSDA網(wǎng)絡的輸出,KL(ρ||ρ)表示稀疏正則項。
該融合方法工作過程是:首先,對上采樣的MS 圖像和PAN 圖像向量化,然后,利用LM-HP網(wǎng)絡、HR-MS 網(wǎng)絡分別提取MS、PAN 圖像的特征,接著,利用SDAE 網(wǎng)絡建立MS、PAN 圖像特征的映射關(guān)系,得到HRMS 圖像特征,最后,重構(gòu)獲得HRMS融合圖像。
作為早期的基于深度學習的像素級遙感圖像融合模型,雖然較傳統(tǒng)融合算法在效果上有較大提升,但由于AE 結(jié)構(gòu)的限制、不能直接處理圖像以及較少考慮到遙感圖像融合領(lǐng)域的先驗知識等,相較其他基于深度學習的遙感圖像融合模型存在一些不足。另外,該類方法提升融合效果往往使得網(wǎng)絡模型結(jié)構(gòu)、損失函數(shù)等較為繁雜,不具簡明性。
4.1.2 基于CNN的全色圖像銳化
CNN 是一種多層感知機,主要用來處理二維圖像數(shù)據(jù)(張洪群 等,2017)。相比傳統(tǒng)的多層感知機,CNN 的特點在于:網(wǎng)絡的輸入直接采用原始信號,從而使得傳統(tǒng)識別算法中復雜的特征提取得以避免;卷積階段通過權(quán)值共享結(jié)構(gòu)減少了網(wǎng)絡參數(shù)量,使得網(wǎng)絡的訓練效率顯著提高;池化階段通過對特征圖下采樣操作,在主要特征信息得以保存的同時,使得特征空間的大小明顯減小。
受Dong 等(2016)的啟發(fā),Masi 等(2016 和2017)把SRCNN(Super-Resolution CNN)中的CNN應用到遙感圖像融合領(lǐng)域,提出了首個基于CNN的全色圖像銳化模型PNN(CNN-based Pansharpening),其架構(gòu)如圖2 所示。PNN 模型以PAN 和上采樣后的MS 圖像為輸入,然后經(jīng)過3 層CNN,最后得到HRMS 融合圖像。PNN 模型在WorldView-2、IKONOS 和GeoEye-1這3個衛(wèi)星數(shù)據(jù)集上與十幾個傳統(tǒng)融合算法做了大量的對比實驗,驗證了PNN模型應用于遙感圖像融合的有效性。
圖2 PNN模型結(jié)構(gòu)Fig.2 The network structure of PNN
He 等(2018)通過實驗發(fā)現(xiàn):當訓練網(wǎng)絡的圖像太小時,網(wǎng)絡對圖像邊緣、紋理等細節(jié)信息的學習能力會變?nèi)酰瑢е氯诤蠄D像空間細節(jié)信息失真;當訓練網(wǎng)絡的圖像太大時,容易導致網(wǎng)絡陷入過擬合?;诖耍琀e 等(2018)設(shè)計了一個三通道的CNN 框架,其中每個通道對應不同分辨率大小的訓練MS圖像和PAN 圖像,最后經(jīng)過統(tǒng)一池化操作得到融合圖像;Ye 等(2018)設(shè)計了一個多尺度的CNN 模型,以上采樣的MS圖像和增強PAN 圖像作為訓練后融合網(wǎng)絡的輸入,最后得到融合圖像,其中增強PAN 圖像由低頻的MS圖像注入到經(jīng)NSLP(Non-Subsampled Laplacian Pyramid)變換的PAN 圖像而得到;李紅等(2016)在CNN的基礎(chǔ)上,提出了一個DSVL Nets(Deep Support Value Learning Networks)的融合框架,DSVL Nets在傳統(tǒng)CNN 的基礎(chǔ)上,移除特征層的下采樣操作,提升了圖像融合的效果。
Masi 等(2016)提出的PNN 模型具有開創(chuàng)性的意義,后續(xù)許多學者沿著此路徑開展研究,無論是從網(wǎng)絡類別、網(wǎng)絡寬度、網(wǎng)絡深度、目標函數(shù)等方面都受PNN 模型的影響。然而,由于PNN模型網(wǎng)絡深度較淺,只是3層的CNN,其信息表征(特征提?。┠芰κ艿街萍s。同時,該網(wǎng)絡模型是將PAN圖像和上采樣的MS圖像直接作為PNN模型的輸入,沒有充分考慮到遙感圖像融合領(lǐng)域的特殊性,導致部分空間、光譜信息的丟失。后續(xù)的研究(He 等,2018)在CNN 的網(wǎng)絡寬度上均有增加,實驗結(jié)果表明,在主觀視覺和客觀指標上均達到比PNN模型更高質(zhì)量的融合效果。
4.1.3 基于DRN的全色圖像銳化
在深度學習中,圖像特征隨著網(wǎng)絡深度的加深而變得更為抽象,增加網(wǎng)絡深度可以有效地提取更多高層的特征(Zeiler和Fergus,2014)。但是隨著網(wǎng)絡模型深度的逐步增加,參數(shù)更新過程中可能會出現(xiàn)“梯度消失”,使得網(wǎng)絡模型難以優(yōu)化(He 和Sun,2015)。為 了 解 決 該 問 題,He 等(2016)創(chuàng)新性地把“Shortcut Connections”概念(Ripley,1996)引入到CNN 中,設(shè)計了深度殘差網(wǎng)絡模型ResNet,也即DRN。
通過對PNN 等模型不足之處的分析以及結(jié)合遙感圖像融合領(lǐng)域的先驗知識,Yang 等(2017)以遙感圖像融合的兩大主要目標:光譜信息、空間信息的理想保留,創(chuàng)新性地提出了一個主體包含ResNet 結(jié) 構(gòu) 的PanNet (Deep Network for Pan-Sharpening)模型,其結(jié)構(gòu)框架如圖3 所示。該模型為顯著地保留MS圖像和PAN 圖像中的光譜和空間信息,引入了兩個損失函數(shù)。其中,針對空間信息保持,其定義如下?lián)p失函數(shù):
圖3 PanNet模型結(jié)構(gòu)Fig.3 The network structure of PanNet
式中,fW代表圖5 中的ResNet,G表示高通濾波操作,↑是上采樣操作,P、M、X分別表示PAN 圖像、MS圖像和HRMS融合圖像。
PanNet 的另一顯著特點在于,在輸入到訓練網(wǎng)絡前,對MS 圖像和PAN 圖像進行高通濾波操作,使得PanNet 模型的泛化性能得到提升,在WorldView-2 和WorldView-3 衛(wèi)星數(shù)據(jù)集上表現(xiàn)出顯著的融合效果。
Wei 和Yuan(2017)、Wei 等(2017)受Kim等(2016) 使用深度殘差網(wǎng)絡的啟發(fā),提出DRPNN (Deep Residual Pan-sharpening Neural Network)融合模型,取得了比PNN 模型以及數(shù)個經(jīng)典融合算法更高質(zhì)量的融合圖像;受傳統(tǒng)CS、MRA 方法以及ResNet 模型的啟發(fā),為學到HRMS圖像與MS 圖像之間的空間“殘差”信息,Rao 等(2017)設(shè)計了一個具有殘差學習功能的CNN 以完成高質(zhì)量的圖像融合;受Kim 等(2016)的啟發(fā),并假定LRPAN、HRPAN圖像與MS、HRMS圖像具有相同的映射關(guān)系,Li 等(2017)訓練了一個DRN 模型,該模型通過訓練獲得LR PAN 圖像與HR PAN 圖像之間的映射函數(shù),然后把該訓練模型用于完成從 MS 圖像到HRMS 圖像的重構(gòu),從而達到融合的目的;Jiang 等(2019)設(shè)計了一個DRN框架,該模型能夠?qū)RPAN 圖像與MS 圖像之間的差異信息映射到HRMS 圖像與HRPAN 圖像之間的差異信息,從而達到融合的目的。
Yang 等(2020a)做了進一步的研究,提出了PCDRN(Progressive Cascade Deep Residual Network)融合框架,其以串聯(lián)的形式包含兩個ResNet 子網(wǎng)絡,分兩次學習LR MS 圖像和PAN 圖像到HR MS圖像的非線性的特征映射,使得融合圖像可以保留PAN 圖像中更豐富的空間信息。另外,為解決融合過程中過擬合的現(xiàn)象,Yang 等(2020a)還設(shè)計了一個新的多任務損失函數(shù):
在遙感圖像不同的區(qū)域上,光譜、空間分辨率存在差異,利用顯著性分析對光譜、空間信息進行劃分具有合理性。受此啟發(fā),Zhang 等(2019a)將注意力機制中的顯著性分析原理與DRN 相結(jié)合,提出基于顯著性引導的DRN 融合模型,同時,通過設(shè)計了一個新的損失函數(shù),使得融合圖像獲得更豐富的細節(jié)信息,進一步提升了融合圖像的質(zhì)量;Yao等(2018)設(shè)計了一個主體結(jié)構(gòu)是AE 的PUNet(U-Net for Pansharpening)融合框架,在IKONOS 與WorldView-2 兩個衛(wèi)星數(shù)據(jù)集上的實驗表明,PUNet 獲得了比GIHS(Tu 等,2001)、AWLP(Otazu 等,2005)等傳統(tǒng)算法更好的融合效果。
Scarpa等(2018)從損失函數(shù)、網(wǎng)絡深度、是否加入殘差學習模塊等3 個方面對遙感圖像融合PNN 模型進行全面的實驗分析、改進,提出了一個目標自適應的帶有殘差學習模塊的3 層CNN 融合框架,在WorldView-2、WorldView-3、IKONOS和GeoEye-1這4個衛(wèi)星數(shù)據(jù)集上得到高質(zhì)量的融合圖像;隨后,Scarpa 等(2018)對該模型框架又開展了進一步的研究(Vitale 等,2018;Vitale,2019);Vinothini 和Bama(2019)使用RDN(Residual Dense Network)模型(Zhang 等,2018)設(shè)計了一個RDMPSnet(Residual Dense Model for Pan-Sharpening Network)的融合框架,在WorldView-2 和IKONOS-2 兩個衛(wèi)星數(shù)據(jù)集上的實驗表明,RDMPSnet 獲得了比PNN、PanNet 等模型更好的融合效果;Xiang 等(2019)設(shè)計了一個多尺度密集深度學習的融合框架,框架的特色在于包含一個多尺度的卷積層、一個密集深度學習模塊(Dense Learning Block)和一個全局的特征連接結(jié)構(gòu)。其中多尺度卷積層用來提取PAN 圖像的多尺度特征;密集深度學習模塊用來提高網(wǎng)絡對圖像的光譜、空間表達能力;全局的特征連接結(jié)構(gòu)則保留了上采樣后的MS 圖像的光譜結(jié)構(gòu)信息。
Guo 等(2019) 設(shè)計了一個主體包含DMB(Dilated Multilevel Block)的融合框架。Li和Cheng(2019)在Landsat 8 衛(wèi)星數(shù)據(jù)集上設(shè)計了一個由特征提取、非線性映射關(guān)系構(gòu)造、融合圖像重構(gòu)3部分構(gòu)成的DRN 融合框架;以改進PNN 模型為出發(fā)點,提升對圖像各尺度的信息表達能力,Li 等(2020b)設(shè)計了一個基于多尺度通道注意力機制的DRN 融合框架,該框架的一個核心模塊是MSRBCA(Multi-scale Residual Block With Channel Attention),其主要作用是實現(xiàn)對源圖像多尺度的特征提取。
基于DRN 的全色圖像銳化方法充分利用其網(wǎng)絡中的快捷/跳轉(zhuǎn)連接(Shortcut Connections),使得用于學習圖像特征的DRN 兼顧到較為淺層的圖像特征的同時,網(wǎng)絡更深,學習效率更高。在實驗效果上,無論從光譜信息、空間細節(jié)的保留上均達到比傳統(tǒng)CNN 模型更好的主客觀融合效果;另外,Zhang 等(2019a)和Li 等(2020b)把注意力機制加入到DRN 模型,使得基于DRN 的全色圖像銳化方法更為豐富和更具靈活性。
4.1.4 基于GAN的全色圖像銳化
Goodfellow 等(2014) 提 出 生 成 對 抗 網(wǎng) 絡GAN,其重要特征在于其包含兩個網(wǎng)絡模型:生成器G(Generator)和判別器D(Discriminator)。生成器G 盡可能使得生成的圖像更為“真實”,導致判別器D難辨真?zhèn)危慌袆e器D判定輸入樣例是來自數(shù)據(jù)集還是生成器G 生成的圖像。兩個網(wǎng)絡模型相互對抗并不斷提升各自的算法能力,直到判別器無法分辨數(shù)據(jù)集圖像與生成圖像。
Liu 等(2018b)首次將GAN 用于遙感圖像融合,提出了PSGAN 模型,其中生成器用來得到HRMS融合圖像,其損失函數(shù)定義為
式(16)和(17)中,X、Y分別表示MS 圖像和PAN 圖像,P表示HRMS 融合圖像,N為訓練圖像樣本數(shù),α、β為1—100 范圍的參數(shù),G、D 分別是生成器和判別器。
PSGAN 模型在Quickbird 和GaoFen-1 兩個衛(wèi)星數(shù)據(jù)集上獲得比PNN 等數(shù)個融合算法更高質(zhì)量的融合圖像。
然而,PSGAN 在生成器的訓練效率以及細節(jié)信息保持上仍有很大的提升空間。Shao 等(2020)把GAN 與具有殘差學習能力的自編碼器思想相結(jié)合,設(shè)計了RED-cGAN(Residual Encoder-Decoder Conditional Generative Adversarial Network)的融合框架。RED-cGAN 中的生成器采用了雙分支子網(wǎng)絡結(jié)構(gòu),分別用它們提取PAN 圖像和MS 圖像的特征信息,接著通過RED(Residual Encoder-Decoder Module) 結(jié) 構(gòu) 生 成HRMS 融 合 圖 像,與PSGAN 模型的不同在于:RED-cGAN 的判別器使用PAN 圖像與生成器產(chǎn)生的圖像代替上采樣的MS圖像與生成器產(chǎn)生的圖像作為其輸入,以保留更多的空間細節(jié)信息。在WorldView-2和WorldView-3兩個衛(wèi)星數(shù)據(jù)集上RED-cGAN 得到比DRPNN、PanNet 和PSGAN 等模型更高質(zhì)量的融合圖像。Ozcelik 等(2020)設(shè)計了一個PanColorGAN 的融合框架,在Pléiades 和WorldView-2/3 衛(wèi)星數(shù)據(jù)集上,PanColorGAN 獲得了比PanNet 等多個融合算法信息更豐富的融合圖像;Ma 等(2020)設(shè)計了一個基于GAN 模型的無監(jiān)督學習融合框架Pan-GAN,其包含兩個判別器,分別是光譜判別器和空間判別器,以更充分地保留源圖像的光譜和空間信息。在WorldView-2 和GaoFen-2 兩個衛(wèi)星數(shù)據(jù)集上Pan-GAN 得到了比PNN、PanNet 和PSGAN等模型更高質(zhì)量的融合圖像;另外,Zhang 等(2019c)、Chen 等(2020)以及Zhang 等(2020)也將GAN應用于遙感圖像融合的研究。
基于GAN 的全色圖像銳化方法與其他模型(如基于CNN、DRN 的全色圖像銳化)最大的不同在于GAN 由兩個網(wǎng)絡構(gòu)成,分別是生成器與判別器,目前生成器所采用的網(wǎng)絡模型多是自編碼器。GAN 結(jié)構(gòu)的優(yōu)點在于可以并行地生成圖像,與自回歸模型相比,GAN 生成圖像的速度比較快,而且生成的圖像比較清晰(陳佛計 等,2021);另外,GAN 結(jié)構(gòu)中的判別器可以進一步提升生成器所生成的圖像的質(zhì)量。由于GAN 結(jié)構(gòu)具有以上優(yōu)點,因此基于GAN 的全色圖像銳化成為當前的研究熱點。
4.1.5 對比小結(jié)
上述4節(jié)介紹了經(jīng)典方式下,AE、CNN、DRN和GAN 等4 種常見的深度學習模型單獨應用于遙感圖像融合的研究,本節(jié)對這4類方法各自的特點和異同點進行小結(jié),并在表3 中將4 類方法中的典型算法運用有參考和無參考圖像質(zhì)量評價指標進行了性能提升比的對比、分析和歸納(選擇性能提升比作為定量分析的主要原因在于各融合算法采用的數(shù)據(jù)集存在差異)。綜合考慮到算法對比的廣泛性和代表性,選取BDSD (Garzelli 等,2008)、GS(Laben 和Brower,2000)和PNN(Masi等,2016)這3 種算法作為比較的基準算法;考慮到評價的全面性,選取有參考評價指標SAM(Alparone 等,2007) 和無參考評價指標QNR(楊勇 等,2020)作為比較指標,得到以下結(jié)論:
表3 經(jīng)典方式算法比較(基準算法分為傳統(tǒng)方法BDSD、GS,基于DL的PNN,選擇SAM和QNR為比較指標,↑表示相對當前指標的提升比,— 表示空值)Table 3 Comparison of classical algorithms (the benchmark algorithm is divided into traditional methods BDSD, GS, and DL-based PNN, SAM and QNR are selected as the comparison indicators, ↑ represents the improvement ratio relative to the current indicator, — represents the null value)
續(xù)表
(1)相比于PNN 模型,融合效果提升的方法中,大多采用了DRN 網(wǎng)絡結(jié)構(gòu)或者網(wǎng)絡寬度更寬的CNN網(wǎng)絡,而極少使用AE網(wǎng)絡;
(2)殘差模塊以及GAN 的使用,可以有效提升融合效果,如Liu 等(2018b) 提出的方法,GAN也表現(xiàn)比較強的潛力;
(3)即使采用簡單的淺層CNN,如果在損失函數(shù)、殘差模塊等方面優(yōu)化融合模型,仍可得到高質(zhì)量的融合圖像,如Scarpa 等(2018)提出的方法;
(4)損失函數(shù)中加入評價指標因子(如UIQI等),可增加融合網(wǎng)絡模型的可解釋性,如Yang等(2020a)提出的方法。采用GAN 的融合算法,損失函數(shù)中包含生成器損失L(G)和判別損失L(D),相比于其他模型的損失函數(shù)較為復雜,如Liu 等(2018b)和Ozcelik等(2020)提出的方法;
(5)各算法在SAM 指標上提升的幅度大于(或等于)在QNR指標上的提升幅度,少數(shù)算法在某些衛(wèi)星數(shù)據(jù)集上QNR 指標沒有得到提升,如Ozcelik等(2020)提出的方法。
在深度學習技術(shù)應用于全色圖像銳化之前,基于傳統(tǒng)方法的全色圖像銳化已經(jīng)開展了數(shù)十年的研究,在這期間,產(chǎn)生了大量的融合算法,不乏有些算法已經(jīng)應用于專業(yè)遙感軟件系統(tǒng),因而出現(xiàn)諸多把傳統(tǒng)方法與DL 技術(shù)結(jié)合開展全色圖像銳化的研究(Zhong 等,2016;Azarang 和Ghassemian,2017;He 等,2019)。由于CNN、DRN在全色圖像銳化的顯著效果,也出現(xiàn)了CNN 與DRN結(jié)合的全色圖像銳化等方法。基于此,本文將傳統(tǒng)方法+DL技術(shù)的全色圖像銳化方法以及不同DL模型相結(jié)合的全色圖像銳化方法概括為協(xié)同方式。
4.2.1 基于DL+CS的全色圖像銳化
為了在全色圖像銳化中保留MS 圖像中的空間信 息,Zhong 等(2016) 把DL 技 術(shù) 與 傳 統(tǒng)GS(Gram-Schmidt)方法結(jié)合構(gòu)建一個新的融合框架。其中DL 技術(shù)采用的是SRCNN 模型,用來增強MS圖像,然后將PAN圖像與增強MS圖像作為GS融合框架的輸入,最后得到HRMS 圖像;Azarang 等(2019)使用訓練后的CAE(Convolutional AutoEncoder)網(wǎng)絡以提升LRMS圖像的空間信息,然后把CAE納入CS的融合框架,最后完成遙感圖像融合。
上述研究可看作DL與CS方法結(jié)合完成遙感圖像的融合。其共同點是DL 技術(shù)用來增強MS 圖像的空間信息,然后再按照傳統(tǒng)CS融合方法得到融合圖像;其不同點在于Zhong 等(2016)采用SRCNN模型增強MS 圖像信息,而Azarang 等(2019)采用的是CAE網(wǎng)絡。
4.2.2 基于DL+MRA的全色圖像銳化
Azarang 和Ghassemian (2017) 設(shè) 計 了 一 個MRA 和DNN(Deep Neural Networks)結(jié)合的融合框架,其中DNN 由基本的AE 構(gòu)成。Eghbalian 和Ghassemian(2018)設(shè)計了一個包含兩個DNN 的融合框架,并分兩大階段對遙感圖像進行融合,第一階段完成圖像融合,第二階段進行光譜補償。其中第一階段的深度卷積神經(jīng)網(wǎng)絡DCNN(Deep Convolution Neural Network)與MRA 融合方法相結(jié)合完成圖像融合,DCNN 的作用是用來提取MS 圖像需要注入的空間信息;第二階段的光譜補償網(wǎng)絡SCN(Spectral Compensation Network)實質(zhì)上是在DCNN 網(wǎng)絡的基礎(chǔ)上,增加了新的損失函數(shù),SCN 網(wǎng)絡的目的是減少融合圖像的光譜失真,同時盡可能地保存空間信息,在WorldView-2、GeoEye-1 和Pléiades 這3 個 衛(wèi) 星 數(shù) 據(jù) 集 上 的 實 驗結(jié)果表明該方法有效地提高了遙感圖像融合效果。Huang 等(2018) 設(shè)計了一個主體由NSCT(Nonsubsampled Contourlet Transform)與DNN 構(gòu)成的融合框架。該方法通過訓練和融合兩個階段完成融合任務,在訓練階段,使用NSCT 分別對HR/LR PAN 圖像在不同分辨率和方向上進行分解,得到高、低頻子帶圖像并作為DNN 的輸入來訓練網(wǎng)絡,以提取更豐富的空間結(jié)構(gòu)信息;在融合階段,由A-PCA(Adaptive PCA)與NSCT 聯(lián)合把MS 圖像分解為高頻子帶圖像和低頻子帶圖像,使用其高頻子帶圖像作為訓練后DNN 的輸入,再把輸出與MS 圖像的低頻子帶圖像聯(lián)合,經(jīng)過NSCT 逆變換等操作得到HRMS融合圖像。
Zhang 等(2019b)設(shè)計了BDPN(Bidirectional Pyramid Network)的融合框架,BDPN 包含兩個分支子結(jié)構(gòu),分別是重構(gòu)分支和細節(jié)提取分支。細節(jié)提取分支結(jié)構(gòu)是一個DRN 網(wǎng)絡,用來提取PAN圖像的空間細節(jié)信息,再注入到上采樣的MS 圖像中,然后利用重構(gòu)分支得到HRMS 融合圖像。Benzenati等(2020)設(shè)計了一個基于CNN的廣義拉普拉斯金字塔融合框架,其中CNN 用來提高GLP(Generalized Laplacian Pyramid)的空間細節(jié)注入信息。
通常情況下,CS融合方法空間信息保持較好,光譜失真大;MRA 融合方法光譜細節(jié)保持較好,空間細節(jié)失真大。為客觀評價基于DL+MRA 的融合方法在空間信息、光譜細節(jié)保持上的表現(xiàn),表4給出了算法性能提升比分析,與之比較的方法有兩類,包括CS 方法:IHS(Carper 等,1990)、文獻(Shah 等,2008)和GFP(Liu 和Liang,2016);MRA 方法:Indusion(Khan 等,2008)、文獻(Da等,2006)和Seg_GLP(Aiazzi 等,2007)。得到如下結(jié)論:
表4 WorldView-3數(shù)據(jù)集上DL+MRA算法比較(選擇CC、SAM和QNR為比較指標)Table 4 Comparison of DL+MRA algorithms on WorldView-3 dataset (CC, SAM and QNR were selected as comparison indexes)
(1)在空間信息保持上,基于DL+MRA 的融合方法優(yōu)于單獨使用CS的融合方法;
(2)基于DL+MRA 的融合方法,在光譜細節(jié)保持上,能獲得比單獨MRA 方法更好的結(jié)果,均達到超過5%的提升;
(3)基于DL+MRA 的融合方法,在QNR 指標上,同樣獲得了比單獨MRA方法更好的結(jié)果。
基于以上3 點,得出基于DL+MRA 的融合方法,起關(guān)鍵作用的是DL 技術(shù)的運用,其不僅能夠增強該方法在光譜信息保持方面的能力,而且能克服MRA 方法在空間信息保持方面的不足,甚至超過CS方法在空間信息保持方面的優(yōu)勢。
4.2.3 基于DL+MB的全色圖像銳化
Xing 等(2018a) 提 出 了 一 個DML-GMME(Deep Metric Learning based Geometric Multi-Manifold Embedding)融合框架。DML-GMME 分兩個階段完成圖像融合,分別是訓練階段和重構(gòu)階段。訓練階段的網(wǎng)絡模塊是由數(shù)個SSAE(Stacked Sparse AutoEncoder)構(gòu)成,用來提取由聚類分組的PAN 圖像塊和下采樣PAN 圖像塊的流形(Manifold),即分別是HR 流形和LR 流形;在重構(gòu)階段,假定使用LR 流形重構(gòu)MS 圖像塊的系數(shù)與使用HR 流形重構(gòu)HRMS 圖像塊的系數(shù)相同,最后通過HR 流形,以及由MS 圖像塊與LR 流形計算出的系數(shù)共同重構(gòu)出HRMS圖像。
Ye等(2019)設(shè)計了一個DL 與優(yōu)化模型相結(jié)合的融合框架。該融合框架由預處理、DRN 和重構(gòu)這3 個部分構(gòu)成,其核心模塊是DRN,主要用來提取PAN 圖像的空間信息。不同于大多數(shù)基于CNN 的融合方法在像素域訓練網(wǎng)絡,DRN 是在圖像梯度域訓練網(wǎng)絡;重構(gòu)模塊是ADMM(Alternating Direction Method of Multipliers),ADMM把DRN輸出的梯度信息和MS圖像的上采用信息作為輸入,最后重構(gòu)出融合結(jié)果HRMS 圖像。由于該融合框架的核心模塊DRN 是在圖像梯度域訓練網(wǎng)絡,使得該方法泛化性能得到提高,DRN 在WorldView-2 和QuickBird 兩個衛(wèi)星數(shù)據(jù)集上訓練,能夠使得融合框架在WorldView-3 和IKONOS 衛(wèi)星數(shù)據(jù)集上直接得到融合圖像,較PNN 等得到更高質(zhì)量的圖像。
4.2.4 基于DL+注入模型的全色圖像銳化
He 等(2019)設(shè)計了兩個基于CNN 的細節(jié)注入框架,分別是DiCNN1 (Detail injection based CNN)和DiCNN2。DiCNN1 通過CNN 從MS 圖像和PAN 圖像中提取細節(jié),然后注入到MS 圖像,得到HRMS 圖像;DiCNN2通過CNN 從PAN 圖像中提取細節(jié),然后注入到MS 圖像,從而得到HRMS 圖像。DiCNN1 和DiCNN2 共同之處是DL 技術(shù)與細節(jié)注入模型結(jié)合完成圖像融合,不同之處主要是網(wǎng)絡結(jié)構(gòu)、損失函數(shù)和應用目標的差異。DiCNN1 和DiCNN2 在World View-2,IKONOS 和Quickbird 這3 個衛(wèi)星數(shù)據(jù)集上較PNN 與DRPNN 等模型得到信息更豐富的融合圖像;He 等(2020)設(shè)計了SAPNN的融合框架,在上述3個常見衛(wèi)星數(shù)據(jù)集上獲得了比PNN 與DRPNN 等模型更高質(zhì)量的融合結(jié)果。
Deng 等(2020)把傳統(tǒng)融合方法與深度學習方法相結(jié)合,設(shè)計了Fusion-Net 的融合框架。Liu等(2020)提出了基于淺-深卷積網(wǎng)絡與細節(jié)注入模型結(jié)合的融合框架MIPSM(Multispectral Image Pan-Sharpening Method),包 含SDCN (Shallow-Deep Convolutional Network) 和SDDI (Spectral Discrimination-based Detail Injection)兩個子模型。其中SDCN中的淺層CNN分支網(wǎng)絡用來提取PAN圖像中層的空間特征,另一個深層DRN 分支網(wǎng)絡用來提取PAN 圖像高層的空間特征,然后將提取的空間細節(jié)注入到上采樣的MS圖像得到融合圖像。
特別地,MIPSM定義如下的損失函數(shù):
式中,GjMS表示上采樣MS 圖像第j個通道的光譜信息,gD表示SDCN輸出的空間信息,fMS表示“真實圖像”,S表示上采樣MS圖像的通道數(shù)。
整體上,MIPSM 在IKONOS 和QuickBird 兩個衛(wèi)星圖像數(shù)據(jù)集上的融合實驗達到比PNN 等模型更好的結(jié)果。但是,MIPSM 在某些指標上(如SAM)泛化性能表現(xiàn)不足。
從結(jié)構(gòu)上分析,He 等(2019)提出的DiCNN融合模型與Liu等(2020)提出的MIPSM 融合模型共同點在于都是基于DL+注入模型的全色圖像銳化方法,不同點在于MIPSM 融合模型利用高通濾波提取PAN 圖像高頻信息,有效提高了該方法的泛化能力。
4.2.5 基于CNN+DRN的全色圖像銳化
受Masi 等(2016)工作的啟發(fā),為提升基于DL 的全色圖像銳化的融合質(zhì)量,Yuan 等(2018)設(shè)計了一個包含PNN 和多尺度深度神經(jīng)網(wǎng)絡的兩個子網(wǎng)絡結(jié)構(gòu)的融合框架MSDCNN (Multiscale and Multidepth Convolutional Neural Network),其中PNN 用來提取簡單特征;多尺度深度神經(jīng)網(wǎng)絡用來提取多尺度的特征,以增強對高分辨率圖像中豐富的空間信息的提取、提高各種復雜地面場景中特征提取的魯棒性。另外,為了讓多尺度深度神經(jīng)網(wǎng)絡深度更深以及提升訓練效率,該子網(wǎng)絡也加入了跳轉(zhuǎn)連接,MSDCNN 在QuickBird 和WorldView-2 兩個衛(wèi)星數(shù)據(jù)集上獲得比PNN 等更好的融合效果,Shao 和Cai(2018)設(shè)計了一個包含雙分支CNN 的融合框架RSIFNN (CNN-based remote sensing image fusion)。兩個分支CNN 分別提取源圖像的特征,最后經(jīng)過進一步處理來得到融合圖像。特別地,Shao 和Cai(2018)定義了以下的損失函數(shù):
Hu 等(2019)設(shè)計了一個DSL (Deep Self-Learning model)用于自適應遙感圖像融合。DSL融合框架由3 部分構(gòu)成,分別是點擴展函數(shù)PSF(Point Spread Function) 計算模塊、圖像配準模塊和圖像融合模塊。其中PSF計算模塊實質(zhì)上是一個CNN 網(wǎng)絡,用來完成對MS 圖像的PSF 計算;圖像配準模塊完成MS圖像與PAN 圖像的配準;圖像融合模塊實質(zhì)上是一個DRN 網(wǎng)絡,使用PSF 對配準后的MS 圖像與PAN 圖像進行降采樣得到訓練樣本,對DRN 網(wǎng)絡進行訓練, 最后通過訓練后的DRN 網(wǎng)絡自適應地完成圖像的融合。DSL在GF-2、GF-1 和JL-1A 這3 個衛(wèi)星數(shù)據(jù)集的實驗表明,較數(shù)個傳統(tǒng)模型,DSL得到更高質(zhì)量的融合圖像。
上述基于CNN+DRN 的全色圖像銳化的共同點是融合框架里都包含兩個網(wǎng)絡,分別是CNN 和DRN,融合框架較其他方法在網(wǎng)絡的深度、寬度上都有較大的突破,這樣就使得此類模型對PAN 圖像、MS 圖像信息提取更為充分;不同之處是PAN圖像與MS 圖像共同作為MSDCNN 的輸入和DSL 融合框架中融合子模塊DRN的輸入,而RSIFNN的兩分支網(wǎng)絡單獨對PAN 圖像和MS 圖像分別提取信息,即PAN 圖像作為RSIFNN 的一個分支網(wǎng)絡的輸入,MS圖像作為其另一分支網(wǎng)絡的輸入。
4.2.6 基于RNN+CNN的全色圖像銳化
RNN 可以將神經(jīng)元輸出再輸入到該神經(jīng)元,網(wǎng)絡結(jié)構(gòu)的串聯(lián)性便于處理時間序列數(shù)據(jù),從而使得對數(shù)據(jù)中的依賴關(guān)系能有效保持。然而,傳統(tǒng)的RNN 對信息的長期保存往往難以實現(xiàn)。為解決這個難題,Hochreiter 和Schmidhuber(1997)設(shè)計了長短期記憶LSTM (Long-Short Time Memory)網(wǎng)絡,LSTM 較一般的RNN具有更為靈活的內(nèi)部結(jié)構(gòu)。Shi 等(2015)把2D 的卷積操作引入到LSTM設(shè)計出CLSTM,能夠處理2 維特征圖信息并自動捕捉時間依賴性。同時,CLSTM 也能夠用于處理三維數(shù)據(jù)(Wang等,2020)。
除上述5 類主流的協(xié)同方式全色圖像銳化外,也有學者將其它的DL 模型運用于該研究領(lǐng)域,如RNN模型。Wang等(2020)設(shè)計了一個包含CLSTM(Convolutional Long-Short Term Memory)的融合框架DCNet(dual-channel network,DCNet),首次將基于CLSTM 的RNN 模型應用于全色圖像銳化領(lǐng)域。DCNet包含兩個分別用于提取空間特征信息和光譜特征信息的CNN 分支網(wǎng)絡,其中提取空間特征信息的子網(wǎng)絡采用2D CNN 實現(xiàn),提取光譜特征信息的子網(wǎng)絡采用3D CNN 實現(xiàn)。為了更充分地融合提取的空間、光譜特征信息,DCNet 借助于S2-CLSTM(Spatial-Spectral CLSTM)模塊并采用分層的融合策略,最后通過重構(gòu)模塊得到融合圖像HRMS。DCNet在GaoFen-2和 WorldView-2兩個衛(wèi)星數(shù)據(jù)集上得到了比PNN 等模型更好的融合結(jié)果。
4.2.7 對比小結(jié)
上述介紹了協(xié)同方式下,DL+CS、DL+MRA、DL+MB、DL+注入模型、CNN+DRN 和RNN+CNN應用于解決遙感圖像融合問題。本節(jié)對這6類方法各自的特點和異同點進行小結(jié),并在表5 中將6 類方法中典型算法進行性能提升比對比分析,可以得到以下結(jié)論:
表5 協(xié)同方式算法比較(基準算法分為傳統(tǒng)方法BDSD、GS,基于DL的PNN,選擇SAM和QNR為比較指標)Table 5 Comparison of collaborative methods algorithms (the benchmark algorithm is divided into traditional methods BDSD and GS, and DL-based PNN, and SAM and QNR are selected as comparison indexes)
續(xù)表
(1)較PNN 模型,融合效果有所提升的方法中,大多數(shù)采用了DRN 網(wǎng)絡結(jié)構(gòu)或者CNN+DRN網(wǎng)絡;
(2)較PNN 模型提升融合效果最好的幾個方法中,DL+注入模型等DL 技術(shù)與傳統(tǒng)融合方法相結(jié)合的方法表現(xiàn)出良好性能,如He 等(2019)、Deng等(2020)和Liu等(2020)提出的方法;
(3)相對PNN 模型提升10%以上的方法中,使用自適應學習機制,可使得模型在不同的衛(wèi)星數(shù)據(jù)集上的融合質(zhì)量偏差限制在較小范圍內(nèi)(±5%以內(nèi)),表現(xiàn)出較強的泛化性能,如Hu 等(2019)提出的方法;
(4)大多數(shù)算法在SAM 指標上提升的幅度大于(或等于)在QNR 指標上的提升幅度,少數(shù)算法在QNR 指標上得到較高提升,如Liu 等(2020)提出的方法。
協(xié)同方式下,上述6節(jié)中采用的方法共同點在于網(wǎng)絡結(jié)構(gòu)較為復雜。為便于直觀理解,下面給出一個典型的基于DL+注入模型的遙感圖像融合算法框架圖4(Liu 等,2020)。圖4中DL技術(shù)使用了CNN網(wǎng)絡和DRN 網(wǎng)絡,其中CNN 采用淺層網(wǎng)絡,DRN為深層網(wǎng)絡,兩者聯(lián)合起來提取PAN 圖像的空間細節(jié)信息;采用注入模型,把獲得的空間信息注入到上采樣的MS圖像,從而得到HRMS融合圖像。
圖4 典型的基于DL+注入模型的遙感圖像融合框架Fig.4 Typical remote sensing image fusion framework based on DL+ injection model
第4.1 和4.2 節(jié)分別從經(jīng)典方式與協(xié)同方式兩個視角對融合算法進行了比較和分析;本節(jié)對兩種融合方式進一步歸納,可得出如下結(jié)論:
經(jīng)典方式與協(xié)同方式的共同點是:都是利用DL 技術(shù)能夠自動學習復雜數(shù)據(jù)特征的優(yōu)勢,提取MS 圖像或PAN 圖像的特征信息,而這些信息正是HRMS融合圖像需要保留的。
兩種方式的不同點是:從融合模型結(jié)構(gòu)上分析,一般經(jīng)典方式結(jié)構(gòu)較為簡明,而協(xié)同方式由于是多個方法、框架的結(jié)合,往往結(jié)構(gòu)較為復雜。此外,從表3、表5 可看出,無論是經(jīng)典方式,還是協(xié)同方式,融合模型結(jié)構(gòu)的復雜性與損失函數(shù)復雜度是正相關(guān)的,如Cai 等(2018) 提出的CSDA 方法、Ye 等(2019)、Yuan 等(2018)提出的MSDCNN 方法以及基于GAN 融合方法的損失函數(shù)。
從融合效果上看,從表4 和表5 可以看出,一般情況下,協(xié)同方式能夠獲得比傳統(tǒng)融合算法以及經(jīng)典方式更高質(zhì)量的融合效果,如Zhang 等(2019b)提出的BDPN方法。
為更好地理解經(jīng)典方式與協(xié)同方式融合算法的發(fā)展脈絡,我們選取了一些代表性的算法進行對比說明,如表6 所示。從表6 可以看出現(xiàn)有大部分融合算法體系結(jié)構(gòu)中包含DRN 模塊,損失函數(shù)多數(shù)采用L2 loss,采用GAN 網(wǎng)絡的融合算法的損失函數(shù)為Adversarial loss。
表6 經(jīng)典方式與協(xié)同方式融合算法基本發(fā)展脈絡Table 6 Development of classical and collaborative pansharpening
此外,從基于深度學習的全色圖像銳化自身研究領(lǐng)域來看,早期的基于深度學習的融合方法,多數(shù)利用了深度學習模型強大的數(shù)據(jù)擬合能力,較少地關(guān)注全色圖像銳化的領(lǐng)域問題(Huang等, 2015)。隨著研究的逐步深入,如通過深度學習方法和傳統(tǒng)融合方法相結(jié)合等,這樣設(shè)計出的融合模型就考慮到了光譜失真、空間失真等領(lǐng)域問題,并提出相應的解決方案,從而使得深度學習方法可以進一步提升全色圖像銳化的效果,如PanNet、BDPN等融合模型。
隨著遙感技術(shù)的發(fā)展,全色圖像銳化的應用領(lǐng)域愈加廣泛,具體包括地物分類、目標識別以及變化檢等。下面對此簡要介紹:
(1)地物分類。Gianinetto 等(2017)利用遙感融合圖像,并結(jié)合基于目標的圖像分析技術(shù),設(shè)計了一個對復雜地貌進行層次分類的模型并應用于意大利威尼斯地區(qū)地物分類,達到了較高的分類準確率;Aguilar 等(2013)利用GeoEye-1 衛(wèi)星和WorldView-2衛(wèi)星的融合圖像,對西班牙南部阿爾梅里亞省的遙感圖像進行地物分類,并對兩個衛(wèi)星的融合圖像分類結(jié)果加以對比分析,得出融合圖像中的光譜信息對分類結(jié)果有較大影響;Pálsson 等(2012)在IKONOS 和QuickBird 兩個衛(wèi)星圖像數(shù)據(jù)集上,運用6種全色圖像銳化方法分別得到融合圖像,在此基礎(chǔ)上對冰島雷克雅未克和意大利羅馬兩個城市的遙感圖像進行地物分類,并對其分類結(jié)果進行定量分析,得出如下結(jié)論:融合圖像的光譜信息在可接受的范圍內(nèi),空間信息保持越好越有利于地物分類。
(2)目標識別。使用高質(zhì)量的遙感融合圖像對橋梁進行識別和損傷檢測,在緊急救援和生命線安全評估中具有重要意義(Chen 等, 2019)。Chen 等(2019)設(shè)計了基于領(lǐng)域知識的方法對廣東省惠陽市(區(qū))遙感融合圖像中的橋梁進行識別和損傷檢測;Garzelli 等(2009)使用遙感融合圖像對意大利馬爾彭薩機場的小型目標進行識別,并分析了不同融合方法對目標識別效果的差異。在地理空間目標識別中,道路信息的提取是一項重要的研究任務, Mohammadzadeh 等(2006)把模糊邏輯和形態(tài)學應用于融合后的IKONOS衛(wèi)星圖像,對位于埃及金字塔周圍城市、郊區(qū)和鄉(xiāng)村等地區(qū)的道路中心線信息進行提取和識別。
(3)地表變化檢測。地表變化檢測是一種評估和預測災害、監(jiān)測地表覆蓋變化的關(guān)鍵技術(shù)(李勝, 2018)。為了檢測和評估自然災害對水上橋梁的破壞程度,Chen 等(2018)提出了一種利用遙感融合圖像進行水上橋梁損傷檢測與評估的方法,并應用于浙江省舟山市水上橋梁的損傷檢測和評估;Bovolo等(2010)利用意大利特倫托市的衛(wèi)星圖像,從定性和定量方面分析了5種全色圖像銳化方法所生成的融合圖像在地表變化檢測任務上的差異;森林退化圖的繪制能夠改進地區(qū)或全球生態(tài)模型以及碳預算估計,Souza 等(2003)利用遙感融合圖像研究了亞馬遜東部地區(qū)的森林變化情況,并繪制了亞馬遜東部地區(qū)的森林退化圖。
自2006 年以來深度學習技術(shù)得到日新月異的發(fā)展,并在多個領(lǐng)域取得突破性進展,激勵著許多學者將深度學習技術(shù)應用于全色圖像銳化領(lǐng)域,近6年來取得一系列研究成果,但仍然有一些關(guān)鍵性問題需要深入探索,通過分析、思考,本文凝練出以下五個研究方向。
(1)與遙感領(lǐng)域知識的結(jié)合。根據(jù)遙感圖像的特點,可利用遙感領(lǐng)域大量現(xiàn)有的特定領(lǐng)域知識有針對性地對深度學習模型進一步改進,充分挖掘深度學習的潛力,從而得到細節(jié)更為豐富,光譜更加自然的融合圖像(Deng 等,2020)。例如,可以根據(jù)遙感領(lǐng)域特定的知識構(gòu)建新的目標函數(shù)和度量方法,找到MS 圖像、PAN 圖像以及融合圖像之間的潛在聯(lián)系;根據(jù)MS 圖像多波段光譜信息以及PAN 圖像空間信息豐富的特點,設(shè)計多層次、多尺度的全色圖像銳化模型。
(2)自監(jiān)督的全色圖像銳化方法。大部分基于深度學習的遙感圖像融合方法都是通過使用大量的根據(jù)Wald協(xié)議(Wald 等,1997)所獲得的模擬數(shù)據(jù)進行監(jiān)督學習。然而,所獲得的模型受限于監(jiān)督學習中所使用的樣本數(shù)據(jù),不具備良好的泛化能力。當訓練數(shù)據(jù)和測試數(shù)據(jù)的約束條件一致時,可以獲得顯著的效果。然而,當訓練數(shù)據(jù)和測試數(shù)據(jù)的約束條件不一致時,往往會導致光譜失真和空間細節(jié)丟失。自監(jiān)督學習可以從未標記的數(shù)據(jù)中學習到有效的特征表示而無需人工標注的標簽信息,這樣使得自監(jiān)督學習得到的模型不會受限于樣本數(shù)據(jù),具有良好的泛化性能。所以,基于自監(jiān)督學習的遙感圖像融合方法是一個值得研究的方向。
(3)全色圖像銳化標準數(shù)據(jù)集。對于深度學習模型,不斷增加的高質(zhì)量訓練數(shù)據(jù)能夠提升其性能。然而,在當前研究中,訓練數(shù)據(jù)集大多從現(xiàn)有幾個衛(wèi)星數(shù)據(jù)集中由研究者自主選取,不可避免地存在一定程度的主觀性和局限性。標準數(shù)據(jù)集構(gòu)建已經(jīng)在圖像處理其它領(lǐng)域取得成功,如圖像分類領(lǐng)域的ImageNet 等公開標準數(shù)據(jù)集。然而,在遙感圖像融合領(lǐng)域還沒有被深入廣泛地探索。研究遙感圖像融合的標準數(shù)據(jù)集,構(gòu)建巨大規(guī)模的標準數(shù)據(jù)集以及基于標準數(shù)據(jù)集的新型融合算法設(shè)計是未來可以努力的重要方向,如Transformer 在標準數(shù)據(jù)集上的應用、各類全色圖像銳化模型在標準數(shù)據(jù)集上的比較研究等。
(4)面向全色圖像銳化應用的評價。全色圖像銳化在諸如地物分類、目標識別等任務中有著重要的應用價值。然而從現(xiàn)有的文獻來看,評價各算法模型主要注重提升融合圖像的質(zhì)量,對模型的應用評價卻并未涉及。融合算法在具體應用中的性能如何,不僅與高質(zhì)量的融合圖像有關(guān),更與具體應用領(lǐng)域的知識相關(guān)。因而,面向應用的遙感圖像融合算法評價是今后需要進一步研究的方向,如某些花草類植物的識別更注重MS 圖像部分光譜波段的信息,所以常用的定量評價指標就需要根據(jù)具體的應用進行調(diào)整以滿足對光譜信息的有效評價(羅代清 等,2016)。
(5)輕量級全色圖像銳化深度模型?,F(xiàn)有的基于深度學習的全色圖像銳化模型,在主觀效果和客觀指標上一般優(yōu)于傳統(tǒng)的融合方法。然而,基于深度學習的全色圖像銳化模型需要對大量的網(wǎng)絡參數(shù)進行訓練,另外,為追求性能的進一步提升,研究者通常構(gòu)建結(jié)構(gòu)更為復雜的模型,從而造成全色圖像銳化模型容量更大、訓練時間更久,這限制了全色圖像銳化深度模型在實際中的應用。輕量級深度模型具有較小的網(wǎng)絡容量和較低的時間復雜度,同時對硬件的要求也較低,為使基于深度學習的全色圖像銳化模型更為實用,利用諸如通道權(quán)重參數(shù)共享、快速引導濾波器等方法構(gòu)建輕量級的全色圖像銳化模型也是今后一個值得探索的方向。
深度學習技術(shù)對非線性、結(jié)構(gòu)復雜的數(shù)據(jù)具有強大的學習表征能力,在計算機視覺等研究領(lǐng)域取得了較大進展。受此啟發(fā),許多研究者將該技術(shù)運用于像素級全色圖像銳化的研究中,并取得了一系列的研究成果。然而,專門的、系統(tǒng)全面的基于深度學習的像素級全色圖像銳化研究綜述尚未見于文獻。為此,本文提出從經(jīng)典方式和協(xié)同方式兩個方面對現(xiàn)有基于深度學習的像素級全色圖像銳化模型研究成果進行詳盡的綜述、分析挖掘其演進規(guī)律路徑,并結(jié)合深度學習最新的發(fā)展趨勢,凝練了基于深度學習的全色圖像銳化研究領(lǐng)域的5個未來研究發(fā)展方向。
當前,基于深度學習的像素級全色圖像銳化研究尚處于初步階段,其研究成果日新月異。可以預見,在未來的研究中,面向標準數(shù)據(jù)集的且高效的基于深度學習的全色圖像銳化模型將大量涌現(xiàn)。本文針對基于深度學習的全色圖像銳化方法進行的綜述研究希望能夠為相關(guān)研究人員提供一些參考和啟發(fā)。