張一銘,趙生福,鄭 鑫,王藝博,丁 輝,2
(1.首都師范大學(xué)信息工程學(xué)院,北京 100048; 2.高可靠嵌入式系統(tǒng)技術(shù)北京市工程研究中心, 北京 100048)
SAR(synthetic aperture radar),即合成孔徑雷達(dá),是一種主動(dòng)式的對(duì)地觀(guān)測(cè)系統(tǒng)。與可見(jiàn)光、紅外遙感等觀(guān)測(cè)系統(tǒng)相比,SAR擁有多種工作方式、受天氣影響較小、并且可以實(shí)時(shí)產(chǎn)生高分辨率圖像等優(yōu)點(diǎn)。因此其在森林監(jiān)測(cè)、城市規(guī)劃、災(zāi)害評(píng)估等眾多領(lǐng)域得到了大范圍的應(yīng)用。然而,由于物體表面粗糙,各基本散射體和傳感器之間的距離不同導(dǎo)致各個(gè)散射體的回波相位不一致。結(jié)果是回波強(qiáng)度逐像素變化,在模式中呈顆粒狀,從而產(chǎn)生了相干斑(Speckle)。SAR圖像中相干斑噪聲的存在往往會(huì)給計(jì)算機(jī)視覺(jué)系統(tǒng)的處理帶來(lái)困難[1]。因此,去除SAR圖像中的噪聲對(duì)于提高分割、檢測(cè)和識(shí)別等各種計(jì)算機(jī)視覺(jué)算法的性能具有重要意義。
通常根據(jù)相干斑特點(diǎn)的去噪算法大體可以分為:基于空域?yàn)V波的去噪算法、基于變換域?yàn)V波的去噪算法以及近年來(lái)逐漸流行的基于深度學(xué)習(xí)的去噪算法[2-3]?;诳沼?yàn)V波的代表性算法有Lee濾波器[4]、Kuan濾波器[5],非局部均值(non-local mean,NLM)去噪[6]等,基于變換域?yàn)V波的代表性算法有:小波域SAR圖像去噪[7]、輪廓波域SAR圖像去噪[8]和剪切波域SAR圖像去噪[9],以及基于塊匹配的3D協(xié)同濾波算法BM3D[10](block matching and 3D collaborative filtering)等。
在SAR圖像相干斑抑制中,也出現(xiàn)了一些比較有代表性深度學(xué)習(xí)的算法?;诰矸e神經(jīng)網(wǎng)絡(luò)(convolutional neural networks)的去斑點(diǎn)網(wǎng)絡(luò)SAR-CNN[11],該網(wǎng)絡(luò)通過(guò)斑點(diǎn)SAR圖像除以估計(jì)的噪聲來(lái)獲得去斑點(diǎn)圖像。Wang等[12]提出ID-CNN模型,將原始帶噪聲的SAR圖像轉(zhuǎn)換到對(duì)數(shù)域進(jìn)行去噪分析,并最終通過(guò)指數(shù)處理獲得去斑后SAR圖像。基于卷積的降采樣FFDNET[13]模型對(duì)不同程度的噪聲有較好的去除效果,但需要用戶(hù)輸入?yún)?shù)為生成的噪聲水平圖像。隨著變壓器(Transformer)在自然語(yǔ)言處理方面的成功,Malsha等[14]提出了一種基于變壓器的SAR圖像去相干斑網(wǎng)絡(luò)等。
由于ID-CNN是基于乘性噪聲特點(diǎn)進(jìn)行處理,更適用于SAR圖像的相干斑噪聲特性。因此,本文基于ID-CNN的網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合SE(Squeeze-and-Excitation)注意力提出了一種改進(jìn)的模型D2SE-CNN,在合成圖像數(shù)據(jù)集和真實(shí)SAR圖像上進(jìn)行實(shí)驗(yàn)分析,取得了較好的圖像增強(qiáng)的效果。
SAR圖像通常會(huì)受到被稱(chēng)為乘性噪聲的相干斑噪聲污染。相干斑噪聲是由每個(gè)分辨率單元內(nèi)的電磁波的矢量疊加造成的。接下來(lái)分析雷達(dá)噪聲的數(shù)學(xué)模型和ID-CNN基礎(chǔ)網(wǎng)絡(luò)。
SAR圖像真實(shí)強(qiáng)度通??捎贸朔e模型中的2個(gè)不相關(guān)的變量描述[15]:
Y=FX
(1)
式中: Y∈RW×H是觀(guān)察到的圖像強(qiáng)度;X∈RW×H為無(wú)噪聲圖像;F∈RW×H為散斑噪聲,其中W和H分別是圖像像素的橫縱坐標(biāo)[15]。
其中F是歸一化衰落散斑噪聲隨機(jī)變量。關(guān)于F的一個(gè)常見(jiàn)假設(shè)是,它遵循單位均值為1、方差為1/L的伽馬分布,其概率密度函數(shù)為[16]:
(2)
目前,該模型已經(jīng)廣泛應(yīng)用在SAR圖像中,被稱(chēng)為乘性斑點(diǎn)噪聲模型。
ID-CNN(image despeckling convolutional neural network)是直接基于SAR圖像乘性噪聲進(jìn)行處理的卷積神經(jīng)網(wǎng)絡(luò)。
ID-CNN結(jié)構(gòu)分為3部分,多組卷積層以及批量歸一化和修正線(xiàn)性單元(ReLU)激活函數(shù)。所有卷積層兩端使用殘差連接來(lái)估計(jì)斑點(diǎn),最后使用損失和總變化(TV)損失的組合以端到端的方式進(jìn)行訓(xùn)練。所提出的圖像去斑點(diǎn)卷積神經(jīng)網(wǎng)絡(luò)(ID-CNN)結(jié)構(gòu)如圖1所示。
圖1 ID-CNN結(jié)構(gòu)示意圖
與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)不同的是,ID-CNN沒(méi)有使用同態(tài)變換[17],而是使用了基于雷達(dá)圖像噪聲模型(1)的輸入圖像直接估計(jì)斑點(diǎn)噪聲,即在殘差連接時(shí)使用除法而并非加法。相較于Lee、Forst等傳統(tǒng)濾波器和傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN),ID-CNN在雷達(dá)圖像相干斑抑制中具有更好的效果。
注意力機(jī)制是20世紀(jì)90年代,認(rèn)知科學(xué)領(lǐng)域發(fā)現(xiàn)的一種信號(hào)處理機(jī)制。目前,注意力機(jī)制已經(jīng)成為深度學(xué)習(xí)領(lǐng)域的一個(gè)重要概念。Jie Hu等[18]提出了擠壓與激勵(lì) “Squeeze-and-Excitation”(SE)注意力模塊,其作用是通過(guò)計(jì)算模型特征通道間的相互依賴(lài)性,有選擇性地增強(qiáng)有用的特征通道,抑制相對(duì)無(wú)用的通道,從而達(dá)到增強(qiáng)網(wǎng)絡(luò)代表能力的目的。SE塊的基本結(jié)構(gòu)如圖2所示。對(duì)于任何給定的變換Ftr∶X→U,X∈RH′×W′×C′,U∈RH×W×C(例如一次卷積或一組卷積操作),其中H和W是圖像的大小尺寸,C是通道數(shù),可以使用一個(gè)SE塊對(duì)特征通道的權(quán)重進(jìn)行重新校準(zhǔn)。
具體步驟為,特征U首先進(jìn)行擠壓操作,將每個(gè)通道內(nèi)空間維度H×W的特征擠壓為1×1通道描述符(Fsq),然后通過(guò)基于通道相互依賴(lài)性的自選機(jī)制學(xué)習(xí)對(duì)每個(gè)通道的樣本進(jìn)行激活(Fex),最后對(duì)特征映射U進(jìn)行重新加權(quán)(Fscale),生成SE塊的輸出。
圖2 Squeeze-and-Excitation結(jié)構(gòu)示意圖
卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠在每一層的局部感受野內(nèi)融合空間和通道信息來(lái)構(gòu)建信息特征。最近的研究表明,可以將注意力機(jī)制集成到網(wǎng)絡(luò)中來(lái)增強(qiáng)CNN的性能,對(duì)特征通道間的相關(guān)性進(jìn)行建模,把重要特征進(jìn)行強(qiáng)化來(lái)提升準(zhǔn)確率。對(duì)圖像進(jìn)行下采樣可以加快訓(xùn)練和測(cè)試速度,同時(shí)也擴(kuò)大感受野,能夠在速度和去噪性能上達(dá)到較好的平衡。本文基于ID-CNN模型,結(jié)合下采樣和SE塊的優(yōu)點(diǎn)進(jìn)行改進(jìn)。
圖3 D2SE-CNN模型結(jié)構(gòu)示意圖
圖4 SE模塊結(jié)構(gòu)示意圖
與ID-CNN不同,提出的模型不預(yù)測(cè)噪聲,這也為同時(shí)去除乘性和加性噪聲提供了可能。文獻(xiàn)[21]指出CNN殘差學(xué)習(xí)和批量歸一化的集成有利于去除噪點(diǎn),因?yàn)樗?jiǎn)化了訓(xùn)練并能夠提供更好的性能。主要原因是殘差(噪聲)輸出遵循高斯分布,有利于批量歸一化和高斯歸一化步驟。根據(jù)實(shí)驗(yàn)結(jié)果,批量歸一化始終可以加快網(wǎng)絡(luò)訓(xùn)練的速度。同時(shí)在批量歸一化的情況下,殘差學(xué)習(xí)盡管有更快的收斂速度,最終性能卻弱于非殘差學(xué)習(xí)。根據(jù)提出的訓(xùn)練策略來(lái)看,當(dāng)網(wǎng)絡(luò)深度適中時(shí)(例如小于20),通過(guò)殘差或非殘差學(xué)習(xí)策略訓(xùn)練網(wǎng)絡(luò)都是可行的。為簡(jiǎn)單起見(jiàn),不使用殘差學(xué)習(xí)進(jìn)行網(wǎng)絡(luò)設(shè)計(jì)。此外,根據(jù)實(shí)驗(yàn)結(jié)果,ID-CNN采用的除法殘差策略在損失函數(shù)上表現(xiàn)為收斂較慢,且易出現(xiàn)因除數(shù)較小而產(chǎn)生非數(shù)字(NaN)的情況。
在CNN去噪任務(wù)中,損失函數(shù)是模型學(xué)習(xí)過(guò)程中的重要組成部分。目前在圖像超分辨率[22]、語(yǔ)義分割[23]和圖像風(fēng)格遷移[24]等任務(wù)中已經(jīng)探索出不同的有效損失函數(shù)及其組合。實(shí)驗(yàn)采用了2種常見(jiàn)的損失函數(shù)L1范數(shù)、L2范數(shù)(歐幾里得損失函數(shù)),在預(yù)測(cè)圖像和真值圖像之間使用L1范數(shù)進(jìn)行優(yōu)化,在消融實(shí)驗(yàn)中采用L2范數(shù)與TV損失進(jìn)行對(duì)比。
對(duì)于給定的一個(gè)圖像對(duì){X,Y},其中Y是有噪聲的輸入圖像,X是相應(yīng)的真值,采用的L1范數(shù)損失函數(shù)L1和歐幾里得損失函數(shù)LE分別定義為以下公式:
與ID-CNN不同的是,D2SE-CNN模型沒(méi)有使用TV損失函數(shù),根據(jù)消融實(shí)驗(yàn)結(jié)果,加入TV損失并沒(méi)有使圖像質(zhì)量得以提升,反而有所下降。
實(shí)驗(yàn)使用開(kāi)源的曠視天元MegEngine開(kāi)放平臺(tái)[25],框架版本為1.9,Python版本為3.7,在曠世MegStudio環(huán)境下GPU服務(wù)器上進(jìn)行。
本文實(shí)驗(yàn)數(shù)據(jù)集選取了BSD500數(shù)據(jù)集[26]以及由西北工業(yè)大學(xué)發(fā)布的NWPUVHR-10數(shù)據(jù)集[27]。BSD500數(shù)據(jù)集包含200張訓(xùn)練圖,200張測(cè)試圖和100張驗(yàn)證圖。NWPUVHR-10數(shù)據(jù)集中的圖像裁切自Google Earth 和Vaihingen 數(shù)據(jù)集,并由專(zhuān)家手動(dòng)注釋。該樣本庫(kù)包含飛機(jī)、艦船、油罐、棒球場(chǎng)、網(wǎng)球場(chǎng)、籃球場(chǎng)、田徑場(chǎng)、港口、橋梁和汽車(chē)10個(gè)類(lèi)別共計(jì)800張圖片。圖5是數(shù)據(jù)集樣本圖,其中第1和2行來(lái)源于NWPUVHR-10數(shù)據(jù)集,第3和4行來(lái)源于BSD500數(shù)據(jù)集。
圖5 數(shù)據(jù)集樣本圖
本次實(shí)驗(yàn)訓(xùn)練集,驗(yàn)證集,測(cè)試集比例劃分為6∶2∶2。訓(xùn)練前統(tǒng)一將圖片的大小設(shè)置為256×256。數(shù)據(jù)集配置信息見(jiàn)表1。網(wǎng)絡(luò)訓(xùn)練過(guò)程中采用了ADAM算法[28],對(duì)于ADAM的超參數(shù),學(xué)習(xí)率設(shè)置為0.000 2,權(quán)重衰減設(shè)置為0.000 01。其余超參數(shù)使用的是默認(rèn)值。批處理大小設(shè)置為16,訓(xùn)練階段,在圖片預(yù)處理時(shí),對(duì)輸入進(jìn)行正則化處理,并設(shè)置均值為0.456,方差為0.224,以此來(lái)增強(qiáng)原灰度圖片數(shù)據(jù)。
表1 數(shù)據(jù)集配置
由于不同天氣或采集設(shè)備等導(dǎo)致SAR圖像采集中會(huì)得到不同強(qiáng)度的噪聲圖像,為進(jìn)一步討論算法對(duì)不同強(qiáng)度的相干斑的抑制作用,實(shí)驗(yàn)前對(duì)數(shù)據(jù)集添加了3種不同程度的乘性噪聲,其方差分別為0.8、1.0、1.2,在這3個(gè)不同的噪聲級(jí)別的圖像上評(píng)估模型性能。
本文采用常采用的5個(gè)圖像質(zhì)量評(píng)價(jià)指標(biāo)包括峰值信噪比(peak signal to noise ratio,PSNR)、結(jié)構(gòu)相似指數(shù)(structural similarity index measure,SSIM)[29]、均方誤差(mean squared error,MSE)、等效外觀(guān)數(shù)(ENL)[30]和變異系數(shù)(Cv),ENL和Cv的公式如下:
(5)
(6)
其中,μ和σ分別表示SAR圖像中勻質(zhì)區(qū)域的均值和標(biāo)準(zhǔn)差。
為證明SE模塊、下采樣,以及不同損失函數(shù)對(duì)模型性能的影響,本實(shí)驗(yàn)在NWPUVHR-10數(shù)據(jù)集,方差為0.8的樣本上進(jìn)行了消融研究。表2所示為消融研究中各模塊的有效性對(duì)比。
表2 數(shù)據(jù)集NWPUVHR-10上不同模塊評(píng)價(jià)指標(biāo)
在表2中,首先對(duì)損失函數(shù)進(jìn)行消融實(shí)驗(yàn),單獨(dú)對(duì)比L1范數(shù)損失函數(shù)和L2范數(shù)損失函數(shù)以及分別與TV損失函數(shù)組合,其中L1范數(shù)損失函數(shù)情況下PSNR的指標(biāo)更好,而L2范數(shù)損失函的SIMM指標(biāo)偏好,但兩者與TV損失函數(shù)組合后,指標(biāo)均有下降。結(jié)合16組實(shí)驗(yàn)的綜合情況,加入SE模塊和下采樣時(shí)與L1范數(shù)損失函數(shù)組合,指標(biāo)均有提高。其次,分別對(duì)下采樣和SE模塊進(jìn)行消融實(shí)驗(yàn),通過(guò)對(duì)比實(shí)驗(yàn)3、7和實(shí)驗(yàn)3、11的PSNR、SSIM、MSE,可以看出僅添加下采樣或SE模塊對(duì)模型的性能均有提升。
實(shí)驗(yàn)15為同時(shí)使用L1范數(shù)損失函數(shù)、SE模塊和下采樣的結(jié)果,可以看到實(shí)驗(yàn)15的PSNR、SSIM、MSE均優(yōu)于所有其他實(shí)驗(yàn),說(shuō)明同時(shí)使用L1范數(shù)損失函數(shù)、SE模塊和下采樣的模型有最佳的性能。該實(shí)驗(yàn)表明了使用L1范數(shù)損失函數(shù)、下采樣和SE模塊進(jìn)行圖像去斑的重要性。
為更清晰的分析D2SE-CNN模型效果,本文與7種去噪方法進(jìn)行了比較。包括傳統(tǒng)算法與深度學(xué)習(xí)算法:Lee濾波器[4]、Kuan濾波器[5]、小波變換[7](wavelet transform,WT)、非局部均值濾波[6](non-local means,NLM)、基于塊匹配的3D協(xié)同濾波[10](BM3D)以及變壓器(Transformer)[14]模型,實(shí)驗(yàn)結(jié)果如表3、表4所示。
表3 數(shù)據(jù)集BSD500上不同模型評(píng)價(jià)指標(biāo)差異
表4 數(shù)據(jù)集NWPUVHR-10上不同模型評(píng)價(jià)指標(biāo)差異
對(duì)于所有比較的方法,參數(shù)都按照相應(yīng)論文中的建議進(jìn)行設(shè)置,圖像乘性噪聲方差分別為0.8、1.0以及1.2。在評(píng)估圖像質(zhì)量方面,采用峰值信噪比(PSNR)、結(jié)構(gòu)相似指數(shù)(SSIM)、均方誤差(MSE)來(lái)衡量不同方法的去噪性能。峰值信噪比(PSNR)用來(lái)衡量去噪圖像與真值圖像之間的差異的指標(biāo),數(shù)值越高越好。結(jié)構(gòu)相似指數(shù)(SSIM)是一種衡量2幅圖像相似度的指標(biāo),數(shù)值越高越好。
每個(gè)噪聲級(jí)別的最佳指標(biāo)結(jié)果均以紅色粗體突出顯示,次優(yōu)指標(biāo)加粗顯示。從表3和表4中可以看出,在不同的噪聲強(qiáng)度下,D2SE-CNN在PSNR和SSIM方面優(yōu)于ID-CNN、變壓器(Transformer)算法,也優(yōu)于其他的傳統(tǒng)方法,MSE指標(biāo)也取得最優(yōu)或次優(yōu)的結(jié)果。
選取噪聲方差為1.2時(shí),本文算法與其他7中算法的去噪效果對(duì)比如圖6和圖7所示。其中圖6來(lái)自BSD500數(shù)據(jù)集,圖7來(lái)自于NWPUVHR-10數(shù)據(jù)集。從圖中可以看出,本文算法在圖像的平滑性和邊緣保持上都具有更好的效果。
圖6 BSD500數(shù)據(jù)集中不同算法的實(shí)驗(yàn)效果圖,σ=1.2
圖7 NWPUVHR-10數(shù)據(jù)集中不同算法的實(shí)驗(yàn)效果圖,σ=1.2
除此之外,在真實(shí)SAR圖像[30]上也進(jìn)行了實(shí)驗(yàn)對(duì)比。測(cè)試圖像由2個(gè)真實(shí)的SAR圖像組成,大小均為512×512。測(cè)試場(chǎng)景不是訓(xùn)練場(chǎng)景的一部分,但與它們相似。在測(cè)試過(guò)程中,不進(jìn)行圖像裁剪和縮放,而是將整個(gè)圖片作為輸入,從而得到預(yù)測(cè)輸出。由于真實(shí)的SAR圖像沒(méi)有干凈的真值,因此使用等效外觀(guān)數(shù)(ENL)和變異系數(shù)(Cv)來(lái)衡量不同的圖像去噪方法的性能。ENL值是從勻質(zhì)區(qū)域估計(jì)的(如圖8真實(shí)SAR圖像中的紅框所示,第一張SAR圖片中的勻質(zhì)區(qū)域?yàn)镽egion1、Region2,第二張SAR圖片中的勻質(zhì)區(qū)域?yàn)镽egion3、Region4),是勻質(zhì)區(qū)域的平均值與方差比值的平方,而Cv值是勻質(zhì)區(qū)域的標(biāo)準(zhǔn)差與平均強(qiáng)度的比值。
圖8 真實(shí)SAR圖像上不同去噪算法效果
圖9 真實(shí)SAR圖像上4個(gè)區(qū)域塊的細(xì)節(jié)
表5 真實(shí)雷達(dá)圖像和評(píng)價(jià)結(jié)果
圖8和圖9顯示了較好的五種方法NLM、BM3D、ID-CNN、Transformer和本文算法在真實(shí)SAR圖像上處理的結(jié)果。從圖中可以看出,對(duì)于真實(shí)的SAR圖像,在BM3D算法的平滑效果最好,但是圖像的紋理也同時(shí)被平滑了?;谏疃葘W(xué)習(xí)的算法在不僅能夠?qū)υ肼曔M(jìn)行平滑,同時(shí)可以較好的保留紋理特征。本文提出的D2SE-CNN處理結(jié)果,不僅具有較好的平滑性和紋理保持,同時(shí)具有較為清晰的邊界特征。
表5為具體的真實(shí)SAR客觀(guān)評(píng)價(jià)結(jié)果。ENL值越高表明去噪效果越好,而Cv值越低表明能夠更好的保存圖片的紋理,最好的結(jié)果用紅色粗體突出顯示。從表5可以看出D2SE-CNN在所有4個(gè)勻質(zhì)塊上,對(duì)于相干斑噪聲的抑制具有最優(yōu)的綜合效果。
基于ID-CNN模型,本文提出的改進(jìn)新模型D2SE-CNN,在網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)中使用下采樣來(lái)提高訓(xùn)練效率,同時(shí)增大感受野;增加注意力機(jī)制重新校準(zhǔn)通道的權(quán)重。在BSD50和NWPUVHR-10數(shù)據(jù)集上,對(duì)不同噪聲強(qiáng)度的圖像進(jìn)行了實(shí)驗(yàn)對(duì)比分析,同時(shí)也在真實(shí)SAR圖像上進(jìn)行了驗(yàn)證。綜合實(shí)驗(yàn)結(jié)果表明,該模型不需要輸入噪聲圖像,也可以有效地實(shí)現(xiàn)SAR圖像增強(qiáng)。D2SE-CNN模型無(wú)論在靈活性、效率和有效性上都有一定優(yōu)勢(shì),為后續(xù)的雷達(dá)解譯提供了實(shí)用的解決方案。