黃瓊男,朱衛(wèi)綱,李永剛
(1.電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國家重點實驗室, 河南 洛陽 471032; 2.航天工程大學(xué) 研究生院, 北京 101416; 3.航天工程大學(xué) 電子與光學(xué)工程系, 北京 101416)
合成孔徑雷達(synthetic aperture radar,SAR)具有全天時工作、全天候成像、作用距離遠、穿透能力強等特點,在可見度極低的氣象條件下仍能獲得高分辨率二維圖像,且SAR圖像能夠獲取不同波段下目標的散射特性[1],極大地提高了所獲取信息的豐富度,其在軍事、民用等領(lǐng)域具有重大的意義。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)憑借其強大的特征自學(xué)能力迅速在SAR目標檢測領(lǐng)域占主導(dǎo)地位,R-CNN系列[2-4]、YOLO系列[5-7]、SSD[8]等具有端到端模式的算法相繼提出,有力地促進了SAR圖像目標解譯技術(shù)的發(fā)展?,F(xiàn)階段,影響檢測性能的關(guān)鍵因素主要有算法和數(shù)據(jù)兩大方面,一部分學(xué)者專注于檢測算法的改進和開拓,一部分學(xué)者致力于數(shù)據(jù)的研究。數(shù)據(jù)作為推動深度學(xué)習(xí)技術(shù)發(fā)展的“原油”,MSTAR、SSDD、HRSID、LS-SSDD等數(shù)據(jù)集[10-14]的出現(xiàn)為SAR目標檢測積累了大量的數(shù)據(jù),然而,由于各國對非合作目標采用相應(yīng)的反偵察技術(shù),導(dǎo)致采集此類目標樣本有限,這就需要對特定的樣本數(shù)據(jù)進行擴充。目前,數(shù)據(jù)擴充的手段多種多樣,旋轉(zhuǎn)、平移等數(shù)據(jù)增強的擴充方法并未從根本上改變圖像內(nèi)部的信息,計算機建模仿真的方法精確度較低,也缺乏可操作性。因此,合理的對SAR數(shù)據(jù)擴充勢在必行,近年來利用深度生成模型生成虛假數(shù)據(jù)成為研究的熱點,尤其是生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[15]提出以來,AI一鍵換臉、AI圖像修復(fù)等各種應(yīng)用層出不窮,隨后發(fā)展的GAN衍生模型也被應(yīng)用于各個領(lǐng)域。GAN模型在SAR圖像目標生成和超分辨率重建方面已有所應(yīng)用[16],證實了其在SAR圖像擴充領(lǐng)域的潛力,利用GAN模型生成SAR圖像的方法能夠在最大程度上還原SAR圖像細節(jié),且易實現(xiàn),為SAR圖像數(shù)據(jù)擴充增添一條重要途徑。
目前,數(shù)據(jù)缺乏仍然是阻礙深度學(xué)習(xí)技術(shù)發(fā)展的重要原因之一,且完備的數(shù)據(jù)集應(yīng)具有大規(guī)模性、多樣性,多樣性不僅僅指從不同角度分類的實測數(shù)據(jù)(例如,簡單背景下的SAR數(shù)據(jù)和復(fù)雜背景下的SAR數(shù)據(jù)、小尺寸像素SAR艦船目標和大尺寸像素SAR艦船目標等),還應(yīng)包含有以現(xiàn)有的技術(shù)手段獲得的高質(zhì)量的仿真數(shù)據(jù)。在早期階段,獲得SAR圖像數(shù)據(jù)的方法分為兩種,一種是數(shù)據(jù)增強(旋轉(zhuǎn)、平移、鏡像、仿射變換等)方法,另一種是基于計算機建模的SAR圖像生成。
數(shù)據(jù)增強手段在光學(xué)領(lǐng)域較為常見,由于星載SAR分辨率較低,相比于光學(xué)圖像,圖像中所包含的信息較少。另一方面數(shù)據(jù)增強手段只是在圖像的幾何層面進行了形狀的改變,并未從SAR圖像的成像機理角度考慮,較為常見的是,SAR圖像檢測領(lǐng)域常把數(shù)據(jù)增強方法作為數(shù)據(jù)預(yù)處理手段,通過合理的數(shù)據(jù)增強策略,有效地抑制模型的過擬合,增強泛化能力和魯棒性。
基于計算機建模的SAR圖像仿真是指利用模型設(shè)計軟件對目標的幾何外形進行精確建模,再將建立好的模型導(dǎo)入仿真軟件獲得仿真數(shù)據(jù),最后利用收集的仿真數(shù)據(jù)進行成像,得到與真實圖像相似的雷達圖像。這種仿真方法特別依賴于計算機繪圖軟件的精度,所得到的SAR圖像局限性較為明顯:SAR場景中的目標種類繁多,且場景較大,為所有場景中的目標都建立精確的計算機輔助繪圖模型是一個耗時耗力的過程。對于很多實際場景下的非合作目標,建立精準的幾何模型異常困難。若目標生銹或涂層從而引起表面發(fā)生變化,與之對應(yīng)的電磁特性也會發(fā)生改變,在幾何建模中很難準確還原,而且基于計算機建模的仿真方法只適用于尺寸較大的目標,對于小目標建模,其精確性較低。所以,以此種仿真方法構(gòu)建SAR圖像數(shù)據(jù)集所付出代價較大,且所構(gòu)建數(shù)據(jù)集缺乏多樣性。
在數(shù)據(jù)擴充方面,深度生成模型相比于傳統(tǒng)的擴充方法有著不可比擬的優(yōu)越性,基于深度生成模型的數(shù)據(jù)仿真是利用某種概率密度分布的數(shù)據(jù)來擬合所需樣本數(shù)據(jù)分布的生成過程,深度生成模型不需要顯式的特征提取,能夠?qū)W習(xí)到很好的隱表示,模型性能更好。常見的深度生成模型有受限玻爾茲曼機(restricted boltzmann machines,RBM)[17]、變分自編碼器(variational auto-encoder,VAE)[18]、生成對抗網(wǎng)絡(luò)[15]等。VAE模型和GAN模型的目的相同,均是進行分布之間的變換,但生成的圖像效果明顯不如GAN模型,GAN能夠從大量無標簽數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)到各種數(shù)據(jù)特征,在數(shù)據(jù)擴充領(lǐng)域有較強的通用性[19]。
生成對抗網(wǎng)絡(luò)是2014年由Goodfellow等人提出的一種新穎網(wǎng)絡(luò)模型,其目的是通過給定的分布生成特定的樣本數(shù)據(jù)。GAN核心架構(gòu)是由生成器G(generator)和判別器D(discriminator)構(gòu)成,其網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖1所示,其中隨機噪聲是隨機采樣的一個分布,常見的有均勻分布、高斯分布等,也即生成器的輸入。生成器通過學(xué)習(xí)真實數(shù)據(jù)的分布生成虛假數(shù)據(jù)G(z),x表示真實數(shù)據(jù),判別器的輸入包括真實樣本和生成數(shù)據(jù)G(z),其目標是實現(xiàn)對數(shù)據(jù)真?zhèn)蔚呐袛?,D網(wǎng)絡(luò)本質(zhì)上是一個二分類網(wǎng)絡(luò),輸出是相應(yīng)的概率值。
圖1 GAN網(wǎng)絡(luò)模型結(jié)構(gòu)框圖
生成器G的目標是使自己生成的數(shù)據(jù)G(z)經(jīng)判別器輸出的概率值趨向1,即使得G(z)在D中的概率分布和真實數(shù)據(jù)x在D中的概率分布盡量一致,所以需要最小化G網(wǎng)絡(luò)的價值函數(shù),從而讓生成的數(shù)據(jù)可以誤導(dǎo)判別器。對于生成器,價值函數(shù)可以表示為
(1)
判別器D的目標是對輸入數(shù)據(jù)的真?zhèn)芜M行鑒別,每個數(shù)據(jù)都有一個對應(yīng)的分數(shù),當輸入數(shù)據(jù)為真實數(shù)據(jù)x時,輸出的分數(shù)D(x)應(yīng)趨向于1;當輸入數(shù)據(jù)為生成數(shù)據(jù)D(z)時,輸出的分數(shù)D(G(z))應(yīng)趨向于0。在訓(xùn)練網(wǎng)絡(luò)的過程中,生成器和判別器交替訓(xùn)練,當G網(wǎng)絡(luò)固定時,需要最大化D網(wǎng)絡(luò)的價值函數(shù),然后對D網(wǎng)絡(luò)的權(quán)值進行迭代優(yōu)化,其價值函數(shù)可表示為
(2)
其中,pr表示真實數(shù)據(jù)的分布,pz為隨機噪聲分布,E表示對概率分布取均值操作。
對抗訓(xùn)練的過程也即生成器和判別器不斷地迭代優(yōu)化,訓(xùn)練過程示意圖如圖2[16]。
圖2 訓(xùn)練過程示意圖
設(shè)生成數(shù)據(jù)的分布記為pf,由訓(xùn)練初始階段圖2(a)可得,真實數(shù)據(jù)分布pr(黑色虛線)和生成數(shù)據(jù)分布pf(綠色實線)存在較大的差別,此時,判別函數(shù)(藍色虛線)能夠做出正確的判斷,即對真實數(shù)據(jù)輸出較大的值,對生成數(shù)據(jù)輸出較小的值。隨著訓(xùn)練過程中不斷地迭代優(yōu)化,如圖2(b)和圖2(c),生成數(shù)據(jù)的分布逐漸接近真實數(shù)據(jù)的分布。由訓(xùn)練的最終階段圖2(d)可得出,生成數(shù)據(jù)的分布和真實數(shù)據(jù)的分布已完全重合,判別器無法辨認數(shù)據(jù)的真?zhèn)?,此時pf=pr,在固定生成器模型的條件下最優(yōu)判別器D*為
D*=pr/(pr+pf)
(3)
理論上,當生成數(shù)據(jù)和真實數(shù)據(jù)分布一致時,判別器對真假數(shù)據(jù)的判別概率均為0.5。根據(jù)式(3)可知,當pf=pr時,最優(yōu)判別器D*的輸出也為0.5。此時,將最優(yōu)判別器D*代入式(1)生成器的價值函數(shù)變?yōu)?/p>
(4)
其中JSD(‖)表示琴森-香農(nóng)散度(JS散度),生成器G利用JS散度作為真實數(shù)據(jù)分布和虛假數(shù)據(jù)分布之間距離的衡量方式,由于JS散度是非負的,-log 4為G網(wǎng)絡(luò)的局部最優(yōu)解,此時可認為生成數(shù)據(jù)完美擬合了真實數(shù)據(jù)的分布。
訓(xùn)練GAN是生成器和判別器相互競爭,不斷優(yōu)化,最終達到納什均衡的過程。由于同時訓(xùn)練兩個網(wǎng)絡(luò),訓(xùn)練過程中仍會遇到較大的問題,主要體現(xiàn)在以下幾個方面:
1) 訓(xùn)練時無法保證GAN網(wǎng)絡(luò)進入納什均衡狀態(tài),導(dǎo)致最終的模型進入振蕩,而非收斂到底層真實目標。
2) GAN網(wǎng)絡(luò)不合適處理一些離散的數(shù)據(jù),容易重復(fù)生成完全一致的現(xiàn)象,即“模式坍塌”。
相比于其他深度生成模型,生成對抗網(wǎng)絡(luò)模型獨具優(yōu)勢,在深度生成領(lǐng)域一枝獨秀,由于原始GAN存在難以收斂、模式崩潰等現(xiàn)象,研究者們不斷地對GAN模型進行改進,衍生出近千種改進模型,短短數(shù)年,基于GAN模型的應(yīng)用不斷刷新著圖像處理等領(lǐng)域的新高度[20-22]。GAN具有極強的擬合真實數(shù)據(jù)分布的能力,在SAR圖像的數(shù)據(jù)擴充和輔助圖像解譯等方面有很好的應(yīng)用前景。截至目前,GAN衍生模型已經(jīng)逐步開始應(yīng)用在SAR圖像處理領(lǐng)域,根據(jù)目的不同,GAN的SAR圖像處理中的應(yīng)用可以分為兩個方面:基于GAN的SAR圖像數(shù)據(jù)生成和基于GAN的SAR圖像超分辨率重建。
1) 基于GAN的SAR圖像數(shù)據(jù)生成。由于SAR成像原理的特殊性,由回波得到的成像結(jié)果難免有大量噪聲雜波和相干斑,使得生成器將真實圖像中的噪聲等干擾項誤判為目標特征、判別器將干擾項當作判斷生成目標是否為真的標準。利用MSTAR數(shù)據(jù)集作為訓(xùn)練樣本,利用原始GAN進行訓(xùn)練,數(shù)次迭代后,生成樣本崩潰為一堆雜散的噪聲,生成失敗結(jié)果的SAR圖像如圖3所示。
圖3 利用GAN生成失敗結(jié)果SAR圖像
卷積神經(jīng)網(wǎng)絡(luò)在圖像數(shù)據(jù)處理上有著巨大的優(yōu)勢,Alec Radford等[23]提出的深度卷積生成對抗網(wǎng)絡(luò)(deep convolutional generative adversarial networks,DCGAN)就是將生成對抗網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)架構(gòu)。DCGAN是GAN模型一個重要的改進,至今仍是常用的生成式網(wǎng)絡(luò)結(jié)構(gòu)之一。DCGAN原理和GAN相同,主要在網(wǎng)絡(luò)架構(gòu)上進行如下改進:生成器使用分步長卷積(fractional-strided convolutions)實現(xiàn)上采樣,判別器使用步長卷積(Strided convolutions)實現(xiàn)下采樣。利用DCGAN對MSTAR數(shù)據(jù)集進行訓(xùn)練,真實圖像與生成圖像如圖4所示,DCGAN模型可以得到各個方位角下的SAR車輛數(shù)據(jù),且生成的效果較好。但有研究表明:生成器的反卷積結(jié)構(gòu)存在棋盤效應(yīng)(checkerboard artifacts)[24],即生成的圖像放大后存在類似棋盤的紋理現(xiàn)象,影響圖像的效果;雖然DCGAN具有更穩(wěn)定的架構(gòu),但并未從根本上解決GAN訓(xùn)練穩(wěn)定性問題,模式崩潰現(xiàn)象仍然存在,訓(xùn)練時仍是先對判別器進行多次訓(xùn)練,再對生成器訓(xùn)練,需要平衡G和D的訓(xùn)練進程。
圖4 利用DCGAN生成SAR圖像和真實圖像對比
WGAN(Wasserstein GAN)[25]在理論上給出了GAN訓(xùn)練不穩(wěn)定的原因,即JS散度不適合衡量兩個分布之間的距離,Martin Arjovsky等人引入EM距離(Earth-Mover distance)來代替JS散度,由此產(chǎn)生了WGAN。EM距離的定義如下:
(5)
式(5)中:∏(Pr,Pf)表示所有聯(lián)合分布的集合。對于任意聯(lián)合分布γ,可以從中采樣(x,y)~γ得到一個真實樣本x和一個生成樣本y,‖x-y‖為真實樣本和生成樣本之間的距離。所以Ε(x,y)~γ[‖x-y‖]為聯(lián)合分布γ下樣本對距離的期望值,EM距離為可能的聯(lián)合分布中對這個期望值的下界。
WGAN允許先訓(xùn)練判別器達到最優(yōu),然后網(wǎng)絡(luò)提供損失給生成器,這樣不再需要對生成器和判別器進行平衡,可以像訓(xùn)練其他神經(jīng)網(wǎng)絡(luò)一樣進行訓(xùn)練。判別器被訓(xùn)練為最優(yōu)時的目標函數(shù)可表示為
L=Ex~pf[D(x)]-Ex~pr[D(x)]
(6)
WGAN中判別器施加Lipschitz約束(L約束)的方式不合理,其使用的權(quán)重裁剪會使判別器的參數(shù)趨于兩極,即全部集中在閾值的最大值和最小值兩個點上,此時相當于一個二值神經(jīng)網(wǎng)絡(luò),嚴重影響判別器的能力。WGAN-GP[26]通過梯度懲罰(Gradient Penalty)的方式施加L約束,即直接將判別器的梯度作為正則項加入到判別器中,加入梯度懲罰后判別器的目標函數(shù)為
(7)
選取35張對比度較高的艦船數(shù)據(jù)作為訓(xùn)練集,然后利用WGAN-GP模型進行仿真,得到圖像如圖5所示,從上到下各行依次為真實樣本、生成樣本。受生成圖像尺寸以及目標所處場景的復(fù)雜程度,所生成的艦船數(shù)據(jù)含有較多的相干斑噪聲,但通過初步仿真可以證實將GAN模型用于SAR艦船圖像生成是可行的。
圖5 利用WGAN-GP生成SAR艦船數(shù)據(jù)(a)和真實數(shù)據(jù)(b)圖像Fig.5 Using WGAN-GP to generate SAR ship data(bottom)and real data(top) comparison
梯度懲罰的缺點是懲罰只在局部有較好的效果,如果數(shù)據(jù)類別增多,隨機插值會使判別器的約束失效。譜歸一化生成對抗網(wǎng)絡(luò)(Spectral Normalization for GAN,SNGAN)[27]把譜范數(shù)的平方作為正則項,其收斂速度比WGAN-GP更快,且效果更好,是目前對模型施加L約束的最好方法。此時譜歸一化后目標函數(shù)可以表示為
(8)
DCGAN、WGAN和WGAN-GP等幾種GAN模型優(yōu)缺點如表1所示。
表1 GAN模型優(yōu)缺點
上述幾種GAN衍生模型主要是從訓(xùn)練穩(wěn)定性角度對原始GAN進行改進,也是在SAR圖像擴充領(lǐng)域較為常見的幾種GAN模型。Jiayi Guo等[16]利用原始GAN對MSTAR數(shù)據(jù)集進行擴充,補全了SAR目標在各個方位角下的樣本數(shù)據(jù)。受SAR成像機理的影響,圖像中含有大量的相干斑噪聲和雜波的干擾,使得原始GAN易發(fā)生模式崩潰現(xiàn)象,最終生成一堆雜散的噪聲。Fei Gao等[28]基于DCGAN研究了不同標記率對SAR目標識別網(wǎng)絡(luò)的影響,為半監(jiān)督或無監(jiān)督學(xué)習(xí)提供了一種思路。張明蕊[29]基于WGAN-GP對MSTAR數(shù)據(jù)集進行樣本擴充,并利用SVM分類器構(gòu)造樣本篩選機制,提出一種生成可靠SAR圖像的網(wǎng)絡(luò)模型。鮑鮮杰[30]基于DCGAN、WGAN以及WGAN-GP三種方法對MSTAR數(shù)據(jù)集進行擴充,并給出視覺對比效果。在對艦船數(shù)據(jù)處理中,楊龍等[31]利用pix2pix對SSG艦船數(shù)據(jù)集進行擴充,此數(shù)據(jù)集由部分SSDD數(shù)據(jù),部分Sentinel-1數(shù)據(jù)和GF-3數(shù)據(jù)共2 000張SAR圖像組成,然后選取信息熵、等效視數(shù)、平均梯度以及目標長寬比作為生成圖像的評價指標,最后利用SSD檢測算法進行實驗,結(jié)果表明檢測精度有一定提升。李詩怡等[32]提出一種從單一圖像學(xué)習(xí)圖像內(nèi)部分布的無條件生成對抗網(wǎng)絡(luò),并對SSDD數(shù)據(jù)集進行訓(xùn)練,并將生成數(shù)據(jù)標注后加入到SSD和Tiny-YOLO兩種目標檢測算法中,實驗結(jié)果對檢測性能起到了很好的提升作用,但網(wǎng)絡(luò)每次只能訓(xùn)練一張圖像,缺乏多樣性。GAN模型在MSTAR數(shù)據(jù)集上應(yīng)用較為廣泛,在對艦船數(shù)據(jù)進行生成也取得了一定的成果,證實了GAN模型在SAR圖像數(shù)據(jù)生成方面存在巨大的潛力。
2) SAR圖像超分辨率重建。SAR圖像質(zhì)量的高低決定了其應(yīng)用的效果和廣度,分辨率是衡量SAR圖像質(zhì)量高低的重要指標之一,其表示圖像所能提供地物信息的細節(jié)程度,分辨率越高的SAR圖像所包含的細節(jié)豐富度越高,甚至可以根據(jù)SAR圖像得出目標不同部位的信息。受星載SAR圖像分辨率的限制,在SAR艦船目標檢測任務(wù)中,需要通過技術(shù)手段來提升SAR圖像分辨率。
圖像超分辨率重建一直是計算機視覺領(lǐng)域的研究熱點之一,SRGAN(super-resolution generative adversarial network)[33]是GAN模型在圖像超分辨率應(yīng)用上的一個成功案例。SRGAN從特征上定義損失函數(shù),生成器采用參數(shù)化的殘差網(wǎng)絡(luò),判別器采用VGG網(wǎng)絡(luò)結(jié)構(gòu),損失項由特征圖的差異來決定,模型的損失函數(shù)包括對抗損失、圖像的整體方差和特征圖差異3種損失項。在SRGAN的基礎(chǔ)上,Wang等[34]提出了一種增強分辨率的生成對抗網(wǎng)絡(luò)(enhanced super-resolution GAN,ESRGAN),對網(wǎng)絡(luò)的結(jié)構(gòu)、損失函數(shù)進行改進,且不進行批量歸一化,刪除BN層已被證明有利于增強性能和減少計算復(fù)雜度[35],尤其是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)差異較大時,BN層訓(xùn)練時使用小批量的均值和方差,而測試時使用整個數(shù)據(jù)集的均值和方差,這樣往往會引入不適的偽影,限制了泛化能力,ESRGAN在紋理和細節(jié)上均優(yōu)于SRGAN。
Shi Xiaoran等[36]基于SRGAN和深度卷積神經(jīng)網(wǎng)絡(luò)設(shè)計了一種針對低分辨率SAR圖像自動識別方法。首先進行直方圖均衡、中值濾波、閾值分割等SAR圖像預(yù)處理操作,再由SRGAN增強分割后的低分辨率SAR圖像,然后對增強后的SAR圖像進行分類。通過在MSTAR數(shù)據(jù)集上驗證可知,增強后的SAR圖像分類效果更佳。Wang Longgang等[37]利用SRGAN對TerraSAR-X數(shù)據(jù)進行實驗,將SRGAN算法與雙三次插值的結(jié)果進行對比,分析該算法的性能,并利用MSE和SSIM定量評估生成圖像質(zhì)量,證明SRGAN在SAR圖像超分辨率的重建精度和計算效率方面可以取得重要突破,其提出的感知損失函數(shù)可以獲得高分辨率,高保真度和光學(xué)照片般的SAR圖像。Zheng Ce等[38]提出了一種基于SNGAN的圖像超分辨率重建方法,在網(wǎng)絡(luò)層的改進中采用ESRGAN去除BN層的方法,減少冗余計算;并指出常見的激活函數(shù)并不適用于SAR圖像,引入縮放指數(shù)型線性單元(SeLU)[39]作為生成器的激活函數(shù),從而賦予系統(tǒng)自歸一化能力,使其更適合SAR圖像,在TerraSAR-X圖像和MSTAR數(shù)據(jù)集上的實驗結(jié)果表明了所提方法在SAR圖像超分辨率重建和目標識別任務(wù)上的有效性。
近年來,對GAN模型的研究一直呈現(xiàn)出蓬勃發(fā)展的勢頭,GAN衍生模型的訓(xùn)練穩(wěn)定性越來越好,生成圖像的分辨率越來越高,細節(jié)也越來越清晰,例如“大力出奇跡” 的BigGAN[40]、“風(fēng)格多變”的StyleGAN[41-42]等在SAR圖像處理領(lǐng)域有著巨大的潛力。表2為幾種重要的GAN衍生模型的信息統(tǒng)計,包括模型的核心機制和生成圖像的最高分辨率。
3) 評價指標。如何評價生成數(shù)據(jù)的優(yōu)劣是自GAN提出以來一直研究的熱點,除了通過觀察者觀察生成圖像的質(zhì)量來評價的方法,還發(fā)展出一些定量評價的方法,目前大多數(shù)評價的方式為:首先提取生成圖像和真實圖像的特征,再根據(jù)度量準則度量所提取的特征的差異或距離。
表2 幾種重要GAN衍生模型信息
對于圖像生成任務(wù),比較流行的評價指標有起始得分(Inception Score,IS)[43]和弗雷歇起始距離(Frechet Inception Distance,F(xiàn)ID)[44]。
IS評價指標用來度量模型得分。其值越大表明模型生成圖像的質(zhì)量越好,用DIS來表示IS得分,其計算形式為:
DIS=exp(Ex~Pf[KL(pM(y|x)‖pM(y))])
(9)
計算IS得分時需要使用Inception Net分類網(wǎng)絡(luò),pM(y|x)表示真實數(shù)據(jù)的標簽分布。IS得分主要考慮了清晰度和多樣性兩方面,KL散度用于衡量兩個概率分布的距離,其值越大,表明概率分布差異越大,pM(y|x)和pM(y)的距離足夠大,說明生成模型既擁有高質(zhì)量又具有多樣性。
FID評價指標是一種距離的度量指標,其值越小表明生成模型分布與真實分布的差異越小,以此來判斷所學(xué)習(xí)的模型的優(yōu)劣。用DFID來表示FID得分,其計算方式如下:
(10)
其中,下標r和f分別表示真實樣本和假樣本,(ur,∑r)和(uf,∑f)分別表示真實數(shù)據(jù)分布和生成數(shù)據(jù)分布的均值和協(xié)方差?;贔ID和IS的評價方式均是從特征層面度量生成圖像與真實圖像之間的距離。
針對圖像超分辨率重建任務(wù),客觀量化的質(zhì)量評價指標主要有峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity index method,SSIM)[45]。
PSNR用于測量有損變換的重建質(zhì)量,此評價指標只關(guān)心像素值差異,重建圖像的PSNR值越高,表明超分辨率圖像失真越少,圖像質(zhì)量越高;SSIM是一種基于亮度、對比度和結(jié)構(gòu)3個相對獨立的主觀度量。超分辨率圖像和高分辨率圖像的SSIM值越趨近于1,表明超分辨率圖像與高分辨率圖像越相似。
針對如何評價生成模型這個問題,盡管有如此多的方式來評價生成模型,但至今不存在統(tǒng)一的評判標準,Theis[46]認為,使用不同的測量方法評估GAN可能會導(dǎo)致相互矛盾的結(jié)論,選擇哪種評估指標取決于生成圖像的類型和用途。
基于GAN模型的SAR數(shù)據(jù)擴充能夠彌補SAR樣本數(shù)據(jù)不足,構(gòu)建更加完備的SAR數(shù)據(jù)集,促進SAR圖像解譯技術(shù)的發(fā)展。在圖像數(shù)據(jù)擴充方面,GAN憑借其可操作性性、能從真實樣本中提取較多的細節(jié)信息等優(yōu)點,在SAR圖像處理領(lǐng)域頗受青睞。通常,將GAN模型與SAR目標檢測識別網(wǎng)絡(luò)相結(jié)合,以此來提升檢測識別性能,然而,將GAN模型用于SAR圖像處理領(lǐng)域仍面臨以下幾個難點:
1) 受相干斑噪聲的影響,現(xiàn)有的GAN模型生成SAR樣本時訓(xùn)練穩(wěn)定性不高,導(dǎo)致生成一堆雜散的噪聲,且受圖像分辨率的限制,對于SAR艦船數(shù)據(jù),無論是原始SAR圖像還是裁剪后的圖像切片,其分辨率往往較大,使得訓(xùn)練難度增加,后續(xù)可以考慮引入更適合SAR圖像的SeLU激活函數(shù)等網(wǎng)絡(luò)訓(xùn)練小技巧。
2) 當前生成數(shù)據(jù)的評估指標大多是在光學(xué)數(shù)據(jù)訓(xùn)練而來的分類模型,SAR圖像與光學(xué)圖像之間存在較大的差異,導(dǎo)致生成的SAR數(shù)據(jù)缺乏有效的質(zhì)量評價指標;若將生成的數(shù)據(jù)用于SAR目標檢測識別等任務(wù),由于深度學(xué)習(xí)始終是一個“黑箱”,現(xiàn)有的技術(shù)手段無法準確得知單個數(shù)據(jù)樣本對檢測識別網(wǎng)絡(luò)的影響,對生成數(shù)據(jù)優(yōu)劣的評價增加一定的難度。這就需要從SAR圖像特性等相關(guān)知識來對SAR數(shù)據(jù)進行評價,不能一味追求深度學(xué)習(xí)帶來的優(yōu)勢,應(yīng)在SAR基礎(chǔ)理論的指導(dǎo)下設(shè)計更適合SAR圖像的評價指標。