王東航 周 斌 張 輝 明德烈
(1.華中科技大學(xué)自動化學(xué)院多譜信息處理技術(shù)國家級重點實驗室 武漢 430074)(2.宇航智能控制技術(shù)國家級重點實驗室 北京 100854)(3.北京航天自動控制研究所 北京 100854)
遙感影像由于覆蓋范圍廣,信息豐富等特點,在生產(chǎn)生活中的各個領(lǐng)域有著廣泛的應(yīng)用。從遙感影像中獲取地表信息一直是研究的熱點問題。地物主輪廓作為重要的人工地物和城市的骨架,它的識別與提取在交通管理、城市規(guī)劃以及飛行器輔助導(dǎo)航等領(lǐng)域有著重要的意義。如何從遙感影像上自動提取地物的輪廓信息是衛(wèi)星遙感研究中的熱點和難點,也是最終高度自動化地由影像獲取基礎(chǔ)地理信息的關(guān)鍵問題[1]。傳統(tǒng)的地物輪廓檢測方法大多都是從圖像處理的角度[2],基于邊緣提取或者統(tǒng)計特征、多尺度等[3~4]方法來檢測。近年來,隨著深度學(xué)習(xí)的發(fā)展,對于圖像特征的表征能力得以很大提升。特別是生成對抗網(wǎng)絡(luò)的訓(xùn)練模式和殘差網(wǎng)絡(luò)出現(xiàn)之后,大大提升了深度神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練性。本文提出使用循環(huán)生成對抗網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練方法來進行遙感影像地物輪廓的提取。
Resnet[1],即殘差網(wǎng)絡(luò)是一種圖像生成網(wǎng)絡(luò),為了解決梯度彌散的問題,其核心思想是去擬合每一層的殘差,而不是每一層的結(jié)果,每個單元Resblock,其結(jié)構(gòu)如圖1所示。
圖1 Resblock 結(jié)構(gòu)示意圖
Resblock的輸出為
則Resblock實際擬合的是殘差F(x)=y-x。
將Resblock 有效地組合串聯(lián)起來,就構(gòu)成了Resnet。本文使用的Resnet結(jié)構(gòu)如圖2。
網(wǎng)絡(luò)在通過前三層卷積層和激活層厚將尺寸壓縮到原來的1/4,厚度增加到256 個通道,然后經(jīng)過9 個Resblock,經(jīng)過每個Resblock 后保持尺寸不變化,之后經(jīng)過兩個反卷積和激活層把圖像尺寸擴展,厚度減小,最后經(jīng)過一層卷積層然后用tanh 激活輸出。
判別網(wǎng)絡(luò)的功能是給定一幅圖像,輸出一個特征。在GAN 網(wǎng)絡(luò)中這個標量的含義可以是一個判別的概率,值域是[0-1],或者一個特征張量,這由不同的損失函數(shù)決定。本文使用判別網(wǎng)絡(luò)的結(jié)構(gòu)如圖3。
判別網(wǎng)絡(luò)結(jié)構(gòu)五個卷積層組成,每個除了第一個卷積層以外,每個卷積層附加一個BatchNormal,之后經(jīng)過一層LeakyRelu,小于零的部分斜率為0.2。LeakyRelu激活函數(shù)公式如下:
leakyRelu 激活函數(shù)一定避免了Relu 激活的簡單截斷帶來的梯度消失問題,使得整個網(wǎng)絡(luò)更易于訓(xùn)練。最后一層的sigmoid 激活函數(shù)視損失函數(shù)的形式而加上。上圖中的判別網(wǎng)絡(luò)通過特征提取將一幅256*256的圖像提取為64*64的特征圖像。
生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)是一種以零和博弈的思想來訓(xùn)練的神經(jīng)網(wǎng)絡(luò)[8]。原始的GAN 網(wǎng)絡(luò)是一個完全無監(jiān)督的神經(jīng)網(wǎng)絡(luò)。為了對其實施監(jiān)督,需要使用條件生成對抗網(wǎng) 絡(luò)(conditional Generative Adversarial Nets,cGAN)[9]。然而cGAN 的訓(xùn)練常常需要成對的、嚴格對齊的訓(xùn)練樣本,而在實際應(yīng)用中提供符合要求的訓(xùn)練樣本常常很難。
循環(huán)對抗生成網(wǎng)絡(luò)(Cycle-Consistent Generative Adversarial Networks)可以解決成對樣本的問題,使得單張圖對圖的轉(zhuǎn)換問題變成了圖集對圖集的轉(zhuǎn)換問題[10]。
圖4 cycle-consistentGAN訓(xùn)練結(jié)構(gòu)示意圖
其中生成器G 和判別器D 分別為2.1 節(jié)和2.2節(jié)中所敘述的結(jié)構(gòu)。圖中出現(xiàn)兩次的判別器名為同一個判別器,出現(xiàn)兩次的生成器名為同一生成器。
現(xiàn)在假設(shè)有A、B 兩種風(fēng)格的圖像集,Real_A和Real_B,同時有兩個生成器G_A 和G_B,其中G_A 的功能是把A 風(fēng)格的圖片生成B 風(fēng)格圖片,G_B 的功能是把B 風(fēng)格的圖片生成A 風(fēng)格圖片。同時有兩個判別器D_A 和D_B,分別用來提取A 風(fēng)格和B 風(fēng)格圖片的特征,使得盡量區(qū)分出兩種風(fēng)格的圖片,并且盡量區(qū)分出該風(fēng)格的圖片是否為生成器生成的圖片。之后將Fake_B 和Fake_A 反向輸入生成器中,生成Rec_A 和Rec_B,訓(xùn)練過程需要盡量讓反向生成的圖像和原圖一致。
訓(xùn)練的過程如下:
1)先使用Real_A 通過G_A,Real_B 通過G_B 分別生成Fake_B和Fake_A,即:
2)將Fake_A 通過G_A,Real_B 通過G_B 分別生成Rec_B 和Rec_A 并計算一致?lián)p失Loss_Rec_A和Loss_Rec_B:
3)判別器判斷Fake_A 和Fake_B,求得損失Loss_G_A和Loss_G_B:
上式中E 代表求期望,D_A(Fake_B)和D_B(Fake_A)分別代表兩張圖不是由生成器A、B 生成的概率,由于此時只調(diào)節(jié)生成器,而生成器希望欺騙判別器,因此D_A(Fake_B)和D_B(Fake_A)這兩個值應(yīng)該盡量的大,則損失函數(shù)應(yīng)當(dāng)盡量的小。
4)計算生成網(wǎng)絡(luò)的損失函數(shù),并反向傳播只調(diào)整生成網(wǎng)絡(luò)G_A和G_B的參數(shù)
其中λA和λB為正則系數(shù)。
5)將Real_B 和Fake_B 通 過D_A,Real_A 和Fake_A通過G_B,得到判別器的損失:
判別器希望盡量判別出兩張圖到底是不是由G_A和G_B偽造的,因此需要最使得上式最小化。
6)反向傳播,只調(diào)整D_A和D_B的參數(shù)。
7)反復(fù)1)~6)中的過程,直到到達一定的迭代次數(shù)。
3.1.1 樣本組織
訓(xùn)練樣本采用從百度地圖上截取的,來自數(shù)個城市及郊區(qū)衛(wèi)星影像和矢量地圖,其中矢量地圖突出顯示了城市主干道,數(shù)量為圖片1200 張,且圖像全部轉(zhuǎn)換為單色灰度圖,測試集來自完全不同于訓(xùn)練集的另一個城市及其郊區(qū),且成對匹配并且地理坐標對齊。
圖5 訓(xùn)練樣本示意
上圖中左邊為灰度衛(wèi)星影像圖Real_A,右邊為不與之對齊的地物輪廓圖Real_B。
訓(xùn)練樣本大小為572*572,送入網(wǎng)絡(luò)訓(xùn)練時降采樣到286*286,并且每次迭代,隨機截取256*256的窗口送入訓(xùn)練網(wǎng)絡(luò)中,這樣在訓(xùn)練時增加了有效樣本的數(shù)量,同時有效保證了訓(xùn)練結(jié)果的平移不變性。
3.1.2 訓(xùn)練的技巧
1)將生成網(wǎng)絡(luò)的損失函數(shù)替換為二項損失函數(shù),可以使得訓(xùn)練更加穩(wěn)定,損失函數(shù)變?yōu)椋?]
2)在Resnet 中損失函數(shù)中如果含有恒量映射損失項(Identity Mapping Loss)的話,使網(wǎng)絡(luò)有效收斂,更能有效防止出現(xiàn)梯度爆炸,同時能保留更多的原始信息[11]。
上式為identity損失的表達式,損失函數(shù)變?yōu)?/p>
其中λiA和λiB為一個比例系數(shù)。
3)為了排除光照影響,考慮將輸入圖像求得梯度強度后再代入網(wǎng)絡(luò)訓(xùn)練。
圖6 梯度強度圖訓(xùn)練樣本示意
圖6 左邊為梯度強度圖Real_A,右邊為與不之對齊的地物輪廓圖Real_B。
4)根據(jù)文獻[13],采用Adam優(yōu)化方法,并且在一定迭代輪數(shù)后逐步減小全局學(xué)習(xí)率。
3.2.1 視覺效果對比
表1 視覺效果
表1 為從完全不同于訓(xùn)練集的測試集,使用生成器G_A所產(chǎn)生的結(jié)果示意。
從上表中的對比試驗可以看出,對于比較復(fù)雜的Real_A 圖像,可以將主要的輪廓提取出來,而忽視或者抑制和地物無關(guān)的景象,從而得到一幅地物主輪廓圖。
3.2.2 性能分析
生成的Fake_B 圖像可以認定為一幅顯著圖,將Real_B 的輪廓圖認為是一幅真值圖,可以用顯著性的評價方法來判斷[16]。圖7 中(a)為測試集的平均P-R 曲線圖,(b)為測試集的平均ROC 曲線圖。實線代表Real_A 采用梯度強度圖訓(xùn)練的結(jié)果,虛線代表Real_A 采用灰度圖所訓(xùn)練的結(jié)果P-R 曲線中實線更右上凸,ROC 圖中實線更左上凸,說明采用梯度強度的模型泛化能力更強。
圖7 性能對比
本文提出了一種采用循環(huán)一致生成對抗網(wǎng)絡(luò)做地物主輪廓的提取的方法,可以完成相對復(fù)雜的地物輪廓的提取,并且可以在訓(xùn)練時不依賴嚴格對齊的訓(xùn)練樣本,同時一定程度上抑制非地物輪廓和光照變化帶來的對地物輪廓的影響。對于各種地面場景的適宜性和不同分辨率、不同成像高度的適應(yīng)能力,還需要進一步探索和研究。