孫 巖 吳熙曦 雷 震
1.陸軍裝甲兵學(xué)院 北京 100072
目標(biāo)檢測(cè)的定義來源于計(jì)算機(jī)視覺領(lǐng)域,即對(duì)圖像中感興趣的目標(biāo)物體進(jìn)行檢測(cè)識(shí)別,并標(biāo)記出其所在位置.在計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測(cè)的對(duì)象可以是現(xiàn)實(shí)世界里的任何對(duì)象,由于對(duì)地觀測(cè)技術(shù)的快速發(fā)展,使得能夠獲取大量多時(shí)相、多維度、高分辨率的遙感圖像.然而面對(duì)海量高分辨率遙感圖像所蘊(yùn)含的豐富地物信息,如何智能提取感興趣的目標(biāo)特征,是遙感圖像目標(biāo)檢測(cè)研究中的熱點(diǎn)[1-2].
近年來,深度學(xué)習(xí)的快速發(fā)展,為遙感圖像智能信息提取提供有利的技術(shù)支撐.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法大多以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為主干網(wǎng)絡(luò),因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)可以自動(dòng)提取高層語義特征,相比于傳統(tǒng)的人工提取特征,具有更強(qiáng)的特征表示能力;同時(shí),卷積神經(jīng)網(wǎng)絡(luò)主動(dòng)學(xué)習(xí)特征的能力,在大數(shù)據(jù)時(shí)代具有突出優(yōu)勢(shì).卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,解決了計(jì)算機(jī)視覺領(lǐng)域的很多難題,在圖像目標(biāo)檢測(cè)領(lǐng)域取得了巨大成功[3-10].針對(duì)未來復(fù)雜多變的戰(zhàn)場(chǎng)應(yīng)用環(huán)境,文獻(xiàn)[11]分析了智能目標(biāo)探測(cè)、目標(biāo)識(shí)別等技術(shù)在空天領(lǐng)域的作用,文獻(xiàn)[12]分析了遙感在戰(zhàn)場(chǎng)態(tài)勢(shì)智能感知面臨的挑戰(zhàn),指出了基于遙感的深度學(xué)習(xí)可解釋性和智慧戰(zhàn)場(chǎng)是突破遙感在戰(zhàn)場(chǎng)智能態(tài)勢(shì)感知發(fā)展的困難.文獻(xiàn)[13]針對(duì)無人機(jī)在缺乏預(yù)先紅外樣本圖像情況下的紅外艦船目標(biāo)自動(dòng)檢測(cè)問題,設(shè)計(jì)了一種基于多分辨率差分濾波的檢測(cè)方法,但該方法不能準(zhǔn)確檢測(cè)互相重疊的多個(gè)目標(biāo),文獻(xiàn)[14]基于Mask RCNN 實(shí)例分割網(wǎng)絡(luò),提出了一種智能識(shí)別遙感影像疏林地的方法,對(duì)疏林地目標(biāo)檢測(cè)具有良好效果.UNet 網(wǎng)絡(luò)利用小樣本便可獲得較好識(shí)別結(jié)果,在影像分割中取得很大成功,因此,也有很多學(xué)者利用UNet 完成醫(yī)學(xué)、遙感影像的分割,并取得較好的效果[15-17].然而,遙感影像智能處理框架和信息服務(wù)能力還相對(duì)落后,開源的深度學(xué)習(xí)框架與模型尚不能滿足遙感智能處理的需求[18],針對(duì)遙感影像尺度變化大、數(shù)據(jù)通道多等問題,U-Net 沒有考慮目標(biāo)的多尺度特征,其結(jié)構(gòu)存在模型中連續(xù)的標(biāo)準(zhǔn)卷積和池化操作導(dǎo)致部分空間上下文信息丟失的問題.
圖1 為整體技術(shù)路線圖.根據(jù)地形要素提取的特點(diǎn),對(duì)U-Net 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改造,提出了一種改進(jìn)網(wǎng)絡(luò)架構(gòu)WRAU-Net,如圖2 所示,主要通過兩方面的改進(jìn),為U-Net 加入更全局化的通道域注意力機(jī)制.一方面,為了減輕WRAU 的網(wǎng)絡(luò)退化問題和組合多種尺寸的特征通道,在U-Net 的編碼器部分添加密集連接;另一方面,在單個(gè)壓縮和激勵(lì)(squeeze and excitation,SE)塊基礎(chǔ)上,改進(jìn)并提出了配合密集連接使用的新的注意力單元——WRAU 來更好地融合多尺度特征通道.
圖1 典型要素目標(biāo)檢測(cè)技術(shù)路線圖Fig.1 Technology roadmap of typical element target detection
圖2 WRAU-Net 的架構(gòu)示意圖Fig.2 Architecture diagram of WRAU-Net
U-Net 網(wǎng)絡(luò)分為左、右兩個(gè)部分,左邊是壓縮過程,即編碼階段,右邊是擴(kuò)張路徑,即解碼階段.其中,編碼階段遵循典型的卷積網(wǎng)絡(luò)結(jié)構(gòu),由兩個(gè)重復(fù)的3×3 卷積核組成,且均使用ReLU 激活函數(shù)和一個(gè)用于下采樣的步長(zhǎng)為2 的2×2 最大池化層,在每個(gè)下采樣步驟中,特征通道數(shù)量都加倍.在擴(kuò)張路徑中,每步都包含對(duì)特征圖進(jìn)行上采樣,用2×2 的卷積核進(jìn)行卷積運(yùn)算,以減少一半的特征通道數(shù)量,然后級(jí)聯(lián)收縮路徑中相應(yīng)裁剪后的特征圖,再用兩個(gè)3×3的卷積核進(jìn)行卷積運(yùn)算,且均使用ReLU 激活函數(shù).由于在每次卷積操作中邊界像素都存在缺失問題,因此,有必要對(duì)特征圖進(jìn)行裁剪.在最后一層,利用1×1 的卷積核進(jìn)行卷積運(yùn)算,將每個(gè)64 維的特征向量映射到網(wǎng)絡(luò)的輸出層.U-Net 在編碼階段通過卷積和下采樣降低圖像尺寸,提取一些淺層的特征信息;而解碼階段通過卷積和上采樣獲取一些深層次的特征.中間通過疊加的方式,將編碼階段獲得的特征圖與解碼階段獲得的特征圖疊加在一起,結(jié)合深層次和淺層次的特征,細(xì)化圖像,最后根據(jù)得到的特征圖進(jìn)行預(yù)測(cè)分割.
基線U-Net 是在原版U-Net 結(jié)構(gòu)的基礎(chǔ)上作了以下的改進(jìn):
1)在解碼器的上采樣部分,采用一個(gè)線性上采樣層加上卷積核大小為1 的卷積層的組合替換轉(zhuǎn)置卷積層(transposed convolution).
3)每個(gè)層級(jí)(level)的卷積核數(shù)量設(shè)置不同.采用九層級(jí)的U-Net 架構(gòu),卷積核數(shù)量配置為32-64-128-256-512-256-128-64-32,這種參數(shù)配置在保證分割精度要求下,參數(shù)和運(yùn)算需求更少.
4)修改最后一個(gè)卷積層.在解碼器的最末端以一個(gè)9×9 內(nèi)核,填充(padding)為4 個(gè)像素的卷積層輸出的最終分割預(yù)測(cè).這個(gè)卷積層被認(rèn)為可以在更大范圍對(duì)最終輸出結(jié)果進(jìn)行再調(diào)整.
5)卷積前增加填充(padding).在每次卷積前,添加必要的映射填充(reflection paddding),以確保具有不同卷積核數(shù)量的層級(jí)中的特征圖的尺寸都可被32 整除.
圖3 為基線U-Net 網(wǎng)絡(luò)結(jié)構(gòu)圖.
圖3 基線U-Net 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Network structure diagram of baseline U-Net
ResNet(殘差網(wǎng)絡(luò))是深層卷積網(wǎng)絡(luò),網(wǎng)絡(luò)深度達(dá)到了152 層.基于深度學(xué)習(xí)應(yīng)用于圖像識(shí)別和分類的應(yīng)用試驗(yàn)結(jié)果及其發(fā)展趨勢(shì)來看,似乎是網(wǎng)絡(luò)的深度越深,越能取得先進(jìn)的成果,但傳統(tǒng)的卷積網(wǎng)絡(luò)隨著網(wǎng)絡(luò)層數(shù)的增加,在超過某一層數(shù)后會(huì)產(chǎn)生梯度彌散或梯度爆炸問題,這也限制了卷積網(wǎng)絡(luò)向深層方向的發(fā)展.通過初始化或歸一化的操作可以使其收斂,但網(wǎng)絡(luò)退化的問題隨之明顯.ResNet 通過殘差學(xué)習(xí)的方式成功解決了深層網(wǎng)絡(luò)的性能退化問題,主要思想是在鄰近的網(wǎng)絡(luò)層之間增加一個(gè)跳躍連接(skip connections),將原始的信息恒等映射到后面的層,然后通過學(xué)習(xí)輸入與輸出的殘差來優(yōu)化網(wǎng)絡(luò).如圖4 所示為殘差模塊中的一個(gè)構(gòu)件單元,在一般的恒等映射(假設(shè)H(X)=X)為H(X)=F(X)+X,這樣網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)就改變了,不再是去學(xué)習(xí)一個(gè)完整的輸出,而是變?yōu)榱饲髿埐頕(X)=H(X)-X.在整個(gè)訓(xùn)練過程中,保存了信息傳播過程中的完整性,同時(shí)并沒有增加額外的參數(shù)量.
圖4 殘差模塊中的一個(gè)構(gòu)件單元Fig.4 A building block unit in the residual module
圖5 原始SE 塊與WRAU 結(jié)構(gòu)示意圖Fig.5 Schematic diagram of the original SE block and WRAU structure
深度殘差神經(jīng)網(wǎng)絡(luò)通過堆疊大量的殘差來構(gòu)建,設(shè)堆疊的模塊個(gè)數(shù)為K,則前向傳播反向傳播可以分別表示為:
式中,Loss 為神經(jīng)網(wǎng)絡(luò)總體損失函數(shù);x0和xk分別為殘差的輸入和輸出,對(duì)于普通的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),當(dāng)層數(shù)較多網(wǎng)絡(luò)結(jié)構(gòu)較深時(shí),反向傳播過程中在0 附近的偏導(dǎo)數(shù)不斷相乘,最終會(huì)導(dǎo)致梯度趨近于0,產(chǎn)生梯度消失.
ResNet 網(wǎng)絡(luò)的主要特點(diǎn)在于:
1)采用了殘差結(jié)構(gòu),較淺的網(wǎng)絡(luò)采用層疊殘差(stack residual blocks)的殘差結(jié)構(gòu),較深的網(wǎng)絡(luò)采用了瓶頸(bottleneck blocks)的殘差結(jié)構(gòu)以提高效率.
2)每個(gè)卷積層之后都應(yīng)用了批正則化層.
3)應(yīng)用了Msra 權(quán)值初始化方法.
4)沒有使用Dropout 層.
為防止U-Net 網(wǎng)絡(luò)的退化,在構(gòu)建網(wǎng)絡(luò)時(shí)添加殘差模塊,U-Net 的每一子模塊替換為具有殘差連接的形式.
注意力機(jī)制的特點(diǎn)讓它非常適用于遙感地物分割任務(wù).一方面,注意力機(jī)制適合于依賴于較小范圍上下文和空間信息,或者說輸入中存在較多“混亂”和“不相關(guān)”特征的任務(wù)領(lǐng)域,存在嚴(yán)重類不平衡問題的地物分割任務(wù),同時(shí)也存在這樣的特點(diǎn);另一方面,輸入影像具有多尺度是遙感影像解譯,任務(wù)的共性.而多尺度的輸入會(huì)導(dǎo)致任務(wù)空間會(huì)幾何增長(zhǎng),在樣本不足的情況下,這種任務(wù)空間的增長(zhǎng)會(huì)嚴(yán)重影響網(wǎng)絡(luò)對(duì)單個(gè)類別目標(biāo)的學(xué)習(xí).
1.3.1 通道域注意力
U-Net 網(wǎng)絡(luò)受益于對(duì)稱的跨層連接.跨層連接可以方便地將低級(jí)特征映射通道與更高級(jí)別的特征映射通道相結(jié)合,這樣可以更有效地利用空間信息,以提高像素級(jí)定位的精度,并將殘余聚合上下文信息分配給更高分辨率的層.在實(shí)踐中,U-Net 網(wǎng)絡(luò)總是依靠固定權(quán)重通過級(jí)聯(lián)連接(concatenation)或相加(adding)將不同的特征圖通道簡(jiǎn)單組合在一起.隨著網(wǎng)絡(luò)越來越深入,U-Net 網(wǎng)絡(luò)仍然面臨著與其他普通網(wǎng)絡(luò)一樣的問題:當(dāng)信息通過許多層時(shí),可能在到達(dá)網(wǎng)絡(luò)末端時(shí)消失.因此,盡管已經(jīng)具有跨層連接,但是在U-Net 網(wǎng)絡(luò)的編碼器或解碼器內(nèi)適當(dāng)添加的殘差連接,仍然可以緩解這種退化問題并且改善性能.
ILSVRC-2017 分類競(jìng)賽的冠軍SENet 提出通過嵌入學(xué)習(xí)機(jī)制來重新校準(zhǔn)特征圖通道,最終提高網(wǎng)絡(luò)的性能.SENet 主要的思想是壓縮深度卷積神經(jīng)網(wǎng)絡(luò)的卷積核所代表的特征之間存在冗余,實(shí)現(xiàn)卷積核特征更有效的利用,這在SENet 原始文獻(xiàn)中稱之為特征校準(zhǔn)(feature recalibration).特征校準(zhǔn)可以看作是在不影響性能的前提下,減少卷積核數(shù)量的等效方法.本質(zhì)上,SENet 是通道域注意力的典型代表.
SENet 通過向卷積層輸出特征圖的每個(gè)通道添加可學(xué)習(xí)的參數(shù),來實(shí)現(xiàn)簡(jiǎn)單且有效的通道注意機(jī)制,使得網(wǎng)絡(luò)可以通過學(xué)習(xí)自適應(yīng)地調(diào)整每個(gè)特征通道的權(quán)重.然而,在原始的SENet 實(shí)現(xiàn)中,注意機(jī)制僅工作于SE 塊內(nèi)部.分類網(wǎng)絡(luò)內(nèi)部特征通道是在單向上從低級(jí)別轉(zhuǎn)換為高級(jí)別,任務(wù)本身的特點(diǎn)也要求分類任務(wù)更多關(guān)注的是整體或全局信息的利用,而且通常較深的分類網(wǎng)絡(luò)都會(huì)面臨權(quán)值參數(shù)數(shù)量過大的壓力,因此,SENet 這種局部小參數(shù)的做法對(duì)分類網(wǎng)絡(luò)而言是合適且有效的.
對(duì)于U-Net 網(wǎng)絡(luò)而言,它不僅需要組合形成高級(jí)別的特征通道(通常數(shù)量多而尺寸?。┮赃M(jìn)行類別預(yù)測(cè),而且也需要低級(jí)別特征通道(通常數(shù)量少而尺寸大)來實(shí)現(xiàn)密集的預(yù)測(cè),因此,直接在U-Net 中加入SE 塊,實(shí)現(xiàn)局部的通道域注意力機(jī)制可能并不是最好的選擇.
本文通過兩方面的改進(jìn)為U-Net 加入更全局化的通道域注意力機(jī)制.一方面,為了減輕WRAU 的網(wǎng)絡(luò)退化問題和組合多種尺寸的特征通道,在U-Net 的編碼器部分添加密集連接;另一方面,在SE 塊基礎(chǔ)上改進(jìn)并提出了配合密集連接使用的新的注意力單元.
1.3.2 多尺度部分密集連接
一般認(rèn)為在訓(xùn)練數(shù)據(jù)足夠的情況下,隨著網(wǎng)絡(luò)層級(jí)的增加,網(wǎng)絡(luò)的學(xué)習(xí)能力和泛化性能也會(huì)相應(yīng)提升.然而,因?yàn)樘荻认КF(xiàn)象的存在,網(wǎng)絡(luò)可能會(huì)因?yàn)槎询B了過多的層,而發(fā)生網(wǎng)絡(luò)精度退化(degeneration)問題.因此,訓(xùn)練特別深的網(wǎng)絡(luò)并不是容易的事情.幸運(yùn)的是,殘差連接和密集連接被證明有助于解決網(wǎng)絡(luò)精度退化問題.因此,本文在基線U-Net 之上實(shí)現(xiàn)注意力機(jī)制的時(shí)候,盡量避免簡(jiǎn)單地堆疊更多層,而考慮使用密集連接來優(yōu)化網(wǎng)絡(luò).
如果定義“層級(jí)”(level)為U-Net 網(wǎng)絡(luò)中具有相同特征圖輸出尺寸的層的集合,那么在基線U-Net的編碼器部分涵蓋了4 個(gè)層級(jí).從底部到頂部依次稱為level-1、level-2、level-3 和level-4.為了形成新的密集連接,只需要將編碼器中的每個(gè)層級(jí)的輸出傳遞到后續(xù)的接收單元.
設(shè)xl是基線U-Net 編碼器中第lth層級(jí)的輸出,輸出xl可以表示為:
其中,H 是第lth級(jí)的非線性變換.
新建立的密集連接的輸出即為X={x0,x1,x2,x3}.與常用的分類網(wǎng)絡(luò)常用的密集連接或其分割網(wǎng)絡(luò)常用的密集連接的設(shè)計(jì)不同,新建立的密集連接兼顧了連接的效率和有效性.4 條路徑足以聚合來自編碼器的多尺度特征通道,同時(shí)保持U-Net 中的原始特征信息流不變,更重要的是在不增加過多參數(shù)的情況下,避免了計(jì)算資源和模型參數(shù)的冗余使用.本文將其稱為“部分密集連接”(partially dense-connections).
1.3.3 寬范圍注意單元
SE 塊最初是面向分類任務(wù)設(shè)計(jì)的,通過散列分布在網(wǎng)絡(luò)的每個(gè)相對(duì)獨(dú)立功能塊中發(fā)揮作用.為了讓面向地物分割任務(wù)設(shè)計(jì)的U-Net 能更好地融合多尺度特征通道,本文將SE 塊中的兩個(gè)全連接層替換為3 個(gè)卷積層,并結(jié)合部分密集連接一起工作.這個(gè)新組件被命名為WRAU.
SE 塊是輸入和輸出具有相同尺寸的一種特殊的殘余結(jié)構(gòu),在其內(nèi)部按照功能可以分為壓縮和激勵(lì)先后兩個(gè)步驟.WRAU 沿用了一部分SE 塊的結(jié)構(gòu)和設(shè)計(jì),但是在壓縮和激勵(lì)階段都有不一樣的地方:
在壓縮階段,SE 塊首先通過將輸入的特征通道Co={c0o,c1o,…,cno} 中的每一個(gè)通道壓縮成單個(gè)數(shù)值Vo來加以理解.輸出向量Vo={v0o,v1o,…,vno} 的尺寸為1×1×n,其中,n 為輸入通道的數(shù)量.在WRAU 中,輸入值C 來自部分密集連接.假設(shè)C 中有n 個(gè)通道,那么C 可以寫成通道的形式:C={c0,c1,…,cn}.需要注意的是:C 中元素的尺寸并不一致,因此,項(xiàng)目將SE 塊中使用的平均池化層替換為自適應(yīng)池化層,以將不同尺寸的通道都采樣為32×32 的固定大小的二維矩陣,通過將采樣后的通道級(jí)聯(lián)在一起,WRAU 壓縮階段的輸出V={v0,v1,…,vn},其尺寸為32×32×n.
在激勵(lì)階段,SE 塊將Vo傳送給具有兩個(gè)全連接層的網(wǎng)絡(luò),其輸出Wo={w0o,w1o,…,wno}的尺寸為1×1×n.Wo即為給通道加權(quán)的激勵(lì)因子.在WRAU 中,為了能通過更好的學(xué)習(xí)能力優(yōu)化激勵(lì)因子,本文用卷積層、PReLU、批歸一化層的堆疊序列,替換了SE塊中的第1 個(gè)全連接層和其后的ReLU 層.保留了輸出端的全連接層和Sigmoid 形層以輸出具有與Wo相同尺寸的激勵(lì)因子W={w0,w1,…,wn}.因此,WRAU的最終輸出XWRAU是重采樣后的通道V 和激勵(lì)因子W 的內(nèi)積,可以采用以下形式表示:
在WRAU 的具體實(shí)現(xiàn)中,內(nèi)積運(yùn)算是由尺度變換層(scale)實(shí)現(xiàn).3 個(gè)卷積層的卷積核大小都固定為5×5 像素,步長(zhǎng)設(shè)置為2 以確保最終的輸出大小為n.
總的說來,從SE 區(qū)塊到WRAU 改進(jìn)主要體現(xiàn)在兩個(gè)方面:一方面,為了盡可能多地保留多尺度信息,擴(kuò)大擠壓階段的輸出尺寸;另一方面,為了提高學(xué)習(xí)能力,在激勵(lì)階段用卷積結(jié)構(gòu)取代簡(jiǎn)單的全連接層結(jié)構(gòu).這些改進(jìn)的考量主要源自地物分割任務(wù)的實(shí)際需要:與SE 相比,WRAU 更適合多尺度特征圖通道的集中處理.
在基線U-Net 的基礎(chǔ)上,本文改進(jìn)得到了一種新的U-Net 架構(gòu)——WRAU-Net.WRAU-Net 中引入了部分密集連接和WRAU 兩項(xiàng)新的組件.WRAU位于部分密集連接的集群節(jié)點(diǎn)處,其目的在于聚合編碼器路徑中的多尺度特征通道.WRAU 通過學(xué)習(xí)校準(zhǔn)這些通道以實(shí)現(xiàn)注意力機(jī)制.部分密集連接和WRAU 在結(jié)構(gòu)和功能上是互補(bǔ)的.它們的組合可以減輕廣泛關(guān)注機(jī)制的建模負(fù)擔(dān),從而提高網(wǎng)絡(luò)的整體性能.WRAU 是模塊化的,也可以通過其他組合應(yīng)用于其他類型的分割網(wǎng)絡(luò).
需要再次說明的是:本文用作WRAU-Net 主要框架的9 級(jí)基線U-Net 與Ronneberger 等與2015 年提出的原始U-Net 并不完全相同.本文添加了一些已被證明有用的新功能.此外,在WRAU-Net 的實(shí)現(xiàn)中,采用了簡(jiǎn)單的通道劃分來減少模型參數(shù)并簡(jiǎn)化訓(xùn)練,也就是說,只有前四分之一的輸出通道會(huì)被復(fù)制并傳遞給部分密集連接分支,最后一個(gè)四分之一的輸出通道會(huì)被復(fù)制并傳遞給跨層連接.所有的通道都在編碼器-解碼器主分支中傳遞.通過通道劃分,WRAU 實(shí)際使用的參數(shù)量?jī)H增加了約10%左右.如果沒有通道劃分,實(shí)際的參數(shù)量會(huì)超過140%.從實(shí)驗(yàn)的結(jié)果看,兩種方法實(shí)現(xiàn)的網(wǎng)絡(luò)泛化精度并沒有顯著差異.
1.4.1 編碼器結(jié)構(gòu)設(shè)計(jì)
編碼器結(jié)構(gòu)由3 個(gè)下采樣模塊構(gòu)成,包括一個(gè)2層卷積層構(gòu)成的結(jié)構(gòu)化的卷積塊和一個(gè)2×2 最大池化層.卷積核的大小為3×3,步幅設(shè)置為1,使用‘0’填充,卷積層之后是批處理規(guī)范層和ReLU 激活層以加快學(xué)習(xí)速度并減少梯度消失和過度擬合的穩(wěn)定學(xué)習(xí)過程.編碼器共執(zhí)行兩次最大池化操作,每次池化操作之后,圖像的分辨率減半,通道數(shù)增加為原來的2 倍,編碼器的過濾器數(shù)目分別是32、64、128、256.當(dāng)經(jīng)過最后一個(gè)編碼器模塊后,特征圖的大小變?yōu)?2×32×256,將此特征作為多尺度融合模塊的輸入,多尺度融合模塊的輸出特征圖大小為32×32×384.
1.4.2 解碼器結(jié)構(gòu)設(shè)計(jì)
改進(jìn)的模型解碼器部分中的每個(gè)模塊,包括一個(gè)2 層卷積層構(gòu)成的結(jié)構(gòu)化的卷積塊和一個(gè)2×2 的轉(zhuǎn)置卷積層,在原始網(wǎng)絡(luò)進(jìn)行跳過連接技術(shù)的部分,將其改進(jìn)為基于注意力機(jī)制的特征融合模塊.所提出的注意機(jī)制算法嵌入在U-Net 的收縮路徑和擴(kuò)展路徑之間,在解碼器的第一個(gè)跳過連接過程中,將通過多尺度融合模塊的編碼器提取的特征圖用作注意力機(jī)制的輸入信號(hào),并輸入通過第3 層的編碼器模塊提取的特征圖.注意力機(jī)制的結(jié)果特征圖通過執(zhí)行卷積和轉(zhuǎn)置卷積運(yùn)算,將合并后的特征圖的通道維數(shù)減少到128,長(zhǎng)寬維度增加到原來的兩倍.
在后續(xù)的幾個(gè)“跳過連接”過程中,通過編碼器的第1 模塊和第2 模塊中的特征圖用作改進(jìn)空間注意機(jī)制的輸入,并在每個(gè)解碼器的第1 層和第2 層中使用卷積和轉(zhuǎn)置卷積將提取的特征圖的尺寸增大,轉(zhuǎn)置卷積核的大小設(shè)置為3×3,步幅長(zhǎng)度為2,特征圖與通過轉(zhuǎn)置卷積在大小上增加的特征圖組合在一起,并且通過執(zhí)行卷積和操作將特征圖的尺寸分別減小為64 個(gè)通道和32 個(gè)通道.與編碼器結(jié)構(gòu)一樣,在卷積運(yùn)算之后應(yīng)用實(shí)例規(guī)范化和ReLU 激活函數(shù).在最后的第3 個(gè)解碼器模塊中,對(duì)特征圖進(jìn)行1×1卷積運(yùn)算,以進(jìn)行通道維數(shù)的變化.最后使用softmax激活函數(shù)得到輸出分割圖,最終的預(yù)測(cè)圖像由二值表示,該二值的模型為每個(gè)像素預(yù)測(cè)的建筑物或背景的值.
本文在Massachusetts 數(shù)據(jù)集的完全子集上評(píng)估了基于改進(jìn)的U-Net 架構(gòu)——WRAU-Net 的表現(xiàn).
除了基線U-Net 以外,另外兩個(gè)基于U-Net 的改進(jìn)方法也作為基線網(wǎng)絡(luò)加入比較:一個(gè)是ResUNet,另一個(gè)是最近提出的UNetPPL.實(shí)驗(yàn)全部使用Adam作為網(wǎng)絡(luò)優(yōu)化算法.訓(xùn)練初始學(xué)習(xí)率設(shè)置為10-5,權(quán)值衰減系數(shù)為0.9.批量為4,這是單塊11 G 內(nèi)存的顯卡可以支持的最大值.除了均值中心化和歸一化外,沒有對(duì)訓(xùn)練數(shù)據(jù)做任何增強(qiáng)處理,也沒有做任何模型預(yù)訓(xùn)練.單次訓(xùn)練在完成40 000 次迭代后結(jié)束.訓(xùn)練過程中會(huì)分別在10 000,2 000,30 000 和40 000 次迭代完成后在整個(gè)測(cè)試集上對(duì)模型進(jìn)行測(cè)試.因?yàn)椴捎昧? 文件夾交叉驗(yàn)證,每個(gè)網(wǎng)絡(luò)執(zhí)行10次訓(xùn)練和40 次測(cè)試.本文報(bào)告它們的平均值作為最終的實(shí)驗(yàn)結(jié)果.
前面提到Massachusetts 數(shù)據(jù)集的作者M(jìn)nih 使用了一種松弛版本的分割準(zhǔn)確度(relaxed precision of road,RPR)和召回率(relaxed recall of road,RRR)之間的平衡點(diǎn)(break-even point)作為網(wǎng)絡(luò)泛化性能的度量指標(biāo),而且ResUNet 也遵循這種方式.本文沿用了這個(gè)度量并遵循Mnih 文獻(xiàn)中的實(shí)現(xiàn)細(xì)節(jié)并設(shè)置松弛參數(shù)ρ=3,來計(jì)算RPR 和RRR 之間的平衡點(diǎn).
除此之外,本文還加入了更多常用的度量指標(biāo),包括:均交并比(mean intersection over union,mIoU)、準(zhǔn)確率(precision of road,PR)和召回率(recall of road,RR)來比較模型訓(xùn)練的結(jié)果.
準(zhǔn)確率表示檢測(cè)正確目標(biāo)數(shù)量與所有檢測(cè)結(jié)果中目標(biāo)數(shù)量的比值;召回率表示檢測(cè)正確目標(biāo)數(shù)量與所有真實(shí)目標(biāo)數(shù)量的比值.實(shí)驗(yàn)以Pre和Rec分別表示準(zhǔn)確率和召回率,計(jì)算公式如下:
式中,TP 為檢測(cè)正確的目標(biāo)數(shù)量;FP 為檢測(cè)結(jié)果與實(shí)際不符的目標(biāo)數(shù)量;FN 為未檢測(cè)到的目標(biāo)數(shù)量;N為數(shù)據(jù)集類別數(shù)量.
從指標(biāo)表述上來看,檢測(cè)結(jié)果的準(zhǔn)確率和召回率都是越高越好,但實(shí)際中準(zhǔn)確率隨著召回率的增加呈現(xiàn)下降趨勢(shì),其原因是召回率的提高會(huì)造成檢測(cè)結(jié)果中出現(xiàn)更多錯(cuò)檢目標(biāo),增加了錯(cuò)檢目標(biāo)所占比例.為了更全面地評(píng)價(jià)檢測(cè)結(jié)果,以召回率為橫軸、準(zhǔn)確率為縱軸來繪制PR 曲線,曲線與橫縱坐標(biāo)軸圍城區(qū)域面積為AP 值,AP 值越高表示檢測(cè)結(jié)果越好,計(jì)算公式如下:
交并比是語義分割任務(wù)中最常用的評(píng)價(jià)指標(biāo)之一,表示為真實(shí)值與預(yù)測(cè)值的交集與并集之比,判斷二者的重合程度,交并比值越大則分割效果越好,計(jì)算公式如下:
部分提取結(jié)果如圖6~圖9 所示.
圖6 居民地提取結(jié)果Fig.6 Extraction results of settlement places
圖7 天繪影像植被提取結(jié)果Fig.7 Vegetation extraction results from sky mapping images
圖8 IKONOS 影像水域提取結(jié)果Fig.8 Waters extraction results of IKONOS image
圖9 資源3 號(hào)影像道路提取結(jié)果Fig.9 Road extraction results of No.3 resource image
表1 中給出了測(cè)試結(jié)果.可以看出:WRAU-Net在mIoU 度量、RR 度量、以及RPR 和RRR 的平衡點(diǎn)度量上表現(xiàn)最好.實(shí)驗(yàn)結(jié)果驗(yàn)證了WRAU-Net 的性能相較于U-Net,ResUNet 和UNetPPL 的優(yōu)勢(shì).
表1 Massachusetts 數(shù)據(jù)集的測(cè)試性能Table 1 Test performance of the Massachusetts datasets
本文還通過消融實(shí)驗(yàn)分別評(píng)估部分密集連接和WRAU 組件獨(dú)立使用的效果,實(shí)驗(yàn)結(jié)果如表2 所示.從表2 的第1 行可以看出:?jiǎn)为?dú)使用部分密集連接對(duì)網(wǎng)絡(luò)表現(xiàn)的增益并不太高,與使用殘差連接的ResUNet 在U-Net 上的增益接近.從表3 的第2 行可以看出:WRAU 在U-Net 編碼器末端單獨(dú)嵌入使用時(shí),并不會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生增益.消融實(shí)驗(yàn)的結(jié)果進(jìn)一步說明了組合使用部分密集連接和WRAU 的合理性.
表2 單獨(dú)使用部分密集連接和WRAU 的性能測(cè)試結(jié)果Table 2 Performance test results using partial dense connections and WRAU alone
表3 在Massachusetts 數(shù)據(jù)集的比較實(shí)驗(yàn)Table 3 Comparative experiments on the Massachusetts datasets
通過記錄特征通道的權(quán)重W 的平均值相對(duì)于訓(xùn)練迭代次數(shù)的變化,可以進(jìn)一步發(fā)現(xiàn):W 的大小與所處的編碼器層級(jí)有關(guān).如圖10 所示,當(dāng)網(wǎng)絡(luò)層級(jí)從level-1 級(jí)深入到level-4 級(jí)時(shí),W 的平均值會(huì)顯著減小.這一觀察從另一個(gè)角度表明:WRAU 確實(shí)有效的學(xué)習(xí)并區(qū)別利用了位于不同層級(jí)的特征通道.
圖10 平均通道權(quán)重與迭代次數(shù)的關(guān)系圖Fig.10 Relational graph of average channel weights versus number of iterations
為了更近一步證明WRAU-Net 網(wǎng)絡(luò)的性能優(yōu)勢(shì),本文還采用F1 分?jǐn)?shù)作為評(píng)分標(biāo)準(zhǔn),F1 分?jǐn)?shù)剔除了背景,關(guān)注被預(yù)測(cè)正類的錯(cuò)分和漏分,能夠更為公正地評(píng)價(jià)結(jié)果,公式如下:
采用多種非U-Net 改進(jìn)網(wǎng)絡(luò)在Massachusetts 數(shù)據(jù)集和DeepGlobe 數(shù)據(jù)集上與WRAU-Net 進(jìn)行了比較實(shí)驗(yàn),以均交并比、F1 分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差的形式報(bào)告實(shí)驗(yàn)結(jié)果,如表3、表4 所示.
表4 在DeepGlobe 數(shù)據(jù)集的比較實(shí)驗(yàn)Table 4 Comparative experiments on the DeepGlobe datasets
可以看出:WRAU-Net 在兩個(gè)數(shù)據(jù)集上的mIoU以及F1 上表現(xiàn)都最優(yōu).實(shí)驗(yàn)結(jié)果驗(yàn)證了WRAU-Net的性能相較于E-Net,SegNet 和LinkNet 的優(yōu)勢(shì).實(shí)驗(yàn)結(jié)果表明:WRAU-Net 在上述兩個(gè)數(shù)據(jù)集上獲得顯著性能增益.相較其他所列網(wǎng)絡(luò)而言,WRAU-Net的效果更加明顯.該實(shí)驗(yàn)結(jié)果驗(yàn)證了WRAU-Net 在地物分割任務(wù)中的有效性.
利用前期構(gòu)建的基礎(chǔ)網(wǎng)絡(luò)特征模型,面向目標(biāo)實(shí)體要素提取技術(shù),通過采用參數(shù)修正單元以及多尺度特征融合和多通道卷積模塊等方式,實(shí)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,在此基礎(chǔ)上,利用語義分割技術(shù)實(shí)現(xiàn)地物要素的智能分類和提取.包括植被、水體、居民地、道路等地物要素的一級(jí)分類;獨(dú)立房屋、居民區(qū)、旱地、經(jīng)濟(jì)林、河流、湖泊等二級(jí)分類.支持利用DSM、DEM、興趣點(diǎn)POI、地名地址庫、地形圖,以及其他屬性信息等各類輔助數(shù)據(jù)的地物要素分類,代替?zhèn)鹘y(tǒng)的遙感影像分類任務(wù).分類結(jié)果如圖11 所示.
圖11 二元分類結(jié)果Fig.11 Binary classification results
應(yīng)用改進(jìn)后的模型進(jìn)行目標(biāo)檢測(cè),如圖12 所示為船與車輛目標(biāo)檢測(cè)結(jié)果(粉色為船,黃色為車輛).
圖12 目標(biāo)檢測(cè)結(jié)果圖Fig.12 Image of target detection results
結(jié)合遙感圖像目標(biāo)檢測(cè)中存在的諸多問題和面臨的挑戰(zhàn),為支持今后對(duì)遙感圖像中有關(guān)軍事設(shè)施和裝備等多類目標(biāo)的快速識(shí)別與提取,本文結(jié)合相關(guān)技術(shù),研究提出了一種改進(jìn)的U-Net 網(wǎng)絡(luò)架構(gòu)WRAU-Net.基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測(cè)與提取具有巨大潛力,應(yīng)用前景十分廣闊,未來遙感圖像目標(biāo)檢測(cè)還有很大的發(fā)展空間:
1)在樣本有限的情況下獲取更豐富的圖像信息.如何獲得更豐富的圖像語義信息,以提高模型的特征學(xué)習(xí)能力,一直是遙感圖像目標(biāo)檢測(cè)與提取領(lǐng)域的研究重點(diǎn).
2)研究組合型目標(biāo)檢測(cè).組合型目標(biāo)邊界不固定,內(nèi)部包含多個(gè)獨(dú)立的、關(guān)系不確定的單個(gè)目標(biāo).因此,組合型目標(biāo)的特征復(fù)雜多樣,這就需要模型具有更強(qiáng)的特征表達(dá)能力,可以對(duì)場(chǎng)景語義進(jìn)行更好的建模,有效區(qū)分前景和背景.
3)研究深度學(xué)習(xí)模型的可解釋性.未來可以考慮對(duì)神經(jīng)網(wǎng)絡(luò)的知識(shí)表達(dá)進(jìn)行可視化,以更好地理解神經(jīng)網(wǎng)絡(luò)是如何學(xué)習(xí)遙感知識(shí)的;或者將神經(jīng)網(wǎng)絡(luò)內(nèi)部決策結(jié)構(gòu)拆分為可解釋性的模塊,對(duì)神經(jīng)網(wǎng)絡(luò)的中間特征進(jìn)行明確的語義表達(dá).
4)研究自動(dòng)生成最優(yōu)網(wǎng)絡(luò)的算法.如何利用深度學(xué)習(xí)的方法自我迭代優(yōu)化超參數(shù),通過自我學(xué)習(xí)來選擇最優(yōu)網(wǎng)絡(luò)也是未來的一個(gè)研究熱點(diǎn).