国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種改進(jìn)的Mask R-CNN 衛(wèi)星影像船舶尾跡檢測(cè)方法

2022-05-11 07:31吳榮峰唐希源
關(guān)鍵詞:卷積船舶圖像

吳榮峰, 唐希源

(南京理工大學(xué) 電子工程與光電技術(shù)學(xué)院, 南京 210094)

0 引 言

中國(guó)海域面積遼闊,使用衛(wèi)星遙感技術(shù)實(shí)時(shí)監(jiān)測(cè)海面船舶對(duì)國(guó)防事業(yè)、海運(yùn)貿(mào)易等都具有十分重要的意義。 為了盡可能多地獲取海面船舶信息,往往會(huì)選擇超廣角的衛(wèi)星,然而在這類(lèi)衛(wèi)星的遙感圖像上,船舶往往表現(xiàn)為很小的白色點(diǎn)狀,難于識(shí)別,而海面復(fù)雜的環(huán)境狀況又會(huì)進(jìn)一步加大識(shí)別的難度,基于這種情況,轉(zhuǎn)向識(shí)別船舶的尾跡。 船舶尾跡的目標(biāo)范圍遠(yuǎn)大于船舶,且尾跡在遙感圖像上的灰度變化和周邊的海域有著明顯的區(qū)別,大大降低了目標(biāo)檢測(cè)的難度。 此外,尾跡還能提供船只的航速以及航向方向等信息。

傳統(tǒng)的船舶尾跡檢測(cè)算法往往依賴(lài)于人為的特征提取,耗時(shí)費(fèi)力,且這類(lèi)方法的魯棒性和泛化能力較差,不利于系統(tǒng)自動(dòng)地識(shí)別目標(biāo)。 近年來(lái),深度學(xué)習(xí)技術(shù)不斷地發(fā)展和完善,逐漸被引入到遙感圖像目標(biāo)檢測(cè)與識(shí)別領(lǐng)域,并且取得了很好的效果?;诖耍疚奶岢隽艘环N基于改進(jìn)的Mask R-CNN算法的船舶尾跡檢測(cè)技術(shù)。

Mask R-CNN 是由Faster R-CNN 改進(jìn)而來(lái),用于實(shí)例分割的目標(biāo)檢測(cè)算法,可以在一個(gè)網(wǎng)絡(luò)中同時(shí)做目標(biāo)檢測(cè)和實(shí)例分割,其在原來(lái)Faster R-CNN的基礎(chǔ)上把ROI Pooling 層改為ROI Align,使得區(qū)域劃分更加精準(zhǔn),此外還額外引入了一個(gè)Mask 層用于實(shí)例的分割。

由于遙感衛(wèi)星圖像往往圖像不清晰,噪聲很大。為了更好地實(shí)現(xiàn)檢測(cè),本文在原有的Mask R-CNN算法的基礎(chǔ)上做出了兩點(diǎn)改進(jìn):

(1)在原有的特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu)上引入平衡特征金字塔(BFP)串聯(lián)結(jié)構(gòu),以增強(qiáng)圖像特征信息的融合,降低原圖的噪聲,增強(qiáng)目標(biāo)的可辨識(shí)性;

(2)使用ResNet50 作為主干網(wǎng)絡(luò),在主干網(wǎng)絡(luò)上引入GCNet,增加特征的提取能力。

實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)改進(jìn)之后的Mask R-CNN對(duì)于船舶尾跡的目標(biāo)檢測(cè)能力明顯提升。

1 Mask R-CNN 簡(jiǎn)述

Mask R-CNN 是一種實(shí)例分割的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),在目標(biāo)檢測(cè)領(lǐng)域有著十分優(yōu)秀的表現(xiàn),很適合遙感圖像的檢測(cè)。 主干網(wǎng)絡(luò)與特征金字塔網(wǎng)絡(luò)層(Backbone +FPN)、區(qū)域建議網(wǎng)絡(luò)層(RPN)、RoI Align 層、卷積層(CONV)、邊框回歸支路(class)、邊框分類(lèi)支路(box),以及一條并行的Mask 支路,如圖1 所示。

圖1 Mask R-CNN 結(jié)構(gòu)示意圖Fig.1 Structure diagram of Mask R-CNN

ROI Align 是Mask R-CNN 的第一個(gè)重大改進(jìn),明顯改進(jìn)了量化誤差的影響。 在Faster R-CNN 當(dāng)中, RoI Pooling 引入了兩次量化誤差,一次是在原始圖像映射到特征圖的過(guò)程中,圖像尺寸的浮點(diǎn)數(shù)取整;另一次是對(duì)特征圖進(jìn)行最鄰近插值。 整個(gè)過(guò)程的兩次取整操作,會(huì)給坐標(biāo)引入很大的誤差。為了解決該問(wèn)題,文獻(xiàn)[4]提出了RoI Align 使用雙線性插值方法,利用原圖中虛擬點(diǎn)四周的4 個(gè)像素點(diǎn)的值,來(lái)共同決定目標(biāo)圖中的一個(gè)像素值,這樣就可以將虛擬點(diǎn)對(duì)應(yīng)的像素值估計(jì)出來(lái)。

Mask R-CNN 的另一個(gè)改進(jìn)是在原有的損失函數(shù)中引入了Mask 預(yù)測(cè)損失函數(shù)L, 損失函數(shù)如式(1):

其中,L、L分別為類(lèi)別、位置預(yù)測(cè)的損失函數(shù)。

對(duì)于支路,每個(gè)的輸出維度是,表示的大小,代表類(lèi)別數(shù)。 得到預(yù)測(cè)后,對(duì)的每一個(gè)像素點(diǎn)求函數(shù)值,并把結(jié)果作為L的輸入。 雖然會(huì)有個(gè),但在計(jì)算時(shí)只有對(duì)應(yīng)類(lèi)別的才有效,其他的不會(huì)對(duì)L造成影響。

2 平衡特征金字塔(Balanced Feature Pyramid,BFP)

在遙感圖像中,船舶尾跡目標(biāo)的長(zhǎng)短大小往往很不一致,并且由于分辨率低,目標(biāo)的辨識(shí)度很低,圖像噪聲也很大,即使是依靠人眼也很難快速確定目標(biāo),因此需要加工處理,加強(qiáng)特征,提高辨識(shí)度,而平衡特征金字塔結(jié)構(gòu)可以很好地滿足這一要求。

BFP 結(jié)構(gòu)旨在解決特征層信息的不平衡,以更加高效地利用不同尺度各自的特征。 傳統(tǒng)的FPN 是一種致力于解決特征融合問(wèn)題的結(jié)構(gòu),使用自下而上后再自上而下的結(jié)構(gòu),低層的特征圖包含了更多的位置細(xì)節(jié)信息,有利于小物體的目標(biāo)檢測(cè),而高層次的特征圖則是包含了更多的語(yǔ)義信息,更加適合做大尺度物體的識(shí)別,通過(guò)兩者的組合來(lái)進(jìn)行不同尺度物體的識(shí)別。 但這種結(jié)構(gòu)更多地關(guān)注于相鄰層的關(guān)系,忽略非相鄰層間的依賴(lài)關(guān)系,而非相鄰層的依賴(lài)關(guān)系在目標(biāo)識(shí)別當(dāng)中往往起著重要的作用。

平衡特征金字塔結(jié)構(gòu)很好地解決了這一問(wèn)題,同時(shí)獲取并聚合了來(lái)自不同層級(jí)的特征,使得高層語(yǔ)義特征和底層位置細(xì)節(jié)等信息同時(shí)匯聚到一起,并通過(guò)使用嵌入式高斯Non-Local 注意力模塊進(jìn)一步精煉了特征,提高了目標(biāo)的可辨識(shí)度。

BFP 的結(jié)構(gòu)示意圖,如圖2 所示,包括調(diào)整大小、融合、精煉和增強(qiáng)4 個(gè)步驟。

圖2 BFP 結(jié)構(gòu)示意圖Fig.2 Structure diagram of BFP

(1)調(diào)整大小。 在FPN 結(jié)構(gòu)輸出的特征圖中,不同層次的特征圖大小不一,為了便于后續(xù)的整合,需要調(diào)整為同一尺寸。 比如,以C4 層作為目標(biāo),對(duì)于更大的C3 和C2,使用最大池化(Max Pooling)方法進(jìn)行縮小,對(duì)于更小的C5 層,則可以使用雙線性插值的方法放大到C4 的尺寸。

(2)融合。 把幾張同尺寸特征圖相互疊加,并求平均值即可。

(3)精煉。 使用嵌入式高斯Non-Local 注意力模塊進(jìn)行特征精煉,通過(guò)建立圖像上兩個(gè)有一定距離的像素之間的聯(lián)系來(lái)增強(qiáng)識(shí)別的效果,同時(shí)基于傳統(tǒng)數(shù)字圖像處理中的非局部均值理論,該方法還可以明顯降低圖像中的噪聲。 該方法有比卷積更好的穩(wěn)定性,其關(guān)鍵公式如式(2)所示。

輸入信號(hào)x代表目標(biāo)圖像,x是所有特征可能與x相似的圖像,兩者大小相等。 通過(guò)函數(shù)計(jì)算得到兩者的關(guān)聯(lián)系數(shù),函數(shù)代表位置處的輸入信號(hào),之后以函數(shù)為權(quán)重進(jìn)行加權(quán)求和,() 代表歸一化系數(shù)。 相關(guān)的函數(shù)表達(dá)式如式(3) ~式(7)所示。

最后,需要把該結(jié)構(gòu)插入到原有的網(wǎng)絡(luò)中,并且不能破壞初始信息,這里需要增加一個(gè)殘差鏈接,其表達(dá)式如式(8)所示。

Non-Local 模塊的結(jié)構(gòu)示意圖,如圖3 所示。

圖3 Non-Local 模塊的結(jié)構(gòu)示意圖Fig.3 Structure diagram of non-local block

(4)增強(qiáng)。 把已經(jīng)融合的特征圖恢復(fù)到原有大小。 對(duì)精煉后的圖像使用雙線性插值操作可以恢復(fù)到C2,C3 大小,使用最大池化操作則恢復(fù)到C5 的大小,對(duì)于C4 大小的輸出則不需要操作。 恢復(fù)完成后,再把其和原始的C2、C3、C4、C5 相互疊加后輸出。

綜上所述,通過(guò)BFP 的操作實(shí)現(xiàn)了不同特征層的信息融合,并加強(qiáng)了目標(biāo)的特征,增加了可辨識(shí)度,對(duì)低分辨率的遙感圖像識(shí)別十分關(guān)鍵。

3 GCNet 模塊

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)通過(guò)圖像的一部分作為卷積核,在圖像上以滑窗的形式不斷進(jìn)行卷積,直至整幅圖像均以該卷積核進(jìn)行過(guò)卷積操作,后對(duì)特征圖進(jìn)行池化。 然而這樣的操作產(chǎn)生了一個(gè)問(wèn)題,當(dāng)另外有相似或關(guān)系密切的目標(biāo)距離卷積核所在位置較遠(yuǎn),那么該卷積核只能觀察到其卷積范圍內(nèi)的部分圖像,無(wú)法提高長(zhǎng)距離依賴(lài)的檢測(cè)能力。 引入GCNet 的目的正是提高長(zhǎng)距離依賴(lài)特征提取能力。

GCNet 由Non-local 與SE 兩大模塊組成。

Non-local 操作是為提高長(zhǎng)距離依賴(lài),某一輸入信號(hào)處的響應(yīng)是其他所有與其大小相等的位置特征權(quán)重和,將每一個(gè)信號(hào)與其他所有的信號(hào)相關(guān)聯(lián),實(shí)現(xiàn)Non-local 的思想。 2019 年Yue Cao 等人指出,所選取的注意力x對(duì)最終的識(shí)別效果只能產(chǎn)生很小的影響,對(duì)于每個(gè)x均計(jì)算其注意力分布是很浪費(fèi)計(jì)算資源的行為,因此,在GCNet 當(dāng)中,Nonlocal 模塊被進(jìn)一步簡(jiǎn)化。

由于不再對(duì)x進(jìn)行操作,因此傳統(tǒng)的non-local模塊中的W路被移除,不再加入該卷積模塊,以節(jié)約計(jì)算資源。 將W移至y的乘法運(yùn)算之后,單獨(dú)生成一個(gè)模塊稱(chēng)為T(mén)ransform,雖然會(huì)犧牲一定的準(zhǔn)確度,但是會(huì)大大節(jié)省計(jì)算的成本,提高運(yùn)算的速度。

簡(jiǎn)化的Non-local 模塊結(jié)構(gòu)如圖4 所示,可以將整個(gè)簡(jiǎn)化Non - local 模塊劃分為上下文建模(Context Modeling)、變 換(Transform) 以 及 融 合(Fusion)3 個(gè)部分。

圖4 簡(jiǎn)化的non-local 模塊結(jié)構(gòu)示意圖Fig.4 Structure diagram of simplified non-local block

其數(shù)學(xué)模型如式(9)所示。

其中,x、x表示輸入信號(hào),WW表示卷積因子。

在簡(jiǎn)化的non-local 模塊的操作中,將W移至乘法運(yùn)算之后,在顯著減少運(yùn)算量的同時(shí),會(huì)降低準(zhǔn)確度,為了彌補(bǔ)這個(gè)問(wèn)題從而引入了第二個(gè)模塊SE模塊,其結(jié)構(gòu)示意圖如圖5 所示。

圖5 SE 模塊的結(jié)構(gòu)示意圖Fig.5 Structure diagram of SE block

SE 模塊的上支路會(huì)先將輸入的圖像做一次全局 平 均 池 化( Global Average Pooling), 后 接bottleneck 結(jié)構(gòu),即先使用卷積降低維度,之后做一次ReLU 非線性激活,再做一次卷積恢復(fù)維度,最后通過(guò)產(chǎn)生歸一化權(quán)重。 上支路最后和恒等映射進(jìn)行乘積操作,形成SE 模塊的輸出。 SE 模塊的顯著特點(diǎn)便是通過(guò)bottleneck 結(jié)構(gòu)減小參數(shù)量,這是GCNet 引入SE 的重要原因。

融合簡(jiǎn)化后的Non-local 模塊以及SE 模塊,最終的GCNet 模塊結(jié)構(gòu)如圖6 所示。 層標(biāo)準(zhǔn)化(Layer Normalization,LayerNorm)的作用是改善bottleneck結(jié)構(gòu)難以?xún)?yōu)化的問(wèn)題,提高模型泛化能力,同時(shí)可以彌補(bǔ)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不斷以相同函數(shù)堆疊導(dǎo)致提取的特征缺少多樣性的問(wèn)題。

圖6 Gcnet 模塊結(jié)構(gòu)示意圖Fig.6 Structure diagram of GCnet block

GCNet 的數(shù)學(xué)表達(dá)如式(10)所示:

其中,即ReLU 非線性激活函數(shù),即層標(biāo)準(zhǔn)化。

在原來(lái)的簡(jiǎn)化的non-local 模塊的變換部分,融合了SE 模塊中bottleneck 結(jié)構(gòu),并使用層標(biāo)準(zhǔn)化運(yùn)算解決優(yōu)化問(wèn)題,而上下文建模部分保留了簡(jiǎn)化的Non-local 模塊的結(jié)構(gòu),這樣即能夠得到Non-local適應(yīng)特征之間長(zhǎng)距離的依賴(lài)的性能,又能像SE 模塊一般減少計(jì)算量,解決提取特征多樣性的丟失問(wèn)題,提高了檢測(cè)的準(zhǔn)確率。

4 融合BFP+GCNet 的Mask R-CNN 網(wǎng)絡(luò)整體結(jié)構(gòu)

融合BFP+GCNet 的Mask R-CNN 網(wǎng)絡(luò)整體結(jié)構(gòu)如圖7 所示。 在主干網(wǎng)絡(luò)(Backbone)部分選用Resnet50,并在其中引入了GCNet 結(jié)構(gòu),以加強(qiáng)特征的提取能力;在FPN 和RPN 之間增加了串聯(lián)的BFP結(jié)構(gòu),用于提高特征的融合,增加目標(biāo)的可辨識(shí)性。

圖7 融合BFP+GCNet 的Mask R-CNN 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.7 The overall structure of Mask R-CNN network integrated with BFP+GCNet

5 實(shí)驗(yàn)方法與實(shí)驗(yàn)結(jié)果

5.1 實(shí)驗(yàn)環(huán)境

硬件環(huán)境:配有兩塊NVIDIA RTX 2080 Ti 顯卡的計(jì)算機(jī);

軟件環(huán)境:Ubuntu 18 操作系統(tǒng),Python 語(yǔ)言編程實(shí)現(xiàn)算法網(wǎng)絡(luò), 使用 PyTorch 學(xué)習(xí)框架,mmdetection 框架;

訓(xùn)練集:64 張圖片進(jìn)行mosaic 混合,大圖裁剪拼接,以提高背景與場(chǎng)景特征多樣性,提升數(shù)據(jù)質(zhì)量與數(shù)據(jù)集泛化性,每輪訓(xùn)練取所有圖片的80%,重復(fù)十次,共計(jì)十二輪訓(xùn)練;

測(cè)試集:64 張圖片,大小均為1 400×1 000。

5.2 評(píng)價(jià)指標(biāo)

識(shí)別對(duì)象分別為船只和尾跡,根據(jù)測(cè)試程序返回的指標(biāo),選取各檢測(cè)對(duì)象“框選”和“分割”的平均準(zhǔn)確度進(jìn)行評(píng)價(jià),評(píng)價(jià)的對(duì)照組為傳統(tǒng)Mask RCNN,實(shí)驗(yàn)組為僅融合BFP 的Mask R-CNN、僅融合GCNet 的Mask R-CNN、融合BFP+GCNet 的Mask R-CNN,測(cè)試結(jié)果見(jiàn)表1。

表1 測(cè)試集輸出的模型準(zhǔn)確度測(cè)試結(jié)果Tab.1 Accuracy on test dataset

由表1 可以看出,相較于傳統(tǒng)的Mask R-CNN,不論是僅采取一個(gè)改進(jìn)措施或是將兩項(xiàng)改進(jìn)結(jié)合,本文所述的改進(jìn)措施具有顯著效果。 同時(shí),對(duì)尾跡的標(biāo)定準(zhǔn)確度比船只都高,說(shuō)明針對(duì)尾跡對(duì)船只的位置進(jìn)行勘測(cè)是可行的。

5.3 檢測(cè)效果

本文采用的數(shù)據(jù)集來(lái)自于landsat8 遙感影像,實(shí)際檢測(cè)效果如圖8 所示。 由于目標(biāo)物較為模糊,且圖像的噪聲大,對(duì)需要檢測(cè)的目標(biāo)存在較大干擾,需要通過(guò)對(duì)已有的衛(wèi)星影像進(jìn)行裁剪,放大小目標(biāo)的精度,并進(jìn)行mosaic 融合,以提升檢測(cè)數(shù)據(jù)的質(zhì)量,并擴(kuò)充數(shù)據(jù)集。 圖片經(jīng)過(guò)預(yù)處理后,進(jìn)入神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)質(zhì)量得到提升,從而使得識(shí)別結(jié)果較為清晰,基本能夠正確地標(biāo)注出船只與尾跡所在的位置。

圖8 檢測(cè)效果Fig.8 Detection effects

6 結(jié)束語(yǔ)

本文討論了一種改進(jìn)的Mask R-CNN 的結(jié)構(gòu),該結(jié)構(gòu)做出了兩個(gè)改進(jìn):一在骨干網(wǎng)絡(luò)Resnet50 中加入GCNet 全局注意力模塊;二在FPN 特征提取網(wǎng)絡(luò)中引入BFP 串聯(lián)結(jié)構(gòu)。 首先,從理論上證明這樣的改進(jìn)結(jié)構(gòu)能夠使Mask R-CNN 的檢測(cè)準(zhǔn)確率得以提升;利用實(shí)驗(yàn)分別測(cè)試融合了BFP/GCNet/BFP +GCnet 改進(jìn)的Mask R-CNN 以及對(duì)照組(傳統(tǒng)Mask R-CNN)的檢測(cè)準(zhǔn)確率,最終證明BFP+GCNet 的改進(jìn)結(jié)構(gòu)明顯比其他模型的檢測(cè)能力更好,對(duì)于尾跡的檢測(cè)比對(duì)于船只的檢測(cè)準(zhǔn)確率更高,說(shuō)明了融合BFP+GCNet 的Mask R-CNN 能夠更好地適應(yīng)船舶尾跡的檢測(cè)任務(wù)。

猜你喜歡
卷積船舶圖像
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
船舶上層建筑建造工藝探討
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
項(xiàng)目管理技術(shù)在船舶建造進(jìn)度控制中的實(shí)踐
項(xiàng)目管理技術(shù)在船舶建造進(jìn)度控制中的實(shí)踐
A、B兩點(diǎn)漂流記
中國(guó)造!全球首艘智能船舶交付
卷積神經(jīng)網(wǎng)絡(luò)概述
新船訂單驟降 價(jià)格低位震蕩
嘉义县| 浮梁县| 南岸区| 比如县| 祥云县| 株洲县| 襄汾县| 南宁市| 舟山市| 腾冲县| 故城县| 阳信县| 临江市| 驻马店市| 彰武县| 浦东新区| 白河县| 山西省| 威海市| 驻马店市| 昭通市| 邵阳市| 临清市| 白玉县| 博爱县| 桃江县| 霍山县| 墨玉县| 大邑县| 北宁市| 象州县| 连江县| 德令哈市| 济源市| 江达县| 甘南县| 江川县| 宁蒗| 嫩江县| 娄烦县| 扎鲁特旗|