国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力及生成對(duì)抗網(wǎng)絡(luò)的遙感影像目標(biāo)檢測(cè)①

2022-06-29 07:48李佳琪鄧玉嬌吳湘寧
關(guān)鍵詞:注意力圖像特征

李佳琪, 鄧玉嬌, 吳湘寧, 代 剛, 陳 苗, 王 穩(wěn), 方 恒, 涂 雨, 張 鋒

(中國(guó)地質(zhì)大學(xué)(武漢) 計(jì)算機(jī)學(xué)院, 武漢 430078)

1 引言

遙感影像中飛機(jī)、船只以及近海海灘和島嶼的檢測(cè)不僅在海洋軍事信息研究領(lǐng)域是一個(gè)重要的應(yīng)用方向, 在民用工業(yè)領(lǐng)域也同樣發(fā)揮著重要的作用. 對(duì)于這類(lèi)目標(biāo), 主要的任務(wù)需求是在海面、湖面或地面背景下對(duì)圖像中的船只、海灘、島嶼以及機(jī)場(chǎng)中的飛機(jī)進(jìn)行位置標(biāo)注和掩膜分割. 而飛機(jī)和船只圖像在尺度、分辨率上與自然圖像存在差異, 海灘和島嶼也會(huì)因?yàn)槠閸绲妮喞沟米R(shí)別效果不明顯.

針對(duì)高分辨率遙感圖像中目標(biāo)太小、識(shí)別掩碼不清晰、輸入影像模糊等問(wèn)題, 本文提出了一種基于注意力機(jī)制和生成對(duì)抗網(wǎng)絡(luò)的模型Attention-GAN-Mask R-CNN 簡(jiǎn)稱(chēng)AG-Mask R-CNN, 將注意力、生成對(duì)抗網(wǎng)絡(luò)[1]和Mask R-CNN[2]結(jié)合起來(lái). 本文的主要研究工作為: (1)針對(duì)數(shù)據(jù)中目標(biāo)尺度不同, 開(kāi)展多尺度特征融合研究. 針對(duì)多尺度的輸入, 在主干網(wǎng)絡(luò)中添加特征金字塔網(wǎng)絡(luò) (FPN)[3]. (2)針對(duì)遙感圖像中對(duì)象占比較小, 容易被漏檢的問(wèn)題, 開(kāi)展注意力機(jī)制算法研究. 引入注意力機(jī)制, 嵌入在卷積層網(wǎng)絡(luò)中, 產(chǎn)生注意力感知的特征, 使得網(wǎng)絡(luò)關(guān)注更重要的區(qū)域, 以提升網(wǎng)絡(luò)檢測(cè)的精度. (3) 在Mask (掩碼)分支中引入生成對(duì)抗網(wǎng)絡(luò).由于Mask 分支生成器與生成對(duì)抗網(wǎng)絡(luò)中的生成器定義相同, 因此利用單獨(dú)的生成對(duì)抗網(wǎng)絡(luò)對(duì)Mask 分支的Mask 生成網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練, 從而提升原始Mask 分支中生成器的精度. (4)模型的訓(xùn)練與評(píng)估. 針對(duì)模型的訓(xùn)練結(jié)果進(jìn)行驗(yàn)證分析, 并與初始Mask R-CNN 網(wǎng)絡(luò)等其他主流網(wǎng)絡(luò)進(jìn)行對(duì)比來(lái)說(shuō)明模型的可行性和高效性.

2 AG-Mask R-CNN 模型

2.1 模型結(jié)構(gòu)

AG-Mask R-CNN 模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示.

圖1 AG-Mask R-CNN 網(wǎng)絡(luò)模型架構(gòu)圖

(1)對(duì)遙感數(shù)據(jù)進(jìn)行預(yù)處理作為輸入.

(2)骨干網(wǎng)絡(luò)采用ResNet101[4], 并且在ResNet 卷積層之間嵌入注意力模塊以及特征金字塔網(wǎng)絡(luò), 以此來(lái)增強(qiáng)對(duì)小目標(biāo)的語(yǔ)義提取和檢測(cè)精度. 注意力模塊如圖2 所示, 采用先加入通道域注意力再加入空間域注意力的方式, 在卷積層的每一層網(wǎng)絡(luò)之間都嵌入一個(gè)封裝好的注意力模塊.

(3)沿用Mask R-CNN 的模型架構(gòu), 針對(duì)Mask 分支進(jìn)行改進(jìn), 對(duì)Mask 生成器進(jìn)行生成對(duì)抗的生成器預(yù)訓(xùn)練. 初始操作是對(duì)輸入圖像中物體的信息進(jìn)行表達(dá)和融合, 這個(gè)過(guò)程中CNN[5]模塊充當(dāng)特征提取網(wǎng)絡(luò),對(duì)輸入圖像進(jìn)行特征提取, 生成特征圖. FPN 主要是減少尺度變換誤差. 之后候選區(qū)域生成網(wǎng)絡(luò) (RPN)根據(jù)預(yù)設(shè)框進(jìn)行候選區(qū)域的推薦, 輸出經(jīng)過(guò)篩選的正樣本回歸框和特征圖.

2.2 注意力機(jī)制的實(shí)現(xiàn)

AG-Mask R-CNN 的注意力模塊如圖2, 采用先加入通道域注意力再加入空間域注意力的方式, 并且將CBAM[6]嵌入到ResBlock. 這樣連接的方式不僅保證了通道注意力和空間注意力的有效應(yīng)用, 同時(shí)保留殘差連接, 有效加速模型的收斂, 保證訓(xùn)練的效率. 注意力模塊詳細(xì)架構(gòu)圖[7]如圖3, 在注意力模塊中, 感知分支通過(guò)接收特征提取器的注意圖和特征圖, 輸出每個(gè)類(lèi)的最終概率. VGGNet、ResNet 等圖像分類(lèi)模型的傳統(tǒng)頂層感知分支結(jié)構(gòu)相同, 如圖3(c). 使用式(1)和式(2)兩種注意力機(jī)制中的一種將注意圖應(yīng)用到特征圖中.gc(Xi)是特征提取器上的特征映射,M(Xi)是一個(gè)注意映射,g′c(Xi)是注意感知分支的輸出. 多任務(wù)學(xué)習(xí)的ABN 機(jī)理如圖3(a), {C| 1, …,C}是通道的索引.

圖2 注意力模塊示意圖[6]

圖3 注意力模塊詳細(xì)架構(gòu)圖[7]

式(1)是一個(gè)簡(jiǎn)單的點(diǎn)積之間的關(guān)注和特征圖譜在特定頻道的乘積. 相比之下, 式(2)可以在峰值突出特征映射的注意力圖, 而防止注意力圖上特征權(quán)值較低的區(qū)域退化為零. 可以通過(guò)在兩個(gè)分支機(jī)構(gòu)使用損失進(jìn)行端到端的訓(xùn)練, 訓(xùn)練損失函數(shù)L(Xi)=Latt(Xi)+Lper(Xi), 即注意分支和感知分支損失的簡(jiǎn)單總和.

通道域注意力公式如式(3),AvgPool和MaxPool分別表示平均池化和最大池化,F表示輸入的特征圖,W0和W1均表示通道注意力模型的權(quán)重矩陣,Mc(F)表示生成最終的通道注意力特征. 在通道注意力模塊中,每個(gè)通道的特征代表一個(gè)特殊的檢測(cè)器, 它會(huì)更關(guān)注那些對(duì)圖像判別有意義的區(qū)域, 并幫助網(wǎng)絡(luò)學(xué)習(xí)這些特征.

空間域注意力公式如式(4),f7×7表示在拼接后的特征圖上做7×7 的卷積,Ms(F)表示最終生成的空間注意力特征. 圖4 為通道域注意力與空間域注意力模塊結(jié)構(gòu)圖.

圖4 通道域注意力與空間域注意力

2.3 特征金字塔網(wǎng)絡(luò)的實(shí)現(xiàn)

目標(biāo)檢測(cè)在處理多尺度變化問(wèn)題時(shí)存在一些不足之處, 如小物體本身包含的像素信息較少, 在下采樣的過(guò)程中容易丟失, 為了處理這種物體大小差異十分明顯的檢測(cè)問(wèn)題, 經(jīng)典方法是利用圖像金字塔的方式進(jìn)行多尺度變化增強(qiáng), 但這樣會(huì)帶來(lái)極大的計(jì)算量. Karras 等人[8]在現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行層之間連接的修改, 提出FPN, 在不增加原始模型計(jì)算量的情況下提高小目標(biāo)檢測(cè)的性能.

FPN 的各種連接方式如圖5, 圖5(a)的連接方式會(huì)把每一個(gè)尺度的特征圖都抽取出來(lái)構(gòu)建金字塔網(wǎng)絡(luò),檢測(cè)速度慢. 圖5(b)為了保證檢測(cè)的速度, 犧牲一定的精度, 只對(duì)單一尺度的圖像進(jìn)行金字塔構(gòu)建. 圖5(c)通過(guò)卷積層特征提取后快速建立特征金字塔結(jié)構(gòu). 圖5(d)FPN 網(wǎng)絡(luò)結(jié)合這些構(gòu)建方式的優(yōu)點(diǎn), 兼顧尺度變換與特征學(xué)習(xí)的速度. 特征金字塔網(wǎng)絡(luò)由自底向上和自頂向下兩個(gè)操作組成. 自底向上的操作是前向傳播卷積神經(jīng)網(wǎng)絡(luò)的主要部分, 計(jì)算一個(gè)縮放步長(zhǎng)為2 的特征層,得到每個(gè)階段的最后一層特征. 自頂向下加入了橫向連接, 對(duì)圖像進(jìn)行上采樣的操作, 得到語(yǔ)義特征更強(qiáng)的圖像. FPN 在對(duì)圖像特征構(gòu)建時(shí)的兩個(gè)處理過(guò)程如圖6.

圖5 FPN 各種連接方法對(duì)比圖[3]

圖6 FPN 網(wǎng)絡(luò)處理過(guò)程圖

2.4 生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)是一種使用對(duì)抗競(jìng)爭(zhēng)思想的神經(jīng)網(wǎng)絡(luò), 生成器[9]就是在多輪次(epoch)的訓(xùn)練中學(xué)習(xí)真實(shí)的文本向量或圖像的分布規(guī)律. 網(wǎng)絡(luò)將這種規(guī)律和一個(gè)隨機(jī)噪聲進(jìn)行特征映射, 根據(jù)學(xué)習(xí)到的特征生成一個(gè)新的圖像或文本向量. 而判別器主要是判斷輸入的向量是屬于真實(shí)的數(shù)據(jù)集還是生成器生成的噪聲向量.訓(xùn)練的過(guò)程中, 兩個(gè)模型都會(huì)進(jìn)行學(xué)習(xí), 生成器會(huì)生成更真實(shí)的噪聲混合在真實(shí)的數(shù)據(jù)中送入判別器. 而競(jìng)爭(zhēng)的過(guò)程中, 判別器鑒別真假的能力也逐步提升. AGMask R-CNN 應(yīng)用Mask 分支網(wǎng)絡(luò)為生成器, 加入一個(gè)判別器, 來(lái)判斷Mask 是否為真, 進(jìn)行對(duì)抗訓(xùn)練, 以提高M(jìn)ask 分支所生成掩碼的精準(zhǔn)度.

如圖7 所示, 首先需要一個(gè)憑空捏造圖片的生成器, 還有一個(gè)判斷青蛙圖片是否為真的判別器. 生成器接受一個(gè)1 000 維的隨機(jī)生成的數(shù)組, 輸出一個(gè)64×64×3通道的圖片數(shù)據(jù). 判別器輸入64×64×3 的圖片, 輸出數(shù)1 或者0, 代表圖片是否是青蛙. 隨后真圖與假圖進(jìn)行拼接, 打上標(biāo)簽, 真圖標(biāo)簽是1, 假圖標(biāo)簽是0, 送入訓(xùn)練的網(wǎng)絡(luò). 所有生成對(duì)抗網(wǎng)絡(luò)的核心內(nèi)容就是將生成器與判別器進(jìn)行連接, 而本文用于生成器強(qiáng)化訓(xùn)練,因此要設(shè)置判別器參數(shù)不進(jìn)行修改, 只在訓(xùn)練時(shí)對(duì)生成器網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)整.

圖7 生成對(duì)抗網(wǎng)絡(luò)生成假圖

3 數(shù)據(jù)集

所用數(shù)據(jù)集為從DIOR, DOTA, NWPU 數(shù)據(jù)集中挑選出的飛機(jī)、船只、島嶼、海岸線圖片作為自己的原始數(shù)據(jù)集, 其中船舶7 000 張, 飛機(jī)7 000 張, 島嶼4 000 張、海灘3 700 張. 均以256×256 的像素大小作為標(biāo)準(zhǔn)的網(wǎng)絡(luò)輸入.

圖8 為用于網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集樣本的部分圖片, 不包含標(biāo)注文件, 直接選取圖片用labelme 進(jìn)行標(biāo)注. 而且原圖存在像素不一、目標(biāo)區(qū)域所占比例不同等問(wèn)題,需要進(jìn)行初始裁剪去除多余的背景區(qū)域, 并將含有目標(biāo)的區(qū)域切割成符合網(wǎng)絡(luò)輸入的256×256 大小的圖片.

圖8 用于網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集樣本

遙感圖像背景環(huán)境復(fù)雜, 加上圖像本身存在的一些無(wú)意義噪聲, 斑點(diǎn)白化等瑕疵, 直接進(jìn)行預(yù)測(cè)效果勢(shì)必很差. 因此需要對(duì)已經(jīng)標(biāo)注的數(shù)據(jù)集進(jìn)行平滑、去噪、濾波等降噪處理. 除此以外, 遙感圖像中的目標(biāo)與一般目標(biāo)檢測(cè)中的汽車(chē)、船的方向和尺度有很大差別, 因此需要對(duì)遙感圖像做拉伸, 旋轉(zhuǎn), 高斯變換, 亮度提升, 去云等數(shù)據(jù)增強(qiáng)的操作, 一方面擴(kuò)大數(shù)據(jù)集, 另一方面豐富多角度目標(biāo)信息. 由于輸入數(shù)據(jù)中有相當(dāng)一部分?jǐn)?shù)據(jù)存在尺度分配不平衡的情況, 需要對(duì)圖像上的大小目標(biāo)進(jìn)行分析,對(duì)小目標(biāo)進(jìn)行過(guò)采樣和復(fù)制等操作, 提高其檢測(cè)效率.

考慮到數(shù)據(jù)增強(qiáng)的工作量和效率問(wèn)題, 選擇了imageaug 數(shù)據(jù)增強(qiáng)庫(kù), 為了更符合實(shí)際的訓(xùn)練場(chǎng)景, 只對(duì)數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)進(jìn)行隨機(jī)的角度變換和仿射變換, 并隨機(jī)組合高斯模糊、均值模糊、中值模糊. 其中隨機(jī)的比例維持在45%, 可以確保數(shù)據(jù)集中超過(guò)90%的數(shù)據(jù)被再處理. 圖9 為數(shù)據(jù)集中數(shù)據(jù)增強(qiáng)的結(jié)果.

圖9 訓(xùn)練數(shù)據(jù)集增強(qiáng)后的圖片

4 模型訓(xùn)練和結(jié)果分析

圖10 為AG-Mask R-CNN 訓(xùn)練流程圖. 模型訓(xùn)練流程如下.

圖10 AG-Mask R-CNN 模型訓(xùn)練流程圖

(1)輸入訓(xùn)練樣本數(shù)據(jù)集, 對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理與數(shù)據(jù)增強(qiáng)操作.

(2)將增強(qiáng)后的數(shù)據(jù)集送入骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練, 調(diào)整每一層神經(jīng)元節(jié)點(diǎn)對(duì)應(yīng)的權(quán)重參數(shù), 以及獲得最終輸出的特征圖.

(3)對(duì)步驟(2)中獲得的特征圖做區(qū)域推薦操作,將結(jié)果傳入?yún)^(qū)域推薦網(wǎng)絡(luò)中進(jìn)行正負(fù)樣本的分類(lèi)以及邊界框的回歸. 過(guò)濾掉一些不符合條件的候選框.

(4) 對(duì)步驟(3) 中得到的候選區(qū)域執(zhí)行雙線性插值, 即RoI Align 操作.

(5)對(duì)步驟(4)中得到的候選區(qū)域做目標(biāo)分類(lèi)、邊界框回歸以及遙感目標(biāo)的掩碼生成, 其中Mask 分支添加生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu), 在Mask 生成器中添加一層判別器以提升Mask 生成的精確度.

模型參數(shù)設(shè)置如表1 所示: STEPS_PER_EPOCH表示AG-Mask R-CNN 每一輪迭代的步數(shù). 更大的VALIDATION_STEPS 可以提高驗(yàn)證統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性. BACKBONE 是骨干網(wǎng)體系結(jié)構(gòu), 支持的值為ResNet50、ResNet101. RPN_ANCHOR_SCALES 表示正方形錨邊的長(zhǎng)度. RPN_ANCHOR_RATIOS 表示的是每個(gè)單元的錨固比, 值為1 表示方形錨定, 值為0.5表示寬錨定. RPN_NMS_THRESHOLD 是過(guò)濾RPN 建議的非最大抑制閾值. RPN_TRAIN_ANCHORS_PER_IMAGE 表示每個(gè)圖像有多少錨用于RPN 訓(xùn)練.DETECTION_MIN_CONFIDENCE 是檢測(cè)置信度.LEARNING_RATE 表示學(xué)習(xí)率.

表1 AG-Mask R-CNN 模型參數(shù)表

AG-Mask R-CNN 在訓(xùn)練過(guò)程中會(huì)存在一定的波動(dòng)性, 其結(jié)果不會(huì)因?yàn)槭褂孟嗤挠?xùn)練參數(shù)而相同, 因此為了使實(shí)驗(yàn)結(jié)果更具備說(shuō)服力, 以及考慮到整個(gè)實(shí)驗(yàn)過(guò)程對(duì)GPU 算力資源的要求, 實(shí)驗(yàn)方法中會(huì)用到遷移學(xué)習(xí)來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò). 實(shí)現(xiàn)步驟主要是在訓(xùn)練遙感檢測(cè)數(shù)據(jù)集之前先加載預(yù)訓(xùn)練的COCO 權(quán)重, 以此來(lái)加速模型的收斂, 同時(shí)也可以一定程度上避免過(guò)擬合.

AG-Mask R-CNN 的頭部網(wǎng)絡(luò)訓(xùn)練需要30 個(gè)輪次, 訓(xùn)練初始階段采用隨機(jī)初始化, 其優(yōu)勢(shì)在于可以打破一些預(yù)訓(xùn)練的特征, 因此在頭部網(wǎng)絡(luò)訓(xùn)練時(shí), 需要凍結(jié)網(wǎng)絡(luò)其他的層. 頭部網(wǎng)絡(luò)訓(xùn)練完成后, 需要微調(diào)除了頭部網(wǎng)絡(luò)之外其他網(wǎng)絡(luò)層的參數(shù). 遙感檢測(cè)數(shù)據(jù)集在輸入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練時(shí), 剛開(kāi)始需要將學(xué)習(xí)率設(shè)置得盡量小, 以免凍結(jié)層的卷積核發(fā)生較大的變化. 通過(guò)實(shí)驗(yàn)發(fā)現(xiàn), 將學(xué)習(xí)率設(shè)置成0.001 時(shí)損失函數(shù)曲線收斂更快.

全連接層訓(xùn)練完成后, 接下來(lái)再做微調(diào)訓(xùn)練, 規(guī)則是每過(guò)10 個(gè)輪次, 學(xué)習(xí)率會(huì)減少一半. 通過(guò)觀察, 模型會(huì)在第35 個(gè)輪次過(guò)擬合, 而第32 個(gè)輪次損失還在下降, 因此訓(xùn)練輪次被設(shè)定為30 輪. AG-Mask R-CNN 在訓(xùn)練過(guò)程中會(huì)凍結(jié)一部分層及其對(duì)應(yīng)的參數(shù), 防止網(wǎng)絡(luò)出現(xiàn)嚴(yán)重的過(guò)擬合線性.

圖11 為AG-Mask R-CNN 損失函數(shù)曲線圖, 圖中共有5 種損失, 分別是rpn_bbox_loss、rpn_class_loss、mrcnn_class_loss、mrcnn_bbox_loss、mrcnn_mask_loss.loss 是總的損失函數(shù)曲線, 橫坐標(biāo)為訓(xùn)練的輪次. 從圖中可以看出, 損失函數(shù)最終是收斂狀態(tài), 說(shuō)明模型訓(xùn)練是成功的. 但訓(xùn)練過(guò)程中會(huì)出現(xiàn)一些波動(dòng)的情況, 原因可能在于處理時(shí)批次大小設(shè)置過(guò)小, 但是不影響模型整體收斂.

圖11 AG-Mask R-CNN 網(wǎng)絡(luò)損失圖

圖12 為添加了注意力機(jī)制后注意力在圖片上的可視化熱力圖, 顏色越深表示該區(qū)域在網(wǎng)絡(luò)中占的權(quán)值更大, 也就意味著對(duì)該區(qū)域的學(xué)習(xí)超過(guò)其他區(qū)域. 從圖中可看出, 注意力模塊對(duì)于數(shù)據(jù)集中目標(biāo)的關(guān)注多于背景, 一定程度上對(duì)局部區(qū)域的關(guān)注可以增加網(wǎng)絡(luò)的學(xué)習(xí)效率, 進(jìn)而對(duì)最后的檢測(cè)結(jié)果有一定的提升.

圖12 AG-Mask R-CNN 注意力通道可視化圖層

圖13 為AG-Mask R-CNN 網(wǎng)絡(luò)中64 個(gè)通道的可視化圖, 第1 行從左到右分別是原圖, 第一通道Tensor(張量)轉(zhuǎn)換的可視化圖以及第二通道Tensor 轉(zhuǎn)換的可視化圖, 在卷積神經(jīng)網(wǎng)絡(luò)中, 均以張量為計(jì)算輸入的標(biāo)準(zhǔn); 第2 行為最大池化層的可視化圖, 池層保留了樣本的主要特征, 可以減少參數(shù)的個(gè)數(shù)和過(guò)擬合; 第3 行是卷積層的可視化. 卷積過(guò)程中所有的參數(shù)是共享的. 從圖中可以清楚地看出, 卷積核能夠在不同位置保留相同的特征.

圖13 AG-Mask R-CNN 卷積通道可視化圖

圖14 為部分生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練集圖片, 圖15為對(duì)Mask 分支網(wǎng)絡(luò)作為生成器單獨(dú)訓(xùn)練時(shí), 生成器生成的飛機(jī)掩碼, 原始的訓(xùn)練集就是標(biāo)注過(guò)的Mask 數(shù)據(jù). 這里以飛機(jī)掩碼生成為例, 共訓(xùn)練10000 個(gè)輪次,直到判別器將生成器生成的掩碼判別為真. 由圖可得,生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)中空間收斂具有強(qiáng)烈的不穩(wěn)定性,初始的生成幾乎看不出掩碼的輪廓形狀, 經(jīng)過(guò)大規(guī)模的訓(xùn)練后, 基本形狀可以生成, 但是空間的不平衡很容易導(dǎo)致生成對(duì)抗網(wǎng)絡(luò)崩潰. 在實(shí)驗(yàn)過(guò)程中分別對(duì)生成器和判別器的學(xué)習(xí)參數(shù)進(jìn)行了True 和False 的設(shè)置,有兩次訓(xùn)練過(guò)程中, 網(wǎng)絡(luò)崩潰, 特征未收斂, 這也有可能是導(dǎo)致后續(xù)將Mask 分支加入主干網(wǎng)絡(luò)后, 對(duì)掩碼的生成準(zhǔn)確度并沒(méi)有質(zhì)的提升的原因.

圖14 AG-Mask R-CNN 生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練Mask 數(shù)據(jù)

圖15 AG-Mask R-CNN 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)生成掩碼可視化

圖16 為測(cè)試集部分圖片的檢測(cè)結(jié)果, 從檢測(cè)結(jié)果來(lái)看, 船只的檢測(cè)效果最好, 錨框大小很符合船只目標(biāo),掩碼形狀也基本與目標(biāo)重合. 對(duì)于島嶼和海灘這類(lèi)目標(biāo)而言, 由于本身在樣本中占圖片比例很大, 邊緣特征也更易于學(xué)習(xí), 檢測(cè)效果也相對(duì)較好, 以上均為置信度為0.9 以上的檢測(cè)框. 而飛機(jī)圖片目標(biāo)的檢測(cè)效果并不理想, 檢測(cè)框有的時(shí)候會(huì)覆蓋整張圖片, 并且由于加入了負(fù)樣本, 除了有一定的邊角目標(biāo)漏檢, 還會(huì)在不含有目標(biāo)的負(fù)樣本中進(jìn)行錯(cuò)誤識(shí)別. 圖中的結(jié)果顯示掩碼在飛機(jī)目標(biāo)圖片的生成上也不能完全覆蓋目標(biāo)形狀.推測(cè)是目標(biāo)輪廓過(guò)于復(fù)雜, 且飛機(jī)圖片中目標(biāo)所占比例很小, 這使得尺度小并且輪廓復(fù)雜目標(biāo)的特征不易被網(wǎng)絡(luò)學(xué)習(xí), 從而也會(huì)影響到后續(xù)Mask 的生成. 為了解決飛機(jī)目標(biāo)檢測(cè)效果差的問(wèn)題, 重新標(biāo)注了一部分飛機(jī)數(shù)據(jù)集(300 張), 這次的方式是對(duì)飛機(jī)進(jìn)行矩形框標(biāo)注, 而不是采用一開(kāi)始的精確輪廓標(biāo)注. 在將數(shù)據(jù)集進(jìn)行10 倍增強(qiáng)后放入網(wǎng)絡(luò), 測(cè)試效果提升不明顯, 雖然在檢測(cè)框上精度有所提高, 但Mask 的生成依然存在和之前一樣的問(wèn)題.

圖16 AG-Mask R-CNN 部分檢測(cè)效果圖

圖17 為初始Mask R-CNN 模型在用同樣的數(shù)據(jù)集訓(xùn)練后在測(cè)試集上的檢測(cè)效果圖, 可以直觀地看出初始模型在特定任務(wù)上的檢測(cè)效果并不理想, 對(duì)于一些比較明顯的目標(biāo)不僅沒(méi)有辦法正確檢測(cè), 檢測(cè)出來(lái)的目標(biāo)框也并不接近目標(biāo)大小, 掩碼方面也不能完整地勾畫(huà). 而AG-Mask R-CNN 無(wú)論在目標(biāo)檢測(cè)的位置、目標(biāo)框的大小, 還是在掩碼的精度上都明顯強(qiáng)于Mask R-CNN.

圖17 Mask R-CNN 部分檢測(cè)效果圖

表2 是模型在準(zhǔn)確率、召回率等方面與Mask RCNN、Faster R-CNN 等基準(zhǔn)模型的對(duì)比. Precision 代表準(zhǔn)確率, Recall 代表召回率,F2 指數(shù)為Recall 占比2,mAP 為所有類(lèi)別AP 的平均值(以VOC mAP 計(jì)算方式為準(zhǔn)). 通過(guò)表2可知, 基準(zhǔn)模型YOLOv4 與SSD 在該任務(wù)上表現(xiàn)略差, 原因在于兩者都是一階段檢測(cè)器,更加注重檢測(cè)的性能, 所以在查全率和查準(zhǔn)率上表現(xiàn)略微差于二階段檢測(cè)器. 傳統(tǒng)的二階段檢測(cè)器如Faster R-CNN 在該任務(wù)上表現(xiàn)一般, 略差于Mask R-CNN.Mask R-CNN 在使用ResNet101 作為骨干網(wǎng)絡(luò)的前提下, 無(wú)論在Precision 還是Recall 上都優(yōu)于使用ResNet50,模型檢測(cè)的Precision 與Recall 分別為90.34 與87.88,原因在于ResNet101 的網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜, 在該類(lèi)任務(wù)上對(duì)于特征的提取能力強(qiáng)于ResNet50.

表2 基準(zhǔn)模型對(duì)比(%)

為了分析注意力模塊與生成對(duì)抗網(wǎng)絡(luò)對(duì)模型產(chǎn)生的影響, 將這兩種機(jī)制分別加入到基準(zhǔn)模型并進(jìn)行了對(duì)比實(shí)驗(yàn). 表3 的實(shí)驗(yàn)結(jié)果表明, 在骨干網(wǎng)絡(luò)相同的情況下, 模型在單獨(dú)加入注意力模塊與單獨(dú)加入生成對(duì)抗網(wǎng)絡(luò)時(shí), 檢測(cè)精度均存在一定的提升. 前者的加入給模型帶來(lái)了1%左右的mAP 提升, 后者的加入給模型帶來(lái)了小幅度的AP 提升. 最后一組是AG-Mask R-CNN實(shí)驗(yàn)結(jié)果, 由于使用ResNet101 作為骨干網(wǎng)絡(luò), 并同時(shí)嵌入注意力機(jī)制與生成對(duì)抗網(wǎng)絡(luò), 因此在同類(lèi)任務(wù)上表現(xiàn)最優(yōu), 達(dá)到了92.22%的檢測(cè)精度.

表3 AG-Mask R-CNN 與基準(zhǔn)模型加不同模塊對(duì)比(%)

通過(guò)對(duì)比實(shí)驗(yàn)可見(jiàn), 本模型在加入生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)后, 效果并沒(méi)有非常顯著的提升, 可能原因是, 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)想生成一個(gè)判別器判斷為真的目標(biāo)掩碼圖片時(shí), 可能需要上千輪次訓(xùn)練, 而本文因設(shè)備限制只訓(xùn)練了100 輪, 也沒(méi)有在空間上進(jìn)行收斂, 還有就是在RoI 階段的錨框定位也會(huì)影響后續(xù)mask 的生成, 因此mask 分支的改進(jìn)對(duì)模型精度的提高效果并不明顯,這也是模型今后可以改進(jìn)的方向.

5 結(jié)束語(yǔ)

基于注意力及生成對(duì)抗網(wǎng)絡(luò)的遙感影像目標(biāo)檢測(cè)模型AG-Mask R-CNN, 在目標(biāo)檢測(cè)框架Mask R-CNN的基礎(chǔ)上引入注意力機(jī)制和生成對(duì)抗網(wǎng)絡(luò). 提出用于檢測(cè)小目標(biāo)的注意力機(jī)制方案, 將注意力模塊添加到骨干網(wǎng)絡(luò)ResNet101 中, 給整個(gè)算法模型帶來(lái)一部分性能上的提升. 采用特征金字塔來(lái)對(duì)各個(gè)尺寸大小的目標(biāo)進(jìn)行特征提取, 在模型中加入了生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)預(yù)訓(xùn)練Mask 分支. 實(shí)驗(yàn)結(jié)果表明, 生成對(duì)抗網(wǎng)絡(luò)的加入對(duì)模型檢測(cè)精度的提升帶來(lái)正面的提升. 在經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的遙感圖像數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明, AGMask R-CNN 模型對(duì)航空遙感目標(biāo)影像的檢測(cè)識(shí)別具有更好的表現(xiàn).

猜你喜歡
注意力圖像特征
讓注意力“飛”回來(lái)
抓特征解方程組
不忠誠(chéng)的四個(gè)特征
A、B兩點(diǎn)漂流記
A Beautiful Way Of Looking At Things
名人語(yǔ)錄的極簡(jiǎn)圖像表達(dá)
一次函數(shù)圖像與性質(zhì)的重難點(diǎn)講析
趣味數(shù)獨(dú)等4則
春天來(lái)啦(2則)
抓特征 猜成語(yǔ)
东安县| 北京市| 永修县| 缙云县| 乐都县| 义马市| 凌海市| 汕头市| 久治县| 安图县| 自贡市| 武定县| 托克逊县| 卢湾区| 永春县| 商河县| 高青县| 泰兴市| 安徽省| 霍林郭勒市| 阳西县| 安图县| 互助| 巴楚县| 桃源县| 锡林郭勒盟| 论坛| 鹤壁市| 禄丰县| 南通市| 牟定县| 锡林郭勒盟| 陕西省| 平阳县| 汤阴县| 利川市| 谢通门县| 响水县| 彩票| 措美县| 永善县|