国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Mask RCNN在霧化背景下的船舶流量檢測

2020-12-15 04:55:56聶振鋼任靜盧繼華
關(guān)鍵詞:候選框掩碼準(zhǔn)確度

聶振鋼, 任靜,盧繼華

(北京理工大學(xué) 信息與電子學(xué)院,北京 100081)

海洋中環(huán)境復(fù)雜多變導(dǎo)致海洋作業(yè)困難,船舶流量監(jiān)控對于海上探測、目標(biāo)識別以及海域搜救等而言意義重大,對于其他海上事務(wù)也有非常好的應(yīng)用前景. 大量的航拍圖片若依靠人工判斷,既耗時(shí)又耗力,準(zhǔn)確率還低. 非機(jī)器學(xué)習(xí)的經(jīng)典檢測方法在準(zhǔn)確率、含噪圖像識別以及檢測結(jié)果可靠性等方面已有較多研究[1-3],然而取得的突破性進(jìn)展少,難以為復(fù)雜海域船舶流量識別提供有效方法. 隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[4-7]的出現(xiàn)及其所依托的計(jì)算能力不斷發(fā)展,圖像識別逐漸由目標(biāo)檢測[8]、語義分割[9]發(fā)展到實(shí)例分割,并實(shí)現(xiàn)了像素層面的目標(biāo)定位. 空間金字塔池化(spatial pyramid pooling,SPP)[8]已成為所述網(wǎng)絡(luò)成功實(shí)現(xiàn)準(zhǔn)確率突破的重要技術(shù)基礎(chǔ),廣泛應(yīng)用于Fast RCNN[10]、Faster RCNN[11]以及Mask RCNN模型中. 輸入圖片在SPP中經(jīng)卷積后生成特征圖,接著經(jīng)過一個(gè)多尺度池化結(jié)構(gòu)生成新的特征圖進(jìn)行了多尺度池化避免對每一個(gè)感興趣區(qū)域(region of interest,ROI)進(jìn)行卷積,從而降低卷積運(yùn)算量. 再將各尺度池化得到的特征輸入到全連接層進(jìn)行類別判斷. Fast RCNN結(jié)構(gòu)與SPP相比,有如下兩處改進(jìn):①將SPP中ROI的多尺度池化變?yōu)閱纬叨瘸鼗虎谧詈笠粚蛹せ詈瘮?shù)softmax變?yōu)閮蓚€(gè):一個(gè)用于目標(biāo)分類,另一個(gè)用于微調(diào)邊界框. Fast RCNN不再需要硬盤存儲數(shù)據(jù)交換的中間變量,極大提高了網(wǎng)絡(luò)的訓(xùn)練與測試速度. Faster RCNN將生成候選框整合入Fast RCNN模型中,取名為區(qū)域生成網(wǎng)絡(luò)(regional proposal networks,RPN),RPN與后續(xù)檢測共享特征提取網(wǎng)絡(luò)的結(jié)果. RPN通過神經(jīng)網(wǎng)絡(luò)與多次非極大值抑制可以很好地給出潛在目標(biāo)區(qū)域的預(yù)測,從而達(dá)到較好的準(zhǔn)確率. Faster RCNN的改進(jìn):掩碼區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask region- convolutional neural network,Mask RCNN)[12]是實(shí)例分割的代表,且已被證明在COCO及ImageNet數(shù)據(jù)集上識別準(zhǔn)確度高于現(xiàn)有算法. Mask RCNN模型的典型應(yīng)用包括醫(yī)學(xué)圖像分割[13]及車道線檢測等[14].

在模型組成方面,Mask RCNN模型中的特征提取網(wǎng)絡(luò)及特征金字塔網(wǎng)絡(luò)通過空間金字塔池化獲取特征及特征圖,最主要的通過引入Mask分支生成候選框及邊界框,而二者又分別繼承了Faster RCNN和Fast RCNN的技術(shù)優(yōu)勢. 本文基于Mask RCNN模型對航拍圖像海上船只目標(biāo)進(jìn)行定位并檢測,改善了霧化圖像難以識別的問題,使得船只數(shù)量及位置識別的準(zhǔn)確率都達(dá)到了較高水平.

1 用于船舶檢測的Mask RCNN模型

基于Mask RCNN模型的船舶檢測示意如圖1所示. 圖1中Mask RCNN模型的處理過程包括括讀取數(shù)據(jù)并處理、特征提取網(wǎng)絡(luò)提取特征、特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)獲取特征圖、RPN網(wǎng)絡(luò)提取感興趣區(qū)域并生成候選框、劃分類別和邊界框以及Mask分支幾部分.

讀取數(shù)據(jù)并處理得到輸入數(shù)據(jù)流,具體為:讀取標(biāo)注文件,生成包含圖片名稱、存儲路徑以及標(biāo)注信息的圖像信息字典;確認(rèn)圖片的存儲路徑正確,圖片分辨率與預(yù)設(shè)相符合,預(yù)處理后的圖片存入圖像信息字典.

特征提取網(wǎng)絡(luò)提取特征,具體為:經(jīng)特征提取網(wǎng)絡(luò)的Stage1到Stage5得特征C1~C5. 其中,Stage1對輸入圖片進(jìn)行Zero padding即補(bǔ)0;經(jīng)過步長為2、大小為7×7的卷積核conv,經(jīng)conv卷積之后進(jìn)行批正則化BN加快收斂,再經(jīng)relu激活函數(shù)以及max pooling減少參數(shù)量和過擬合可能. Stage2到Stage5的結(jié)構(gòu)均為conv block后跟若干identity block,Stage4中的identity block數(shù)量為22個(gè);其中,identity block與conv block的差異是identity block特征圖維度無變化,即identity block不需要在相加前對輸入進(jìn)行下采樣操作. 從Stage1到Stage5的每一層都會輸出相應(yīng)的特征圖,且每經(jīng)過一個(gè)Stage,特征圖的尺寸都會減少1/2;特征提取網(wǎng)絡(luò)輸出C1~C5,是5個(gè)不同大小、不同信息量以及不同目標(biāo)位置準(zhǔn)確度的特征圖,每個(gè)特征圖包含的目標(biāo)信息量更加豐富,然而目標(biāo)位置信息會更模糊.

FPN獲取特征圖,具體為:C1~C5輸入特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)處理后獲得特征圖P2~P6,進(jìn)入RPN獲得邊界預(yù)測,最后輸出邊界框劃分、分類以及掩碼預(yù)測. 具體為:利用上采樣和側(cè)邊連接生成新的融合各尺度信息的新的特征圖并輸出P2~P6.

RPN網(wǎng)絡(luò)提取感興趣區(qū)域,具體為:首先,RPN在每個(gè)特征點(diǎn)上生成不同比例和大小的感興趣區(qū)域(regional of interest,ROI);并對這些ROI進(jìn)行初步分類,然后通過前景分?jǐn)?shù)和極大度值抑制篩選出可信度較高的區(qū)域,生成候選框.

最后,圖1中的ROIAlign將根據(jù)篩選及生成的候選框從原特征圖中重新提取ROI且統(tǒng)一大小,對于每一個(gè)提取出來的ROI,Mask分支通過全卷積預(yù)測每一個(gè)像素是否屬于該目標(biāo),全連接分支預(yù)測每個(gè)ROI中目標(biāo)所屬的類別和邊界框,最后根據(jù)預(yù)設(shè)的分?jǐn)?shù)閾值將置信度不高的目標(biāo)剔除掉并輸出所有大于預(yù)設(shè)置信度的預(yù)測目標(biāo).

2 基于Mask RCNN的船舶位置檢測

在船舶檢測時(shí),輸入圖像的長和寬都不能超過1 024;輸出檢測結(jié)果,包含預(yù)測目標(biāo)的可信度和位置;其中,位置通過邊界框和掩碼表示.

2.1 基于數(shù)據(jù)集的預(yù)處理

數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集,共包含圖片分辨率為768×768的8 992張圖片. 其中,訓(xùn)練集和驗(yàn)證集的包含圖片的數(shù)量是6 329和2 663,使用VGG圖片標(biāo)注工具(VGG image annotator,VIA)對數(shù)據(jù)進(jìn)行標(biāo)注,具體記錄了圖片名稱、分辨率、各個(gè)目標(biāo)的面積、位置的RLE編碼以及為每一張圖片和標(biāo)注目標(biāo)分配唯一的ID.

2.2 Mask RCNN模型的訓(xùn)練

① 讀取霧化圖片及標(biāo)注信息;依據(jù)標(biāo)注文件獲取所有圖片的ID,再根據(jù)圖片ID提取所有標(biāo)注信息,為每一張圖片建立一個(gè)信息字典,該字典包含由圖片文件夾路徑和文件名生成的圖片的絕對路徑以及標(biāo)注信息. 接下來,根據(jù)字典的ID依次讀取每張圖片的字典,獲取圖片的各種信息并進(jìn)行相應(yīng)處理,包括讀取圖片信息(見圖2(a))并將圖片信息轉(zhuǎn)化成一個(gè)固定大小的三維數(shù)組,讀取圖片的每一個(gè)標(biāo)注信息,并進(jìn)行解碼轉(zhuǎn)化成與圖片大小相同的二進(jìn)制掩碼數(shù)組,即目標(biāo)掩碼位置區(qū)域(見圖2(b)2(c)),再根據(jù)該掩碼計(jì)算邊界框位置.

② 進(jìn)行特征提取及融合;將數(shù)據(jù)輸入特征提取網(wǎng)絡(luò)ResNet101進(jìn)行特征提取,先生成32×32、64×64、128×128、256×256以及512×512的特征圖. 并放棄512×512特征圖. FPN對大小為32×32的特征圖多進(jìn)行一次最大池化生成一個(gè)尺度特征圖.

③ 生成并篩選候選框;FPN得到特征圖后,依據(jù)像素點(diǎn)按長寬比為0.5、1和2生成anchor框. 再通過前景、背景得分篩選以及非極大值抑制得到預(yù)設(shè)數(shù)量的候選框. 計(jì)算候選框和目標(biāo)重疊度(intersection over union,IOU)值對anchor框進(jìn)一步篩選得到的候選框. 各層級特征圖的大小及生成的各類anchor框總數(shù)如表1所示.

表1 各層特征圖形狀與生成anchor框總數(shù)

某像素點(diǎn)在特征圖上生成的anchor框在實(shí)際圖片上的映射如圖3所示.

圖4是一張圖片所生成的各類anchor框,從左往右依此是Positive anchors、Negative anchors以及Neutral anchors. 所述分類標(biāo)準(zhǔn)是與目標(biāo)box的IOU值,其閾值分別是0.7和0.3. 圖中,3種anchor框的數(shù)量分別是2、254以及261 632,且僅隨機(jī)展示了部分Negative anchors和Neutral anchors.

④ 匹配特征圖維度及基于Mask分支預(yù)測像素點(diǎn)歸屬預(yù)測;對RPN輸出的每一個(gè)anchor框進(jìn)行ROIAlign處理,獲得固定大小的針對每一個(gè)候選目標(biāo)的特征圖. 再對候選目標(biāo)特征圖進(jìn)行分類、邊界框調(diào)整以及進(jìn)行Mask分支操作,完成區(qū)域內(nèi)部每個(gè)像素點(diǎn)的歸屬預(yù)測.

圖5中,黑框?yàn)閍nchor框,對應(yīng)右邊為Mask分支處理后的輸出.

3 基于Mask RCNN模型的訓(xùn)練及測試結(jié)果

本文所述的Mask RCNN網(wǎng)絡(luò)模型訓(xùn)練與測試的服務(wù)器配置如下:i7-7820X、32 GB內(nèi)存、GPU(1080Ti)以及11 GB顯存. 2張圖片1個(gè)batch,1 000個(gè)step組成1個(gè)epoch,訓(xùn)練了82個(gè)epoch.

3.1 Mask RCNN模型的訓(xùn)練結(jié)果

在Mask RCNN網(wǎng)絡(luò)的訓(xùn)練過程中需計(jì)算預(yù)測結(jié)果和標(biāo)注值間的損失(即loss)并進(jìn)行反向傳播用于優(yōu)化模型參數(shù). 總loss如圖6(a)所示,組成總loss的五部分組成分別如圖6~圖8所示.

其中,Mask RCNN目標(biāo)邊界框調(diào)整loss如圖6(b)所示、Mask RCNN目標(biāo)分類loss如圖7(a)所示;Mask RCNN像素歸屬loss如圖7(b)所示,RPN對候選框前景背景判斷l(xiāng)oss如圖8(a)以及RPN提取的邊界框loss如圖8(b)所示. 從圖6~圖8中可看出,各loss隨epoch增加的衰減趨勢相同.

3.2 Mask RCNN模型的測試結(jié)果

針對所搭建模型的邊界框、掩碼質(zhì)量以及船只實(shí)例3種輸出,分別進(jìn)行測試并設(shè)計(jì)了檢測標(biāo)準(zhǔn),如表2所示. 針對①存在的船只被準(zhǔn)確檢測出來;②存在的船只沒有被檢測出來;③不是船只的部分當(dāng)成船只給出檢測結(jié)果. 根據(jù)這3種情況,用Positive表示預(yù)測存在的目標(biāo),Negative表示預(yù)測不存在的目標(biāo),用True表示目標(biāo)實(shí)際存在,F(xiàn)alse表示目標(biāo)實(shí)際不存在. 準(zhǔn)確率計(jì)算公式為

準(zhǔn)確率=TP/(TP+FP+TN).

(1)

式中:TP為預(yù)測正確的實(shí)例數(shù)量;FP為將錯(cuò)誤的實(shí)例預(yù)測為正確的實(shí)例的數(shù)量;TN為沒有成功預(yù)測實(shí)際存在實(shí)例的數(shù)量.

表2 目標(biāo)檢測判定邏輯

采用IOU對邊界框和掩碼質(zhì)量分別進(jìn)行檢測來測試預(yù)測的船只位置準(zhǔn)確度,然后對表2中3種情況的所有IOU取平均值,得出的測試結(jié)果如表3所示.

表3 Mask RCNN模型的測試結(jié)果表

從表3中Mask RCNN模型的測試結(jié)果可以看出,實(shí)例識別準(zhǔn)確度即船只數(shù)量的識別準(zhǔn)確率為89.86%,邊界框位置準(zhǔn)確度為85.42%,掩碼位置準(zhǔn)確度為81.04%. 在檢測過程中,漏檢的情況很少,影響實(shí)例識別準(zhǔn)確率的主要原因是將非目標(biāo)誤檢成了目標(biāo);影響邊框位置準(zhǔn)確度以及掩碼位置準(zhǔn)確度的原因比較多,比如目標(biāo)特征尤其邊緣特征的提取不夠充分、特征圖和原圖在像素點(diǎn)上的映射誤差以及RPN網(wǎng)絡(luò)提取的ROI池化為固定尺寸的位置信息損失.

4 結(jié) 論

本文將Mask RCNN模型應(yīng)用于海域衛(wèi)星圖片的船只檢測中,能夠自動檢測觀測海域中的船只數(shù)量并對其進(jìn)行定位. 基于構(gòu)建的數(shù)據(jù)集對搭建的Mask RCNN模型進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練集的表現(xiàn)以及此問題的特點(diǎn)對模型進(jìn)行修改,提高模型的檢測準(zhǔn)確度,最后用訓(xùn)練好的模型對輸入圖片進(jìn)行測試,并基于設(shè)定的IOU閾值計(jì)算標(biāo)注區(qū)域和檢測區(qū)域的IOU值對模型性能進(jìn)行定量評估. 設(shè)定IOU的閾值為0.5,當(dāng)標(biāo)注目標(biāo)和檢測目標(biāo)的IOU值大于0.5,認(rèn)為是有效檢測,計(jì)算所有IOU的平均值獲得準(zhǔn)確度. 經(jīng)測試:船只數(shù)量檢測準(zhǔn)確度89.9%,邊界框位置準(zhǔn)確度85.4%,掩碼準(zhǔn)確度81.0%. 驗(yàn)證了該模型的準(zhǔn)確性,實(shí)現(xiàn)了船只數(shù)量以及位置的高精度檢測.

猜你喜歡
候選框掩碼準(zhǔn)確度
重定位非極大值抑制算法
面向自然場景文本檢測的改進(jìn)NMS算法
基于Soft-NMS的候選框去冗余加速器設(shè)計(jì)*
低面積復(fù)雜度AES低熵掩碼方案的研究
幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
建筑科技(2018年6期)2018-08-30 03:40:54
一種針對特定目標(biāo)的提議算法
基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
動態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實(shí)意義
基于掩碼的區(qū)域增長相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
同仁县| 三穗县| 象山县| 南华县| 辰溪县| 桂阳县| 进贤县| 外汇| 揭西县| 张家港市| 彰化市| 徐闻县| 苗栗市| 龙游县| 双流县| 巍山| 青州市| 仪征市| 余江县| 新建县| 合肥市| 尤溪县| 乌拉特中旗| 北流市| 米易县| 大埔县| 莆田市| 富裕县| 阿坝| 宁武县| 遂溪县| 固安县| 罗平县| 娄底市| 灵丘县| 宣恩县| 汾西县| 高邮市| 桐乡市| 牡丹江市| 保靖县|