国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合雙注意力的深度神經(jīng)網(wǎng)絡(luò)在無(wú)人機(jī)目標(biāo)檢測(cè)中的應(yīng)用

2020-05-20 07:15占哲琦陳鵬桑永勝彭德中
現(xiàn)代計(jì)算機(jī) 2020年11期
關(guān)鍵詞:特征提取卷積注意力

占哲琦,陳鵬,桑永勝,彭德中

(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065;2.西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院,成都 610039)

0 引言

隨著無(wú)人機(jī)技術(shù)的迅速發(fā)展,無(wú)人機(jī)不僅在戰(zhàn)爭(zhēng)中扮演著越來(lái)越重要的角色,也給人們生活帶來(lái)諸多便利。但與此同時(shí),無(wú)人機(jī)的普及也對(duì)原有國(guó)家防空體系與航空安全構(gòu)成了更大的挑戰(zhàn)。例如無(wú)人機(jī)飛入禁飛區(qū)引發(fā)的安全問(wèn)題,無(wú)人機(jī)影響機(jī)場(chǎng)航班起飛之類的新聞也是頻頻出現(xiàn)。因此亟需一個(gè)智能的無(wú)人機(jī)檢測(cè)系統(tǒng),以保障軍事以及人民的生活安全。

運(yùn)動(dòng)目標(biāo)的檢測(cè)是計(jì)算機(jī)視覺(jué)研究中的熱點(diǎn)和難點(diǎn),在軍事領(lǐng)域、智能交通、安全監(jiān)控、圖像檢索、人機(jī)交互等方面有著廣闊的應(yīng)用前景。它旨在一個(gè)靜態(tài)圖像或動(dòng)態(tài)視頻中檢測(cè)出人們感興趣的目標(biāo)對(duì)象。無(wú)人機(jī)具有高機(jī)動(dòng)性、高分辨率、隱蔽性好、操作靈活等優(yōu)勢(shì),主要應(yīng)用于晝夜空中偵察、戰(zhàn)場(chǎng)監(jiān)視、戰(zhàn)場(chǎng)毀傷評(píng)估和軍事測(cè)繪領(lǐng)域。實(shí)時(shí)準(zhǔn)確地檢測(cè)出視野中的無(wú)人機(jī),給出對(duì)應(yīng)的精確坐標(biāo)和種類,能夠極大地加強(qiáng)制空領(lǐng)域的安全。

1 相關(guān)工作

1.1 目標(biāo)檢測(cè)

近年來(lái),深度學(xué)習(xí)在目標(biāo)檢測(cè)任務(wù)中展現(xiàn)出了巨大的潛力。由于卷積神經(jīng)網(wǎng)絡(luò)[1]在圖像分類上的巨大成功,文獻(xiàn)[2]提出了R-CNN 模型,使用了神經(jīng)網(wǎng)絡(luò)提取的特征代替了人工設(shè)計(jì)的特征,以此提高模型特征的泛化能力,然后結(jié)合選擇性搜索和預(yù)訓(xùn)練的支持向量機(jī),得到最終的檢測(cè)結(jié)果。由于該算法框架整體可以分為目標(biāo)區(qū)域生成和目標(biāo)區(qū)域分類與目標(biāo)框的校準(zhǔn),該算法與后續(xù)改進(jìn)算法都被稱為兩階段算法。文獻(xiàn)[3]在文獻(xiàn)[2]的基礎(chǔ)上提出了興趣區(qū)域池化層(Region of Interest pooling layer),通過(guò)這一操作直接獲取選擇性搜索結(jié)果對(duì)應(yīng)的特征,提高了卷積獲得的特征的復(fù)用性;并且使用神經(jīng)網(wǎng)絡(luò)取代了預(yù)訓(xùn)練分類器和回歸器,大大提高了速度。文獻(xiàn)[4]提出了YOLO 算法,將原圖分為若干個(gè)格子,隨后為每一個(gè)格子預(yù)測(cè)若干個(gè)目標(biāo)包圍框、置信度和分類概率。該算法通過(guò)預(yù)測(cè)大量密集的目標(biāo)框來(lái)覆蓋目標(biāo)物體,以達(dá)到直接生成結(jié)果的目的。文獻(xiàn)[5]結(jié)合了YOLO 和RPN 網(wǎng)絡(luò)提出了SSD 算法,引入了Anchor 的概念,使用全卷積網(wǎng)絡(luò)來(lái)預(yù)測(cè)預(yù)設(shè)框的變化量,降低了坐標(biāo)的擬合難度,使得單階段算法的性能達(dá)到了兩階段算法的水準(zhǔn)。

1.2 注意力機(jī)制

在深度學(xué)習(xí)的研究中,注意力機(jī)制一直是許多研究者關(guān)注的重點(diǎn)。注意力機(jī)制,最早是借鑒了人眼對(duì)于外界的觀察方式,當(dāng)人去觀察一幅圖像時(shí),會(huì)將焦點(diǎn)放到需要重點(diǎn)關(guān)注的區(qū)域,而不去關(guān)注其他的無(wú)用信息。而在深度學(xué)習(xí)中注意力機(jī)制就是將關(guān)注點(diǎn)集中在局部的信息上,從特征中選擇對(duì)任務(wù)目標(biāo)更為重要的部分。近幾年尤其是在NLP 中,注意力機(jī)制被廣泛使用。文獻(xiàn)[6]將注意力機(jī)制運(yùn)用到了文本翻譯的工作中,使用對(duì)齊模型作為分配每一個(gè)輸入特征對(duì)與輸出單詞的參數(shù)的權(quán)重,其中對(duì)齊模型可參數(shù)化為一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[7]提出了層級(jí)注意力網(wǎng)絡(luò),分別對(duì)輸入文檔的句子和單詞使用了不同級(jí)別的注意力,這樣使得模型能夠在不同層次獲得到不同級(jí)別的文本信息。文獻(xiàn)[8]則提出了Transformer 模型,使用注意力機(jī)制代替實(shí)現(xiàn)了循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)序列輸入的建模,取得了非常有效的成果。此外在計(jì)算機(jī)視覺(jué)的任務(wù),研究者也進(jìn)行了許多的注意力機(jī)制的應(yīng)用與研究。文獻(xiàn)[9]將注意力機(jī)制運(yùn)用到了圖像分類中,通過(guò)注意力模塊提高了深層特征的感受野,突出了更有利于分類的特征,在數(shù)據(jù)集上得到了更優(yōu)秀的結(jié)果。文獻(xiàn)[10]將注意力機(jī)制運(yùn)用到了圖像分割的工作中,通過(guò)注意力機(jī)制去融合不同尺度的圖像特征作為輸入,使得最終效果有了顯著的提升。文獻(xiàn)[11]則在細(xì)粒度圖像分類的研究中使用了注意力機(jī)制,讓模型聚焦到目標(biāo)最具有區(qū)分度部位上,達(dá)到同類物體精細(xì)分類的效果。

2 算法模型

單階段算法因計(jì)算速度快,非常適合需要實(shí)時(shí)的監(jiān)控場(chǎng)景,但是由于單階段的算法缺少目標(biāo)區(qū)域生成的過(guò)程,直接對(duì)整張圖片進(jìn)行特征提取和目標(biāo)框的回歸,容易受到復(fù)雜背景的影響導(dǎo)致性能下降。例如在無(wú)人機(jī)檢測(cè)的過(guò)程中,容易出現(xiàn)誤檢和錯(cuò)檢。針對(duì)這一問(wèn)題,本文基于YOLOv3 網(wǎng)絡(luò),提出融合雙注意力的單階段目標(biāo)檢測(cè)算法用于無(wú)人機(jī)目標(biāo)檢測(cè),通過(guò)通道注意力和空間注意力兩個(gè)方面對(duì)卷積網(wǎng)絡(luò)提取的特征進(jìn)行選擇,降低了復(fù)雜背景對(duì)檢測(cè)結(jié)果的影響。算法在自建的無(wú)人機(jī)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)證明,本文提出的網(wǎng)絡(luò)模型比起其他單階段的檢測(cè)算法有著更好的效果,算法流程圖如圖1 所示。

圖1 模型結(jié)構(gòu)圖

2.1 特征提取

本文使用DarkNet53[12]對(duì)圖像數(shù)據(jù)進(jìn)行特征提取。該網(wǎng)絡(luò)融入了殘差連接,解決了梯度爆炸和梯度彌散的問(wèn)題,使得網(wǎng)絡(luò)深度相較之前的網(wǎng)絡(luò)有了很大的提升,因而能夠提取到更深層次的特征。同時(shí)網(wǎng)絡(luò)在卷積層之后加入了BatchNorm 層[13],減少了每層網(wǎng)絡(luò)輸入的分布變化,加快了網(wǎng)絡(luò)的收斂。

該網(wǎng)絡(luò)中可以分為兩種模塊,一種是結(jié)合了殘差連接的兩層卷積:

該網(wǎng)絡(luò)通過(guò)上述兩種模塊的重復(fù)組合,構(gòu)造了一個(gè)用于圖像特征提取的深層網(wǎng)絡(luò)。

2.2 多尺度預(yù)測(cè)

眾所周知的是,在深度學(xué)習(xí)中,底層網(wǎng)絡(luò)提取出的特征缺乏語(yǔ)義信息,難以對(duì)特征進(jìn)行準(zhǔn)確分類,但是特征圖較大,目標(biāo)的位置準(zhǔn)確;高層網(wǎng)絡(luò)提取出的特征語(yǔ)義信息豐富,方便對(duì)目標(biāo)進(jìn)行分類,但是特征圖較小,目標(biāo)的位置很粗糙。文獻(xiàn)[14]為了解決這一問(wèn)題,提出了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network)網(wǎng)絡(luò),通過(guò)上采樣的操作將高層與底層的特征融合,同時(shí)獲得了準(zhǔn)確的位置與豐富的語(yǔ)義信息。本文算法中也采用了相似的思想,將用于檢測(cè)輸出的特征與高層特征融合,獲得了更豐富的語(yǔ)義信息,并且規(guī)定高層特征檢測(cè)大物體,低層特征用于檢測(cè)小物體,減少了位置粗糙帶來(lái)的坐標(biāo)變差的影響。

2.3 注意力模塊

本文為了改善單階段算法缺乏區(qū)域建議階段導(dǎo)致的檢測(cè)效果不佳的問(wèn)題,通過(guò)融合通道注意力與空間注意力,抑制無(wú)效特征,使得提取的特征更準(zhǔn)確。該模塊可以分為兩個(gè)階段:注意力生成階段與融合階段。

注意力生成階段主要負(fù)責(zé)通過(guò)提取出的高層特征計(jì)算通道注意力和空間注意力。對(duì)于通道注意力,使用均值池化操作和全連接層進(jìn)行計(jì)算和特征降維。對(duì)于空間注意力則使用卷積層和sigmoid 操作獲得。

式中:AttnC代表生成的通道注意力,AttnS代表生成的空間注意力,F(xiàn)end代表特征提取器提取出的最后一層特征。AvgPool用于將特征圖的尺度變?yōu)?×1,以的到通道上的特征;FCsqueezed將特征壓縮到一個(gè)較小的維度,用于后續(xù)擴(kuò)展到不同通道長(zhǎng)度,與對(duì)應(yīng)特征融合;Sigmoid操作將最后特征的值變?yōu)? 到1 之間,生成空間力。

注意力融合階段主要目的是使用獲得的注意力對(duì)用于預(yù)測(cè)的特征進(jìn)行指導(dǎo),獲得更有效的信息。

式中:FAC代表融合了通道注意力的特征,F(xiàn)AS代表融合了空間注意力的特征,F(xiàn)Final代表最終生成的特征,F(xiàn)todo代表用于融合注意力的特征。FCexpand用于將通道注意力擴(kuò)展到融合特征對(duì)應(yīng)的通道長(zhǎng)度,Sigmoid操作將最后特征的值變?yōu)? 到1 之間,生成最終的通道注意力;concat操作用于將兩個(gè)融合不同注意力的特征結(jié)合起來(lái),通過(guò)卷積操作生成最終用于檢測(cè)的特征。

2.4 回歸輸出

獲得最后的特征信息FFinal之后,通過(guò)卷積層獲得直接輸出一部分通過(guò)Softmax 函數(shù)和Sigmoid 函數(shù)獲得最后的類別分?jǐn)?shù)和置信度,使用交叉熵計(jì)算偏差的損失。另一部分用于計(jì)算坐標(biāo)與框的大小,通過(guò)L1 損失函數(shù)計(jì)算偏差的損失。輸出具體如下:

式中:FFinal代表用于回歸輸出的特征,prob代表目標(biāo)類別的概率,obj代表目標(biāo)的置信度,boxcenter代表目標(biāo)框的x,y 坐標(biāo)的偏移量,大小為0~1 之間,offset代表目標(biāo)框的對(duì)應(yīng)的位置,boxscale代表目標(biāo)框的長(zhǎng)寬,anchor代表目標(biāo)框預(yù)設(shè)的大小。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文研究所用數(shù)據(jù)集為自行收集構(gòu)建。該數(shù)據(jù)集包含13803 篇張圖片,主要內(nèi)容為無(wú)人機(jī)和干擾物體。其中無(wú)人機(jī)包含六個(gè)種類,分別為五種不同大小不同形狀的四旋翼無(wú)人機(jī)和一種直升機(jī)。干擾物體主要為各種顏色與大小的氣球。數(shù)據(jù)集的具體數(shù)據(jù)分布情況與部分圖片展示如下。

表1 無(wú)人機(jī)數(shù)據(jù)集

表2 單目標(biāo)UAV 圖像樣本分布

表3 多目標(biāo)UAV 圖像樣本分布

圖2 UAV數(shù)據(jù)集示例

3.2 預(yù)處理

卷積操作僅僅具有平移不變性,因此深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)于目標(biāo)物體的色彩與幾何變化非常敏感。因此本文對(duì)訓(xùn)練用的圖像數(shù)據(jù)進(jìn)行了隨機(jī)增廣,用于改善算法的性能。主要操作包括:

(1)顏色隨機(jī)調(diào)整,包括對(duì)比度、飽和度、亮度和灰度。

(2)圖像的相關(guān)操作,包括裁剪、縮放和翻轉(zhuǎn)。

每個(gè)批次的數(shù)據(jù)在輸入網(wǎng)絡(luò)訓(xùn)練之前,都會(huì)隨機(jī)地進(jìn)行上述操作。

3.3 實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)中,本文方法使用DarkNet53 作為特征提取網(wǎng)絡(luò)。模型使用SGD 算法訓(xùn)練80 個(gè)輪次,初始學(xué)習(xí)率為10-4在第60 輪時(shí),學(xué)習(xí)率下降為10-5;動(dòng)量為0.9,權(quán)值衰減數(shù)值為5-4,NMS 閾值為0.45,注意力通道維度為128。實(shí)驗(yàn)使用multi-scale training 技術(shù),輸入不同大小圖片訓(xùn)練模型。

3.4 對(duì)比實(shí)驗(yàn)

本文用3 種主流方法與論文方法進(jìn)行實(shí)驗(yàn)對(duì)比,并且使用了三種流行的特征提取器,對(duì)比方法在無(wú)人機(jī)數(shù)據(jù)集上的效果,減少了特征提取網(wǎng)絡(luò)對(duì)最終結(jié)果的影響。三種目標(biāo)檢測(cè)方法分別為:

(1)SSD(Single Shot Detector)。該方法是一個(gè)經(jīng)典的單階段算法,使用了多層特征檢測(cè)的技術(shù)獲得了與兩階段算法相媲美的結(jié)果。

(2)Faster R-CNN。該方法是兩階段算法中的典型,后續(xù)許多SOTA 算法都是基于該方法的改進(jìn)。

(3)YOLOv3。YOLO 系列的改進(jìn)方法,融合了近幾年主流的計(jì)算機(jī)視覺(jué)技術(shù),是的單階段算法取得了新的高度,本文算法也是基于該網(wǎng)絡(luò)進(jìn)行的改進(jìn)。

三種特征提取器分別為:

(1)VGG16。該網(wǎng)絡(luò)由AlexNet 改進(jìn)而來(lái),采用連續(xù)的幾個(gè)3×3 的卷積核代替其中的較大卷積核。

(2)ResNet50。該網(wǎng)絡(luò)引入了殘差結(jié)構(gòu),解決了深度網(wǎng)絡(luò)中梯度彌散和梯度爆炸的問(wèn)題,從而得以獲取更深層次的特征。

(3)DarkNet53。該網(wǎng)絡(luò)與 ResNet 類似,但是擁有著更高的GPU 利用率,更為高效。

3.5 實(shí)驗(yàn)結(jié)果分析

本文對(duì)比多種模型進(jìn)行實(shí)驗(yàn),以模型在訓(xùn)練集上訓(xùn)練,測(cè)試集上測(cè)試。以MAP(Mean Average Precision)作為評(píng)價(jià)標(biāo)準(zhǔn)。MAP 由所有類別上的平均精確度計(jì)算得到,計(jì)算公式為:

其中N(TruePositive)C表示對(duì)于類別C 的真正樣本的數(shù)量,N(TotalObject)C表示類別為C 的所有物體的數(shù)量,N(TotalImages)C表示訓(xùn)練集的大小,最終MAP 則是所有類別上的平均精度的均值。

具體實(shí)驗(yàn)結(jié)果如表4 所示。

表4 對(duì)比實(shí)驗(yàn)結(jié)果

由表4 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),從算法上來(lái)講,SSD512 與 YOLOv3 效果接近,均高于 Faster R-CNN 算法。因?yàn)樵跓o(wú)人機(jī)檢測(cè)的過(guò)程,無(wú)人機(jī)與無(wú)人機(jī)之間大小差距非常大,SSD 使用了多尺度的特征圖,用于檢測(cè)不同大小的物體;YOLOv3 使用了特征金字塔,融合了高層特征與底層特征,并且在不同大小的特征圖上分別檢測(cè)不同大小的物體;而Faster R-CNN 算法并沒(méi)有采用類似的方法處理比例不同的目標(biāo)。而SSD512的結(jié)果與YOLOv3 一致,說(shuō)明同為單階段的目標(biāo)檢測(cè)算法,在基本思路都是通過(guò)回歸的方法使得預(yù)設(shè)的anchor 擬合目標(biāo)物體的情況下,兩者的表現(xiàn)更多的是受到特征提取器的影響;在特征提取器的一致的情況下,算法效果并沒(méi)有很大的區(qū)別。從特征提取器的角度來(lái)看,雖然 VGG16 的參數(shù)量大于ResNet50 和DarkNet,但是效果并不如后者優(yōu)秀,說(shuō)明深度的網(wǎng)絡(luò)更有利于提取到魯棒的特征。最后本文提出的算法,在其余條件一致的情況下,通過(guò)增加注意力生成與注意力融合模塊,在數(shù)據(jù)集上獲得了1.3 的MAP 指標(biāo)提升,證明本文提出的算法相比原算法效果有著明顯的提升。

4 結(jié)語(yǔ)

本文針對(duì)無(wú)人機(jī)檢測(cè)這一個(gè)任務(wù),構(gòu)建了無(wú)人機(jī)數(shù)據(jù)集用于模型的訓(xùn)練和評(píng)價(jià),并針對(duì)單階段的算法缺少目標(biāo)區(qū)域生成的過(guò)程,容易受到復(fù)雜背景的影響導(dǎo)致性能下降的問(wèn)題,提出了融合雙注意力機(jī)制的目標(biāo)檢測(cè)算法。算法通過(guò)特征提取器提取出的特征生成出通道注意力和空間注意力,之后將注意力與不同尺度的特征進(jìn)行融合,用于回歸計(jì)算最終的輸出。在無(wú)人機(jī)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,本文的方法能夠提取到更豐富的特征,有效地提高了無(wú)人機(jī)檢測(cè)的效果。

猜你喜歡
特征提取卷積注意力
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
讓注意力“飛”回來(lái)
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于特征提取的繪本閱讀機(jī)器人設(shè)計(jì)方案
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究
A Beautiful Way Of Looking At Things