基于深度卷積神經(jīng)網(wǎng)絡(luò)的無人機(jī)識別方法研究?

2019-03-01 09:09

艦船電子工程 2019年2期

（海軍裝備部北京 100071）

1 引言

近年來，無人機(jī)飛行成為了一種熱門的戶外活動，使用量逐年增加。但是無人機(jī)容易發(fā)生跌落、碰撞等安全事故，尤其是在人群和建筑物稠密的地方，存在較大的安全隱患。因此，無人機(jī)識別系統(tǒng)的搭載勢在必行。無人機(jī)識別系統(tǒng)中重要組成部分是圖像識別，其功能是將攝像頭捕捉到的圖像或視頻信息進(jìn)行處理，從圖像或視頻中識別出無人機(jī)，從而實(shí)現(xiàn)對無人機(jī)的識別、監(jiān)控和預(yù)警。基于圖像的無人機(jī)識別主要包括無人機(jī)圖像檢測（包含特征提?。┖蜔o人機(jī)分類。在圖像識別領(lǐng)域中，常用的特征提取方法有 HOG［1］、SIFT、Gabor［2］小波圖像紋理特征提取、高斯馬爾可夫隨機(jī)場（Gaussian Markov Random Field，GMRF）［3］遙感圖像特征提取等，結(jié)合后期的分類方法［4］，取得了較好的識別率。目前，這些特征提取方法都是人工來完成的，所以存在如下問題：各類特征提取方法非常依賴具體的應(yīng)用環(huán)境，算法要求的條件嚴(yán)格、魯棒性不好；復(fù)雜背景下多無人機(jī)特征提取困難等。

針對以上問題，隨著大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù)的迅速發(fā)展，尤其是卷積神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用，以及微軟亞洲研究院基于深度卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺系統(tǒng)，在ImageNet 1000挑戰(zhàn)中首次超越了人類識別的能力，圖像識別的精度取得了很大進(jìn)步，目標(biāo)檢測方法也采用深度神經(jīng)網(wǎng)絡(luò)來完成。文獻(xiàn)［5］提出了基于卷積神經(jīng)網(wǎng)絡(luò)的信息融合識別方法；文獻(xiàn)［6］提出了基于深度神經(jīng)網(wǎng)絡(luò)的小尺度道路標(biāo)示識別框架；文獻(xiàn)［7］提出了基于卷積神經(jīng)網(wǎng)絡(luò)的無人機(jī)循跡方法；文獻(xiàn)［8］提出了基于稀疏貝葉斯分類器的汽車車型識別方法；文獻(xiàn)［9］提出了一種用于圖像目標(biāo)識別的神經(jīng)網(wǎng)絡(luò)及其車型識別方法；文獻(xiàn)［10］提出了基于模糊神經(jīng)網(wǎng)絡(luò)的電力巡線無人機(jī)避障技術(shù)研究；文獻(xiàn)［11］提出了基于卷積神經(jīng)網(wǎng)絡(luò)的城管案件圖像分類方法。這些方法是在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的基礎(chǔ)上，加入了形變處理層，最終學(xué)習(xí)的特征具有很強(qiáng)的判別力。推廣到特定物體的識別乃至場景識別，深度學(xué)習(xí)也有很多方案。由于無人機(jī)圖像信息量豐富，且無人機(jī)的飛行狀態(tài)多樣，因此識別難度較大。本文基于現(xiàn)有的理論，提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的無人機(jī)識別方法。

2 相關(guān)工作

2.1 卷積神經(jīng)網(wǎng)絡(luò)CNN

2006 年，Hinton［12］等首次提出深度學(xué)習(xí)的概念，并開啟了深度學(xué)習(xí)的研究浪潮，其認(rèn)為：多隱含層的人工神經(jīng)網(wǎng)絡(luò)能夠更好地模擬人腦地思考過程，具有更加優(yōu)異的學(xué)習(xí)能力，能夠?qū)?shù)據(jù)進(jìn)行更本質(zhì)的刻畫，從而提高可視化或分類的能力。卷積神經(jīng)網(wǎng)絡(luò)CNN是深度學(xué)習(xí)中第一個真正多層結(jié)構(gòu)學(xué)習(xí)算法，其在圖像識別領(lǐng)域優(yōu)勢明顯。它利用感受野（Receptive field）、局部連接（Sparse Connectivity）等概念極大地減少了參數(shù)量，降低了網(wǎng)絡(luò)模型的復(fù)雜度，提高了訓(xùn)練效率，且網(wǎng)絡(luò)對于平移、縮放的各種變形都具備高度不變性，具有良好的魯棒性和運(yùn)算效率。在網(wǎng)絡(luò)輸入的是多維圖像時，圖像可以直接作為網(wǎng)絡(luò)輸入，避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重組過程。在二維圖像處理時也有較多優(yōu)勢，如網(wǎng)絡(luò)自行抽取圖像特征包括顏色、紋理、形狀及圖像的拓?fù)浣Y(jié)構(gòu)。

在圖像識別任務(wù)中，一個典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。根據(jù)不同的處理任務(wù)，開展設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)、初始化參數(shù)、定義損失函數(shù)以及設(shè)定超參等準(zhǔn)備工作。將經(jīng)過預(yù)處理后的訓(xùn)練數(shù)據(jù)送入到網(wǎng)絡(luò)結(jié)構(gòu)中，分別計(jì)算卷積層、降采樣層和全連接層等的前向結(jié)果，最后根據(jù)數(shù)據(jù)標(biāo)簽及前向結(jié)果最小化損失函數(shù)，求解網(wǎng)絡(luò)模型參數(shù)。從圖1可以看出，卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)的最大區(qū)別就是卷積層和降采樣層替換了部分全連接層。

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

在CNN的卷積層中，一個神經(jīng)元只與部分鄰層神經(jīng)元連接。在CNN的一個卷積層中，通常包含若干個特征平面（Feature Map），每個特征平面由一些矩形排列的神經(jīng)元組成，同一特征平面的神經(jīng)元共享權(quán)值，這里共享權(quán)值就是卷積核。卷積核一般以隨機(jī)小數(shù)矩陣的形式初始化，在網(wǎng)絡(luò)的訓(xùn)練過程中，卷積核將學(xué)習(xí)得到合理的權(quán)值。共享權(quán)值（卷積核）帶來的直接好處是減少網(wǎng)絡(luò)各層之間的連接，同時又降低了過擬合的風(fēng)險。降采樣（Sub-Sampling）層也叫做池化（Pooling）層，通常有最大池化（Maximum Pooling）或平均池化（Average Pooling）兩種形式；降采樣可以看作一種特殊的卷積過程。卷積和降采樣大大降低特征的維數(shù)，減少了模型的參數(shù)，簡化了模型復(fù)雜度。

2.2 CNN基準(zhǔn)模型VGG16

VGGNet是在2014年由Karen Simonyan和Andrew Zisserman實(shí)現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)。它主要的貢獻(xiàn)是展示出網(wǎng)絡(luò)的深度是算法優(yōu)良性能的關(guān)鍵部分。它們最好的網(wǎng)絡(luò)是包含了16個卷積/全連接層。網(wǎng)絡(luò)的結(jié)構(gòu)非常一致，從頭到尾全部使用的是3×3的卷積和2×2的匯聚。VGGNet不足在于：耗費(fèi)更多的計(jì)算資源，并且使用了更多的參數(shù)，導(dǎo)致較多的內(nèi)存占用（140M左右）。其中，絕大多數(shù)的參數(shù)都是來自于第一個全連接層。

VGG是在從AlexNet（即CNN的基準(zhǔn)模型之一）發(fā)展而來的網(wǎng)絡(luò)，可以把它看作是加深版的AlexNet，是卷積層加全連接層的組合。它在AlexNet基礎(chǔ)上，主要修改了兩個方面內(nèi)容：1）在第一個卷積層使用了更小的濾波器尺寸和間隔（3×3）；2）在整個圖片和multi-scale上訓(xùn)練和測試圖片。VGG系列的結(jié)構(gòu)如圖2所示。

圖2 VGG系列結(jié)構(gòu)圖

多個小濾波器卷積層的組合比單一濾波器卷積層好。一層一層地重疊了3個3×3卷積層（層與層之間有非線性激活函數(shù)）。在這個排列下，第一個卷積層中的每個神經(jīng)元都對輸入數(shù)據(jù)體有一個3×3的視野。第二個卷積層上的神經(jīng)元對第一個卷積層有一個3×3的視野，也就是對輸入數(shù)據(jù)體有5×5的視野。同樣，在第三個卷積層上的神經(jīng)元對第二個卷積層有3×3的視野，也就是對輸入數(shù)據(jù)體有7×7的視野。假設(shè)不采用這3個3×3的卷積層，而是使用一個單獨(dú)的有7×7感受野的卷積層，那么所有神經(jīng)元的感受野也是7×7，但是存在一些缺點(diǎn)。首先，多個卷積層與非線性的激活層交替的結(jié)構(gòu)，比單一卷積層的結(jié)構(gòu)更能提取出深層更好的特征。其次，假設(shè)所有的數(shù)據(jù)有C個通道，那么單獨(dú)的7×7卷積層將會包含7×7×C=49C個參數(shù)，而3個3×3的卷積層的組合僅有個3×（3×3×C）=27C個參數(shù)。直觀說來，最好選擇帶有小濾波器的卷積層組合，而不是用一個帶有大濾波器的卷積層。前者可以表達(dá)出輸入數(shù)據(jù)中更多個強(qiáng)力特征，使用的參數(shù)也更少。唯一不足的是，在進(jìn)行反向傳播時，中間卷積層可能會導(dǎo)致占用更多的內(nèi)存。1×1 filter的作用是在不影響輸入輸出維數(shù)的情況下，對輸入線進(jìn)行線性形變，然后通過Relu（Rectified Lineat Units，激活函數(shù)）進(jìn)行非線性處理，增加網(wǎng)絡(luò)的非線性表達(dá)能力。Pooling：2×2，間隔s=2。這里使用的VGG16，總共16層，其結(jié)構(gòu)如圖3所示。

圖3 VGG16網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)鋱D

VGG突出影響包括：一個大卷積核分解成連續(xù)多個小卷積核；減少參數(shù)，降低計(jì)算，增加深度；集成AlexNet結(jié)構(gòu)的特點(diǎn)：簡單、有效；網(wǎng)絡(luò)改造的首選基礎(chǔ)網(wǎng)絡(luò)等。

3 識別系統(tǒng)和識別方法

3.1 識別流程

通常采用網(wǎng)絡(luò)攝像頭對劃定區(qū)域進(jìn)行監(jiān)控。無人機(jī)識別流程如圖4所示，首先將網(wǎng)絡(luò)攝像頭輸出的視頻流送入到無人機(jī)識別系統(tǒng)中，經(jīng)過圖像抓幀和預(yù)處理后，對圖像進(jìn)行無人機(jī)檢測；然后將檢測到的無人機(jī)圖像抽取出來，對圖像特征進(jìn)行提取，送入VGG16網(wǎng)絡(luò)；最后，在訓(xùn)練好的后臺數(shù)據(jù)中識別出該圖像的無人機(jī)種類?？梢詫o人機(jī)的種類標(biāo)識到原圖像中并顯示。

圖4 無人機(jī)識別流程圖

3.2 算法框架

Caffe是一套開源軟件框架，內(nèi)部提供了一套基本的編程、模板框架，用以實(shí)現(xiàn)GPU并行架構(gòu)下的深度卷積神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)（Deep Learning）等算法；按照該框架，可以定義多種類型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，且可以在此框架下增加新代碼、設(shè)計(jì)新算法。該框架的優(yōu)點(diǎn)在于運(yùn)算速度快、簡單、友好。本文設(shè)計(jì)的無人機(jī)識別系統(tǒng)中深度學(xué)習(xí)算法就是基于Caffe框架實(shí)現(xiàn)的。

Caffe框架具有三個基本原子結(jié)構(gòu)，分別是Blobs、Layers和Nets。Blob是用于存儲數(shù)據(jù)的對象，同時Caffe中各種數(shù)據(jù)（圖像輸入、模型參數(shù)）都是以Blob的形式在網(wǎng)絡(luò)中傳輸?shù)?。Blob還能在CPU和GPU之間進(jìn)行同步以支持CPU/GPU的混合運(yùn)算。Layer是網(wǎng)絡(luò)的次級單元，也是能在外部進(jìn)行調(diào)整的最小網(wǎng)絡(luò)結(jié)構(gòu)單元。一般來說，都讓同一層的神經(jīng)元具備相同性質(zhì)，因此也就沒有必要提供對神經(jīng)元的操作。Net即一個完整的包含輸入層、隱藏層、輸出層的深度網(wǎng)絡(luò)，在Caffe中一般是一個卷積神經(jīng)網(wǎng)絡(luò)，通過定義不同類型Layer，并用Blob將不同的Layer連接起來，就能產(chǎn)生一個Net。為了減少算法代碼的編寫負(fù)擔(dān)，這里選擇在Caffe框架下對VGG16網(wǎng)絡(luò)進(jìn)行Fine-tuning（微調(diào)），即使用已用于其它目標(biāo)、預(yù)訓(xùn)練好模型的權(quán)重或部分權(quán)重，作為初始值開始訓(xùn)練其它數(shù)據(jù)集。

3.3 識別方法

3.3.1 無人機(jī)檢測

圖像經(jīng)過預(yù)處理后，使用SSD算法對處理后圖像做無人機(jī)目標(biāo)檢測。SSD算法的主網(wǎng)絡(luò)結(jié)構(gòu)是VGG16。采用VGG16前面的5層網(wǎng)絡(luò)，然后利用atrous算法將fc6和fc7層轉(zhuǎn)化成兩個卷積層，另外再增加了3個卷積層和一個均值池化層，不同層次的feature map（特征平面）分別用于default box（缺省窗口）的偏移和不同類別得分的預(yù)測，最終通過非極大值抑制的方法得到最終的檢測結(jié)果。

通過以下公式確定default box的大?。?/p>

其中，Smin取值0.2，Smax取值0.9，m為feature map的個數(shù)。

取橫縱比為ar={1'2'3'}，則每個defaultbox寬和高計(jì)算公式如下：

SSD算法最大的貢獻(xiàn)就是提出了多尺度feature map預(yù)測的方法，相比YOLO算法能夠?qū)Σ煌叨鹊奈矬w具有更好的魯棒性，相比R-CNN系列，拋棄了Region Proposal的過程，計(jì)算速度更快。

經(jīng)過SSD之后，確定了無人機(jī)在圖片中的位置，并生成bounding box，無人機(jī)檢測效果如圖5所示。

3.3.2 無人機(jī)分類

通過無人機(jī)檢測后，將檢測到的無人機(jī)圖片送入VGG16模型進(jìn)行特征提取，然后通過Softmax算法，對該特征向量進(jìn)行預(yù)測，得出該無人機(jī)的分類類別。在最后一個全連接層中，我們選擇輸出的是一個5維特征向量[x1'x2'x3'x4'x5]，通過如下公式計(jì)算出每一個元素對應(yīng)的概率值。然后選出一個最大的Si作為該無人機(jī)為第i類的概率。

圖5 無人機(jī)檢測效果圖

3.4 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與驗(yàn)證

CNN本質(zhì)上是一種輸入到輸出的映射。由于該映射比較復(fù)雜，人為規(guī)定的精確數(shù)學(xué)模型不能夠滿足實(shí)際需求。因此，只需要把海量已知數(shù)據(jù)對設(shè)定好的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，網(wǎng)絡(luò)就能夠得到這種符合需求的映射。訓(xùn)練與驗(yàn)證是網(wǎng)絡(luò)模型調(diào)優(yōu)的重要階段，其核心是誤差反向傳播（Back Propagation，BP）算法，分為前向計(jì)算和后向傳導(dǎo)。訓(xùn)練階段需要BP算法的完整流程，而驗(yàn)證階段只需要BP算法的前向計(jì)算階段。VGG16網(wǎng)絡(luò)模型是整個無人機(jī)識別系統(tǒng)的核心部分，它不僅僅完成特征提取任務(wù)，還涉及網(wǎng)絡(luò)訓(xùn)練與驗(yàn)證階段，用于獲取能提取較好區(qū)分性的無人機(jī)特征的網(wǎng)絡(luò)模型參數(shù)。網(wǎng)絡(luò)訓(xùn)練具體流程如圖6所示。

圖6 網(wǎng)絡(luò)訓(xùn)練流程示意圖

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)集

數(shù)據(jù)集包括訓(xùn)練集和驗(yàn)證集，其中訓(xùn)練集有1350張無人機(jī)圖片，驗(yàn)證集有283張無人機(jī)圖片。將訓(xùn)練集分為3類無人機(jī)，分別為固定翼、四旋翼和直升機(jī)，驗(yàn)證集也相應(yīng)的有這三類無人機(jī)圖片。

4.2 訓(xùn)練結(jié)果與分析

訓(xùn)練過程采用Caffe框架，選擇在已訓(xùn)練好的模型基礎(chǔ)上做微調(diào)。訓(xùn)練的批尺寸定為20，學(xué)習(xí)率初始化為0.001，驗(yàn)證的迭代次數(shù)定為60，每隔10次迭代驗(yàn)證1次。權(quán)重?fù)p失初始化為0.0005，每驗(yàn)證10次保存一次模型。最大迭代為500次。經(jīng)過多次訓(xùn)練迭代之后選擇了最優(yōu)模型準(zhǔn)確率達(dá)到83%。最后在驗(yàn)證集上做測試，測試結(jié)果如表1所示。

表1 測試結(jié)果

從表1可以看出，固定翼的識別率是比較樂觀的，其他機(jī)型的識別率普遍較低，這是由于訓(xùn)練集中固定翼圖片相對于其他機(jī)型較多的原因。無人機(jī)識別效果如圖7所示。

圖7 無人機(jī)識別效果圖

5 結(jié)語

本文針對無人機(jī)飛行監(jiān)控問題，提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的無人機(jī)識別系統(tǒng)實(shí)現(xiàn)方案，能夠?qū)崟r檢測無人機(jī)的位置，識別無人機(jī)的種類，識別率較高。深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法比傳統(tǒng)手工特征提取方法更加簡單、效果也更好，但是深度卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集的依賴性很大。只有數(shù)據(jù)集的規(guī)模達(dá)到要求的參數(shù)規(guī)模才能提取足夠多的特征供神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。所以下一步工作是收集更多的無人機(jī)數(shù)據(jù)，提高無人機(jī)識別準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡