李秋珍 熊饒饒 王汝鵬 祁 迪
(1.武漢數(shù)字工程研究所 武漢 430074)(2.華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 武漢 430074)
近年來,無人機(jī)技術(shù)的快速發(fā)展及無人機(jī)使用門檻不斷降低,無人機(jī)在軍事、民用等領(lǐng)域得到了廣泛運(yùn)用。同時(shí)也帶來了一些新問題,如無人機(jī)非法入侵私人區(qū)域、無人機(jī)碰撞行人等引發(fā)的安全問題,因此無人機(jī)管控勢在必行。由于無人機(jī)具有體積小、低速以及電磁信號(hào)強(qiáng)度低等特點(diǎn),所以傳統(tǒng)的安全措施如聲傳感器或雷達(dá)是無法檢測到小型無人機(jī)的,迫切需要建立一套對(duì)指定區(qū)域無人機(jī)目標(biāo)進(jìn)行實(shí)時(shí)、準(zhǔn)確地識(shí)別和監(jiān)控系統(tǒng)。無人機(jī)識(shí)別系統(tǒng)的重要組成部分是圖像識(shí)別,其功能是將攝像頭捕捉到的圖像或視頻信息進(jìn)行預(yù)處理,從中識(shí)別出無人機(jī),從而實(shí)現(xiàn)對(duì)無人機(jī)的檢測、識(shí)別、監(jiān)控和預(yù)警。圖像物體的檢測與分類一直是計(jì)算機(jī)視覺領(lǐng)域研究的重要課題,受益于近幾年深度學(xué)習(xí)的快速發(fā)展,物體檢測與分類識(shí)別有了理論支持和準(zhǔn)確性的保障。在物體檢測方面有YOLO算法以及后來的SSD算法;由于YOLO簡單粗暴地將圖像進(jìn)行網(wǎng)格劃分,然后對(duì)每個(gè)網(wǎng)格進(jìn)行處理,這樣導(dǎo)致定位不精確等問題,特別是小物體及相互靠近的物體,效果不夠理想。而SSD算法結(jié)合了YOLO和anchor進(jìn)行檢測,在檢測的速度和準(zhǔn)確性方面優(yōu)于YOLO。物體分類識(shí)別最開始使用的是KNN(K-Nearest Neighbor,K最近鄰)算法,其優(yōu)點(diǎn)是實(shí)現(xiàn)方便、數(shù)據(jù)訓(xùn)練快,缺點(diǎn)是無法適用于太大數(shù)量的數(shù)據(jù),程序運(yùn)行時(shí)算法加載和初始化過程太耗時(shí)。后來又使用深度網(wǎng)絡(luò)AlexNet,其精確度比KNN要好很多。
基于現(xiàn)有的方法和理論,提出了兩種基于SSD算法的實(shí)時(shí)無人機(jī)識(shí)別方法,設(shè)計(jì)并實(shí)現(xiàn)了一套實(shí)時(shí)無人機(jī)識(shí)別系統(tǒng),它能夠直接從攝像頭讀入視頻流,對(duì)視頻流中的圖像實(shí)時(shí)識(shí)別,將識(shí)別結(jié)果加入到原始圖像中形成新的視頻流,并向?yàn)g覽器推送新的視頻流和識(shí)別結(jié)果。
目前,無人機(jī)檢測主要有以下兩類方法。
一是采用傳統(tǒng)方法。首先通過滑動(dòng)窗口來產(chǎn)生不同大小和位置的候選區(qū)域圖像(圖像金字塔),然后對(duì)候選區(qū)域圖像手工提取特征,如SIFT、HOG等特征,最后采用SVM、Adaboost等分類器進(jìn)行分類。
二是采用深度神經(jīng)網(wǎng)絡(luò)[1~2]的方法進(jìn)行對(duì)象檢測。Girshick R在文獻(xiàn)[3]中提出了R-CNN(Regions with CNN features)方法,該方法首先對(duì)輸入圖像提取約兩千個(gè)感興趣區(qū)域(ROI),然后對(duì)每一個(gè)ROI計(jì)算CNN特征,然后對(duì)每個(gè)ROI使用SVM分類器進(jìn)行分類,如圖1所示,該方法缺點(diǎn)在于需要大量計(jì)算,計(jì)算一張圖片需要數(shù)十秒,顯然無法滿足實(shí)際要求。文獻(xiàn)[4]中提出了SPP-Net(Spatial Pyramid Pooling-Network,SPP網(wǎng)絡(luò)),如圖2所示,該方法在R-CNN的卷積層和全連接層之間增加了Spatial Pyramid Pooling(空間金字塔池化)層,使得SPP-Net比R-CNN有著更快的檢測速度,但缺點(diǎn)是訓(xùn)練時(shí)間長、存儲(chǔ)開銷大、訓(xùn)練網(wǎng)絡(luò)過程中無法更新SPP以下的層。針對(duì)這兩種方法的局限性,Girshick R對(duì)R-CNN進(jìn)行了改善,提出了Fast-RCNN[5],如圖3所示,該方法采用了ROI Pooling代替SPP,訓(xùn)練過程在一個(gè)階段完成,速度和準(zhǔn)確性都有了較大的提升。針對(duì)候選區(qū)域的產(chǎn)生方法,文獻(xiàn)[6]中提出的FasterR-CNN方法,該方法使用RPN(Region Proposal Network,候選區(qū)域網(wǎng)絡(luò))來產(chǎn)生候選區(qū)域,如圖4所示,F(xiàn)asterR-CNN在計(jì)算速度上有一定的提高,但對(duì)實(shí)時(shí)計(jì)算引用仍然不夠快。Redmon J在文獻(xiàn)[7]中提出了YOLO算法,相比于Faster R-CNN方法,YOLO的網(wǎng)絡(luò)結(jié)構(gòu)非常簡單,圖像經(jīng)過一次網(wǎng)絡(luò),就能得到圖中物體對(duì)應(yīng)的位置和該位置所屬類的置信概率,如圖5所示;首先,將原圖劃分為S*S的網(wǎng)格,目標(biāo)中心點(diǎn)所在地各自負(fù)責(zé)該目標(biāo)的相關(guān)檢測,每個(gè)網(wǎng)格預(yù)測B個(gè)邊框及其置信度,以及C種類別的概率,YOLO中,S,B,C取決于數(shù)據(jù)集中的物體類別個(gè)數(shù)。文獻(xiàn)[8]提出了SSD算法用于對(duì)象檢測,該算法在檢測的速度和準(zhǔn)確性方面優(yōu)于YOLO。
圖1 R-CNN的基本算法流程
圖2 SPP-Net的基本算法流程
圖3 Fast R-CNN的基本算法流程
圖4 RPN網(wǎng)絡(luò)結(jié)構(gòu)
圖5 YOLO的基本算法流程
無人機(jī)的分類方法通常分為兩大類:一類是利用傳統(tǒng)方法,對(duì)檢測到的無人機(jī)提取手工特征,例如無人機(jī)的機(jī)翼形狀、顏色等特征;另一類是采用深度神經(jīng)網(wǎng)絡(luò)的方法,提取無人機(jī)的特征,淺層的網(wǎng)絡(luò)如LeNet[9]、AlexNet[10],深層的網(wǎng)絡(luò)例如ResNet[11]、InceptionNet[12],然后將提取到的特征送入到一般的淺層分類器里面,進(jìn)行訓(xùn)練和預(yù)測。
1)系統(tǒng)處理流程
在實(shí)際應(yīng)用中,為了能夠?qū)崟r(shí)、準(zhǔn)確地識(shí)別劃定區(qū)域內(nèi)的無人機(jī),通常采用網(wǎng)絡(luò)攝像頭對(duì)劃定區(qū)域進(jìn)行監(jiān)控,將網(wǎng)絡(luò)攝像頭輸出的視頻流送入到無人機(jī)識(shí)別系統(tǒng)中。圖6所示為系統(tǒng)處理流程圖。首先采用視頻處理工具JavaCV對(duì)視頻流進(jìn)行抓幀;然后對(duì)抓取到的圖像進(jìn)行預(yù)處理,生成300*300大小的圖像;其次將預(yù)處理后的圖像送入到SSD中進(jìn)行檢測;將檢測到的無人機(jī)圖像摳取出來,送入到無人機(jī)分類器中進(jìn)行分類,最終識(shí)別出無人機(jī)種類;最后將無人機(jī)的位置、種類和置信度標(biāo)識(shí)在原圖像中,壓縮成新的視頻流推送到前端瀏覽器上實(shí)時(shí)展示;在瀏覽器中安裝VLC插件,可以實(shí)時(shí)播放無人機(jī)識(shí)別信息。
圖6 無人機(jī)識(shí)別系統(tǒng)處理流程圖
2)流式計(jì)算框架Storm
系統(tǒng)基于Storm分布式實(shí)時(shí)流式計(jì)算框架。抓幀線程運(yùn)行在Spout中作為數(shù)據(jù)源,不斷地向下面的bolt傳遞幀數(shù)據(jù)。SSD bolt接收到Spout抓取的幀圖像(經(jīng)過預(yù)處理)之后,識(shí)別圖像中的無人機(jī),然后將無人機(jī)的坐標(biāo)以及原始圖像發(fā)送給Resnet bolt。Resnet負(fù)責(zé)將SSD檢測到的無人機(jī)特征提取出來,然后發(fā)送給KNN進(jìn)行分類。KNN會(huì)在程序啟動(dòng)的時(shí)候加載數(shù)據(jù)集,并且進(jìn)行訓(xùn)練得到模型,在接收到Resnet提取的特征之后,KNN根據(jù)提前訓(xùn)練好的模型對(duì)其進(jìn)行分類,最終得到該幀出現(xiàn)的無人機(jī)種類。
Caffe框架是由美國加州伯克利大學(xué)開發(fā)的一個(gè)深度學(xué)習(xí)框架,由C++語言編寫,運(yùn)行速度快,Caffe內(nèi)部提供了一套基本的編程框架,可以實(shí)現(xiàn)GPU并行架構(gòu)下的深度卷積神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等算法,并且支持GPU和CPU的無縫切換。網(wǎng)絡(luò)定義采用文本文件定義,方便編寫。因此,本識(shí)別系統(tǒng)就是采用Caffe框架完成底層的深度學(xué)習(xí)算法實(shí)現(xiàn)。
深度神經(jīng)網(wǎng)絡(luò)能夠有良好的學(xué)習(xí)效果,決定性因素之一就是訓(xùn)練集大小。如果訓(xùn)練集的規(guī)模太小,達(dá)不到網(wǎng)絡(luò)模型參數(shù)要求,那么神經(jīng)網(wǎng)絡(luò)將難以提取足夠的特征進(jìn)行學(xué)習(xí),在實(shí)際應(yīng)用時(shí)也達(dá)不到很好的效果。本系統(tǒng)所需要的無人機(jī)圖像數(shù)據(jù)主要來自互聯(lián)網(wǎng),很多情況下無法獲取大量圖像數(shù)據(jù),所以采用對(duì)圖像進(jìn)行預(yù)處理,就可以提升圖像數(shù)據(jù)量。圖像預(yù)處理主要包括改變圖像寬高比、旋轉(zhuǎn)、剪切變換、放大縮小等。
上述介紹了目前常用的對(duì)象檢測方法和理論,為了滿足識(shí)別系統(tǒng)的實(shí)時(shí)性和準(zhǔn)確性要求,本文采用SSD算法對(duì)無人機(jī)進(jìn)行檢測。如圖7所示,與YOLO不同的是,SSD采用了特征金字塔結(jié)構(gòu)進(jìn)行檢測,使用了多尺度featuremaps(特征平面)同時(shí)進(jìn)行Softmax分類和位置回歸,因此在檢測的速度和準(zhǔn)確性方面優(yōu)于YOLO。相比R-CNN系列,拋棄了regionproposal的過程,計(jì)算速度更快。
圖7 SSD和YOLO網(wǎng)絡(luò)結(jié)構(gòu)比較
SSD算法采用了VGG16(一種深度卷積神經(jīng)網(wǎng)絡(luò))前面的5層網(wǎng)絡(luò),然后利用atrous算法將fc6和fc7層轉(zhuǎn)化成兩個(gè)卷積層,另外再增加了3個(gè)卷積層和一個(gè)均值池化層,不同層次的feature map分別用于defaultbox(缺省窗口)的偏移和不同類別的預(yù)測,最終通過非極大值抑制方法得到最終的檢測結(jié)果。
在訓(xùn)練策略上,SSD首先找到每個(gè)groundtruthbox(人工標(biāo)注窗口)對(duì)應(yīng)的default box中IOU大于0.5的default box作為正樣本,剩余的作為負(fù)樣本,因此一個(gè)groundtruth照片可能對(duì)應(yīng)多個(gè)正樣本。下面公式是訓(xùn)練目標(biāo)函數(shù),其中N表示正樣本數(shù)目。
Defaultbox在不同層的feature map下生成的,所以對(duì)不同尺度的物體檢測效果都比較好。用于預(yù)測的feature map上的每個(gè)點(diǎn)都對(duì)應(yīng)有6個(gè)不同的default box,顯然會(huì)導(dǎo)致正負(fù)樣本不平衡,在訓(xùn)練過程中,采用了Hard Negative Mining的策略(根據(jù)confidence loss對(duì)所有的box進(jìn)行排序,使正負(fù)例的比例保持在1:3來平衡正負(fù)樣本的比率。
SSD官方在Github上面公開了代碼,且提供了基于PASCAL VOC2007、VOC2012和COCO數(shù)據(jù)集的Caffe深度學(xué)習(xí)框架下訓(xùn)練好的模型文件,這里可以直接利用模型文件做網(wǎng)絡(luò)前向運(yùn)算,得到無人機(jī)對(duì)象的位置信息。
上述已介紹了常用無人機(jī)分類方法,為了滿足識(shí)別系統(tǒng)的實(shí)時(shí)性和準(zhǔn)確性要求,本文采用深度神經(jīng)網(wǎng)絡(luò)方法進(jìn)行無人機(jī)分類。即有兩種方法:一種方法是通過深度神經(jīng)網(wǎng)絡(luò)提取無人機(jī)的深度特征,然后結(jié)合線性分類器;另一種方法是采用已經(jīng)訓(xùn)練好的模型進(jìn)行Fine-tuning,直接進(jìn)行端到端的預(yù)測。
1)基于ResNet(殘差網(wǎng)絡(luò))和KNN的無人機(jī)分類方法
傳統(tǒng)的CNN在網(wǎng)絡(luò)層數(shù)增加后會(huì)出現(xiàn)“梯度消失”問題,網(wǎng)絡(luò)參數(shù)無法更新,性能趨于飽和甚至下降,這會(huì)使得深度網(wǎng)絡(luò)的訓(xùn)練變得十分困難。
ResNet提出了殘差學(xué)習(xí)的概念,優(yōu)化目標(biāo)從原來的擬合輸出變成了輸出和輸入的差。如圖8所示,殘差網(wǎng)絡(luò)的結(jié)構(gòu)塊中,一共有兩層,第一層對(duì)輸入x做一次前向運(yùn)算,然后通過一個(gè)shortcut和第二個(gè)Relu層一起獲得輸出。實(shí)驗(yàn)表明,殘差網(wǎng)絡(luò)能夠訓(xùn)練更加深的網(wǎng)絡(luò),有利于提取更高層次的特征,因此采用ResNet提取無人機(jī)的深度特征是非常合適的。
圖8 ResNet網(wǎng)絡(luò)結(jié)構(gòu)塊
提取深度網(wǎng)絡(luò)特征后,采用KNN算法對(duì)提取到的特征進(jìn)行分類。KNN核心思想是:如果一個(gè)樣本在特征空間中的K個(gè)最相鄰的樣本中大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本特性。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。
圖9 KNN示意圖
KNN是一種惰性分類算法,隨著訓(xùn)練數(shù)據(jù)的輸入逐步訓(xùn)練,如圖9所示,如果要判斷圓形是哪一類,根據(jù)K值的取值不同得到的結(jié)果也不一樣,當(dāng)K=3,圓形被賦予三角形的類,當(dāng)K=5,圓形被賦予四方形類,KNN訓(xùn)練過程就是要確定最佳K值。在KNN的訓(xùn)練過程中,通過不斷嘗試K值,統(tǒng)計(jì)分類準(zhǔn)確率,選擇最佳最終確定最佳的K值。
在KNN中,通過計(jì)算對(duì)象的距離來衡量各個(gè)對(duì)象的相似性指標(biāo),一般使用馬氏距離或曼哈頓距離,如下列公式所示。
歐式距離:
曼哈頓距離:
2)基于AlexNet的無人機(jī)分類方法
AlexNet是在2012年ImageNet競賽冠軍獲得者Hinton和他的學(xué)生設(shè)計(jì)的。AlexNet由5個(gè)卷積層加上3個(gè)全連接層構(gòu)成,參數(shù)個(gè)數(shù)為60M,神經(jīng)元個(gè)數(shù)650K,分類數(shù)目為1000類,圖10所示為AlexNet結(jié)構(gòu)圖。由于無人機(jī)樣本數(shù)量有限,且缺少大量的標(biāo)注數(shù)據(jù),因此這里選擇采用AlexNet在ImageNet數(shù)據(jù)集訓(xùn)練好的模型進(jìn)行Fine-tuning,保留前面的5個(gè)卷積層,將后面的3個(gè)全連接層的output參數(shù)分別修改為1024,512,5。
抓幀和推流使用的都是視頻處理工具JavaCV,該工具將FFmpeg和OpenCV用Java進(jìn)行了封裝,幾乎FFmpeg所有功能都能使用,主要通過JNI的形式調(diào)用FFmpeg的服務(wù)。
圖10 AlexNet結(jié)構(gòu)圖
FFmpegFrameGrabber工具用來抓幀,其原理是FFmpeg在后臺(tái)啟動(dòng)一個(gè)線程,不斷地從視頻源中抓取圖像數(shù)據(jù),然后推到緩沖隊(duì)列中。該工具支持多種視頻流格式,包括RTSP、RTMP以及主流格式的視頻文件等。FFmpegFrameRecorder工具用來推流,該工具支持推送RTMP和RTP的視頻直播流,也可以將視頻幀錄制成離線視頻,這就需要在調(diào)用前配置bitrate、fps及編碼格式等即可。
數(shù)據(jù)集獲取:利用Python爬蟲從互聯(lián)網(wǎng)上爬取無人機(jī)照片,然后進(jìn)行數(shù)據(jù)清洗和手動(dòng)分類,標(biāo)注無人機(jī)的種類。無人機(jī)可分為五類:固定翼、四旋翼、六旋翼、八旋翼和直升機(jī)。數(shù)據(jù)集分布如表1所示,訓(xùn)練集共有1366張圖片,測試集共有339張圖片。
表1 無人機(jī)數(shù)據(jù)集分布
采用了兩種方法對(duì)無人機(jī)進(jìn)行分類,一種方法是將無人機(jī)送入到ResNet網(wǎng)絡(luò)中提取1000維無人機(jī)的深度特征,然后利用KNN訓(xùn)練合理的K值,得到最終的分類結(jié)果;另一種方法對(duì)AlextNet訓(xùn)練好的模型做Fine-tuning(微調(diào)),將AlexNet的最后三層參數(shù)的輸入卷積核的個(gè)數(shù)做些修改,修改后求解網(wǎng)絡(luò),修改后的AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。
表2 修改后的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)
1)基于ResNet和KNN的無人機(jī)分類結(jié)果
利用ResNet在VOC和COCO訓(xùn)練集上的模型提取深度特征,訓(xùn)練KNN分類器,得到最終分類結(jié)果,如下表所示。當(dāng)K取5時(shí)準(zhǔn)確率較高,可以達(dá)到79%。
表3 ResNet+KNN分類結(jié)果
2)基于AlexNet的無人機(jī)分類結(jié)果
經(jīng)過Fine-tuning的AlexNet網(wǎng)絡(luò)模型訓(xùn)練耗時(shí)大概花費(fèi)6h,網(wǎng)絡(luò)收斂較快,迭代到第79代時(shí)達(dá)到了最高準(zhǔn)確率83.75%,準(zhǔn)確率曲線如圖1所示,略優(yōu)于官方提供的AlexNet數(shù)據(jù)模型(top 1-5的準(zhǔn)確率達(dá)到80.2%)的準(zhǔn)確率。
圖11 AlexNetFine-tuning過程迭代準(zhǔn)確率曲線
上述兩種方法都能實(shí)現(xiàn)實(shí)時(shí)無人機(jī)識(shí)別,且準(zhǔn)確率方面第二種方法優(yōu)于第一種方法。無人機(jī)識(shí)別效果如圖12所示,本無人機(jī)識(shí)別系統(tǒng)能夠?qū)崟r(shí)對(duì)視頻文件或攝像頭拍攝的視頻流進(jìn)行無人機(jī)識(shí)別,并且實(shí)時(shí)對(duì)無人機(jī)類別和相似度做出標(biāo)記。
圖12 無人機(jī)識(shí)別效果圖
針對(duì)圖像中無人機(jī)目標(biāo)的快速檢測和識(shí)別問題,本文提出了兩種基于SSD算法的實(shí)時(shí)無人機(jī)識(shí)別方法,設(shè)計(jì)并實(shí)現(xiàn)了一套實(shí)時(shí)無人機(jī)識(shí)別系統(tǒng),即能夠?qū)崟r(shí)檢測無人機(jī)的位置、識(shí)別無人機(jī)的種類;最高識(shí)別準(zhǔn)確率達(dá)到83.75%,略優(yōu)于官方提供的AlexNet數(shù)據(jù)模型的準(zhǔn)確率80.2%,識(shí)別速度也基本滿足實(shí)時(shí)性要求;該系統(tǒng)已應(yīng)用到實(shí)際項(xiàng)目中。由于無人機(jī)的有效標(biāo)記數(shù)據(jù)非常少,不同視角觀測的無人機(jī)差異非常大,導(dǎo)致無人機(jī)在真實(shí)應(yīng)用場景下的識(shí)別率比較低,難以有效區(qū)分無人機(jī)種類。所以下一步工作是收集更多不同視角的無人機(jī)數(shù)據(jù)以及改進(jìn)識(shí)別模型,進(jìn)一步提高無人機(jī)識(shí)別準(zhǔn)確率。