向昌成 黃成兵 羅 平 王 朋
(阿壩師范學(xué)院計算機(jī)科學(xué)與技術(shù)學(xué)院 汶川 623002)
隨著無人機(jī)技術(shù)在生活中應(yīng)用的不斷深入,航拍在軍事偵察、交通管制、國土資源、環(huán)境監(jiān)測等軍事與民用領(lǐng)域有著十分廣闊的應(yīng)用前景[1]。其中地面車輛目標(biāo)檢測技術(shù)作為智慧城市重要組成,為智能交通系統(tǒng)感知外界環(huán)境提供基礎(chǔ)。城市車輛數(shù)量的增加催生我國智慧交通發(fā)展與構(gòu)建。對于智慧城市交通的構(gòu)建,通過航拍手段完成對車輛目標(biāo)的跟蹤與定位作為主要技術(shù)研究點(diǎn),該點(diǎn)技術(shù)可以更加準(zhǔn)確地傳遞城市交通信息與交通情況。
針對無人機(jī)航拍圖像地面車輛目標(biāo)實時檢測問題,傳統(tǒng)的SIFT算法復(fù)雜度高,處理時間長,難以滿足實時性的要求?;谖墨I(xiàn)[2]可知,通過SIFT算法可以將矩形區(qū)域內(nèi)的特征點(diǎn)進(jìn)行成像,通過降維處理實現(xiàn)對相似度與距離、余弦相似度等數(shù)據(jù)的匹配,然后基于RANSAC算法完成對錯誤匹配點(diǎn)的剔除,改進(jìn)的SIFT算法在尺度縮放、旋轉(zhuǎn)、光照等情況下均有良好的匹配效果,該改進(jìn)算法針對大視角變換誤匹配率還比較高[2]。文獻(xiàn)[3]著重針對地面車輛目標(biāo)的自動監(jiān)測效果進(jìn)行研究,通過固定的無人機(jī)平臺與無人機(jī)實際姿勢情況進(jìn)行控制,明確像素面積范圍以及特征目標(biāo)內(nèi)的數(shù)學(xué)形態(tài),進(jìn)而對現(xiàn)場所出現(xiàn)的疑似目標(biāo)進(jìn)行剔除與更加準(zhǔn)確的甄選,提高系統(tǒng)對于整體疑似目標(biāo)的判斷與追蹤效果,算法可靠穩(wěn)定具有很好的魯棒性,但系統(tǒng)的準(zhǔn)確率不高[3]。文獻(xiàn)[4]將視覺注意力機(jī)制中的顯著性模型同DPM相結(jié)合,對目標(biāo)區(qū)域內(nèi)的檢測干擾情況進(jìn)行排除,進(jìn)而有效地縮小特征取值范圍,解決圖像中不同尺寸車輛目標(biāo)檢測的問題,但目標(biāo)的檢測率不高[4]。文獻(xiàn)[5]中針對航拍圖像與實際車輛目標(biāo)進(jìn)行追蹤處理,通過手工標(biāo)注的方法確定整個道路區(qū)域內(nèi)的標(biāo)準(zhǔn)情況,然后針對區(qū)域內(nèi)的閾值分割方法進(jìn)行控制,然后針對弱小的車輛目標(biāo)進(jìn)行檢測,有效地解決遙感圖像道路內(nèi)的分割困難情況,在弱小車輛難以出現(xiàn)檢測問題的時候應(yīng)當(dāng)對目標(biāo)進(jìn)行提取與控制[5]。在對目標(biāo)特征提取與檢測的過程中要注意對特征訓(xùn)練的分離,而在這個過程中,由于人工提取的特征不足,就會導(dǎo)致信息之間的分類無法恢復(fù),從而無法達(dá)到深度學(xué)習(xí)以及主流檢測的效果,也就不能滿足檢測與識別需求,因此,現(xiàn)階段深度學(xué)習(xí)就成為了主流方式內(nèi)容[6]。通過交通視頻可以準(zhǔn)確地識別實際車況與道路情況,從而在應(yīng)對眾多因素影響的條件下保證其識別精度與檢測效果[7]。深度學(xué)習(xí)的物體檢測方法大致可以分為兩類:第一類是基于區(qū)域建議的目標(biāo)檢測算法,也就是Faster RCNN[8];第二類是基于回歸的目標(biāo)檢測算法,主要代表算法是Faster RCNN[9]。深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)以其局部感知權(quán)值共享的特點(diǎn),成為目標(biāo)檢測領(lǐng)域的核心算法之一,使得深度學(xué)習(xí)算法在很多應(yīng)用場景替代了傳統(tǒng)的目標(biāo)檢測算法?;趨^(qū)域建議的目標(biāo)檢測算法RCNN中將CNN的思路引入到檢測內(nèi)容中,針對高魯棒性模型的訓(xùn)練完成對目標(biāo)區(qū)域內(nèi)的檢測效果,保證檢測區(qū)域的主流性,而通過RCNN的實行可以在樣本信息中提取出神經(jīng)網(wǎng)絡(luò)樣本,在無法更新的條件下實現(xiàn)對獨(dú)立網(wǎng)絡(luò)以及判斷結(jié)果的輸出控制,進(jìn)而保證YOLO的核心檢測思想與檢測速度,降低無減率,而在YOLO的特點(diǎn)中,小目標(biāo)效果本身存在一定的缺點(diǎn),為了有效地改進(jìn)這些缺點(diǎn)情況,基于文獻(xiàn)[10]的內(nèi)容可知,通過RPN結(jié)構(gòu)可以完成SSD結(jié)合網(wǎng)絡(luò)模型的建立與訓(xùn)練[10],而針對目標(biāo)精度情況來看,測試速度與實際測試精度之間有所差異,因此就如同文獻(xiàn)[11]中的內(nèi)容,基于YOLOv2的網(wǎng)絡(luò)構(gòu)架中,檢測精度與速度是基于檢測方法與訓(xùn)練條件而生成的,而在訓(xùn)練過程中由于通過算法YOLO9000完成檢測[11],因此可以更好地實現(xiàn)實時檢測效果。根據(jù)物體檢測過程中RCNN系列的高精度模式來看,檢測速度與精度相較于Faster-RCNN更低,但是YOLO在使用過程中由于其速度的優(yōu)勢,在嵌入式系統(tǒng)的實現(xiàn)中使用更方便。
針對無人機(jī)航拍圖像中的車輛目標(biāo)檢測問題進(jìn)行研究,有研究人員應(yīng)用SSD方法是車輛目標(biāo)檢測[12],網(wǎng)絡(luò)劃分思想是基于卷積網(wǎng)絡(luò)中的多個尺度內(nèi)容進(jìn)行預(yù)測控制的,在不同尺寸目標(biāo)中,一定程度上為了實現(xiàn)對目標(biāo)精度的提高,就需要進(jìn)行分類預(yù)測,但算法在TensorFlow運(yùn)行環(huán)境搭建,不能實現(xiàn)實時運(yùn)行處理。文獻(xiàn)[13]針對YOLO算法進(jìn)行對多尺度特征層的檢測與處理,在原基礎(chǔ)上進(jìn)行檢測與設(shè)計,通過對網(wǎng)絡(luò)模型的訓(xùn)練與不同方法速度的控制,檢測得出高準(zhǔn)確率與高召回率的車輛目標(biāo)效果。對于一些遮擋嚴(yán)重的車輛,檢測效果尚未達(dá)到最佳[13]。文獻(xiàn)[2]將深度學(xué)習(xí)算法YOLOv2引入混合交通的車流量檢測中,并在嵌入式平臺RK3399上實現(xiàn)了該算法。由于YOLOv2是NVIDIA Titanic-X GPU中實時檢測的主要算法流程,但是根據(jù)RK3399中的長時間檢測算法,可以進(jìn)一步調(diào)整其檢測速度與算法的效果[14]。因此,本文在保證一定檢測效果的同時降低了計算時間,滿足實時處理的要求,以YOLOv3目標(biāo)檢測網(wǎng)絡(luò)為基礎(chǔ)實現(xiàn)地面車輛目標(biāo)檢測技術(shù),在GPU服務(wù)器上對地面車輛目標(biāo)進(jìn)行離線訓(xùn)練,通過自學(xué)習(xí)和迭代優(yōu)化網(wǎng)絡(luò)神經(jīng)元權(quán)重,并進(jìn)行合理的參數(shù)調(diào)節(jié)以自動學(xué)習(xí)車輛特征,得到針對特定應(yīng)用場景的網(wǎng)絡(luò)模型;然后在嵌入式GPU平臺上部屬訓(xùn)練好的網(wǎng)絡(luò)模型,進(jìn)而完成對無人機(jī)地面車輛目標(biāo)的自動檢測與識別,提高無人機(jī)航拍精度,并在基于GPU的嵌入式GPU系統(tǒng)上對1080P的高清航拍視頻達(dá)到實時處理的應(yīng)用。
針對無人機(jī)航拍圖像與車輛的實際目標(biāo)目的來看,優(yōu)先采取YOLOv3檢測算法作為地面車輛目標(biāo)算法,在大尺度變化條件下應(yīng)當(dāng)針對地面車輛的實際高度與尺度變化情況進(jìn)行控制,對檢測算法的尺度不變性要求較高,同時,地面車輛目標(biāo)在無人機(jī)航拍大視場圖像中屬于小目標(biāo),特征提取的質(zhì)量則直接影響分類器是否能找到目標(biāo)。YOLOv3在解決這些問題上具有優(yōu)勢,YOLOv3在多個尺度的特征圖上檢測目標(biāo),能減弱目標(biāo)尺度變化對檢測性能帶來的影響。傳統(tǒng)的YOLOv3的網(wǎng)絡(luò)架構(gòu)如圖1所示。
YOLO本身屬于回歸問題,而以小網(wǎng)格的形式實現(xiàn)對圖片的劃分,進(jìn)而預(yù)測不同目標(biāo)邊框,有效的S*S*(B*5+C)個張量?;赮OLO在圖1中所呈現(xiàn)出的流程架構(gòu)圖,每個小網(wǎng)格中所預(yù)測的概率大概在20類左右,而基于一張圖像可以完成對圖像的980個概率預(yù)測,49個網(wǎng)格中的大部分區(qū)域內(nèi)是沒有物體的,因此圖像本身在大部分區(qū)域內(nèi)的預(yù)測概率就為0,在長期變量的條件下,對這些問題的解決,可以保證在不同位置中物體存在概率的確定,其概率為Pr(Object)。從某區(qū)域內(nèi)的實際情況來看,在不同概率的預(yù)測中,某一位置的非條件性預(yù)測概率為Pr(Object)與條件概率的乘積。pr(〖class〗_i)=pr(〖class〗_i|object)*pr(object)針對不同位置情況來看,Pr(Object)的更新應(yīng)當(dāng)基于物體本身存在的Pr(Dog|Object)進(jìn)行更新。而在最后一層預(yù)測網(wǎng)絡(luò)概率與邊框情況來看,基于邏輯激活函數(shù)條件,對于其他層來說,主要使用ReLU函數(shù)。YOLO的網(wǎng)絡(luò)損失函數(shù)是基于平方誤差進(jìn)行表示的,通過對尺度因子λ的引入,提高對類概率與邊框誤差的加權(quán),進(jìn)而更好地反映出大邊框補(bǔ)償條件下的影響效果。
圖1 YOLOv3的網(wǎng)絡(luò)模型
YOLO算法和Faster RCNN算法在訓(xùn)練過程中,使用了錨節(jié)點(diǎn)機(jī)制進(jìn)行目標(biāo)的初步預(yù)測。Faster RCNN算法需要手動設(shè)置錨節(jié)點(diǎn)框的尺寸大小和個數(shù)作為網(wǎng)絡(luò)的訓(xùn)練參數(shù),而YOLO通過對訓(xùn)練數(shù)據(jù)集使用k-means聚類算法,得出錨節(jié)點(diǎn)框的尺寸大小和個數(shù),送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使得網(wǎng)絡(luò)更容易學(xué)習(xí)到目標(biāo)特征,網(wǎng)絡(luò)訓(xùn)練時間得到大幅縮減。標(biāo)準(zhǔn)的k-means算法將距離作為聚類的準(zhǔn)則,這使得大目標(biāo)比小目標(biāo)產(chǎn)生更多的錯誤,而本文采用k-means+YOLO聚類方法,對數(shù)據(jù)集中的目標(biāo)大小進(jìn)行聚類,來得到錨節(jié)點(diǎn)的預(yù)設(shè)置參數(shù)。使用如下的函數(shù)作為聚類的準(zhǔn)則:
邊界框的預(yù)測跟YOLOv2中一樣,仍使用維度聚類方法,先在樣本上使用k-means聚類得到錨節(jié)點(diǎn)。使用邏輯回歸而不是Softmax對每個框進(jìn)行分類,這是考慮到自然場景圖像中物體之間重疊很常見,使用Softmax在每一個框上只能給出最大的類別,導(dǎo)致重疊的漏檢,使用多個單獨(dú)的邏輯回歸(主要用到了sigmoid函數(shù))預(yù)測替代了之前的Softmax分類。最終有三個分支輸出做預(yù)測,輸出的特征圖大小分別為13*13,26*26,52*52,每個特征圖使用三個錨節(jié)點(diǎn),13*13的特征圖使用(116×90)、(156×198)、(373×326)這三個錨節(jié)點(diǎn);26*26的特征圖使用(30×61)、(62×45)、(59×119)這三個錨節(jié)點(diǎn);52*52的特征圖使用(10×13)、(16×30)、(33×23)這三個錨節(jié)點(diǎn)。
YOLOv3在三個不同的尺度上進(jìn)行目標(biāo)的預(yù)測,最后預(yù)測出三維的張量代表邊界框。在COCO數(shù)據(jù)集上,我們在每個尺度上預(yù)測的三個候選框的張量是N×N×[3*(4+1+80)]。共可以檢測80類目標(biāo)。
使用無人機(jī)平臺對某城鎮(zhèn)附近場景進(jìn)行視頻拍攝制作數(shù)據(jù)集。通過無人機(jī)可以實現(xiàn)對每隔1s提取一幀的視頻拍攝,而在3000張圖片中,拍攝的彩色圖片尺寸為1920×1080。在對圖片記性標(biāo)記的時候選擇Labelimage軟件進(jìn)行標(biāo)記,每隔圖片所選用的文件格式為.xml。圖片數(shù)據(jù)集在增強(qiáng)之后,通過對圖片的數(shù)據(jù)量變換與訓(xùn)練增強(qiáng),保證圖片集本身的效果,提高網(wǎng)絡(luò)模型的泛化能力,并且通過增加噪聲數(shù)據(jù),提升網(wǎng)絡(luò)模型的魯棒性。本文主要使用的數(shù)據(jù)增強(qiáng)方法有旋轉(zhuǎn)、縮放、裁剪得到近30000張圖片,大小為1000×600。將27000張圖片作為訓(xùn)練樣本,將其制作成voc數(shù)據(jù)集的格式。將剩余的3000張圖片作為測試集。
在YOLO算法的骨架網(wǎng)絡(luò)Darknet-53使用正態(tài)分布初始化模型參數(shù)。在ubuntu操作系統(tǒng)下,基于darknet框架采用darknet53骨干模型和Xavier初始化方法,在imagenet1000分類數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練權(quán)重darknet53.con.74。然后,從訓(xùn)練集圖片順序打亂,將訓(xùn)練集的圖像輸入到網(wǎng)絡(luò)當(dāng)中進(jìn)行運(yùn)算得到模型的預(yù)測結(jié)果,根據(jù)預(yù)測結(jié)果和真實標(biāo)注值計算預(yù)測誤差,使用鏈?zhǔn)椒▌t和反向傳播方法進(jìn)行對誤差的求取,然后通過對參數(shù)梯度與下模型參數(shù)的控制,完成整體的訓(xùn)練迭代過程。對以上步驟進(jìn)行迭代,直到誤差收斂時完成訓(xùn)練,保存模型參數(shù)文件(.weights文件)。
每次訓(xùn)練結(jié)束后,用測試集測試網(wǎng)絡(luò)的性能,將采用PASCALVOC07的評估方法評價檢測結(jié)果。保存結(jié)果在log.txt中,包含訓(xùn)練epoch次數(shù),訓(xùn)練誤差,學(xué)習(xí)率等。分析檢測評估結(jié)果,從網(wǎng)絡(luò)架構(gòu)、網(wǎng)絡(luò)參數(shù)、訓(xùn)練流程等方面對網(wǎng)絡(luò)進(jìn)行優(yōu)化式改進(jìn)。最終挖掘網(wǎng)絡(luò)對地面汽車目標(biāo)檢測方面的性能。經(jīng)過70000次訓(xùn)練之后,損失在3.5左右不再變化,停止訓(xùn)練。
圖2 網(wǎng)絡(luò)訓(xùn)練損失函數(shù)趨勢圖
將測試集圖像數(shù)據(jù)輸入到訓(xùn)練好的網(wǎng)絡(luò)模型中,進(jìn)行網(wǎng)絡(luò)性能測試。通過對主要準(zhǔn)確度的評價,進(jìn)行對準(zhǔn)確度AP評價,明確其召回率與準(zhǔn)確度對立關(guān)系,指標(biāo)升降存在差異,而后對準(zhǔn)確率與召回率曲線下的面積進(jìn)行控制,為其算法指標(biāo)準(zhǔn)確度AP進(jìn)行控制,在多個類別中完成mAP的平均值。AP@0.5為在IOU=0.5閾值時的指標(biāo)。網(wǎng)絡(luò)測試結(jié)果為在IOU=0.5時的召回率83.25%和準(zhǔn)確度67.14%,處理時間35.8ms。
圖3 基于YOLOv3網(wǎng)絡(luò)模型的檢測結(jié)果
深度學(xué)習(xí)開發(fā)平臺主要有GPU服務(wù)器組成,硬件配置為CPU:Intel Xeon Gold 5118(12核,2.3GHz),內(nèi)存:64G DDR 4,硬盤:512GB固態(tài)硬盤+4TB SATA,GPU:NVDIA TITAN V*2,顯示器:24英寸液晶顯示器*2。操作系統(tǒng):Windows7 SP1 64位、Ubuntu 16.04 lts,安裝cuda 10.1,cudnn 7.5.0并行計算庫,安裝Darknet環(huán)境。
本文檢測時采用NVIDIA TX2嵌入式平臺,它也可以作為一個可開發(fā)的工具箱,在硬件配置上,支持2.5Gbps/Lane的CSI攝像頭傳輸,支持與其他設(shè)備的802.11ac的無線連接和藍(lán)牙連接,配有8GB的內(nèi)存和32GB的外部存儲器。在性能上,NVIDIA TX2平臺包含了一個四核2.0GHz的64位ARMv8 A57處理器,一個雙核2.0GHz的ARMv8丹佛處理器,256核的Pascal GPU,6核心的處理器和GPU共享8G的內(nèi)存,可以面對不同的應(yīng)用場景需求。在以NVIDIA TX2平臺為核心的目標(biāo)系統(tǒng)中搭建Darknet,植入最終訓(xùn)練好的網(wǎng)絡(luò)參數(shù)文件,輸入無人機(jī)航拍的視頻圖像,運(yùn)行YOLOv3算法,實現(xiàn)25幀/s的地面車輛目標(biāo)識別與檢測。
本文設(shè)計了一種基于YOLOv3深度學(xué)習(xí)網(wǎng)絡(luò)模型的無人機(jī)航拍圖像地面車輛的目標(biāo)檢測嵌入式GPU系統(tǒng)。采用YOLOv3網(wǎng)絡(luò)模型目標(biāo)檢測算法,在GPU服務(wù)器上實現(xiàn)了從輸入圖片到輸出結(jié)果的端到端的網(wǎng)絡(luò)模型訓(xùn)練和優(yōu)化。首先在預(yù)設(shè)置參數(shù)階段采用了kmeans_YOLO聚類算法對數(shù)據(jù)集進(jìn)行聚類,實現(xiàn)對錨節(jié)點(diǎn)參數(shù)的設(shè)置,然后采用了網(wǎng)絡(luò)特征提取框架,針對網(wǎng)絡(luò)訓(xùn)練與預(yù)測速度進(jìn)行加快,減少參數(shù)量,有效地實現(xiàn)對圖片的提取,得到最終訓(xùn)練好的網(wǎng)絡(luò)模型,提高了地面車輛目標(biāo)的檢出率,在IOU=0.5時的召回率為83.25%,準(zhǔn)確度為67.14%。在NVIDIA TX2平臺上實現(xiàn)了25幀/s的檢測速率,基本滿足地面車輛目標(biāo)檢測的需求。為以后深度學(xué)習(xí)的目標(biāo)檢測在智能交通、智能安防和無人機(jī)上的應(yīng)用提供了基礎(chǔ)。