王 坤,項琦鑫
(中國民航大學(xué) 電子信息與自動化學(xué)院,天津 300300)
隨著中國汽車保有總量的逐年上升,行車安全問題日趨嚴(yán)重。得益于人工智能的發(fā)展,智能汽車系統(tǒng)通過車輛目標(biāo)檢測來規(guī)避一定的行車風(fēng)險。傳統(tǒng)的車輛目標(biāo)檢測方法基于手工提取特征,檢測精度低且無法滿足車輛目標(biāo)實時檢測的需求,深度學(xué)習(xí)近年來在水下檢測[1]、智慧醫(yī)療、導(dǎo)航定位[2,3]等領(lǐng)域取得巨大成功。根據(jù)目標(biāo)邊框產(chǎn)生以及變化的過程,基于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN)的目標(biāo)檢測算法主要分為兩類,一類是以Faster R-CNN、Cascade RCNN 等為代表的two-stage算法,另一類是SSD、Yolo 系列算法[4,5]為代表的onestage 算法。由于two-stage 算法首先通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)產(chǎn)生候選框,然后對相應(yīng)候選框進行分類,而one-stage 算法將輸入圖片通過CNN 直接完成分類和定位任務(wù),所以twostage 算法檢測精度較高,但是檢測速度遠(yuǎn)遠(yuǎn)不如onestage 算法。上述目標(biāo)檢測算法在公開的通用數(shù)據(jù)集中已經(jīng)取得成功,可以滿足一般目標(biāo)的檢測需要。小目標(biāo)所占像素單元較少;遮擋目標(biāo)有很多共享像素且可見像素有限,將類似遮擋目標(biāo)或小目標(biāo)這種可見像素或所占像素單元少的目標(biāo)定義為弱目標(biāo)。道路車輛目標(biāo)中包含大量弱目標(biāo),上述算法對弱目標(biāo)的檢測效果不甚理想。
當(dāng)前的目標(biāo)檢測算法無法有效完成遮擋目標(biāo)及小目標(biāo)等弱目標(biāo)的檢測任務(wù),存在大量漏檢和錯檢等問題。近年來,有不少學(xué)者針對小目標(biāo)和遮擋目標(biāo)等弱目標(biāo)檢測展開研究。文獻[6]提出通過半空間捷徑模塊建立骨干網(wǎng)絡(luò)來加強背景感知能力,抑制復(fù)雜背景信息對小目標(biāo)信息的干擾,同時引入特征金字塔增強模塊,通過細(xì)化的尺度層次提高小目標(biāo)的特征表示。文獻[7]提出M-CBAM 注意力機制并添加到特征強化提取模塊中來過濾背景信息和克服物體重疊問題,同時引入自適應(yīng)融合因子過濾多余的特征,有效緩解了復(fù)雜場景中小目標(biāo)的漏檢和誤檢問題。上述文獻利用金字塔結(jié)構(gòu)與注意力機制增強了特征提取能力,雖然減少了背景信息對小目標(biāo)信息的干擾,但忽略了淺層特征層的細(xì)粒度特性和通道間的信息關(guān)聯(lián)對小目標(biāo)檢測的重要性。
文獻[8]針對密集的遮擋目標(biāo)改進Yolov4-Tiny 網(wǎng)絡(luò)結(jié)構(gòu),使用變形預(yù)測頭(Transformer Prediction Heads,TPH)替換錨點檢測頭并使用自注意力機制與TPH 集成“卷積塊注意模型”。改進后的Yolov4-Tiny 網(wǎng)絡(luò)能在目標(biāo)密集的場景中定位關(guān)鍵的注意區(qū)域,對密集的遮擋目標(biāo)進行準(zhǔn)確有效的實時檢測。文獻[9]將深度殘差網(wǎng)絡(luò)作為Yolov3 的骨干網(wǎng)絡(luò),設(shè)計不同尺度的卷積特征圖與殘差網(wǎng)絡(luò)對應(yīng)尺度的特征圖進行融合,形成最終的特征金字塔執(zhí)行車輛預(yù)測任務(wù),實驗結(jié)果表明提出的模型能更好地檢測出遮擋目標(biāo)。上述文獻通過多尺度融合構(gòu)建金字塔結(jié)構(gòu)在一定程度上提升了遮擋目標(biāo)的檢測精度,但是不同尺度的目標(biāo)先驗框稀疏度不同,淺層也有大目標(biāo)和中目標(biāo)的存在,小目標(biāo)不易分得檢測框,影響了小目標(biāo)的檢測并忽略了融合特征帶來的計算量。
針對上述問題,本文以Yolov4 作為基礎(chǔ)模型,利用注意力機制與通道分割設(shè)計特征增強注意力模塊(Feature Enhancement Attention Block,FEAB),并添加至PANet 網(wǎng)絡(luò)。FEAB 利用淺層特征層的細(xì)粒度特性與通道間的信息關(guān)聯(lián),增強小目標(biāo)信息的提取能力;在骨干網(wǎng)絡(luò)與頸部網(wǎng)絡(luò)之間添加像素重組殘差模塊,通過超分辨率的方法將位于同一網(wǎng)格的多個遮擋目標(biāo)中心點分離到不同網(wǎng)格中,克服Yolov4 錨框機制對被遮擋目標(biāo)檢測的限制,提升車輛遮擋目標(biāo)的檢測能力;考慮到車輛目標(biāo)檢測的實時性需求,使用深度可分離卷積替換多尺度特征融合模塊的普通卷積,提升檢測速度。
如圖1 所示,Yolov4 的整體結(jié)構(gòu)分為三個部分:使用CSPDarknet53[10]作為主干網(wǎng)絡(luò)Backbone、由SPP和特征融合模塊PANet[11]構(gòu)成頸部Neck 以及與Yolov3 相同的3 檢測頭Head。
圖1 Yolov4 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The network structure of Yolov4
圖1 中以416×416 的輸入圖像為例,將原始輸入圖像調(diào)整到416×416 大小并輸入到主干特征提取網(wǎng)絡(luò)CSPDarkNet53 中進行圖像特征提取,得到P1、P2、P3作為有效特征層輸入到由FPN 和PANet 構(gòu)成的特征金字塔中進行特征加強提取,PANet 網(wǎng)絡(luò)獲取3 個尺度的有效特征圖并輸入Yolo Head 結(jié)構(gòu)。通過解碼網(wǎng)絡(luò)處理并進行非極大值抑制后將最終結(jié)果顯示在原圖上,Yolov4 輸出三個不同尺寸的特征圖用于不同尺寸的物體預(yù)測。因為下采樣倍數(shù)越大,代表網(wǎng)絡(luò)的感受野越大,所以輸出的13×13、26×26、52×52 三個特征層分別實現(xiàn)大、中、小目標(biāo)的檢測。檢測頭網(wǎng)絡(luò)將原始圖像分成K×K個網(wǎng)格,每個網(wǎng)格設(shè)置三個先驗框來預(yù)測目標(biāo)邊界。每個網(wǎng)格的張量計算公式為:
其中,K代表網(wǎng)格數(shù),3 代表先驗框個數(shù),4 代表邊框坐標(biāo),1 代表邊框置信度,N代表對象類別數(shù)。
根據(jù)基本組件分成5 個部分,如圖2 所示。圖2(a)中的CBM 模塊是Yolov4 網(wǎng)絡(luò)結(jié)構(gòu)中最小的組件,由Conv、Bn、Mish 激活函數(shù)三者組成;圖2(b)中的CBL模塊由Conv、Bn、Leaky_relu 激活函數(shù)三者組成;圖2(c)中的SPP 模塊采用1×1、5×5、9×9、13×13 的最大池化,進行多尺度融合,有效地增加感受野并分離出顯著的上下文特征;圖2(d)中的Res unit 殘差模塊借鑒了Resnet 網(wǎng)絡(luò)中的殘差結(jié)構(gòu),構(gòu)建更深的網(wǎng)絡(luò),特征圖使用add 進行張量相加,不增加通道;圖2(e)中的CSPX 模塊借鑒了CSPNet 思想,由三個卷積層和X個Res unit 模塊堆疊組成。
圖2 Yolov4 網(wǎng)絡(luò)組件Fig.2 Yolov4 network components
在車輛目標(biāo)檢測的實際應(yīng)用中,被遮擋目標(biāo)可見像素太少,小尺寸目標(biāo)自身所占像素太少容易被忽略等難題一直困擾著研究人員。原始Yolov4 算法在通用數(shù)據(jù)集上表現(xiàn)出色,但是Yolov4 的錨框機制對遮擋目標(biāo)的訓(xùn)練檢測并不友好,同時Yolov4 忽視了淺層特征層的細(xì)粒度特性和通道間的信息關(guān)聯(lián)對小目標(biāo)檢測的重要性。針對車輛弱目標(biāo)普遍存在且不易檢測的問題,提出了改進Yolov4 的車輛弱目標(biāo)檢測算法。
在實際的交通場景中,嚴(yán)重遮擋的目標(biāo)可見像素有限且有很多共享像素。Yolov4 確定錨框時,只有包含物體中心點的網(wǎng)格才被視為正確,多個目標(biāo)的中心點位于同一網(wǎng)格時,Yolov4 只會保留一個目標(biāo),其余目標(biāo)在訓(xùn)練過程中會被忽略,這嚴(yán)重限制了Yolov4 對遮擋目標(biāo)的檢測能力。為了在訓(xùn)練時保留更多的遮擋目標(biāo),將多個嚴(yán)重遮擋目標(biāo)的中心點分散到不同的網(wǎng)格中,引入像素重組模塊如圖3 所示。
圖3 像素重組原理圖Fig.3 Principle diagram of pixel shuffle
由圖3 可知,引入像素重組[12(]Pixel Shuffle,PS)將低分辨率(Low Resolution,LR)特征圖通過多次卷積核為f1的卷積操作,最終得到通道數(shù)為r2的特征圖,r是其分辨率。通過通道重組獲取高分辨率(High Resolution,HR)特征圖有效地擴大感受野并提供更多的上下文信息,通過超像素方式將同一網(wǎng)格的多個遮擋目標(biāo)的中心點分散到不同網(wǎng)格中。但是由于邊界處的卷積都只涉及到相同的像素點,像素重組在邊界處存在反卷積層不平整的問題。
為了改善像素重組反卷積層不平整的問題并且使得網(wǎng)絡(luò)能完整學(xué)習(xí)相關(guān)特征,利用空洞卷積和非對稱卷積建立像素重組殘差模塊。超分辨率實質(zhì)上是從一張?zhí)卣鲌D變換到另一張相似特征圖的過程,特征不需要全學(xué),通過學(xué)習(xí)殘差特征去恢復(fù)一些細(xì)節(jié)。為了從遮擋目標(biāo)的有限可見像素中提取細(xì)化信息并生成可區(qū)分表示,本文提出像素重組殘差模塊,記為PS-R,結(jié)構(gòu)如圖4 所示。由圖4 可知,分支1 采用不同大小和膨脹率的空洞卷積,不同的卷積核覆蓋不同的空間范圍。通過不同的感受野查看同一位置4 次。該層次結(jié)構(gòu)從不同的感受野提取信息,不僅有細(xì)節(jié)信息還兼顧當(dāng)前區(qū)域的全局信息。通過像素重組模塊改善遮擋目標(biāo)的信息提取能力和可區(qū)分表示,但伴隨有反卷積層的不平整。分支2 使用非對稱卷積代替正方形卷積,在學(xué)習(xí)殘差特征信息的同時降低參數(shù)量的引入,分支1和2 元素求和后得到高分辨率特征層。
圖4 像素重組殘差模塊Fig.4 Pixel shuffle residual module
原始Yolov4 網(wǎng)絡(luò)忽視了淺層特征層的細(xì)粒度信息和通道間信息的關(guān)聯(lián)對小目標(biāo)檢測的重要性。針對此問題,提出具有對象感知能力的特征增強雙分支模塊FEAB,如圖5 所示。FEAB 模塊由兩個分支組成:注意力分支和基于通道分割的特征增強分支,其中特征增強分支通道分割得到子特征圖C1、C2。特征增強分支得到的增強特征圖C3,與注意力分支得到的歸一化重要性特征圖C4進行元素相乘,生成具有對象感知能力的增強特征圖。為了保留更多的細(xì)粒度信息,將具有對象感知的增強特征圖和輸入特征圖進行特征圖相加得到C5作為下一個卷積層的輸入特征圖。
圖5 特征增強注意力模塊Fig.5 Feature enhancement attention block
由圖5 可知,為了節(jié)約算力,注意力分支僅使用通道維度的平均池化去壓縮特征圖的所有通道獲得自我注意特征圖。在自我注意特征圖中,高像素值的語義信息被確定為重要通道,在后續(xù)處理中會得到更多的關(guān)注。用Sigmoid 激活函數(shù)對自我注意特征圖的所有通道進行歸一化得到歸一化重要性特征圖C4。特征增強分支對輸入特征圖進行通道分割,對得到的(C1,C2)進行不同的操作:C1不進行任何操作,保留淺層高分辨率特征圖的小目標(biāo)信息和邊緣信息;C2分三個支路對其進行膨脹率不同的空洞卷積操作,獲取不同感受野的特征圖后進行Concat 操作,并使用非對稱卷積操作整理維度。將操作后的C1和C2進行Concat 操作獲得增強特征圖C3,與歸一化重要性特征圖元素相乘得到具有對象感知的增強特征圖。最后,將具有對象感知的增強特征圖與輸入特征圖進行元素求和,獲得最終的特征圖C5。
Yolov4的初始先驗框尺寸由Pascal VOC和COCO兩大通用數(shù)據(jù)集聚類確定,本文使用針對交通道路目標(biāo)的車輛數(shù)據(jù)集KITTI 與UA-DETRAC 進行實驗。與通用數(shù)據(jù)集相比,車輛數(shù)據(jù)集的寬高比更大,初始先驗框的尺寸不適用于本文數(shù)據(jù)集。因此,本文使用k-means++聚類結(jié)合遺傳算法對道路車輛數(shù)據(jù)集的真實標(biāo)注框進行聚類。通過對數(shù)據(jù)集中車輛及行人目標(biāo)的形狀及特點進行分析,手動選取k-means++的初始聚類框,以此降低算法在初始聚類中心上帶來的誤差。使用Genetic Algorithm 遺傳算法,在k-means++聚類的結(jié)果上對聚類中心進行mutation 變異,遺傳算法隨機對先驗框的寬高比進行變異,將變異后更好的結(jié)果賦值給原有的先驗框。模型保留Yolov4 的三檢測頭結(jié)構(gòu),基于每個檢測層保留三個尺寸的先驗框,所以本文選取聚類中心k=9。在KITTI 數(shù)據(jù)集上的先驗框聚類結(jié)果是:[9,26]、[15,35]、[8,72]、[27,40]、[20,56]、[39,71]、[23,165]、[61,115]、[99,198];在UA-DETRAC數(shù)據(jù)集上的先驗框聚類結(jié)果是:[12,17]、[16,23]、[22,29]、[32,31]、[27,43]、[40,44]、[57,51]、[63,83]、[103,115]。使用結(jié)合了遺傳算法的k-means++算法聚類得到的先驗框更貼合數(shù)據(jù)集包含的目標(biāo)特點,保證訓(xùn)練過程的進行。
深度可分離卷積[13]由逐深度卷積和逐點卷積組合而成,為了提高網(wǎng)絡(luò)的表達能力,在卷積之后均使用BN 和ReLu 激活函數(shù)。與普通卷積相比,在精度不變的情況下,深度可分離卷積大幅減少了模型的參數(shù)量。在原有的加強特征提取結(jié)構(gòu)中PANet 由普通卷積塊堆疊而成,引入太多計算量,因此,本文用深度可分離卷積替換PANet++中的普通卷積。假設(shè)輸入特征圖尺寸為DF×DF×M,卷積核尺寸為DK×DK×M,輸出特征圖尺寸為DF×DF×N。
深度可分離卷積與普通卷積的參數(shù)量之比為:
如式(2)所示,深度可分離卷積的參數(shù)量遠(yuǎn)遠(yuǎn)少于普通卷積,有效降低網(wǎng)絡(luò)的計算量,提升檢測速度。
本文提出的改進Yolov4的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,主要分為三部分:設(shè)計像素重組殘差模塊PS-R,通過超分辨率的方式將多個遮擋目標(biāo)的中心點分散到不同網(wǎng)格中,遮擋目標(biāo)在訓(xùn)練中被更多的保留,有利于遮擋目標(biāo)檢測;設(shè)計FEAB模塊并添加至PANet中構(gòu)成PANet++,保留更多細(xì)粒度信息,同時加強淺層細(xì)粒度特征的提取與通道信息關(guān)聯(lián),像素重組殘差模塊與特征增強注意力雙分支模塊均用于加強網(wǎng)絡(luò)的弱目標(biāo)特征信息的提取能力;最后使用深度可分離卷積替換PANet++中的普通卷積,提升檢測速度。在通過非極大值抑制刪除多余的檢測窗口后,獲得最終的預(yù)測結(jié)果。
圖6 改進的Yolov4 結(jié)構(gòu)Fig.6 The improved Yolov4 structure
本文實驗運行的環(huán)境見表1。
表1 實驗運行環(huán)境Tab.1 Experimental operating environment
本文在兩個公共車輛數(shù)據(jù)集 KITTI 和UA-DETRAC 上進行實驗。KITTI 數(shù)據(jù)集包含8 個類別,訓(xùn)練集中有7481 張圖片。數(shù)據(jù)集中的Misc 類別是雜項,舍棄這個類別。為了更好地進行自主駕駛算法的訓(xùn)練和驗證,將數(shù)據(jù)集中的person 和pedestrians合并為一類,van、truck、tram 與car 合并為一類,最終分為Car、Person、Cyclist 這三個類別。UA-DETRAC數(shù)據(jù)集包含使用相機在中國北京和天津的24 個不同地點拍攝的10 個小時視頻。視頻以每秒25 幀的速度錄制,分辨率為960×540 像素。數(shù)據(jù)集包含82085 張圖片作為訓(xùn)練集,56167 張圖片作為測試集。實驗中的訓(xùn)練集和測試集的劃分如表2 所示。為了驗證模型的普適性,選擇使用Pascal VOC 2007 通用數(shù)據(jù)集來評估本文模型。Pascal VOC 2007 包含9963 張圖片,該數(shù)據(jù)集共有20 個物體類別。Pascal VOC 2007 的訓(xùn)練集(5011 張圖片)被用來訓(xùn)練網(wǎng)絡(luò),而Pascal VOC 2007的測試集(4952 張圖片)則被用來測試。選擇Pascal VOC 2007 的車輛和行人等類別進行結(jié)果預(yù)測。模型被測試時使用全類別平均準(zhǔn)確度(Mean Average Precision,MAP)作為評價的標(biāo)準(zhǔn)性能指標(biāo)。所有的指標(biāo)都按照Pascal VOC 標(biāo)準(zhǔn)計算。
表2 實驗數(shù)據(jù)集分布Tab.2 Experiment dataset distribution
在Pytorch 框架上用預(yù)先訓(xùn)練好的CSPDarknet53權(quán)重對骨干網(wǎng)絡(luò)進行凍結(jié)訓(xùn)練。對網(wǎng)絡(luò)總共訓(xùn)練150個epoch,包括50 個凍結(jié)訓(xùn)練的epoch 和100 個解凍訓(xùn)練的epoch。基于GPU 的內(nèi)存容量,當(dāng)訓(xùn)練被凍結(jié)時,PASCAL VOC 2007 的Batch size 大小為16;訓(xùn)練不凍結(jié)時,Batch size 大小為 8。在 KITTI 和UA-DETRAC 數(shù)據(jù)集的訓(xùn)練過程中,訓(xùn)練凍結(jié)時的Batch size 大小為8,訓(xùn)練不凍結(jié)時的Batch size 大小為4。實驗過程輸入圖片的尺寸為416×416,同時啟用了馬賽克數(shù)據(jù)增強,整個網(wǎng)絡(luò)采用隨機梯度下降法(Stochastic Gradient Descent,SGD)進行優(yōu)化,初始學(xué)習(xí)率為1×10-3,權(quán)重衰減為5×10-4,動量為0.9。正負(fù)樣本通過IoU 閾值來區(qū)分,大于設(shè)定閾值的認(rèn)定為正樣本,小于設(shè)定閾值的是負(fù)樣本,兩個閾值中間的樣本會被拋棄,通常情況下負(fù)樣本會很多,所以通常選取較小的閾值來確定負(fù)樣本??紤]到正負(fù)樣本比例的均衡,本文將IoU 閾值設(shè)置為0.5。
本文采用MAP 和每秒傳輸幀率(Frames Per Second,FPS)作為評價指標(biāo)。MAP 是多個類別AP 的平均,其大小一定在[0,1]區(qū)間,越大越好;AP 值為Precision-recall 曲線下面的面積;P為準(zhǔn)確率(Precision);R為召回率(Recall)。計算公式為:
其中,PAP為單類別平均準(zhǔn)確度;PMAP為全類別平均準(zhǔn)確度;XTP為正確檢測的目標(biāo)物體;XFP為錯誤檢測的目標(biāo)物體;XFN為沒有檢測出的目標(biāo)物體;XTN為正確檢測出的非目標(biāo)物體。
3.5.1 消融實驗
為了驗證特征增強注意力雙分支模塊、像素重組殘差模塊、深度可分離卷積和k-means++結(jié)合遺傳算法獲得先驗框有利于模型精度和速度的提升,本文在KITTI 數(shù)據(jù)集上進行消融實驗,實驗結(jié)果如表3 所示。Yolov4 是原始模型;Yolov4-1 使用k-means++結(jié)合遺傳算法生成先驗框;Yolov4-2 只使用特征增強分支;Yolov4-3 只使用注意力分支;Yolov4-4 表示特征增強注意力雙分支模塊的引入;Yolov4-5 表示引入像素重組殘差模塊;Yolov4-6 表示引入深度可分離卷積;Yolov4-Our 表示以上三個模塊同時引入。實驗中除了原始Yolov4,其余實驗均使用k-means++結(jié)合遺傳算法生成先驗框。
表3 模塊的消融實驗Tab.3 Ablation experiments of modules
由表3 可知,使用原始Yolov4 模型時,在KITTI數(shù)據(jù)集上精度達到了94.4%。實驗結(jié)果表明,Yolov4-1通過使用k-means++結(jié)合遺傳算法生成先驗框,在沒有引入其他參數(shù)量的情況下,檢測算法精度提升0.4%。在考慮聚類方式帶來的提升時,Yolov4-2 通過特征增強分支在KITTI 數(shù)據(jù)集上比Yolov4 提高了1.2%的精度。Yolov4-3 通過注意力模塊加強了通道特征間的關(guān)聯(lián)性比Yolov4 精度提高了0.7%。與上述添加單分支的方法相比,Yolov4-4 的精度提高了1.4%,特征增強注意力雙分支模塊的性能優(yōu)于只添加單分支模塊,驗證了Yolov4 在PANet 中引入特征增強注意力雙分支模塊構(gòu)成PANet++時,通過全局平均池化等局部跨通道交互操作增強了通道特征之間的相關(guān)性,通道分割后的卷積操作保留了更多細(xì)粒度特征。Yolov4-5 引入像素重組殘差模塊,通過像素重組的方式保留更多遮擋問題嚴(yán)重的目標(biāo)信息,并使用殘差模塊解決像素重組特征層不平整的問題,精度提高了0.8%。上述模型加強了小目標(biāo)和遮擋目標(biāo)等弱目標(biāo)的檢測能力,但是引入了更多的計算量。如Yolov4-6 所示,為了提升檢測速度,用深度可分離卷積替換特征加強提取網(wǎng)絡(luò)PANet++中的普通卷積,損失了少量的精度,但是檢測速度提升了約11%。Yolov4-Our 將上述幾種模塊同時引入網(wǎng)絡(luò),精度相比于Yolov4 提升了1.9%,并且通過深度可分離卷積將檢測速度提升,雖然仍稍慢于原始Yolov4。
由于特征增強分支使用了通道分割,為了實驗的完整性,進行消融實驗來比較通道分割的選擇規(guī)則。在特征增強分支中,將輸入特征圖根據(jù)通道分為1/4,2/4,3/4 和4/4(4/4 表示特征圖未被分割),并對它們進行卷積操作。每個模型的精確度在KITTI 數(shù)據(jù)集上進行評估。與上述實驗一樣,在PANet 的26×26 和52×52 特征圖后添加特征增強注意力雙分支模塊,實驗結(jié)果如表4 所示。
表4 特征圖分割在KITTI 數(shù)據(jù)集上的檢測結(jié)果Tab.4 Detection results of feature map split on KITTI dataset
由表4 可知,當(dāng)輸入特征圖被分成兩個相等的部分時獲得最高的精度。由于FPS 的差異很小,只考慮MAP,最終選擇將輸入特征圖在通道維度分為2 個子特征圖。應(yīng)用于該消融實驗的所有特征增強注意力模塊都包含一個注意分支和一個特征增強分支。
3.5.2 不同模型間的對比實驗
選取Faster R-CNN、Cascade R-CNN、SSD、Yolov2、Yolov3、Yolov4 和Yolov4-Our 在使用相同參數(shù)的情況下,在KITTI 和UA-DETRAC 兩大車輛公共數(shù)據(jù)集上進行實驗對比分析,驗證改進Yolov4 的車輛弱目標(biāo)檢測的有效性,實驗結(jié)果如表5 所示。
表5 不同模型在車輛數(shù)據(jù)集上的測試結(jié)果Tab.5 Test results of different models on the vehicle dataset
由表5 可知,Yolov4 模型與二階段模型Faster RCNN 和Cascade R-CNN 模型及一階段模型Yolov2 相比,在檢測速度和檢測精度上都得到大幅提升。在KITTI 和UA-DETRAC 車輛數(shù)據(jù)集上驗證,與SSD 相比,雖然檢測速度61.4 fps 慢于SSD,但是檢測精度分別提升了9.9%和7.1%;與Yolov3 相比,精度分別提升了5%和4.8%。與原始Yolov4 比較時,Yolov4-Our 在KITTI 和UA-DETRAC 數(shù)據(jù)集上的檢測精度分別提高了1.9%和2.4%,本文改進方法的PMAP值高于表中其他方法。Yolov4-Our 在特征圖輸入到PAN 前添加像素重組殘差模塊,通過超分辨率的方式將多個遮擋目標(biāo)的中心點分散到不同網(wǎng)格中,在訓(xùn)練中保留更多的遮擋目標(biāo);通過引入特征增強注意力雙分支模塊保留更多細(xì)粒度信息并加強通道間的信息關(guān)聯(lián),提升了小目標(biāo)的檢測能力。最后使用深度可分離卷積替換PANet++中的普通卷積,提升檢測速度。實驗結(jié)果表明,本文提出的算法精度提高,有效提升實際交通場景物體和遮擋物體等弱目標(biāo)的檢測能力,算法檢測速度達到61.4 fps,高于車輛數(shù)據(jù)集視頻采集25 fps 的幀率,滿足車輛目標(biāo)實時檢測的要求。
3.5.3 車輛目標(biāo)預(yù)測結(jié)果
在KITTI 數(shù)據(jù)集和UA-DETRAC 數(shù)據(jù)集上,原始Yolov4 模型與Yolov4-Our 模型的預(yù)測結(jié)果如圖7-8 所示。左側(cè)(a)為原始Yolov4 模型的預(yù)測結(jié)果,右側(cè)(b)為Yolov4-Our 模型的預(yù)測結(jié)果。
圖7 KITTI 數(shù)據(jù)集上的預(yù)測結(jié)果Fig.7 Prediction results on KITTI dataset
從檢測效果對比來看,圖7(a)中原始Yolov4 對圖中紅色框標(biāo)注的弱目標(biāo)存在漏檢問題,圖7(b)的Yolov4-Our 模型成功將其檢測出來;圖8(a)中原始Yolov4 對圖中綠色框標(biāo)注的弱目標(biāo)存在漏檢問題,圖8(b)的Yolov4-Our 模型成功將其檢測出來。原有的Yolov4 模型忽略了通道之間的相關(guān)性,在特征融合過程中丟失過多細(xì)粒度信息,因此圖中弱目標(biāo)漏檢的情況較多。Yolov4-Our 在骨干網(wǎng)中加入特征增強注意力模塊,它增強了信道特征與網(wǎng)絡(luò)細(xì)節(jié)信息之間的相關(guān)性,使網(wǎng)絡(luò)能夠更好地預(yù)測遺漏對象。被遮擋物體的可見像素比較少,而且Yolov4 確定錨框的機制,只有包含物體中心點的網(wǎng)格才會被視為正確的,當(dāng)多個目標(biāo)嚴(yán)重重疊時,它們的中心點位于同一個網(wǎng)格中,在訓(xùn)練過程中只保留一個目標(biāo),其他的都忽略。通過像素重組殘差模塊從不同范圍提取的信息不僅有細(xì)節(jié)信息,而且有相對當(dāng)前區(qū)域的全局信息。結(jié)果表明,相比于原始Yolov4 模型,Yolov4-Our 模型更好地檢測出了車輛小目標(biāo)與遮擋目標(biāo),提升了弱目標(biāo)檢測能力。
圖8 UA-DETRAC 數(shù)據(jù)集上的預(yù)測結(jié)果Fig.8 Prediction results on UA-DETRAC dataset
為了驗證通用性,利用通用數(shù)據(jù)集 Pascal VOC2007 對車輛類別進行了準(zhǔn)確度和預(yù)測結(jié)果對比。在訓(xùn)練過程開始前,使用k-means++結(jié)合遺傳算法生成先驗框,在Pascal VOC2007 上的先驗框聚類結(jié)果是:[11,18]、[20,40]、[42,28]、[40,76]、[78,54]、[74,148]、[140,112]、[192,243]、[459,401],準(zhǔn)確度對比如表6 所示。
表6 Pascal VOC2007 數(shù)據(jù)集結(jié)果Tab.6 Results on Pascal VOC2007 dataset
由表6 可知,在Pascal VOC2007 的Bicycle、Bus、Car 及Mbike 這些類別上,Yolov4-1 相較于Yolov4 只改變了聚類方式,卻帶來了精度上的提升,驗證了kmeans++與遺傳算法結(jié)合生成先驗框的有效性;Yolov4-Our 在精度上全面提升,最終的PMAP提升2.5%,驗證了模型的通用性。
Pascal VOC2007 上的預(yù)測結(jié)果對比如圖9 所示。圖9 顯示了Yolov4 和Yolov4-Our 模型在 Pascal VOC2007 數(shù)據(jù)集上的預(yù)測結(jié)果,對比圖9(a)(b)的檢測效果,可以看出,在對通用數(shù)據(jù)集的車輛類目標(biāo)進行檢測時,本文提出的模型依然能夠檢測出更多的車輛遮擋目標(biāo)與小目標(biāo)這些像素不足的弱目標(biāo),有效增強了像素信息較少的弱目標(biāo)特征提取能力,具有一定的通用性。
圖9 Pascal VOC2007 數(shù)據(jù)集上的預(yù)測結(jié)果Fig.9 Prediction results on Pascal VOC2007 dataset
針對實際交通場景下存在大量可見像素較少的車輛弱目標(biāo),本文提出改進Yolov4 的車輛弱目標(biāo)檢測算法。設(shè)計像素重組殘差模塊PS-R,通過超分辨率的方式將位于同一網(wǎng)格中的多個目標(biāo)中心點分散到不同網(wǎng)格中,避免遮擋目標(biāo)被Yolov4 錨框機制忽略,在網(wǎng)絡(luò)訓(xùn)練中保留更多的遮擋目標(biāo),提升了遮擋車輛目標(biāo)的檢測能力;設(shè)計特征增強注意力雙分支模塊FEAB 并添加至PANet 構(gòu)成PANet++結(jié)構(gòu),保留更多淺層特征層的細(xì)粒度信息并加強通道關(guān)聯(lián),提升了弱目標(biāo)檢測性能;最后使用深度可分離卷積替換PANet++中的普通卷積,提升檢測速度。在訓(xùn)練前,使用k-means++結(jié)合遺傳算法針對車輛數(shù)據(jù)集的目標(biāo)樣本標(biāo)注框生成更適用于車輛目標(biāo)檢測的先驗框。相比于原始Yolov4 網(wǎng)絡(luò),在滿足車輛檢測實時性的同時,改進后的Yolov4車輛弱目標(biāo)檢測算法精度有所提升,對道路車輛小目標(biāo)及遮擋目標(biāo)等弱目標(biāo)有更出色的檢測能力。