(聊城大學(xué)計(jì)算機(jī)學(xué)院,山東聊城 252000)
目標(biāo)檢測(cè)技術(shù)是計(jì)算機(jī)視覺領(lǐng)域的核心問題之一,該技術(shù)在追蹤車輛,以及輔助駕駛等領(lǐng)域起著重要作用。那么如何快速高效準(zhǔn)確的實(shí)現(xiàn)對(duì)車輛的目標(biāo)檢測(cè)成為目前的主要問題。
目標(biāo)檢測(cè)算法主要包括傳統(tǒng)方法和深度學(xué)習(xí)方法,其中傳統(tǒng)方法由不同尺度和寬度的區(qū)域選擇,特征提取和目標(biāo)分類3部分組成。文獻(xiàn)[1]采用HOG算法進(jìn)行特征提取,將卷積神經(jīng)網(wǎng)絡(luò)多層的特征與HOG特征進(jìn)行融合,對(duì)卷積核采用相關(guān)系數(shù)法優(yōu)化,使得檢測(cè)時(shí)間縮短并且檢測(cè)精確率也有將大的提高;文獻(xiàn)[2]設(shè)計(jì)了一種基于級(jí)聯(lián)DPM模型的圖像視覺目標(biāo)識(shí)別改進(jìn)算法,不僅有效優(yōu)化了目標(biāo)檢測(cè)實(shí)時(shí)能力,也進(jìn)一步改進(jìn)了目標(biāo)識(shí)別的準(zhǔn)確性。傳統(tǒng)目標(biāo)檢測(cè)方法存在的最大問題就是時(shí)間復(fù)雜度高、魯棒性低、準(zhǔn)確度和實(shí)時(shí)性差等缺點(diǎn)。而深度學(xué)習(xí)的目標(biāo)檢測(cè)算法則不同,深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分2類,雙階段目標(biāo)檢測(cè)和單階段目標(biāo)檢測(cè)。其中,雙階段目標(biāo)檢測(cè)算法主要分為2個(gè)階段,提取候選區(qū)域和對(duì)候選區(qū)域中的目標(biāo)進(jìn)行檢測(cè)。該類算法的典型代表是Faster R-CNN。而單階段目標(biāo)檢測(cè)算法由于不需要提取候選區(qū)域,輸入圖像就能得到檢測(cè)結(jié)果。因此,該類算法相比雙階段目標(biāo)檢測(cè)算法速度上有明顯提升,但是精度有所下降。該類算法主要代表有SSD、YOLOv3等。已有學(xué)者對(duì)上述算法進(jìn)行了改進(jìn)并應(yīng)用在了各個(gè)領(lǐng)域,如:文獻(xiàn)[3]利用改進(jìn)的Faster R-CNN提高了遠(yuǎn)距離小目標(biāo)的低層信息的特征提取和表達(dá)能力,不僅保留了原本該算法對(duì)大目標(biāo)和中等目標(biāo)的檢測(cè)優(yōu)勢(shì)還克服了本身對(duì)小目標(biāo)物體檢測(cè)不精確的缺點(diǎn);文獻(xiàn)[4]采用改進(jìn)的SSD算法,利用對(duì)圖像第Conv4-3層特征映射圖進(jìn)行超分辨率重建,使得該算法檢測(cè)重疊目標(biāo)物體以及小物體時(shí)檢測(cè)精度大大提高;文獻(xiàn)[5]采用改良的YOLOv3算法通過改進(jìn)其骨干Darknet-53網(wǎng)絡(luò),不僅小幅提高了檢測(cè)精度還大大增快了檢測(cè)速度。與傳統(tǒng)方法相比,深度學(xué)習(xí)主要是數(shù)據(jù)驅(qū)動(dòng)進(jìn)行特征提取,根據(jù)大量樣本的學(xué)習(xí)能夠得到深層的、數(shù)據(jù)集特定的特征表示,其對(duì)數(shù)據(jù)集的表達(dá)更高效和準(zhǔn)確,所提取的抽象特征魯棒性更強(qiáng),泛化能力更好。但在該過程中可能會(huì)出現(xiàn)顯著特征不突出,從而造成泛而不優(yōu)的情況。
本文為測(cè)試不同深度學(xué)習(xí)目標(biāo)檢測(cè)算法在車輛目標(biāo)檢測(cè)中的性能,選取Faster R-CCN、SSD和YOLOv3 3種算法進(jìn)行車輛目標(biāo)檢測(cè)實(shí)驗(yàn),在公開的車輛數(shù)據(jù)集上進(jìn)行測(cè)試,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。
Faster R-CNN是一類基于分類的目標(biāo)檢測(cè)算法。它采用VGG16為基礎(chǔ)特征提取網(wǎng)絡(luò),并添加了卷積層、池化層等結(jié)構(gòu),再經(jīng)過RPN網(wǎng)絡(luò)生成更加準(zhǔn)確的候選區(qū)域,最后采用ROI池化,將特征圖和RPN網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行判決。該算法是基于區(qū)域建議的目標(biāo)檢測(cè)算法,準(zhǔn)確率較高,但速度不快。
SSD是一種單階段目標(biāo)檢測(cè)算法,它的主網(wǎng)絡(luò)結(jié)構(gòu)是VGG16,用卷積層替換最后2個(gè)全連接層,然后添加4個(gè)卷積層來構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),采用了YOLO算法中的回歸思想,利用多尺度特征圖進(jìn)行分類和位置回歸。
2016年YOLO算法由Redmon等提出,該算法是基于回歸的目標(biāo)檢測(cè)算法;2017年改進(jìn)后的YOLOv2誕生;緊接著在2018年提出了由YOLOv2改進(jìn)后的YOLOv3。YOLOv3相較于YOLOv2有著較大的性能提升,它使用Darknet-53作為基礎(chǔ)網(wǎng)絡(luò),并使用了多尺度預(yù)測(cè)方法,提高了檢測(cè)的精確度。
本文所用數(shù)據(jù)集為車輛檢測(cè)數(shù)據(jù)集,數(shù)據(jù)集中的圖片有2000張,主要包括轎車,卡車和公交車等。
實(shí)驗(yàn)在Intel Xeon(R) CPU E5-2699、64G內(nèi)存、Windows10系統(tǒng)下搭建的Pytorch環(huán)境下進(jìn)行,顯卡為Geforce GTX1080TI。
在本次實(shí)驗(yàn)中,我們使用mAP(Mean average precision)值和FPS(Frames per second)值來評(píng)估算法的性能。其中mAP值是所有類別的AP平均值,該值在目標(biāo)檢測(cè)算法中主要用來衡量算法精確度;FPS值即是每秒的幀率,該值用來評(píng)估目標(biāo)檢測(cè)的速度。分別利用Faster R-CNN、SSD和YOLOv3 3種算法在本文車輛數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同算法性能對(duì)比
從表1可以看出:3種算法中SSD的FPS值最大,為28;其次為YOLOv3,為22;Faster R-CNN最小,為13。對(duì)于mAP值的比較:Faster R-CNN的mAP值最大,為0.853;SSD其次,為0.831;YOLOv3最小,為0.531。因此可以得出結(jié)論:在檢測(cè)速度方面,SSD算法最快,其次是YOLOv3算法,而Faster R-CNN的速度在三者中是最慢的。在檢測(cè)精度方面Faster R-CNN的精度值最高,SSD算法排在第二,YOLOv3的精度最低。在表中不難看出SSD算法的綜合性能都要優(yōu)于其他兩種算法,F(xiàn)aster R-CNN算法雖然在速度方面不占優(yōu)勢(shì),但是在檢測(cè)進(jìn)度方面要優(yōu)于其余兩種算法。在日常應(yīng)用中,應(yīng)根據(jù)不同的情況不同的要求選擇合適的算法。
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中的一個(gè)重要領(lǐng)域,本文為了測(cè)試不同深度學(xué)習(xí)算法在車輛目標(biāo)檢測(cè)中的應(yīng)用效果,選取了3種目前應(yīng)用較多的目標(biāo)檢測(cè)算法,主要有Faster R-CNN、SSD和YOLOv3,在本文車輛數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并對(duì)結(jié)果進(jìn)行了分析,其中,精度最高的是Faster R-CNN,mAP為0.853,但是由于其是雙階段檢測(cè)算法,需要先選取候選區(qū)域,因此速度較慢,F(xiàn)PS為13;YOLOv3精度最低,但是速度有所提升;而SSD算法的精度與Faster R-CNN相當(dāng),mAP值為0.831,而且它擁有最快的速度,F(xiàn)PS達(dá)到了28。由于本文實(shí)驗(yàn)數(shù)據(jù)集較小,實(shí)驗(yàn)結(jié)果可能還存在一定的誤差,后續(xù)還應(yīng)繼續(xù)擴(kuò)充數(shù)據(jù)集,為車輛目標(biāo)檢測(cè)提供更好的數(shù)據(jù)基礎(chǔ)。