徐子豪 黃偉泉 王胤
摘 要:針對傳統(tǒng)機(jī)器學(xué)習(xí)算法在交通監(jiān)控視頻的車輛檢測中易受視頻質(zhì)量、拍攝角度、天氣環(huán)境等客觀因素影響,預(yù)處理過程繁瑣、難以進(jìn)行泛化、魯棒性差等問題,結(jié)合空洞卷積、特征金字塔、焦點(diǎn)損失,提出改進(jìn)的更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)和單階段多邊框檢測檢測器(SSD)兩種深度學(xué)習(xí)模型進(jìn)行多類別車輛檢測。首先從監(jiān)控視頻中截取的不同時間的851張標(biāo)注圖構(gòu)建數(shù)據(jù)集;然后在保證訓(xùn)練策略相同的情況下,對兩種改進(jìn)后的模型與原模型進(jìn)行訓(xùn)練;最后對每個模型的平均準(zhǔn)確率進(jìn)行評估。實(shí)驗(yàn)結(jié)果表明,與原Faster R-CNN和SSD模型相比,改進(jìn)后的Faster R-CNN和SSD模型的平均準(zhǔn)確率分別提高了0.8個百分點(diǎn)和1.7個百分點(diǎn),兩種深度學(xué)習(xí)方法較傳統(tǒng)方法更適應(yīng)復(fù)雜情況下的車輛檢測任務(wù),前者準(zhǔn)確度較高、速度較慢,更適用于視頻離線處理,后者準(zhǔn)確度較低、速度較快,更適用于視頻實(shí)時檢測。
關(guān)鍵詞:深度學(xué)習(xí);車輛檢測;空洞卷積;特征金字塔;焦點(diǎn)損失
中圖分類號: TP301.6
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-9081(2019)03-0700-06
Abstract: Since performance of traditional machine learning methods of detecting vehicles in traffic surveillance video is influenced by objective factors such as video quality, shooting angle and weather, which results in complex preprocessing, hard generalization and poor robustness, combined with dilated convolution, feature pyramid and focal loss, two deep learning models which are improved Faster R-CNN (Faster Regions with Convolutional Neural Network) and SSD (Single Shot multibox Detector) model were proposed for vehicle detection. Firstly, a dataset was composed of 851 labeled images captured from the surveillance video at different time. Secondly, improved and original models were trained under same training strategies. Finally, average accuracy of each model were calculated to evaluate. Experimental results show that compared with original Faster R-CNN and SSD, the average accuracies of the improved models improve 0.8 percentage points and 1.7 percentage points respectively. Both deep learning methods are more suitable for vehicle detection in complicated situation than traditional methods. The former has higher accuracy and slower speed, which is more suitable for video off-line processing, while the latter has lower accuracy and higher speed, which is more suitable for video real-time detection.
Key words: deep learning; vehicle detection; dilated convolution; feature pyramid; focal loss
0 引言
隨著經(jīng)濟(jì)和城鎮(zhèn)化建設(shè)的快速發(fā)展,我國各城市的道路和車輛總量不斷增長,交管部門的管理壓力與日俱增。雖然高清監(jiān)控攝像頭已經(jīng)在絕大多數(shù)路口部署,但每日產(chǎn)生的視頻量也越來越龐大,通過人工進(jìn)行視頻實(shí)時監(jiān)控或離線處理既費(fèi)時又費(fèi)力,而且容易延誤和遺漏,所以亟須尋找一種自動化方法輔助人工進(jìn)行監(jiān)控處理,這也是智能交通系統(tǒng)的核心[1-4] 。
交通監(jiān)控視頻中蘊(yùn)含豐富的信息,是智能交通監(jiān)控系統(tǒng)的重要數(shù)據(jù)來源。監(jiān)控視頻可以應(yīng)用在車輛違法行為判斷、跨攝像頭車輛追蹤、分時段分車道車流量統(tǒng)計等實(shí)際場景,而車輛檢測則是車輛行為分析和智能交通監(jiān)控的重要基礎(chǔ)。
我國的相關(guān)管理部門一直在積極改進(jìn)交通視頻監(jiān)控系統(tǒng),但由于視頻監(jiān)控系統(tǒng)建設(shè)時間以及監(jiān)控需求不同,監(jiān)控視頻的分辨率、攝像角度、攝像方向都有很大差異,加之不同的時間、天氣,如:夜間車輛燈光、惡劣天氣的能見度、大風(fēng)帶來的攝像頭抖動等因素都會嚴(yán)重影響視頻質(zhì)量。這些因素使得獲取到的視頻質(zhì)量良莠不齊,而傳統(tǒng)車輛檢測方法[5-9] 應(yīng)對復(fù)雜場景往往表現(xiàn)較差,好的表現(xiàn)更依賴于好的視頻質(zhì)量和簡單場景,這是車輛檢測在實(shí)際應(yīng)用上表現(xiàn)不佳的重要原因。
近幾年,深度學(xué)習(xí)方法在計算機(jī)視覺領(lǐng)域不斷取得突破[10],一些基本任務(wù)也都有了優(yōu)秀的解決方案,基于深度學(xué)習(xí)的目標(biāo)檢測算法也在眾多檢測算法中異軍突起,其準(zhǔn)確率遠(yuǎn)遠(yuǎn)超過傳統(tǒng)檢測算法,魯棒性也更強(qiáng)。深度學(xué)習(xí)方法使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)擺脫了傳統(tǒng)機(jī)器學(xué)習(xí)方法預(yù)處理及構(gòu)造特征的繁瑣過程,同時大幅降低了因角度、遮擋等因素造成的誤檢和漏檢,對復(fù)雜場景的適應(yīng)性更強(qiáng)。目前,深度學(xué)習(xí)的目標(biāo)檢測方法主要分為以文獻(xiàn)[11]和文獻(xiàn)[12]為代表的單階段模型和以文獻(xiàn)[13]為代表的兩階段模型兩大類。
本文將更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Regions with CNN, Faster R-CNN)、單階段多邊框檢測檢測器(Single Shot multibox Detector, SSD)等深度學(xué)習(xí)的目標(biāo)檢測模型引入到交通監(jiān)控視頻中進(jìn)行多類別車輛檢測,并在基本模型基礎(chǔ)上嘗試使用更佳的骨干網(wǎng)絡(luò)作特征提取,同時融合進(jìn)空洞卷積[14]、特征金字塔[15]、焦點(diǎn)損失函數(shù)[16]等對基礎(chǔ)網(wǎng)絡(luò)進(jìn)行優(yōu)化。本文基于獲取的監(jiān)控視頻構(gòu)建了多類別車輛檢測數(shù)據(jù)集,并以此為基礎(chǔ)對不同模型的檢測效果、應(yīng)用場景進(jìn)行比較分析。實(shí)驗(yàn)結(jié)果顯示經(jīng)過上述方法改進(jìn)的模型效果好于基礎(chǔ)模型,單階段模型準(zhǔn)確度較低,但速度較快,而兩階段模型準(zhǔn)確度較高,速度較慢,所以對于在線監(jiān)控可以選擇速度更快的單階段模型,而離線處理可以選擇準(zhǔn)確度更高的兩階段模型。
1 相關(guān)研究
視頻流的本質(zhì)是一幀幀圖像,而需要檢測的目標(biāo)往往是視頻中運(yùn)動的物體,所以一種簡單又實(shí)用的思路是利用視頻圖像中背景基本不動而前景持續(xù)運(yùn)動的特點(diǎn),通過比較幀間像素點(diǎn)強(qiáng)度的變化和相關(guān)性判斷運(yùn)動區(qū)域,這個區(qū)域即為檢測的運(yùn)動物體。應(yīng)用這種思路并普遍使用的檢測方法有:幀差法[17]、光流法[18]等。這類方法雖然計算速度快,但沒有完整利用單幀圖像的整體信息,難以擴(kuò)展到多類別檢測,準(zhǔn)確率較低,魯棒性也較差。另一種研究思路[19]是將視頻流分成一幀幀圖像處理,將視頻中的目標(biāo)檢測轉(zhuǎn)變成圖像中的目標(biāo)檢測任務(wù),這種思路雖然計算速度較慢,但充分利用了圖像信息,準(zhǔn)確性更高,魯棒性更強(qiáng),應(yīng)用更廣。
1.1 傳統(tǒng)方法
在深度學(xué)習(xí)熱潮興起前,計算機(jī)視覺領(lǐng)域的研究者們通常使用傳統(tǒng)目標(biāo)檢測算法完成這一任務(wù)。傳統(tǒng)方法的步驟主要分為三步:候選區(qū)域提取、區(qū)域特征提取、特征分類。因?yàn)閭鹘y(tǒng)方法計算速度快,所以候選區(qū)域提取常采用貪心的滑動窗口策略,使用不同尺寸的滑動窗口對圖片進(jìn)行逐行掃描,每個窗口區(qū)域使用人為劃定或特征提取算法進(jìn)行特征提取,文獻(xiàn)[20-24]詳述了多種常用的特征提取算法。最后將特征向量送入預(yù)先訓(xùn)練好的分類器進(jìn)行分類,統(tǒng)計每個窗口的分類結(jié)果整合成最終的檢測結(jié)果。比較經(jīng)典并且推廣到實(shí)際應(yīng)用中的算法有:文獻(xiàn)[25]進(jìn)行的人臉識別,文獻(xiàn)[26]進(jìn)行的行人重識別等,同樣類似的方法也曾被應(yīng)用在視頻中的車輛檢測[27]。
1.2 深度學(xué)習(xí)方法
自從2012年文獻(xiàn)[28]提出深度學(xué)習(xí)分類模型開始,基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型成為了圖像識別與檢測領(lǐng)域的首選之一。首先使用深度學(xué)習(xí)方法進(jìn)行目標(biāo)檢測并取得很大進(jìn)展的方法是2013 年文獻(xiàn)[29]提出的OverFeat,該方法開始嘗試使用CNN提取圖片特征,利用多尺度滑動窗口算法進(jìn)行檢測,取得了很好的效果。
2014年文獻(xiàn)[30]提出的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Regions with CNN, R-CNN)完整地將CNN融合進(jìn)目標(biāo)檢測任務(wù)中,成為深度學(xué)習(xí)進(jìn)行目標(biāo)檢測的奠基之作。R-CNN利用文獻(xiàn)[31]提取約2000個候選框,每個候選框通過CNN進(jìn)行特征提取,結(jié)合多個二分類支持向量機(jī)(Support Vector Machine, SVM)實(shí)現(xiàn)候選區(qū)域目標(biāo)的多分類,最后利用非極大值抑制(Non-Maximum Suppression, NMS)算法和框回歸對候選框進(jìn)行篩選融合和微調(diào)。R-CNN在檢測準(zhǔn)確度上大大超過了傳統(tǒng)方法,但由于流程復(fù)雜,模型需要多階段訓(xùn)練,預(yù)測一張圖速度過慢,這些因素導(dǎo)致R-CNN無法真正進(jìn)行實(shí)際應(yīng)用。2015年文獻(xiàn)[32]在R-CNN的基礎(chǔ)上主要針對候選框特征重復(fù)提取的問題進(jìn)行改進(jìn),提出了Fast R-CNN,它在速度和精度上較R-CNN有了很大提升。Fast R-CNN只對圖片通過CNN進(jìn)行一次前向運(yùn)算提取特征,利用特征圖坐標(biāo)對應(yīng)關(guān)系將提取的2000個候選框映射到底層特征圖中,并且利用提出的感興趣區(qū)域(Regions of Interest, ROI)池化結(jié)構(gòu)有效解決了特征圖上不同尺寸的候選框需要縮放到同一尺寸的問題。這一操作減少了大量重復(fù)的運(yùn)算,大大提高了檢測速度。同時,F(xiàn)ast R-CNN不再使用多個SVM進(jìn)行分類,而是在特征向量后直接連接Softmax層和全連接層作框分類和框回歸,將分類損失和邊框回歸損失結(jié)合進(jìn)行統(tǒng)一訓(xùn)練,這一操作簡化了模型訓(xùn)練流程,提高了訓(xùn)練速度。在此之后,為了解決候選框提取這一時間瓶頸,在Fast R-CNN的主網(wǎng)絡(luò)中附加了區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network, RPN)在高層特征圖上進(jìn)行候選框提取,RPN的引入真正實(shí)現(xiàn)了一個網(wǎng)絡(luò)的端到端目標(biāo)檢測,它在檢測速度上獲得了更進(jìn)一步的提升,同時結(jié)合各種訓(xùn)練策略,F(xiàn)aster R-CNN的檢測準(zhǔn)確率在各大數(shù)據(jù)集上也取得了當(dāng)時最高的結(jié)果。
上述系列方法進(jìn)行目標(biāo)檢測時雖然整合在一個網(wǎng)絡(luò)中實(shí)現(xiàn)了端到端訓(xùn)練和預(yù)測,但網(wǎng)絡(luò)結(jié)構(gòu)實(shí)際是將區(qū)域提取和目標(biāo)檢測分成兩階段進(jìn)行計算,檢測速度經(jīng)過不斷優(yōu)化雖然有了大幅度提高,但即時在GPU上進(jìn)行運(yùn)算,最快速度也很難達(dá)到10fps每秒10幀。為了使目標(biāo)檢測算法可以應(yīng)用到視頻中進(jìn)行實(shí)時檢測,需要在保證準(zhǔn)確率的前提下,繼續(xù)提高單張圖片的目標(biāo)檢測速度,YOLO(You Only Look Once)[11]、SSD[12]等算法將區(qū)域提取和區(qū)域分類整合到單階段進(jìn)行計算。YOLO預(yù)先將圖片分為若干柵格,以這些柵格區(qū)域?yàn)楹蜻x區(qū)域進(jìn)行框回歸,網(wǎng)絡(luò)主干仍為CNN結(jié)構(gòu),直接輸出框回歸以及對應(yīng)框分類的結(jié)果,而SSD則是在多個CNN的底層特征圖上進(jìn)行框回歸和分類,其檢測精度要高于YOLO。單階段網(wǎng)絡(luò)減少了RPN的計算,更接近于純粹的圖像分類網(wǎng)絡(luò),在檢測精度沒有很大損失的前提下,其檢測速度提升到了40fps每秒40幀以上,已經(jīng)可以滿足視頻檢測的需求。
目前,單階段和兩階段模型仍是目標(biāo)檢測領(lǐng)域的兩大分支。對于單階段模型,在YOLO和SSD的基礎(chǔ)上,研究者們提出了一系列模型[33-36],旨在提高檢測精度。在Faster R-CNN的基礎(chǔ)上,原作者又對其進(jìn)行細(xì)節(jié)優(yōu)化,并且將分割任務(wù)融合進(jìn)模型中,提出了Mask R-CNN[37]。也有一些其他工作分別從特征圖的前后關(guān)聯(lián)和損失函數(shù)入手進(jìn)行優(yōu)化,這些改進(jìn)也可以與上述的主流模型進(jìn)行融合提升檢測效果。
2 算法設(shè)計
本文算法將監(jiān)控視頻當(dāng)成一幀幀圖像進(jìn)行圖像中的車輛檢測,以Faster R-CNN和SSD這兩類模型框架作為基礎(chǔ),結(jié)合空洞卷積、特征金字塔、焦點(diǎn)損失進(jìn)行改進(jìn),下面對每部分進(jìn)行介紹。
2.1 Faster R-CNN整體結(jié)構(gòu)
Faster R-CNN的整體結(jié)構(gòu)是在一個主干的特征提取CNN中引入RPN結(jié)構(gòu)進(jìn)行候選區(qū)域提取,篩選得到固定數(shù)量的候選框進(jìn)行目標(biāo)分類和框回歸,最后經(jīng)過NMS進(jìn)行框融合以及框位置精修得到最終的檢測結(jié)果。圖1展示了以文獻(xiàn)[38]提出的VGG為骨干網(wǎng)絡(luò)的Faster R-CNN的整體結(jié)構(gòu)。
對于一張輸入圖片,首先經(jīng)過特定骨干網(wǎng)絡(luò)VGG頭部的部分層計算得到某一層的高層特征圖,RPN在特征圖上進(jìn)行滑窗計算,通過預(yù)先設(shè)置不同面積及尺寸目標(biāo)框的方式實(shí)現(xiàn)候選框位置的預(yù)估,同時對每個預(yù)估框進(jìn)行分類和框回歸,這里的分類是判斷框范圍內(nèi)的圖像是前景還是背景的二分類,框坐標(biāo)
回歸是對包含前景的框的位置進(jìn)行修正。不同大小的目標(biāo)框經(jīng)過ROI池化層調(diào)整成相同長度的特征向量,最后經(jīng)過全連接層連接進(jìn)行多分類和框回歸。多分類是指目標(biāo)框前景物體的準(zhǔn)確分類的各類別得分,框回歸是對框位置的再次修正。
在本文改進(jìn)的Faster R-CNN結(jié)構(gòu)中,為了獲得更好的特征提取效果,本文算法使用不同層數(shù)的文獻(xiàn)[39]提出的Resnet代替原始Faster R-CNN中的VGG結(jié)構(gòu)。
2.2 SSD整體結(jié)構(gòu)
SSD的整體結(jié)構(gòu)是在一個主干的特征提取CNN中的多個高層特征圖上直接回歸候選區(qū)域的位置,并對每個位置框進(jìn)行分類,其中預(yù)先設(shè)置的候選框區(qū)域依舊與Faster R-CNN的設(shè)置方法類似,以不同面積及尺寸的錨點(diǎn)在特征圖上的每個像素點(diǎn)上密布不同大小的多個目標(biāo)框。圖2展示了以VGG為骨干特征提取網(wǎng)絡(luò)的SSD的整體結(jié)構(gòu)。
輸入圖片首先經(jīng)過VGG頭部的若干卷積層和池化層進(jìn)行前向計算,之后分別連接全連接層、卷積層、池化層,取編號為Conv6、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2層的特征圖。在這些特征圖上直接進(jìn)行框回歸和多分類,框回歸依舊是對預(yù)設(shè)框坐標(biāo)的修正,多分類將背景單獨(dú)算為附加的一類與前景k個類別一同計算,得到(k+1)個類別的得分。最后利用NMS算法進(jìn)行框融合。
在本文改進(jìn)的SSD結(jié)構(gòu)中,為了獲得更好的特征提取效果,并保證運(yùn)算速度,使用相對輕量的Inception[40]代替原始SSD中的VGG結(jié)構(gòu)。
2.3 改進(jìn)方法
除了改進(jìn)Faster R-CNN和SSD的骨干網(wǎng)絡(luò)以提高其特征提取的能力外,本文在基礎(chǔ)的Faster R-CNN中加入空洞卷積進(jìn)行優(yōu)化,在基礎(chǔ)的SSD中加入特征金字塔和焦點(diǎn)損失進(jìn)行優(yōu)化。下面對每一項(xiàng)方法進(jìn)行介紹。
2.3.1 空洞卷積
具體而言,卷積核在進(jìn)行一般卷積運(yùn)算時,是與特征圖的相鄰像素點(diǎn)作乘法運(yùn)算,而空洞卷積運(yùn)算允許卷積核與固定間隔l的像素點(diǎn)作乘法運(yùn)算,這樣在不增加額外運(yùn)算量的同時,增大感受野。而對于分辨率較高的圖像,相鄰像素間的冗余信息相對較多,可以利用空洞卷積進(jìn)行優(yōu)化。為此,本文主要將空洞卷積引入到Faster R-CNN中的RPN對特征圖的卷積運(yùn)算中。
2.3.2 特征金字塔
最簡單的特征金字塔結(jié)構(gòu)可以依靠堆疊多個經(jīng)過縮放的不同大小的同一張圖片實(shí)現(xiàn),而在各種CNN網(wǎng)絡(luò)結(jié)構(gòu)中,其前向傳播的計算過程將原始圖片逐步變成更小的特征圖,即自底向上的結(jié)構(gòu),這是一種CNN都具備的原生金字塔。本文在基礎(chǔ)SSD結(jié)構(gòu)中加入自頂向下結(jié)構(gòu)和橫向連接,使其同時利用低層特征高分辨率和高層特征強(qiáng)語義信息,更兼顧位置信息和語義信息,提高SSD的檢測能力。自頂向下結(jié)構(gòu)通過上采樣對高層特征圖逐層進(jìn)行放大,相當(dāng)于自底向上結(jié)構(gòu)的逆過程運(yùn)算,橫向連接將兩次計算中相同大小的特征圖逐像素相加進(jìn)行融合。
圖3展示了在圖2基礎(chǔ)上添加的金字塔結(jié)構(gòu),Conv6層到Conv11_2層是CNN的前向計算過程,即原始的自底向上結(jié)構(gòu),從Conv11_2通過一次次上采樣計算生成對應(yīng)大小相同的特征圖,直到Up_Conv6,這個結(jié)構(gòu)即自頂向下結(jié)構(gòu)。Conv10_2層會與Conv11_2上采樣得到的特征圖進(jìn)行融合得到Up_Conv10_2,其他層也依次通過這一操作進(jìn)行融合,這個計算過程即橫向連接。最后再對融合后的各層進(jìn)行框坐標(biāo)回歸和分類預(yù)測。本文將其應(yīng)用在網(wǎng)絡(luò)的最后3個特征圖上。
2.3.3 焦點(diǎn)損失
多分類任務(wù)常用的目標(biāo)損失函數(shù)是交叉熵?fù)p失。假設(shè)任務(wù)中有n個樣本,分類目標(biāo)有C類,交叉熵CE定義如下:
針對類別不平衡現(xiàn)象,可以針對不同類別引入一個權(quán)重因子α削弱大數(shù)量類別對損失值的影響:
針對難分樣本問題,一個樣本的預(yù)測概率越高,模型對該樣本的識別力越強(qiáng),該樣本成為易分樣本,反之則為難分樣本??梢砸灶A(yù)測概率為基礎(chǔ),引入一個權(quán)重因子β削弱易分樣本對損失值的影響, β定義如下:
本文將上述定義的多類別焦點(diǎn)損失應(yīng)用到SSD模型中,并對不同的α和γ取值進(jìn)行實(shí)驗(yàn)。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)集由從監(jiān)控視頻中截取的不同時間的圖像組成,經(jīng)過人為篩選剔除掉前后變化較小的圖像,總計圖像851張,劃分訓(xùn)練集681張,驗(yàn)證集170張圖片。由于各段視頻的分辨率不同,獲取的圖像大小有1080×720和1920×1080兩種。根據(jù)實(shí)際應(yīng)用場景,本文將車輛類型分為四類:汽車(car)、公交車(bus)、出租車(taxi)、卡車(truck),各種類目標(biāo)標(biāo)注數(shù)量如表1所示。
3.2 模型訓(xùn)練
在訓(xùn)練前,對所有圖片進(jìn)行水平翻轉(zhuǎn)、對比度增強(qiáng)、飽和度增強(qiáng)、色彩變換等操作進(jìn)行圖像增強(qiáng)。所有模型使用Tensorflow框架實(shí)現(xiàn),在Nvidia1080顯卡上訓(xùn)練300個周期。對于Faster R-CNN類模型,圖片統(tǒng)一縮放到1280×720輸入網(wǎng)絡(luò),初始化學(xué)習(xí)率為0.001,每隔100個周期下降到之前的1/10,梯度更新方法采用帶有動量的小批量隨機(jī)梯度下降,動量因子為0.9。對于SSD類模型,圖片統(tǒng)一縮放到500×500輸入網(wǎng)絡(luò),初始化學(xué)習(xí)率為0.001,每隔10個周期下降到之前的0.95倍,梯度更新采用RMSProp優(yōu)化器,動量因子為0.9。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文使用平均準(zhǔn)確率(Mean Average Precision, MAP)作為檢測準(zhǔn)確性的評估指標(biāo),框匹配閾值設(shè)為0.5,該指標(biāo)綜合考慮了定位精度與分類準(zhǔn)確率。同時為了比較模型進(jìn)行實(shí)時處理的能力,本文在接入視頻流的條件下,對每個模型處理單張圖片的速度進(jìn)行了測試,結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果顯示本文改進(jìn)的網(wǎng)絡(luò)在不影響檢測速度的情況下,提高了檢測精度。其中,使用空洞卷積的不同骨干網(wǎng)絡(luò)的Faster RCNN模型的MAP值提高了0.5個百分點(diǎn)~1.2個百分點(diǎn),平均提高0.8個百分點(diǎn),而使用特征金字塔和焦點(diǎn)損失改進(jìn)的SSD模型的MAP值提高了1.9個百分點(diǎn)。本文也對焦點(diǎn)損失中不同的α和β取值對模型的影響作了測試,其中α=0.75, β=0.75時,MAP值最高,全部結(jié)果如表3所示。
對比每一類的檢測結(jié)果可以發(fā)現(xiàn),由于總類別數(shù)不是很大,且前三類樣本數(shù)足夠多,所以Faster R-CNN類模型對前三類的識別已經(jīng)達(dá)到很高的水平,改進(jìn)后的模型在前三類的準(zhǔn)確率比改進(jìn)前模型略有提高。MAP值的提高主要在于卡車這一類的準(zhǔn)確率提高,這是因?yàn)樵擃惖臉颖驹跀?shù)據(jù)集中相對較少,相比其他三類,模型對于這一類的學(xué)習(xí)難度是較高的,所以其準(zhǔn)確率相對較低。改進(jìn)后的模型在卡車類的識別上平均提高2.9個百分點(diǎn),因?yàn)榭ㄜ嚇颖緮?shù)相對較大,空洞卷積減少了相鄰冗余像素對特征的干擾,從而提高了檢測準(zhǔn)確性。
改進(jìn)后的SSD模型MAP值提升了1.9個百分點(diǎn),每一類的準(zhǔn)確率都提升明顯,其中特征金字塔結(jié)構(gòu)融合了更多高層信息,提升了模型的特征提取能力,焦點(diǎn)損失增強(qiáng)了模型對難分的、準(zhǔn)確率較低的樣本的識別度,結(jié)果顯示這些改進(jìn)針對每一類都有明顯效果。
此外,本文使用開源的MSCOCO目標(biāo)檢測數(shù)據(jù)集[41]對改進(jìn)后的模型進(jìn)行評估,全部結(jié)果如表4所示。結(jié)果顯示,不同的改進(jìn)后的Faster R-CNN模型的MAP平均提高0.8個百分點(diǎn),改進(jìn)后的SSD模型的MAP值提高1.5個百分點(diǎn)。
對比各模型的處理速度可以發(fā)現(xiàn)本文的改進(jìn)措施基本沒有引入過多的運(yùn)算量,其中,空洞卷積和焦點(diǎn)損失屬于計算的變化,與原模型相比并未有多余計算,而特征金字塔結(jié)構(gòu)屬于附加結(jié)構(gòu),雖引入了多余運(yùn)算,但本質(zhì)上只是若干次上采樣和矩陣求和運(yùn)算,也并不會引起運(yùn)算速度的大幅降低。
實(shí)現(xiàn)結(jié)果也顯示,兩階段的Faster R-CNN模型運(yùn)算準(zhǔn)確率高于單階段的SSD模型,但速度明顯慢于SSD模型。在實(shí)驗(yàn)運(yùn)行環(huán)境中,最快的Faster R-CNN模型每秒最多檢測6幀圖像,而SSD模型每秒可以檢測40幀圖像。常見的視頻流一般是每秒25幀圖像,所以SSD類模型完全可以應(yīng)用在交通視頻的實(shí)時檢測中,若想將Faster R-CNN接入實(shí)時視頻流檢測,則需要每隔幾幀圖像檢測一幀,所以由于Faster R-CNN精度更高,其更適用于離線處理。
4 結(jié)語
本文將深度學(xué)習(xí)模型引入交通監(jiān)控視頻的車輛檢測中,并對常用的Faster R-CNN和SSD兩種模型進(jìn)行改進(jìn),實(shí)驗(yàn)結(jié)果顯示改進(jìn)后的模型在不影響檢測速度的情況下提高了檢測準(zhǔn)確性,取得了很好的效果。
本文的改進(jìn)模型可以在更大型的數(shù)據(jù)集上進(jìn)行更深入的實(shí)驗(yàn),對于每項(xiàng)改進(jìn)措施在模型中的應(yīng)用,也可以進(jìn)行更多的實(shí)驗(yàn)。同時,本文的工作也為后續(xù)車輛跟蹤、車流統(tǒng)計等更具體的應(yīng)用奠定了基礎(chǔ)。
參考文獻(xiàn) (References)
[1] WANG F-Y. Agent-based control for networked traffic management systems [J]. IEEE Intelligent Systems, 2005, 20(5): 92-96.
[2] ROSSETTI R J F, FERREIRA P A F, BRAGA R A M, et al. Towards an artificial traffic control system [C]// Proceedings of the 2008 11th International IEEE Conference on Intelligent Transportation Systems. Piscataway, NJ: IEEE, 2008: 14-19.
[3] 趙娜,袁家斌,徐晗.智能交通系統(tǒng)綜述[J].計算機(jī)科學(xué),2014,41(11):7-11.(ZHAO N, YUAN J B, XU H. Survey on intelligent transport system [J]. Computer Science, 2014, 41(11): 7-11.)
[4] 劉小明,何忠賀.城市智能交通系統(tǒng)技術(shù)發(fā)展現(xiàn)狀及趨勢[J].自動化博覽,2015(1):58-60.(LIU X M, HE Z H. Development and tendency of intelligent transportation systems in China [J]. Automation Panorama, 2015(1): 58-60.)
[5] MICHALOPOULOS P G. Vehicle detection video through image processing: the autoscope system [J]. IEEE Transactions on Vehicular Technology, 1991, 40(1): 21-29.
[6] SUN Z, BEBIS G, MILLER R. On-road vehicle detection using Gabor filters and support vector machines [C]// Proceedings of the 2002 14th International Conference on Digital Signal Processing. Piscataway, NJ: IEEE, 2002: 1019-1022.
[7] Bochum R U, TZOMAKAS C, von SEELEN W. Vehicle detection in traffic scenes using shadows [J]. American Journal of Surgery, 1998, 130(5): 585-589.
TZOMAKAS C, von SEELEN W. Vehicle detection in traffic scenes using shadows [EB/OL]. [2018-07-02].http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=EB25161C6B0FFE3581F4DF3532E6DE28?doi=10.1.1.45.3234&rep=rep1&type=pdf.
[8] TSAI L-W, HSIEH J-W, FAN K-C. Vehicle detection using normalized color and edge map [J]. IEEE Transactions on Image Processing, 2007, 16(3): 850-864.
[9] 宋曉琳,鄔紫陽,張偉偉.基于陰影和類Haar特征的動態(tài)車輛檢測[J].電子測量與儀器學(xué)報,2015,29(9):1340-1347.(SONG X L, WU Z Y, ZHANG W W. Dynamic vehicle detection based on shadow and Haar-like feature[J]. Journal of Electronic Measurement and Instrumentation, 2015, 29(9): 1340-1347.)
[10] LeCUN Y, BENGIO Y, HINTON G. Deep learning [J]. Nature, 2015, 521(7553): 436-444.
[11] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 779-788.
[12] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.
[13] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[14] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. (2016-04-30) [2018-07-29]. https://arxiv.org/pdf/1511.07122v3.pdf.
[15] LIN T-Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017, 1(2): 4.
LIN T-Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection [EB/OL]. [2018-07-11]. https://arxiv.org/pdf/1612.03144.pdf.
[16] LIN T-Y, GOYALP, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 2999-3007.
[17] ZHAN C, DUAN X, XU S, et al. An improved moving object detection algorithm based on frame difference and edge detection [C]// Proceedings of the 4th International Conference on Image and Graphics. Washington, DC: IEEE Computer Society, 2007: 519-523.
[18] HORN B K P, SCHUNCK B G. Determining optical flow [J]. Artificial Intelligence, 1981, 17(1/2/3): 185-203.
[19] HAN X, ZHANG D Q, YU H H. System and method for video detection and tracking: U.S. Patent Application 13/720,653 [P]. 2014-06-19.
[20] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[21] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.
PAPAGEORGIOU C P, OREN M, POGGIO T. A general framework for object detection [C]// Proceedings of the 6th International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 1998: 555-562.
[22] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005,1: 886-893
[23] OJALA T, PIETIKINEN M, HARWOOD D. A comparative study of texture measures with classification based on featured distribution [J]. Pattern Recognition, 1996, 29(1): 51-59.
[24] NG P C, HENIKOFF S. SIFT: predicting amino acid changes that affect protein function [J]. Nucleic Acids Research, 2003, 31(13): 3812-3814.
[25] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.【和21重復(fù)??
[26] CHEN P-H, LIN C-J, SCHLKOPF B. A tutorial on v-support vector machines [J]. Applied Stochastic Models in Business and Industry, 2005, 21(2): 111-136.
[27] 劉操,鄭宏,黎曦,等.基于多通道融合HOG特征的全天候運(yùn)動車輛檢測方法[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2015,40(8):1048-1053.(LIU C, ZHENG H, LI X, et al. A method of moving vehicle detection in all-weather based on melted multi-channel HOG feature [J]. Geomatics and Information Science of Wuhan University, 2015, 40(8): 1048-1053.)
[28] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 2012 Advances in Neural Information Processing Systems. Piscataway, NJ: IEEE, 2012: 1097-1105.
[29] SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks [EB/OL]. (2014-02-24) [2018-07-28]. https://arxiv.org/pdf/1312.6229v4.pdf.
[30] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 580-587.
[31] UIJLINGS J R R, van de SANDE K E A, GEVERS T, et al. Selective search for object recognition [J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[32] GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1440-1448.
[33] JEONG J, PARK H, KWAK N. Enhancement of SSD by concatenating feature maps for object detection [EB/OL]. (2017-05-26) [2018-07-29]. https://arxiv.org/pdf/1705.09587v1.pdf.
[34] FU C-Y, LIU W, RANGA A, et al. DSSD: deconvolutional single shot detector [EB/OL]. (2017-01-23) [2018-07-28]. https://arxiv.org/pdf/1701.06659v1.pdf.
[35] REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6517-6525.
[36] REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. (2018-04-08) [2018-07-30]. https://arxiv.org/pdf/1804.02767v1.pdf.
[37] HE K, GKIOXARI G, DOLLAR P, et al. Mask R-CNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 2980-2988.
[38] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10) [2018-07-25]. https://arxiv.org/pdf/1409.1556v6.pdf.
[39] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[40] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2016: 2818-2826.
[41] LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014: 740-755.