李明明,雷菊陽*,趙從健
摘 ?要: 針對復(fù)雜道路場景的目標(biāo)檢測難以實(shí)現(xiàn)在移動設(shè)備上的實(shí)時(shí)目標(biāo)檢測問題,采用了MobileNet-SSD的目標(biāo)檢測框架,設(shè)計(jì)了一種用于視頻的多目標(biāo)檢測組合網(wǎng)絡(luò)框架LSTM-SSD。利用視頻連續(xù)幀的信息時(shí)序關(guān)聯(lián),有效的提高檢測的置信度,減少單一圖像檢測中存在的不穩(wěn)定問題。通過與VGG-SSD\MobileNet-SSD兩種檢測網(wǎng)絡(luò)模型的對比,實(shí)驗(yàn)表明,設(shè)計(jì)的檢測網(wǎng)絡(luò)模型在應(yīng)對多目標(biāo)、模糊、遮擋等干擾狀況下,均能獲得較好的檢測效果。該模型的設(shè)計(jì),可對無人駕駛實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測提供依據(jù)和參考。
關(guān)鍵詞: 視頻多目標(biāo)檢測;SSD;時(shí)間維度特征;道路場景
中圖分類號: TP391.41 ? ?文獻(xiàn)標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.12.031
本文著錄格式:李明明,雷菊陽,趙從健. 道路場景中基于視頻的多目標(biāo)檢測[J]. 軟件,2019,40(12):140145
Multi-target Detection Under Road Scenes Based on Video
LI Ming-ming, LEI Ju-yang*, ZHAO Cong-jian
(College of Mechanical and Automotive Engineering, Shanghai University of Engineering Science, Shanghai 201620, China)
【Abstract】: Aiming at the problem that it is difficult for mobile devices to realize real-time target detection of complex road scenes. based on MobileNet-SSD target detection framework, an LSTM-SSD combined model algorithm for multi-target detection of video is designed. The algorithm takes advantage of the temporal feature of the video to effectively improve the confidence of detection and reduce the instability problem in image detection. Compared with the two detection network models of VGG-SSD\MobileNet-SSD, the results show that the designed detection network model can obtain better detection results under multi-objective, fuzzy, occlusion and other interference conditions. The construction of the model can provide basis and reference for real-time target detection by driverless vehicles.
【Key words】: Video multi-target detection; SSD; Temporal feature; Road scenes
0 ?引言
無人駕駛是未來發(fā)展的重要方向,基于視覺的道路場景的目標(biāo)檢測是無人駕駛的主要研究課題[1]。在車輛行駛過程中,如何快速、準(zhǔn)確的檢測到車輛前方的行人、車輛、車道線、紅綠燈、提示牌等目標(biāo)物體,對無人駕駛系統(tǒng)提前制定駕駛方案具有重要的研究意義。
近幾年來,將深度學(xué)習(xí)應(yīng)用到目標(biāo)檢測方面取得了非常好的檢測效果。各專家學(xué)者提出了許多模型來解決視頻目標(biāo)檢測速度慢、精確度低的問題。Chen X[2]等提出了一種用于實(shí)時(shí)檢測的時(shí)間單發(fā)檢測器,開發(fā)的TSSD-OTA在檢測和跟蹤方面實(shí)現(xiàn)了快速和整體競爭性能。Liu[3]等具有時(shí)間感知特征映射的移動視頻目標(biāo)檢測,快速的單圖像目標(biāo)檢測模型與卷積長短期記憶(LSTM)層相結(jié)合,創(chuàng)造了混合的循環(huán)卷積體系結(jié)構(gòu)。華夏[4]等提出了采用自適應(yīng)感知SSD框架來實(shí)現(xiàn)多目標(biāo)檢測,將單圖像檢測框架與卷積長短時(shí)記憶網(wǎng)絡(luò)結(jié)合起來,實(shí)現(xiàn)了網(wǎng)絡(luò)幀級間的時(shí)序信息關(guān)聯(lián),可專用于復(fù)雜大交通場景的多目標(biāo)檢測。Chen K[5]等通過尺度時(shí)間格子優(yōu)化視頻目標(biāo)檢測,提出了一個(gè)集成檢測的統(tǒng)一框架,將對象檢測器應(yīng)用于基于對象運(yùn)動和比例稀疏且自適應(yīng)的選擇關(guān)鍵幀,依賴于時(shí)間和空間連接來生成中間幀的檢測結(jié)果。盡管SSD目標(biāo)檢測算法在圖片的檢測方面取得了高的準(zhǔn)確度,也具有較好的實(shí)時(shí)性,但是在小目標(biāo)、遮擋、拍攝模糊的場景檢測效果不佳。因此,該檢測算法仍需不斷改進(jìn),來滿足道路交通中目標(biāo)檢測的實(shí)時(shí)性要求。
本文主要針對城市道路場景下的車輛、行人檢測的特點(diǎn),將傳統(tǒng)的SSD算法進(jìn)行改進(jìn):(1)將單框檢測的結(jié)果與長短時(shí)神經(jīng)網(wǎng)絡(luò)(LSTM)預(yù)測的結(jié)果融合,生成了混合網(wǎng)絡(luò)體系結(jié)構(gòu),實(shí)現(xiàn)了視頻幀間的信息時(shí)序關(guān)聯(lián),提高檢測準(zhǔn)確度。(2)SSD基礎(chǔ)網(wǎng)絡(luò)特征提取部分采用輕量級網(wǎng)絡(luò)模型MobileNet,降低計(jì)算量,提高檢測速度。(3)將最終的檢測識別結(jié)果反饋到預(yù)測網(wǎng)絡(luò)模型中,作為下一幀圖像的輸入數(shù)據(jù),提高檢測精度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的組合模型在面對多目標(biāo)、光照變化、模糊、遮擋等不利于檢測的條件下,能夠取得較結(jié)果。該模型的設(shè)計(jì),可對無人駕駛實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測提供依據(jù)
和參考。
1 ?目標(biāo)檢測模型
1.1 ?SSD快速目標(biāo)檢測
SSD[6](single shot multibox detector)算法是一種端到端的模型,目標(biāo)的檢測和定位過程由一個(gè)網(wǎng)絡(luò)解決,直接預(yù)測目標(biāo)類別和邊界框的多目標(biāo)檢測算法。SSD采用不同尺度的特征圖來預(yù)測每個(gè)位置上的目標(biāo),保證了目標(biāo)的檢測精度。對低分辨的圖像也能達(dá)到較高的檢測識別精度,用淺層分辨率大的特征圖檢測小目標(biāo),用深層大感受域的特征圖檢測大目標(biāo),保證不同尺度大小的目標(biāo)都能得到檢測。SSD檢測性能更好,具有實(shí)時(shí)性好、檢測精度高等優(yōu)點(diǎn)。
圖1 ?SSD算法框架
Fig.1 ?SSD algorithm framework
SSD網(wǎng)絡(luò)結(jié)構(gòu)[7]如圖1所示,將VGG16網(wǎng)絡(luò)的最后兩個(gè)全連接層改成卷積層,去除VGG-16[8]中的dropout 層和分類層,后面添加了4個(gè)不同尺度的卷積層來構(gòu)造網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)卷積層首先使用1×1的卷積核降通道,再采用3×3的卷積核來降尺度增通道,方便對圖像進(jìn)行做多尺度特征提取。檢測所用特征圖的卷積層為 conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2;每層的特征圖分別為 (38,38),(19,19),(10,10),(5,5),(3,3),(1,1);每層特征圖中每個(gè)單元格的先驗(yàn)框個(gè)數(shù)分別為4、6、6、6、4、4,故SSD一共可預(yù)測8732個(gè)邊界框。每個(gè)先驗(yàn)框輸出為4個(gè)坐標(biāo)值(x, y, w, h)和每個(gè)分類的信息值。
當(dāng)SSD模型輸入整張圖片時(shí),其主要過程: ?(a)通過深度神經(jīng)網(wǎng)絡(luò)提取整個(gè)圖片的深度特征;(b)針對不同的尺度特征設(shè)計(jì)不同的大小的特征抓
取盒(這些盒與真實(shí)的目標(biāo)邊框相匹配用來訓(xùn)練);(c)不同層的特征圖分別用于不同尺度目標(biāo)的邊框偏移和不同類別得分的預(yù)測;(d)通過NMS(非極大值抑制)來篩選最佳預(yù)測結(jié)果。
1.2 ?MobileNet-SSD網(wǎng)絡(luò)模型
MobileNet是一種輕量級的卷積網(wǎng)絡(luò)[9],采用可分解卷積網(wǎng)絡(luò)模型,在滿足一定精準(zhǔn)度下,可大幅度減少計(jì)算量,加快計(jì)算速度,減輕過度擬合引起的訓(xùn)練問題。MobileNet將傳統(tǒng)的3D卷積分為3×3深度卷積(Depthwise Conv)和1×1逐點(diǎn)卷積(Pointwise Conv),并添加了批量歸一化單元BN和非線性激活單元ReLU。假設(shè)將維度為的輸入層轉(zhuǎn)化為維度為,為feature map的長和寬,M為輸入的通道數(shù)(channels),是輸出feature map的長和寬,N是輸出的通道數(shù),設(shè)卷積核filter的大小是。傳統(tǒng)的3D卷積計(jì)算量為。
(1)
MobileNet卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算量:
(2)
通過比較上式可得,MobileNet網(wǎng)絡(luò)計(jì)算量僅為傳統(tǒng)卷積網(wǎng)絡(luò)的倍,計(jì)算成本大幅度降低。
MobileNet-SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該模型主要由2部分組成,前端是MobileNet網(wǎng)絡(luò),主要用于提取被檢測圖像的初步特征;后端為多尺度特征檢測網(wǎng)絡(luò),主要對前端網(wǎng)絡(luò)提取的初步特征再進(jìn)
行不同尺度的特征提取。檢測網(wǎng)絡(luò)中有6個(gè)尺度的信息指向檢測模塊,該結(jié)構(gòu)可以更快的預(yù)測目標(biāo)位置及分類,最后再通過非極大值抑制模塊去掉重復(fù)預(yù)測的目標(biāo)。該網(wǎng)絡(luò)模型采用卷積分離的操作,對各通道單獨(dú)卷積計(jì)算,最后統(tǒng)一采用1×1卷積核進(jìn)行特征融合,再傳輸?shù)较乱粚泳矸e網(wǎng)絡(luò)模型,進(jìn)行特征篩選與輸出特征圖。卷積分離保證了圖像特征提取信息的完整,改善結(jié)構(gòu)參數(shù)冗余,減少參數(shù)規(guī)模,降低計(jì)算量,可快速、高效的提取待檢測目標(biāo)的信息,對變化目標(biāo)具有較好的魯棒性。
圖2 ?MobileNet-SSD網(wǎng)絡(luò)結(jié)構(gòu)
Fig.2 ?MobileNet-SSD network structure
1.3 ?LSTM網(wǎng)絡(luò)模型
在人類觀看目標(biāo)物體時(shí),會產(chǎn)生視覺暫留現(xiàn)象和重點(diǎn)注意力機(jī)制,對目標(biāo)的檢測具有連貫性。而視頻的目標(biāo)檢測中含有大量與時(shí)間相關(guān)的信息,與單個(gè)圖像相比,可以通過上下文來提高檢測的精度和速度,由于視頻中相鄰兩幀目標(biāo)位置變化在時(shí)間上具有規(guī)律性,過可以使用較早幀的檢測結(jié)果來對當(dāng)前幀的檢測結(jié)果進(jìn)行預(yù)測。通過網(wǎng)絡(luò)跨幀間的檢測,可以有效的提高檢測的置信度,減少單一圖像檢測中存在的不穩(wěn)定問題。LSTM[10,11](Long-short term memory)可適用于提取時(shí)間序列中的隱含信息特征,能夠長時(shí)間的記憶歷史數(shù)據(jù)的狀態(tài)及自動匹配最佳的時(shí)間間隔。
LSTM的基本儲存單元架構(gòu)如圖3所示。
注:、分別為輸入序列和輸出序列,,,分別是t時(shí)刻的輸入門,輸出門和遺忘門,∫為激活函數(shù)。其整個(gè)存儲單元計(jì)算過程可以用如下公式表示:
(3)
(4)
(5)
(6)
(7)
式中: ?分別是時(shí)刻t的輸入門,輸出門和遺忘門,是t時(shí)刻的存儲單元的計(jì)算公式,是t時(shí)刻LSTM單元的所有輸出。tanh和σ分別代表雙曲線正切函數(shù)和sigmoid函數(shù)。和表示相應(yīng)的權(quán)重系數(shù)矩陣和偏置。
圖3 ?LSTM儲存單元基本架構(gòu)
Fig.3 ?LSTM storage unit basic architecture
2 ?針對視頻目標(biāo)檢測改進(jìn)方法
復(fù)雜的道路交通場景中的遮擋、陰影、光照變化等干擾現(xiàn)象,在目標(biāo)檢測過程中容易出現(xiàn)目標(biāo)信息損失,造成檢測目標(biāo)漏檢,錯檢。智能駕駛中的目標(biāo)檢測要求具有更加快速的檢測速度和更準(zhǔn)確的檢測精度,以便于在當(dāng)前環(huán)境狀態(tài)下,給駕駛?cè)藛T或者汽車內(nèi)部系統(tǒng)提供及時(shí)有效的外界信息,從而做到準(zhǔn)確的判斷。
現(xiàn)階段,目標(biāo)檢測算法對于圖像檢測具有很高的檢測精度,也可以應(yīng)對一定程度的干擾信息,但
是對于大面積的目標(biāo)遮擋等強(qiáng)干擾情況,難以準(zhǔn)確檢測到目標(biāo)。另一方面,車載攝像頭拍攝的視頻具有信息高度冗余,包含了上下幀的時(shí)序性和檢測場景、目標(biāo)的相似性,如果充分利用好視頻上下幀之間的信息冗余,可以達(dá)到提高檢測精度,計(jì)算速度及解決拍攝中運(yùn)動目標(biāo)存在運(yùn)動模糊、失焦、遮擋、變形等問題。本文利用視頻幀間的信息時(shí)序關(guān)聯(lián),從視頻前面的檢測結(jié)果中獲取有用的先驗(yàn)信息來預(yù)測少量的候選區(qū)域,再與當(dāng)前幀的目標(biāo)檢測結(jié)果相融合,實(shí)現(xiàn)了利用視頻中上下文信息,提高檢測精度,降低計(jì)算成本。
圖4 ?算法改進(jìn)后的整體框架
Fig.4 ?Improved detection algorithm overall framework
將采集到的視頻數(shù)據(jù)視為由多幀圖像組成的序列,,檢測結(jié)果為 ,式中表示視頻中對應(yīng)圖像幀的檢測結(jié)果,中為檢測到的各個(gè)目標(biāo)的識別置信度和檢測框的位置信息??紤]到視頻檢測在時(shí)域上的連續(xù)性,通過構(gòu)造m層具有時(shí)序預(yù)測能力的LSTM網(wǎng)絡(luò)模型來實(shí)現(xiàn)預(yù)測檢測功能,得到。即當(dāng)前對應(yīng)幀的檢測結(jié)果可以由初步檢測結(jié)果和預(yù)測結(jié)果進(jìn)行融合得到。
算法流程具體如下:
(a)將要檢測的視頻輸入網(wǎng)絡(luò)模型,對視頻進(jìn)行單幀分解,每幀圖像輸入到SSD模型進(jìn)行檢測,得到初步的檢測結(jié)果;
(b)采用LSTM網(wǎng)絡(luò)獲得當(dāng)前幀的預(yù)測檢測結(jié)果,采用信息融合,將初步的檢測結(jié)果和預(yù)測結(jié)果結(jié)合起來,得到最終的檢測識別結(jié)果;
(c)得到的最終測結(jié)果產(chǎn)生的特征圖及檢測結(jié)果輸入到LSTM網(wǎng)絡(luò),對下一幀的圖像進(jìn)行預(yù)測,再傳入SSD的檢測指導(dǎo)。
3 ?實(shí)驗(yàn)與分析
3.1 ?數(shù)據(jù)準(zhǔn)備
文中主要采用實(shí)驗(yàn)室構(gòu)建的KITTI[12](Karlsruhe Institute of Technology and Toyota Technological Institute)數(shù)據(jù)集,該數(shù)據(jù)集包含從城市,鄉(xiāng)村和高速路等場景采集的真實(shí)圖像數(shù)據(jù),并標(biāo)記,如車輛類型,是否截?cái)?,遮擋,位置和旋轉(zhuǎn)角度等重要信息。本文主要實(shí)現(xiàn)道路場景的目標(biāo)檢測,數(shù)據(jù)集構(gòu)建方式為從車載攝像頭拍攝采樣的行人檢測標(biāo)準(zhǔn)數(shù)據(jù)集及車輛檢測標(biāo)準(zhǔn)數(shù)據(jù)集中KITTI 挑選主要包含行人以及車輛的圖像樣本,同時(shí)采集了部分騎行電動車和交通燈的圖像對樣本進(jìn)行擴(kuò)充。將圖像尺寸統(tǒng)一并進(jìn)行人工標(biāo)記,數(shù)據(jù)庫包括訓(xùn)練集中有
4000張正樣本圖(即包含檢測目標(biāo)的圖像),2000張負(fù)樣本圖(即不包含檢測目標(biāo)的背景圖像);測試集中有800張正樣本圖像和400張負(fù)樣本圖像。絕大部分正樣本圖像中都包括多個(gè)檢測目標(biāo),而行人目標(biāo)部分存在遮擋較大的情況,稱為困難樣本。
由于采集到的視頻背景單一,相鄰幀圖片差異性小,在進(jìn)行訓(xùn)練目標(biāo)檢測模型時(shí),數(shù)據(jù)多樣性較差,存在大量的冗余,需對數(shù)據(jù)進(jìn)行擴(kuò)充。數(shù)據(jù)增強(qiáng)使用的手段有水平翻轉(zhuǎn)、隨機(jī)縮放、隨機(jī)裁剪,及兩者之間互相組合使用。本文對自行采集的圖像數(shù)據(jù)進(jìn)行水平翻轉(zhuǎn)、縮放以及隨機(jī)裁剪來補(bǔ)充數(shù)據(jù)。經(jīng)過數(shù)據(jù)增強(qiáng)后可加大訓(xùn)練樣本數(shù),提升網(wǎng)絡(luò)的訓(xùn)練性能,增加算法網(wǎng)絡(luò)的魯棒性。
3.2 ?性能評價(jià)指標(biāo)
在檢測單一目標(biāo)時(shí),對于目標(biāo)的判別遵循著兩種結(jié)果的四種可能[13-14]。以檢測到汽車為例,檢測到的結(jié)果有True Car、True N?car、False Car、False N?car 4 種。(1)True Car:待檢測目標(biāo)是汽車,且模型正確地檢測為汽車;(2)True N?car:待檢測目標(biāo)不是汽車,且模型檢測不是汽車;(3)False Car:把不是汽車的目標(biāo)誤檢為汽車;(4)False N?car:把是汽車的目標(biāo)沒有檢測為汽車。
在目標(biāo)檢測評價(jià)中;一般采用精確率P(Pre cision)、召回率R(Recall)、精度均值A(chǔ)P(Average Precision)來評價(jià)算法的優(yōu)劣,精確率為模型對檢測目標(biāo)正樣本的檢測能力,即檢測正確的汽車占檢測出汽車的比例;召回率是衡量模型對檢測目標(biāo)正樣本的覆蓋能力,即從檢測正確的汽車占驗(yàn)證集中所有汽車的比例。精度均值A(chǔ)P為模型對正樣本檢測準(zhǔn)確程度對正樣本覆蓋能力的權(quán)衡能力,即PR曲線的面積,PR曲線橫軸為Recall,縱軸為Precision。計(jì)算公式如下所示:
(8)
(9)
(10)
在多目標(biāo)檢測中,采用平均精度mAP(mean average precision)來評估目標(biāo)檢測模型在數(shù)據(jù)集上的所有類別性能好壞,mAP為各個(gè)類別AP的平均值,mAP越高,表示模型在全部類別中的綜合檢測性能越高[15]。采用每秒幀檢測數(shù)(frames per second,F(xiàn)PS)來評估檢測效率。
3.3 ?參數(shù)訓(xùn)練
將訓(xùn)練數(shù)據(jù)集中的4000張圖片導(dǎo)入了MobileNet-SSD檢測網(wǎng)絡(luò)模型,實(shí)現(xiàn)端對端的訓(xùn)練,訓(xùn)練過程為:(1)把訓(xùn)練數(shù)據(jù)集輸入網(wǎng)絡(luò)模型并向前傳播,提取圖像特征;(2)不同層級的特征圖在選取不同大小、不同縱橫比的默認(rèn)框;(3)計(jì)算每個(gè)目標(biāo)默認(rèn)框的坐標(biāo)位置偏移量和類別得分;(4)根據(jù)默認(rèn)框和坐標(biāo)位置偏移計(jì)算最終邊界框,根據(jù)類別得分計(jì)算默認(rèn)框的損失函數(shù),并將兩者結(jié)合得到損失函數(shù);(5)損失函數(shù)反向傳播,進(jìn)而調(diào)整網(wǎng)絡(luò)各層權(quán)值。對于LSTM網(wǎng)絡(luò)模型,采用隨機(jī)梯度下降(帶動量項(xiàng))優(yōu)化方法訓(xùn)練模型,選擇10幀序列作為網(wǎng)絡(luò)的輸入,動量項(xiàng)參數(shù)為0.9,訓(xùn)練中 batch 大小設(shè)置為32,學(xué)習(xí)率設(shè)置為0.003。
3.4 ?檢測性能對比
為驗(yàn)證所設(shè)計(jì)的LSTM-SSD組合網(wǎng)絡(luò)模型的檢測精確度,與VGG-SSD模型和MobileNet-SSD[16]的檢測結(jié)果進(jìn)行了比較,其中FPS代表算法運(yùn)行的速度,幀率。
表1 ?不同檢測結(jié)果比較
Tab.1 ?Comparison of different test results
方法 精度均值A(chǔ)P/% mAP/% FPS/(frame?s–1)
Car Person Motorcycle Traffic_light
VGG-SSD 73.42 82.36 70.23 83.34 77.34 15.39
MobileNet-SSD 68.19 76.23 64.17 75.26 70.96 37.15
LSTM-SSD 76.28 84.54 75.68 81.65 79.54 21.46
由表1可知,MobileNet-SSD模型相比于VGG- SSD模型,在檢測速度上有了大幅度提升,單個(gè)目標(biāo)的檢測準(zhǔn)確度略有降低。本文模型與其他算法相比,各類目標(biāo)識別的精度均值A(chǔ)P提高了1%~6%不等,平均精度mAP提高了約2%~8%不等;在目標(biāo)檢測識別速率比不上MobileNet-SSD檢測算法,但是FPS也能達(dá)到21幀/s,基本能夠滿足實(shí)時(shí)性的要求。因此,本文模型在滿足檢測精度的基礎(chǔ)上,也能達(dá)到較快的檢測速度。
圖5為檢測到的視頻序列部分幀,第一、二行分別表示傳統(tǒng)的檢測方法和本文算法對應(yīng)幀的部分檢測結(jié)果,結(jié)合圖5可知,當(dāng)圖中的檢測目標(biāo)數(shù)目
圖5 ?檢測結(jié)果示例
Fig.5 ?Example of model detection results
較少時(shí),被檢測到的準(zhǔn)確率較高; 當(dāng)檢測目標(biāo)數(shù)目較多時(shí),較大的目標(biāo)能夠被檢測出來,較小的檢測出來的準(zhǔn)確率稍微低一些; 還有極少部分目標(biāo)沒被檢測出來,當(dāng)檢測目標(biāo)加入時(shí)間維度特征,目標(biāo)可以檢測出來,并且也會提高檢測目標(biāo)的置信度。第三行表示本文算法檢測的視頻序列,隨著檢測時(shí)間的累積,提取到更多時(shí)間序列中的隱含信息特征,使得目標(biāo)檢測結(jié)果的置信度在不斷提高,在多目標(biāo)、小目標(biāo)、模糊、遮擋等干擾狀況下,也能獲得較好的檢測效果。從實(shí)驗(yàn)結(jié)果可以得出,本文采用的LSTM-SSD組合模型的檢測方法,在具有時(shí)間序列的數(shù)據(jù)集在目標(biāo)檢測識別率上要優(yōu)于傳統(tǒng)的檢測方法,具有較好的穩(wěn)定性與精確性。
4 ?結(jié)論
(1)面對復(fù)雜道路場景中難以在移動設(shè)備上實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測的問題,采用了MobileNet-SSD檢測框架,設(shè)計(jì)了一種用于視頻的多目標(biāo)檢測組合網(wǎng)絡(luò)框架LSTM-SSD, 利用視頻連續(xù)幀的信息時(shí)序關(guān)聯(lián),有效的提高檢測的置信度,減少單一圖像檢測中存在的不穩(wěn)定問題。
(2)通過不同檢測網(wǎng)絡(luò)模型的對比,設(shè)計(jì)的檢測網(wǎng)絡(luò)框架在應(yīng)對多目標(biāo)、模糊、遮擋等干擾狀況下,均能獲得較好的檢測效果。該模型的設(shè)計(jì),可對無人駕駛實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測提供依據(jù)和參考。
(3)本文目標(biāo)檢測算法的處理效率和精度與實(shí)際工程需求仍有差距,且對小目標(biāo)檢測識別效果較差,會出現(xiàn)漏檢現(xiàn)象,后期要繼續(xù)研究如何降低計(jì)算機(jī)的運(yùn)算量和檢測實(shí)時(shí)性,提高對低分辨率和小目標(biāo)檢測識別效果,進(jìn)而達(dá)到實(shí)際工程的要求。
參考文獻(xiàn)
[1]王科俊, 趙彥東, 邢向磊. 深度學(xué)習(xí)在無人駕駛汽車領(lǐng)域應(yīng)用的研究進(jìn)展[J]. 智能系統(tǒng)學(xué)報(bào), 2018, 13(1): 55-69.
[2]Chen X, Yu J, Wu Z. Temporally Identity-Aware SSD with Attentional LSTM[J]. IEEE Transactions on Cybernetics, 2018.
[3]Liu M, Zhu M. Mobile Video Object Detection with Temporally- Aware Feature Maps[J]. 2017.
[4]華夏, 王新晴, 王東, et al. 基于改進(jìn)SSD的交通大場景多目標(biāo)檢測[J]. 光學(xué)學(xué)報(bào), 2018, 38(12): 221-231.
[5]Chen K, Wang J, Yang S, et al. Optimizing Video Object Detection via a Scale-Time Lattice[J]. 2018.
[6]Liu Wei, et al. SSD: single shot multibox detector[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[7]邢浩強(qiáng), 杜志岐, 蘇波. 基于改進(jìn)SSD的行人檢測方法[J]. 計(jì)算機(jī)工程, 2018, 44(11): 234-239+244.
[8]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.
[9]Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[J]. 2017.
[10]Zhao Z, Chen W, Wu X, et al. LSTM network: a deep learning approach for short-term traffic forecast[J]. Iet Intelligent Transport Systems, 2017, 11(2): 68-75.
[11]B Liu,J Cheng. A Long Short-term Traffic Flow Prediction Method Optimized by Cluster Computing[J].
[12]Geiger A, Lenz P, Stiller C, et al. Vision meets robotics: The KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.
[13]黎洲, 黃妙華. 基于YOLO_v2模型的車輛實(shí)時(shí)檢測[J]. 中國機(jī)械工程, 2018(1): 1869-1874.
[14]張明軍, 俞文靜, 袁志, et al. 視頻中目標(biāo)檢測算法研究[J]. 軟件, 2016, 37(4): 40-45.
[15]馮小雨, 梅衛(wèi), 胡大帥. 基于改進(jìn) Faster R-CNN 的空中目標(biāo)檢測[J]. 光學(xué)學(xué)報(bào), 2018, 38(6): 0615004.
[16]鄭冬, 李向群, 許新征. 基于輕量化SSD的車輛及行人檢測網(wǎng)絡(luò)[J]. 南京師大學(xué)報(bào)(自然科學(xué)版), 2019, 42(01): 73-81.