閔召陽(yáng) 趙文杰
隨著電子、通信和多媒體等技術(shù)的發(fā)展以及計(jì)算機(jī)硬件性能的不斷提升,計(jì)算機(jī)視覺(jué)所取得的進(jìn)步越來(lái)越明顯,因而作為人工智能,模式識(shí)別等領(lǐng)域的關(guān)鍵技術(shù),其地位正在變得愈發(fā)重要。和單目標(biāo)跟蹤一樣,多目標(biāo)跟蹤也是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要的研究熱點(diǎn),多目標(biāo)跟蹤分為單鏡頭和多鏡頭兩大類[1],本文主要研究在單鏡頭條件下的多目標(biāo)跟蹤。數(shù)據(jù)關(guān)聯(lián)和隨機(jī)集理論是目前解決多目標(biāo)跟蹤問(wèn)題的兩種主流思想[2~6]。數(shù)據(jù)關(guān)聯(lián)要求在跟蹤的多個(gè)采樣周期內(nèi)關(guān)聯(lián)數(shù)據(jù),以便為建立目標(biāo)航跡提供初始信息,而這需要觀測(cè)數(shù)據(jù)的融合和測(cè)量,然后進(jìn)行關(guān)聯(lián)以確定航跡的生存周期[7~9]。這種算法的關(guān)鍵技術(shù)就是找到測(cè)量信息和實(shí)際目標(biāo)信息有效的對(duì)應(yīng)關(guān)系,即數(shù)據(jù)關(guān)聯(lián),其缺點(diǎn)顯而易見(jiàn),一旦數(shù)據(jù)關(guān)聯(lián)有誤,估計(jì)的結(jié)果就會(huì)產(chǎn)生偏差并且隨著視頻幀的推進(jìn)會(huì)造成誤差積累導(dǎo)致跟蹤偏移。隨機(jī)集理論主要指的是有限集統(tǒng)計(jì)(FISST),是信息融合與多目標(biāo)跟蹤領(lǐng)域的關(guān)注熱點(diǎn),這種跟蹤方法主要是對(duì)隨機(jī)集中的一些實(shí)用性較強(qiáng)的定理和公式進(jìn)行擴(kuò)展和改進(jìn),以求更好的在工程實(shí)踐中得以應(yīng)用[10~12]。這類跟蹤算法要求的數(shù)學(xué)基礎(chǔ)比較復(fù)雜,如拓?fù)鋵W(xué)、泛函數(shù)分析、邏輯代數(shù)等等。雖然隨機(jī)集理論在多目標(biāo)跟蹤領(lǐng)域的受關(guān)注程度更高,但是依然有一系列的問(wèn)題需要解決,比如隨機(jī)集的理論實(shí)現(xiàn),隨機(jī)集表示的系統(tǒng)不確定性、隨機(jī)集的信息不確定性等等。
近幾年,電腦硬件的水平不斷得到提升,尤其是GPU并行計(jì)算能力的進(jìn)步明顯,而深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)也在不斷優(yōu)化,使得網(wǎng)絡(luò)的檢測(cè)準(zhǔn)確率和幀速率等都有顯著提高,得益于此,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用條件也變得愈發(fā)成熟。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個(gè)分支是應(yīng)用于計(jì)算機(jī)視覺(jué)的熱點(diǎn),其結(jié)構(gòu)也經(jīng)歷了多次的變化改進(jìn),檢測(cè)速率的提升使得網(wǎng)絡(luò)模型結(jié)構(gòu)越來(lái)越能滿足多目標(biāo)跟蹤的實(shí)時(shí)性需求。
結(jié)合目前卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀,本文避開(kāi)了傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)和隨機(jī)集理論,嘗試先對(duì)SSD模型進(jìn)行線下訓(xùn)練,然后進(jìn)行全視頻幀檢測(cè)的方式解決多目標(biāo)跟蹤任務(wù),并取得了不錯(cuò)的跟蹤效果。這種方式避免了誤差積累造成跟蹤框偏移的現(xiàn)象,跟蹤的魯棒性和長(zhǎng)時(shí)跟蹤能力都有較為明顯的提升。
Fast R-CNN算法是R-CNN的改進(jìn)版本,由Ross B.Girshick提出[13]。為了提高檢測(cè)效率,F(xiàn)ast R-CNN避開(kāi)了RCNN對(duì)目標(biāo)的位置坐標(biāo)和響應(yīng)得分分別進(jìn)行輸出的方式,轉(zhuǎn)而采用將兩者一同輸出的方法。在原理構(gòu)造上更加緊湊,目標(biāo)訓(xùn)練和檢測(cè)時(shí)間較前者有大幅度提高。目標(biāo)檢測(cè)的實(shí)現(xiàn)大體上分為四步:
1)確定圖像中的候選框個(gè)數(shù);
2)使用卷積神經(jīng)網(wǎng)絡(luò)模型提取候選框中的圖像特征;
3)利用分類器判斷該特征是否屬于某類特定目標(biāo);
4)用回歸器對(duì)該特征所屬目標(biāo)進(jìn)行跟蹤框的微調(diào)。
所有訓(xùn)練圖像在輸入時(shí)都會(huì)進(jìn)行歸一化處理,歸一化的大小為244*244,之后直接送入網(wǎng)絡(luò)模型,和其它所有卷積神經(jīng)網(wǎng)絡(luò)模型一樣不需要對(duì)輸入圖像進(jìn)行預(yù)處理。Fast R-CNN模型有很多版本,規(guī)模大小各不相同,不同之處主要體現(xiàn)在卷積和降采樣的層數(shù)設(shè)置,圖1是Fast-RCNN的其中一個(gè)模型結(jié)構(gòu)圖。
如圖1所示,前幾個(gè)階段是conv+ReLUs+pool的方式進(jìn)行特征提取的,conv代表卷積操作,Re-LUs代表激活函數(shù),pool代表降采樣操作,fc代表全連接層,score為檢測(cè)得分,box為結(jié)果坐標(biāo)。其中ReLUs(Rectified Linear Units)層使用的激活函數(shù)公式為
這種公式與sigmoid函數(shù)相比運(yùn)算復(fù)雜度有所降低,可以加快網(wǎng)絡(luò)模型的訓(xùn)練速度,同時(shí)避免像sigmoid之類的函數(shù)在輸入量過(guò)大或過(guò)小時(shí)出現(xiàn)的梯度消失現(xiàn)象[14]。
Fast R-CNN網(wǎng)絡(luò)結(jié)構(gòu)中,在卷積和降采樣之后有一個(gè) RoI(Region of Intrastion)層,即感興趣區(qū)域。這層操作可以將大小各異的輸入特征圖映射成統(tǒng)一尺度的特征向量,以便統(tǒng)一進(jìn)行后續(xù)操作。特征向量尺寸的計(jì)算公式為
其中,a1,a2,b1,b2為 RoI的區(qū)域坐標(biāo)。pool_height和pool_width為池化的輸出尺寸。
Fast R-CNN的輸出分為兩個(gè)部分,其中score部分用Softmax方法進(jìn)行類型識(shí)別得到預(yù)測(cè)概率p=(p0,p1,p2,…,pm),Box部分由窗口回歸法得到預(yù)測(cè)結(jié)果tm=(txm,tym,twm,thm),m表示類別屬性的編號(hào)。假定在m類圖片中某一個(gè)正樣本標(biāo)注的結(jié)果為t'=(tx',ty',tw',th'),預(yù)測(cè)結(jié)果為 t=(tx,ty,tw,th),原則上預(yù)測(cè)值與標(biāo)注值越接近說(shuō)明預(yù)測(cè)結(jié)果越準(zhǔn)確。窗口回歸損失函數(shù)為
這里,smooth(x)對(duì)應(yīng)的表達(dá)式為
式中的x=tl-t'l,即對(duì)應(yīng)的坐標(biāo)之差,其目的是提高模型應(yīng)對(duì)異常數(shù)據(jù)時(shí)的容忍度。
3.1 算法框架
在GPU并行計(jì)算能力的支持下,Caffe、Tensor-Flow、Torch、Theano等一批深度學(xué)習(xí)基礎(chǔ)框架迅速發(fā)展起來(lái),這其中以在Caffe框架支持下的Fast R-CNN為代表的一系列神經(jīng)網(wǎng)絡(luò)模型具有較高的影響力。隨著卷積神經(jīng)網(wǎng)絡(luò)模型的不斷優(yōu)化,模型訓(xùn)練和單幀圖像的目標(biāo)檢出所用時(shí)間不斷縮減,目前最新的卷積神經(jīng)網(wǎng)絡(luò)模型在GPU環(huán)境下運(yùn)行時(shí),檢測(cè)的幀速率可以達(dá)到每秒78幀左右,基本上達(dá)到了實(shí)時(shí)檢測(cè)的能力[15]。
本文算法以Fast R-CNN網(wǎng)絡(luò)模型為基礎(chǔ),設(shè)計(jì)出一種簡(jiǎn)單的多目標(biāo)跟蹤框架,并利用實(shí)驗(yàn)驗(yàn)證了算法的可行性,該方法與傳統(tǒng)的多目標(biāo)跟蹤算法相比,在進(jìn)行長(zhǎng)時(shí)跟蹤時(shí)有相當(dāng)明顯的優(yōu)勢(shì)。
本文算法包括訓(xùn)練和跟蹤兩大部分,鑒于卷積神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練時(shí)耗時(shí)較長(zhǎng),利用樣本反饋在線更新網(wǎng)絡(luò)模型難度大,且實(shí)時(shí)性效果差,因而本文的做法為提前對(duì)網(wǎng)絡(luò)模型進(jìn)行線下訓(xùn)練,不組織在線更新。模型訓(xùn)練完成后,直接將其嵌入到多目標(biāo)跟蹤的程序框架中,以檢測(cè)的方式完成對(duì)每一幀里的目標(biāo)的定位和跟蹤。模型檢測(cè)的結(jié)果會(huì)計(jì)算出目標(biāo)的預(yù)測(cè)位置和相似度得分,由這兩方面的信息確定目標(biāo)的最終狀態(tài)。本文程序?qū)M足相似度要求的目標(biāo)直接用矩形框標(biāo)定出來(lái),不顯示其余信息。
3.2 參數(shù)設(shè)置及模型訓(xùn)練
本文實(shí)驗(yàn)對(duì)象為車輛,選取的樣本分為正負(fù)樣本兩類,正樣本為車輛目標(biāo),樣本數(shù)量為10000,負(fù)樣本為背景信息,樣本數(shù)量為20000,另外收集測(cè)試樣本數(shù)量為500。樣本信息采集自ImageNet數(shù)據(jù)庫(kù),UIUC Image Database和PASCAL VOC的汽車數(shù)據(jù)庫(kù)。卷積神經(jīng)網(wǎng)絡(luò)模型選用MatConvNet 24.0,模型的訓(xùn)練及目標(biāo)識(shí)別均采用GPU加速,因而在參數(shù)設(shè)置上,opts.gpus=1,,學(xué)習(xí)速率參數(shù)設(shè)定opts.learningRate=0.001。本實(shí)驗(yàn)中只有兩類樣本,卷積神經(jīng)網(wǎng)絡(luò)模型只需判定候選區(qū)域中是否包含目標(biāo)以及目標(biāo)的相似度,因而類別數(shù)參數(shù)nCls設(shè)定為2。利用準(zhǔn)備好的正負(fù)樣本進(jìn)行模型訓(xùn)練,設(shè)定迭代次數(shù)opts.numEpochs=10000。
實(shí)驗(yàn)環(huán)境:
硬 件 :Intel Core i5-4210M 2.60GHz CPU,NVIDIA GTX 950M 獨(dú) 顯 +Intel(R)HD Graphics 4600集顯。
軟件:Windows 7 X64操作系統(tǒng),VS 2013,MATLAB R2016a,CUDA 7.5.18,cudnn-v4.0,Mat-Convnet 24.0。
為檢驗(yàn)這種算法的實(shí)際性能,利用多個(gè)測(cè)試集進(jìn)行實(shí)驗(yàn)驗(yàn)證,統(tǒng)計(jì)評(píng)價(jià)指標(biāo)為模型識(shí)別準(zhǔn)確率,本文所用的測(cè)試視頻是標(biāo)準(zhǔn)的多目標(biāo)檢測(cè)視頻,名稱分別叫做egtest03和egtest04,多目標(biāo)跟蹤準(zhǔn)確率的計(jì)算方式與單目標(biāo)有相似之處,利用所有視頻幀中出現(xiàn)的目標(biāo)數(shù)和正確標(biāo)定的目標(biāo)個(gè)數(shù)之間的比值進(jìn)行衡量。準(zhǔn)確率計(jì)算公式為
其中,TO表示所有視頻幀中正確標(biāo)出的目標(biāo)數(shù),CO表示所有視頻幀中的目標(biāo)總數(shù)。通過(guò)對(duì)測(cè)試視頻的實(shí)驗(yàn)統(tǒng)計(jì),得到表1數(shù)據(jù)。
表1 測(cè)試視頻跟蹤準(zhǔn)確率
本文實(shí)驗(yàn)所用的兩個(gè)測(cè)試視頻是截取的完整視頻的一部分,因此視頻幀數(shù)較短,egtest03比egtest04的跟蹤難度稍低一些,因?yàn)楹笳叽嬖谝欢螘r(shí)間的遮擋,對(duì)跟蹤算法提出了一定的挑戰(zhàn)。從表1中的數(shù)據(jù)也可以很容易看出,egtest03的準(zhǔn)確率略高。
實(shí)驗(yàn)視頻幀的部分運(yùn)行結(jié)果如圖3所示。
兩個(gè)視頻在測(cè)試過(guò)程中有時(shí)會(huì)出現(xiàn)虛警和漏跟的情況,這兩種情況的結(jié)果在圖3中有所體現(xiàn),egtest03中第24幀和392幀都出現(xiàn)了虛警,該視頻中在最尾端的車輛并非汽車而是摩托車,卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練樣本中并沒(méi)有針對(duì)摩托車的訓(xùn)練,因而在整個(gè)測(cè)試過(guò)程中只有前面幾幀將摩托車標(biāo)定了出來(lái),這是因?yàn)橛捎谂臄z角度的原因,造成摩托車與汽車的圖像特征比較相似。第392幀出現(xiàn)虛警的情況與前幾幀將摩托車標(biāo)定出來(lái)原因類似,因?yàn)楸疚乃惴ㄊ褂萌珗D搜索的方式進(jìn)行多目標(biāo)的跟蹤,所以在視頻幀的任何一個(gè)區(qū)域只要有符合車輛特征的候選區(qū)都會(huì)被標(biāo)定出來(lái)。
在測(cè)試視頻egtest04的280幀和400幀之間,兩個(gè)汽車進(jìn)入遮擋區(qū),在295幀326幀等多處出現(xiàn)目標(biāo)被嚴(yán)重遮擋導(dǎo)致跟蹤框丟失的現(xiàn)象,但是在車輛重新出現(xiàn)時(shí),算法依舊可以將目標(biāo)標(biāo)定出來(lái),這和算法本身采用檢測(cè)而不是傳統(tǒng)的跟蹤方式有必然的聯(lián)系。傳統(tǒng)跟蹤算法在目標(biāo)遭遇嚴(yán)重遮擋時(shí)大都會(huì)導(dǎo)致跟蹤框漂移,并且很難再將目標(biāo)找回,而本文算法則不需要考慮這一點(diǎn)。從這個(gè)實(shí)驗(yàn)中可以看出,本文算法在目標(biāo)從遮擋物中重新出現(xiàn)時(shí),依舊可以將目標(biāo)標(biāo)注出來(lái)。
本文所提的是一種基于卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)的多目標(biāo)跟蹤算法,檢測(cè)模型在所有視頻幀中進(jìn)行全圖檢測(cè),通過(guò)在多個(gè)視頻測(cè)試集上的實(shí)驗(yàn)證明,該方法對(duì)目標(biāo)的旋轉(zhuǎn)和形變都具有較高的容忍度,同時(shí)這種算法相較于傳統(tǒng)多目標(biāo)跟蹤算法有一個(gè)明顯的優(yōu)點(diǎn),就是在長(zhǎng)時(shí)跟蹤中表現(xiàn)出了較強(qiáng)的魯棒性,避免了傳統(tǒng)跟蹤算法隨著跟蹤時(shí)間的拉長(zhǎng)而導(dǎo)致誤差積累最終造成跟蹤失敗的情況。本文所提的多目標(biāo)跟蹤算法構(gòu)造比較簡(jiǎn)單,暴露出的一些缺點(diǎn)和不足是未來(lái)一段時(shí)間需要研究的重點(diǎn):1)本文算法只是針對(duì)某一類目標(biāo)進(jìn)行模型訓(xùn)練而沒(méi)有對(duì)跟蹤部分進(jìn)行深入設(shè)計(jì),因而在跟蹤時(shí)所有屬于此類目標(biāo)的候選區(qū)域都會(huì)被標(biāo)注出來(lái);2)視頻幀中有時(shí)會(huì)出現(xiàn)虛警和漏標(biāo)的情況。下一階段將會(huì)研究如何將軌跡預(yù)測(cè)和多目標(biāo)跟蹤相結(jié)合,同時(shí)研究選取正負(fù)樣本的及設(shè)置訓(xùn)練迭代的參數(shù)對(duì)訓(xùn)練結(jié)果的影響。
[1]吳靜靜.基于隨機(jī)有限集的視頻目標(biāo)跟蹤算法研究[D].上海:上海交通大學(xué),2012:5-9.
[2]孟凡彬.基于隨機(jī)集理論的多目標(biāo)跟蹤技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2010:6-9.
[3]張銳,李文秀.多傳感器跟蹤型數(shù)據(jù)濾波融合算法[J].哈爾濱工程大學(xué)學(xué)報(bào),2002,23(4):106-109.
[4]Hall,David L.Handbook of multisensor data fusion[M].Florida:CRC Press,2001:15-16.
[5]Mahler R P S.Statistical Multisource-Multitarget Information Fusion[M].Artech House,Inc.2007:2-6.
[6]李良群.信息融合系統(tǒng)中的目標(biāo)跟蹤及數(shù)據(jù)關(guān)聯(lián)技術(shù)研究[D].西安:西安電子科技大學(xué),2007:5-13.
[7]湯義,劉偉銘,柏柯嘉.基于數(shù)據(jù)關(guān)聯(lián)矩陣的多目標(biāo)跟蹤算法[J].計(jì)算機(jī)工程,2010,36(23):158-161.
[8]Tang Y,Liu W M,Xiong L.Improving Robustness and Accuracy in Moving Object Detection Using Section-Distribution Background Model[C]//International Confer-ence on Natural Computation.IEEE,2008:167-174.
[9]Li L,Huang W,Gu I Y H,et al.Principal color representation for tracking persons[C]//IEEE International Conference on Systems,Man and Cybernetics.IEEE,2003:1007-1012 vol.1.
[10]瑚成祥.基于隨機(jī)集理論的多目標(biāo)跟蹤方法[D].西安:西安電子科技大學(xué),2014:27-31.
[11]Kingman J F C.Review:G.Matheron,Random sets and integral geometry[J].Bulletin of the American Mathematical Society,1975,81(1975):844-847.Mahler R P S.Multitarget Bayes filtering via first-order multitarget moments[J].IEEE Transactions on Aerospace&Electronic Systems,2004,39(4):1152-1178.
[12]Girshick R.Fast R-CNN[C]//IEEE International Conference on Computer Vision.IEEE Computer Society,2015:1440-1448.
[13]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):2508-2515.
[14]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[J].2015:21-37.