周林林,胡曉君,張魯殷,賈偉光,楊陽,丁祥,張雪飛,楊東東
(山東科技大學電子通信與物理學院,山東 青島 266590)
目前人物身份屬性識別問題在計算機視覺技術中應用較少,Song 等人在2011年提到通過人物服裝及其背景完成對職業(yè)的預測[1]。他們通過對人類服裝外觀與周圍環(huán)境之間建立一個模型,實現了對人物職業(yè)的初步預測。但是這種方法只應用在圖像領域上。隨著視頻監(jiān)控系統(tǒng)的完善和普及,目前更需要在監(jiān)控視頻中完成對人物的檢測以及對人物特定身份屬性的自動識別[2]。
現實生活中,很多場景都需要對人物特定身份屬性進行識別,比如在監(jiān)獄監(jiān)視罪犯的活動范圍,交通系統(tǒng)中檢測交警位置,醫(yī)院禁止普通人員進入等。這些人物身份特征非常明顯,最為顯著的是制服的款式與制服的顏色差異。傳統(tǒng)的圖像檢測算法大多人工進行特征提取,不僅耗時耗力而且過程困難,深度學習是一種無監(jiān)督學習,通過大量數據自動學習特征[3]。區(qū)域卷積神經網絡(Rcnn)[4]、快速區(qū)域卷積神經網絡(Fast- rcnn)的出現[5],使深度學習在圖像上的應用成為研究熱點。本文提出了基于深度學習加速區(qū)域卷積神經網絡算法(Faster rcnn)進行特定人物身份屬性的自動識別[6]。該算法通過對人物身份屬性的典型特征自動提取快速區(qū)分出監(jiān)控視頻中的人物屬性[7],提高了識別的速度和準確率,達到了進行視頻實時監(jiān)測的目的并且具有高魯棒性??梢灶A測的屬性包括警察、罪犯、醫(yī)生、護士等。
Rcnn是由Ross Girshick在2014年提出的基于候選區(qū)域的卷積神經網,該算法在voc2007數據集上的準確率提高到53%。算法采用選擇性搜索方法生成特征建議窗口并對其進行歸一化處理,每張圖片大約生成2000個建議窗口,卷積神經網(CNN)將2000個227*227大小的建議窗口送入CNN提取特征,用支持向量機(SVM)分類器對CNN輸出特征分類,判斷人物屬性,用邊界框(bounding box)回歸值校正原來的建議窗口位置,生成預測窗口的坐標。圖1.1是基于監(jiān)控環(huán)境背景下的RCNN框架流程圖。
圖1 .1 rcnn框架
加速卷積神經網絡算法(Faster rcnn)是RCNN系列中對快速區(qū)域卷積神經網(Fast rcnn)算法的改進。雖然快速區(qū)域卷積神經網檢測效果良好,但是在特征區(qū)域的選擇上仍然采用的是selective search的方法[8]。加速區(qū)域卷積神經網絡主要在提取建議窗口上做了改進,它采用共享卷積網組成了RPN(region proposal network)進行建議窗口的選擇。Faster rcnn由RPN和Fast rcnn聯合網絡組成。圖1.2為快速區(qū)域卷積網的框架圖,圖1.3為加速區(qū)域卷積神經網的框架圖。Faster rcnn在該人物身份屬性識別中分為四個部分:候選區(qū)域的生成;特征提取;分類;多任務損失函數及邊框回歸,在加速區(qū)域卷積神經網框架下統(tǒng)一實現。對比快速區(qū)域卷積神經網框架圖,新增了區(qū)域建議生成網絡(Region Proposal Net)。
圖1 .2 Fast rcnn識別框架
圖1 .3 Faster rcnn識別框架
在加速區(qū)域卷積神經網里送入帶有人物身份屬性標注信息的圖片,經過五層卷積網(convnet)生成特征圖,一部分進入區(qū)域建議網(Region Proposal Net),另一部分經過卷積進入池化層(Roi Pooling layer),進入區(qū)域建議網的特征圖生成建議窗口傳送至池化層,經過兩個全連接層(FC)使每個建議窗口生成固定尺寸的特征圖,最后通過Softmax分類器進行屬性分類并進行邊框回歸,生成預測窗口的坐標。
圖1 .4 RPN框架圖
在Rcnn和Fast rcnn中,特征區(qū)域都是由selective search的算法來實現的,但是該提取建議框的方法是在CPU上完成的,不能完全利用GPU的高度并行提取能力,所以在加速區(qū)域卷積神經網絡算法中使用GPU進行建議窗口的提取,提出了區(qū)域建議RPN(region proposal network)這一概念。圖1.4為RPN如何提取身份屬性建議窗口的流程圖。
(1)帶有屬性信息標簽圖經過ImageNet網絡的五層卷積層輸出維度是13*13*256的特征圖送入RPN網絡。
(2)使用3*3的滑動窗口在特征圖上進行卷積滑動,每個滑動窗口通過卷積層映射為256維的特征向量。每個滑動窗口有k個窗口(anchors),每個窗口會映射到原圖所對應的位置,產生W(width)×H(highth)×k個區(qū)域建議。Anchors是三種不同尺度,長寬比的參考窗口,三種尺度為{1282,2562,5122},三種長寬比為1:1,1:2,2:1}。256維特征向量連接兩個卷積層,窗口回歸層(reg layer)和窗口分類層(cls layer)。在cls層,產生的區(qū)域建議和目標區(qū)域(groud truth)進行一個IOU計算,如果IOU>0.7則判斷為目標,如果IOU<0.3則判斷為背景。在reg層,通過回歸過程的訓練,使得區(qū)域建議盡可能的接近groud truth,最后將建議區(qū)域接入到ROI pooling layer中進行全連接。
本實驗是基于監(jiān)控環(huán)境下的識別檢測,分類檢測的目標是警察犯人這兩種典型身份。實驗運行環(huán)境是在基于Linux系統(tǒng)的caffe框架下進行的。
獲得包含身份屬性信息的5萬張圖像,構建數據集,采用圖像標注技術對收集圖像進行特征標注[9]。用MATLAB工具進行人物身份的標注,同時生成人物身份屬性的坐標信息,人物屬性標簽(警察、犯人),生成VOC2007格式的數據集。圖2.1為數據集標注示意圖,紅框標記為犯人,綠框標記為警察。數據集中包含訓練樣本4萬張,測試樣本一萬張。
圖2.1 標注示意圖
圖2 .2為設計區(qū)域生成RPN流程圖,設計合適的rpn訓練網絡需要在加速區(qū)域卷積神經網絡算法里設置網絡參數。在data層把num_classes設置為3類,犯人+警察+背景,在cls_score層把num_output設置為3,在bbox_pred層把num_output設置為12,為檢測類別個數的四倍。
Faster rcnn 算法是基于imagenet網絡現有模型下的繼續(xù)訓練。
(1)首先利用imagenet網絡對RPN網絡進行預訓練,通過五層卷積網進行預訓練,得到特征區(qū)域。
(2)同時進行的fast rcnn部分的網絡預訓練,用在RPN中得到的區(qū)域建議進行端對端的微調網絡訓練。
(3)微調后得到的fast rcnn 網絡重新初始化RPN網絡,共享和fast rcnn提取特征圖的卷積層,設置網絡學習率為0,得到新的區(qū)域建議。
(4)固定共享卷積層,利用上一步得到的區(qū)域建議重新微調 fast rcnn,一個完整的加速區(qū)域卷積神經網絡構成。
訓練步驟分四步,設置的每一步的迭代次數為40000,20000,40000,20000,學習率設置為0.001。為了更好的分析每個階段是如何進行對身份屬性的特征提取,將每個過程的圖片特征提取做了可視化處理,圖2.3是特征圖可視化。第一張是測試圖片經過imagenet網絡的第五層卷積層后的特征圖,第二張為rpn過程的輸出的特征圖。
圖2 .3 特征圖可視化
圖2 .4 測試曲線
表1 與快速區(qū) 域卷積神經網準確率對比
圖2.4給出人物身份屬性識別模型的loss曲線圖,顯示犯人的檢測準確率在0.828,警察的檢測準確率在0.708。表一是兩種網絡在準確率和檢測速度上的對比。相比于快速區(qū)域卷積神經網,犯人的識別準確率從0.670提升到0.828,警察的準確率從0.579提升到0.708。在檢測速度上,快速區(qū)域卷積神經網檢測一張圖片的速度在2s左右,而加速區(qū)域卷積神經網檢測速度在0.04s左右。分析得到加速區(qū)域卷積神經網絡與快速區(qū)域卷積神經網相比,在準確率和檢測速度上都有顯著提升。
圖2.5 模型檢測圖
圖2 .5是身份屬性檢測識別圖??梢钥吹皆谀繕说淖R別還有準確率上都有很好的效果,不過因為數據集有限,監(jiān)控鏡頭比較模糊,出現漏檢情況,需要后續(xù)豐富訓練數據集,提高人物身份屬性識別準確率。
本文通過基于深度學習中加速區(qū)域卷積神經網絡框架實現了監(jiān)控系統(tǒng)下的人物身份屬性識別,并且與快速區(qū)域卷積神經網絡在檢測速度和準確率上進行了對比。本文對警察犯人兩種人物身份屬性進行了實驗,證實了算法的可行性。利用該算法可以完成對醫(yī)生、病人、警察、犯人、交警、行人等人物身份屬性的自動識別,并且應用在實際中。但是因為監(jiān)控視頻很多不清晰,給檢測識別造成了一定的困難。而且識別率有待進一步提升,解決的辦法是不斷增加數據集,增加樣本數量,提升模型的識別準確率。
[1] Z. Song, M. Wang, X. Hua, et al. Predicting occupation via human clothing and contexts[C]. Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 1084-1091
[2] 駱云志, 劉治紅 . 視頻監(jiān)控技術發(fā)展綜述 [J]. 兵工自動化, 2009, 28(1):1-3.Luo Yunzhi, Liu Zhihong. Overview of video surveillance technology development [J]. Ordnance Industry Automation, 2009, 28 (1): 1-3.
[3] 尹寶才, 王文通, 王立春. 深度學習研究綜述[J]. 北京工業(yè)大學學報, 2015(1):48-59.Yin Baocai, Wang Wentong, Wang Lichun.A Review of Deep Learning Research [J] .Journal of Beijing University of Technology, 2015 (1):48-59.
[4] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Computer Vision and Pattern Recognition. IEEE, 2014:580-587.
[5] Girshick R. Fast R-CNN[J]. Computer Science, 2015
[6] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.
[7] 楊德培. 視頻監(jiān)控中人物屬性識別方法的研究[D]. 電子科技大學, 2016.Yang Depei.Video monitoring character recognition method [D]. University of Electronic Science and Technology, 2016.
[8] Uijlings J R, Sande K E, Gevers T, et al. Selective Search for Object Recognition[J]. International Journal of Computer Vision, 2013, 104(2):154-171.
[9] 盧漢清, 劉靜 . 基于圖學習的自動圖像標注 [J]. 計算機學報, 2008, 31(9):1629-1639.LU Han-Qing, LIU Jing.Automatic Image Annotation Basd on Graph Learning [J] .Journal of Computer China, 2008,31(9): 1629-1639.