邢吉生, 楊 禮, 尚祖飛, 浦鐵成, 牛國(guó)成, 于哲舟
(1. 北華大學(xué) 電氣信息工程學(xué)院, 吉林 吉林 132021;2. 中國(guó)科學(xué)院 長(zhǎng)春光學(xué)精密機(jī)械與物理研究所光學(xué)系統(tǒng)先進(jìn)制造技術(shù)重點(diǎn)實(shí)驗(yàn)室, 長(zhǎng)春 130033; 3. 黑龍江大學(xué) 電子工程學(xué)院, 哈爾濱 150080; 4. 吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130012)
視頻監(jiān)控系統(tǒng)模擬人的視覺系統(tǒng), 對(duì)感興趣的目標(biāo)進(jìn)行特征提取, 并模擬人的大腦分析系統(tǒng)對(duì)目標(biāo)進(jìn)行分析和識(shí)別. 在模擬大腦分析系統(tǒng)時(shí)要求計(jì)算機(jī)不但能根據(jù)事先設(shè)定的閾值做出判斷, 同時(shí)還具備學(xué)習(xí)的功能, 只有這樣才能實(shí)現(xiàn)真正意義上的計(jì)算機(jī)智能化[1-2]. 本文基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的支持向量機(jī)模式識(shí)別方法對(duì)視頻中運(yùn)動(dòng)目標(biāo)進(jìn)行分析, 模擬了人的學(xué)習(xí)和分析過程, 以達(dá)到對(duì)運(yùn)動(dòng)目標(biāo)最終做出快速而準(zhǔn)確識(shí)別的目的.
先模擬人眼對(duì)感興趣的目標(biāo)進(jìn)行提取, 且選取穩(wěn)定而又能反映物體本質(zhì)的特征, 用適當(dāng)?shù)姆绞奖磉_(dá), 以進(jìn)行分類識(shí)別. 提取特征的準(zhǔn)確度直接影響最后的判定結(jié)果.
所謂感興趣的目標(biāo)主要針對(duì)運(yùn)動(dòng)物體, 這樣可去除絕大部分背景, 簡(jiǎn)化支持向量機(jī)的訓(xùn)練難度, 從而保證較高的檢測(cè)率、 較低的誤測(cè)率及較快的速度. 但并非所有的運(yùn)動(dòng)物體都是感興趣的目標(biāo), 如晃動(dòng)的樹葉和飄揚(yáng)的旗幟, 同時(shí), 變化的天氣和光線也是重要因素.
本文采用混合Gauss模型的背景建模算法[3-4], 該方法對(duì)背景的自適應(yīng)性較高, 在時(shí)空效率適中的情況下能提供較精確的背景模型, 再利用背景減除法即可分割出運(yùn)動(dòng)物體.
由于噪聲及前景空洞的影響, 因此得到的二值化前景圖像并不理想, 可利用形態(tài)學(xué)方法解決, 主要包括腐蝕和膨脹兩個(gè)基本運(yùn)算[5-6]. 本文選用3×3和5×5的矩形模板, 通過調(diào)節(jié)腐蝕膨脹的模板類型、 使用順序及使用次數(shù), 達(dá)到最好的效果. 本文設(shè)定連通區(qū)域閾值, 小于該閾值的不列為前景運(yùn)動(dòng)目標(biāo), 利用該方法不僅能過濾掉過小運(yùn)動(dòng)目標(biāo), 還能消除噪點(diǎn). 在預(yù)處理過程中, 將數(shù)據(jù)中冗余部分去掉的同時(shí)降低了數(shù)據(jù)的維數(shù), 從而減少建立學(xué)習(xí)模型的訓(xùn)練時(shí)間.
在進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè)時(shí),會(huì)遇到目標(biāo)遮擋及沒有完全進(jìn)入場(chǎng)景的情況, 此時(shí)進(jìn)行分類通常無(wú)法得到準(zhǔn)確結(jié)果. 時(shí)間一致性約束[7]可理解為分類不僅依靠某一時(shí)刻的信息, 還要考慮在一段時(shí)間內(nèi)運(yùn)動(dòng)物體的變化情況, 即記錄在一段時(shí)間內(nèi)不同時(shí)刻測(cè)量的運(yùn)動(dòng)目標(biāo), 經(jīng)過多次假設(shè)分類, 統(tǒng)計(jì)所有分類信息得到最后結(jié)果. 同時(shí), 利用時(shí)間一致性約束還能分辨出輕微運(yùn)動(dòng)的背景, 如搖晃的樹枝, 即通過計(jì)算運(yùn)動(dòng)物體持續(xù)出現(xiàn)的時(shí)間, 若小于設(shè)定的閾值即視為背景擾亂.
支持向量機(jī)(SVM)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的有監(jiān)督統(tǒng)計(jì)學(xué)習(xí)方法, 明顯改善了泛化性能差、 容易出現(xiàn)過學(xué)習(xí)與欠學(xué)習(xí)等問題[8]. SVM是很好的分類器, 基于小樣本學(xué)習(xí)理論, 并能體現(xiàn)異類樣本的差異, 因此在各領(lǐng)域應(yīng)用廣泛. SVM由線性可分情況下的最優(yōu)分類面發(fā)展而來(lái), 其基本思想可用兩類現(xiàn)行可分情況說(shuō)明. 對(duì)于平面上的兩類可分樣本, 機(jī)器學(xué)習(xí)的任務(wù)是找到這樣一條直線, 不僅能把兩類樣本分開, 并且保證分類間隔最大. 所謂分類間隔是指從這條直線到兩類樣本中最近樣本的距離之和, 而這些最近距離樣本即為支持向量機(jī).
復(fù)雜的分類問題可以先通過非線性映射將輸入空間變換到一個(gè)高維空間, 然后在該高維空間中獲得最優(yōu)分類面. 本文引入非線性映射φ,Rd→H把數(shù)據(jù)從輸入空間Rd映射到更高維的心空間H, 數(shù)據(jù)在H上線性可分.Rd上的樣本集{(xi,yi),i=1,2,…,N}映射得到H, 從而得到新樣本集{(φ(xi),yi),i=1,2,…,N}, 然后在H上建立最優(yōu)分類面. 根據(jù)Lagrange方法及Cover定理, 可得超平面決策函數(shù):
(1)
它對(duì)于原空間Rd是非線性的. 由此引進(jìn)核函數(shù)K(x,y)=φ(x)·φ(y), 從而只需在Rd上計(jì)算K(x,y)即可, 最終的判別式為
(2)
不同的核函數(shù)將導(dǎo)致不同的支持向量機(jī)算法, 目前主要有多項(xiàng)式、 徑向基函數(shù)和S型函數(shù)3種核函數(shù). 核函數(shù)的選擇關(guān)系到最后分類識(shí)別的準(zhǔn)確性, 但目前最優(yōu)核函數(shù)的選擇仍未完全解決. 懲罰因子C的選擇同樣重要, 它的取值直接影響訓(xùn)練分類的準(zhǔn)確性和推廣性. 本文選擇徑向基函數(shù)作為核函數(shù)構(gòu)造支持向量機(jī)模型.
本文從單幀圖片和連續(xù)幀兩方面進(jìn)行特征提取. 對(duì)單張圖片常用形狀、 紋理、 顏色等低層特征[9], 而對(duì)象的顏色和紋理等特征不蘊(yùn)含對(duì)象的類別信息, 不適用于分類識(shí)別, 所以本文主要考慮形狀特征. 而對(duì)于連續(xù)圖片提取特征, 要使用跟蹤算法確定研究目標(biāo), 從而得到其運(yùn)動(dòng)中一些特性的變化情況. 本文主要從以下6個(gè)特征入手:
1) 高寬比R1=H/W, 其中H和W分別表示輪廓外接矩形的長(zhǎng)與寬.R1能很好地描述輪廓的大概外形特征, 不隨目標(biāo)的大小而改變. 一般認(rèn)為HWR大于1時(shí)判定為人, 小于等于1時(shí)判定為車輛.
2) 占空比R2=S/SS, 其中:S表示運(yùn)動(dòng)目標(biāo)區(qū)域面積;SS表示外界最小矩形面積. 考慮到目標(biāo)的多角度問題,SS沒有直接使用1)中的H×W, 使占空比更準(zhǔn)確.
3)R3=(10S1/H)/W, 其中S1為運(yùn)動(dòng)目標(biāo)區(qū)域1/10處區(qū)域的面積. 10S1/H表示目標(biāo)區(qū)域1/10處的平均寬度, 用于調(diào)節(jié)局部過寬的情況. 實(shí)驗(yàn)表明, 人頭部寬度和身體寬度的比值與車頂寬度和車身寬度比例有明顯差別.R3是在車型識(shí)別中的重要特征.
4)R4=Lmax/Lmin, 其中:Lmax表示質(zhì)心到輪廓邊緣最大值;Lmin表示質(zhì)心到輪廓邊緣最小值.
5) 運(yùn)動(dòng)速度R5, 即為質(zhì)心單位時(shí)間內(nèi)移動(dòng)的像素距離. 質(zhì)心的橫坐標(biāo)是對(duì)象區(qū)域所有像素點(diǎn)橫坐標(biāo)的平均值, 質(zhì)心的縱坐標(biāo)是對(duì)象區(qū)域所有像素點(diǎn)縱坐標(biāo)的平均值. 通過質(zhì)心可確定運(yùn)動(dòng)目標(biāo)的位置,R5可判定目標(biāo)的運(yùn)動(dòng)快慢.
6) 對(duì)象大小的變化速度R6=(Areak+1-Areak)-(Areak-Areak-1), 其中Areak表示第k幀目標(biāo)區(qū)域的面積. 對(duì)于行駛的車輛, 由于外形具有穩(wěn)定不變性, 所以R6趨于0; 而人在行走時(shí)伴隨形變, 所以R6值在正負(fù)間變化.
圖1 基于支持向量機(jī)的運(yùn)動(dòng)目標(biāo)分類原理Fig.1 Support vector machine based moving target classification
基于支持向量機(jī)的運(yùn)動(dòng)目標(biāo)分類原理如圖1所示. 由圖1可見, 在基于支持向量機(jī)的運(yùn)動(dòng)目標(biāo)分析中可大致分為3個(gè)步驟: 運(yùn)動(dòng)目標(biāo)提取與特征表示、 機(jī)器學(xué)習(xí)及做出最后的類別判定. 在運(yùn)動(dòng)目標(biāo)提取與特征表示中, 通過使用混合Gauss模型進(jìn)行背景更新, 先利用背景差減法提取運(yùn)動(dòng)目標(biāo), 再分別針對(duì)單幀和連續(xù)幀的運(yùn)動(dòng)目標(biāo)提取特征向量(R1,R2,R3,R4,R5,R6); 在機(jī)器學(xué)習(xí)中, 用一組事先標(biāo)記過的訓(xùn)練集訓(xùn)練支持向量機(jī), 得到最優(yōu)決策函數(shù). 為了減小樣本集的規(guī)模, 采用自舉方式可以使樣本更具代表性, 從而提高分類器的訓(xùn)練速度及分類的正確率; 最后利用訓(xùn)練好的支持向量機(jī)對(duì)測(cè)試集進(jìn)行運(yùn)動(dòng)目標(biāo)的分類識(shí)別.
實(shí)驗(yàn)主要針對(duì)靜止單攝像機(jī)在普通戶外場(chǎng)景下目標(biāo)多角度、 姿態(tài)多變化且含少量影子的運(yùn)動(dòng)目標(biāo), 使用訓(xùn)練軟件Libsvm對(duì)其進(jìn)行分類[10]. 為免去手工標(biāo)注提高工作效率, 從14組視頻中抽取1 399張只含有單人或單車的圖片作為訓(xùn)練樣本, 其中車輛圖片542張, 行人圖片857張. 本文選擇徑向基函數(shù)作為核函數(shù), 并采用交叉驗(yàn)證方法選擇懲罰因子C和核函數(shù)的參數(shù)g, 其值分別為14.928 52和6.062 87. 先利用這兩個(gè)最佳參數(shù)對(duì)選取的訓(xùn)練樣本集進(jìn)行訓(xùn)練, 得到支持向量機(jī)模型, 再應(yīng)用此支持向量機(jī)模型對(duì)選取的418張測(cè)試樣本進(jìn)行類別判定. 測(cè)試正確率達(dá)到98.086 1%, 其中行人測(cè)試正確率為99.586 8%, 車輛測(cè)試正確率為96.022 7%. 圖2為原始圖像及其分類結(jié)果. 由圖2可見, 由于光線及前景顏色接近背景顏色等外界因素, 會(huì)出現(xiàn)運(yùn)動(dòng)目標(biāo)輪廓變形的問題, 從而影響特征向量的提取而影響分類結(jié)果的正確率.
圖2 原始圖像(A),(B),(C)和分類結(jié)果(D),(E),(F)Fig.2 Original images (A),(B),(C) and classification results (D),(E),(F)
綜上可見, 本文提出的支持向量機(jī)在視頻運(yùn)動(dòng)目標(biāo)分析中的應(yīng)用, 能對(duì)車輛和行人作出較準(zhǔn)確的分類. 在此基礎(chǔ)上可增加相應(yīng)的特征向量, 對(duì)運(yùn)動(dòng)目標(biāo)作出進(jìn)一步的判斷, 如運(yùn)動(dòng)速度、 停留時(shí)間、 車型判斷及人行為分析理解等, 為智能監(jiān)控的實(shí)現(xiàn)奠定基礎(chǔ).
[1] Baidu. On 2010, Chinese Security Video Surveillance Equipment Industry Development Strategy and Competitive Strategy Analysis Report [R/OL]. [2011-11-30]. http://wenku.baidu.com/view/ebf2971ca300a6c30c229f9e.html.
[2] Ekpar F. A Framework for Intelligent Video Surveillance [C]//Proceedings of the IEEE 8th International Conference on Computer and Information Technology Workshops. Sydeny: IEEE, 2008: 421-426.
[3] Stauffer C, Grimson W E L. Adaptive Background Mixture Models for Real-Time Tracking [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Fort Collins: IEEE, 1999: 2246-2252.
[4] Stauffer C, Grimson W E L. Learning Patterns of Activity Using Real-Time Tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 747-757.
[5] Pratt W K. 數(shù)字圖像處理 [M]. 李虹, 肖春虹, 李穎華, 等譯. 北京: 機(jī)械工業(yè)出版社, 2010: 428-430.
[6] Shapiro L G, Stockman G C. 計(jì)算機(jī)視覺 [M]. 趙清杰, 錢芳, 蔡利棟, 譯. 北京: 機(jī)械工業(yè)出版社, 2005.
[7] Lipton A, Fujiyoshi H, Patti R. Moving Target Classification and Tracking from Real-Time Video [C]//Proceedings of IEEE Workshop on Applications of Computer Vision. Princeton, NJ: IEEE, 1998: 8-14.
[8] Cortes C, Vapnik V. Support Vector Networks [J]. Machine Learning, 1995, 20: 273-297.
[9] YU Lin-sen, ZHANG Tian-wen, ZHANG Kai-yue, et al. Review of Indexing Methods for Image Retrieval [J]. Journal of Chinese Computer Systems, 2007, 28(2): 356-360. (于林森, 張?zhí)煳? 張凱月, 等. 圖像檢索中的相似性判別及索引方法綜述 [J]. 小型微型計(jì)算機(jī)系統(tǒng), 2007, 28(2): 356-360.)
[10] Chang C C, Lin C J. LIBSVM-A Library for Support Vector Machines [EB/OL]. [2011-10-14]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/.