陳振宇 唐波
摘要:人群密度估計作為公共人群管理的重要手段,一直是智能視頻監(jiān)控系統(tǒng)研究領(lǐng)域的重要方向,在公共安全、科學(xué)研究等領(lǐng)域有著極其廣泛的應(yīng)用前景。該文系統(tǒng)介紹了人群密度估計的基本概念、基本流程、密度等級分類等內(nèi)容。對當(dāng)前研究的主流算法進(jìn)行了分析比較,進(jìn)一步總結(jié)了當(dāng)前研究中亟須解決的瓶頸問題,為后續(xù)研究提供了思路。
關(guān)鍵詞:密度估計;特征提??;公共安全
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)21-0137-04
Crowd Density Estimation Method Based on Video Image Research
CHEN Zhen-yu,TANG Bo
(College of Electrical Science& Engineering, National University of Defense & Technology, Changsha 410073,China)
Abstract:Crowd density estimation as an important means of public management, has been an important direction in the field of intelligent video surveillance system research, and has a very broad application prospects in public safety and scientific research. In this paper, the basic concept, the basic flow and the grade classification of crowd density estimation are introduced. The main algorithms in current research are analyzed and compared. The bottleneck problem need to be solved is summarized, and then the ideas for further research are provided.
Key words:density estimation; feature extraction; public safety
近年來,大量的人群聚集已經(jīng)成為一個新型的,影響社會公共安全的常態(tài)性問題。一方面是社會矛盾的激化引發(fā)大量的群體性事件,另一方面是城市公共設(shè)施和安全措施不完備所引發(fā)的人群安全事件時有發(fā)生,這使得傳統(tǒng)的目視視頻監(jiān)控系統(tǒng)難以滿足人們的應(yīng)用需求。如何利用視頻圖像信息達(dá)到對人群行為的自動、客觀、實時、定量的分析,實現(xiàn)人群異常情況的及時預(yù)警,已經(jīng)成為公共安全管理中亟待解決的重要問題。人群密度估計作為人群行為分析的基礎(chǔ),一直是智能視頻監(jiān)控系統(tǒng)研究領(lǐng)域的重要方向,有著極其廣泛的應(yīng)用前景。
隨著機(jī)器視覺、圖像處理和模式識別等學(xué)科領(lǐng)域的快速發(fā)展,研究人員在人群密度估計領(lǐng)域做出了大量富有成效的工作,以其為基礎(chǔ)形成了許多富有特色的智能系統(tǒng),系統(tǒng)的通用結(jié)構(gòu)通常包括采集單元、處理單元和控制單元三大模塊。其中,采集單元主要是通過攝像機(jī)攝取人群圖像并加以儲存;處理單元是采用數(shù)字圖像處理技術(shù)對圖像進(jìn)行處理以獲取人群密度或流量數(shù)據(jù);控制單元主要是根據(jù)人群流量或密度做出相應(yīng)的判斷并采取相應(yīng)的措施。系統(tǒng)結(jié)構(gòu)如圖1所示。
1995年,倫敦地鐵采用了EPSRC人群監(jiān)控系統(tǒng),能夠進(jìn)行地鐵站的人群密度估計和流量統(tǒng)計;歐盟于1999年研究了以研究人群和個人行為模式為內(nèi)容的ADVISOR系統(tǒng),用于提升公共場所的安全管理水平;IBM開發(fā)的Smart Surveillance 系統(tǒng),集成了車牌識別、人體行為分析和人臉識別等多種功能。此外,國內(nèi)基于視頻的人群密度估計研究也取得了較大的進(jìn)步。中國科技大學(xué)、西安電子科技大學(xué)、香港中文大學(xué)等院校都成立了機(jī)器視覺領(lǐng)域的研究團(tuán)隊,取得了豐富的研究成果。中國科學(xué)院自動化所開展了智能視覺監(jiān)控系統(tǒng)的研究和開發(fā),可實時識別、跟蹤目標(biāo)和檢測異常行為。香港中文大學(xué)的計算機(jī)視覺研究組開發(fā)了DeepID的深度學(xué)習(xí)模型,在LFW上獲得了99.15%的識別率,打破了之前的世界紀(jì)錄,在人群監(jiān)測領(lǐng)域走在了世界前列。
1 人群密度估計的基本概念
人群密度通常指某個空間內(nèi)人的稠密程度,通常采用單位面積內(nèi)的人數(shù)來表示?;谝曨l圖像的人群密度估計就是通過固定攝像頭采集固定場景的視頻圖像,并運(yùn)用模式分類的相關(guān)方法對圖像中的人群信息進(jìn)行識別、提取和統(tǒng)計,分析人群模型和確定人群密度分類等級。其基本流程見圖2,各部分工作原理如下:
圖像采樣是指相關(guān)設(shè)備采集視頻數(shù)據(jù),從中提取視頻序列,一般為連續(xù)的單幅靜態(tài)圖像。圖像預(yù)處理一般包括背景減法、直方圖均衡和模版背景屏蔽等方法。背景減法可以裁剪出運(yùn)動目標(biāo)對象區(qū)域;直方圖均衡方法可以減小光照變化因素的影響;模版背景屏蔽可以通過屏蔽復(fù)雜背景,僅保留相關(guān)感興趣的圖像區(qū)域。特征提取是指在經(jīng)過預(yù)處理的圖像中提取可以反映人群關(guān)鍵信息的特征值,通常包括像素特征、紋理特征、個體特征幾類。密度特征分析是指選擇合適的方法,對不同場合提取的人群密度特征進(jìn)行分析,從而得出人群密度的估計值,常見的方法有線性分析、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、卡爾曼濾波、馬爾科夫隨機(jī)場等。
當(dāng)前,根據(jù)場景內(nèi)人群數(shù)目可將人群密度分為極稀疏、稀疏、中等密度、擁擠和阻塞幾個等級,等級的劃分最早來源于1983年P(guān)olus的研究[1],Polus在18m2的監(jiān)控區(qū)域內(nèi)所得出的人群密度等級及閾值如表1所示。
最初的人群密度監(jiān)控系統(tǒng)都是簡單的通過前景圖像在整個圖像中所占的比例來估算人群密度,但在人群密度較大的情況下,算法的錯誤分類概率會迅速增大。目前,基于視頻圖像的人群密度分析方法主要包含兩個大的方向,一個是針對整個人群群體特征的所進(jìn)行的群體分析;另一個是基于個體特征進(jìn)行的個體分析。這兩大研究方向又包含了三類研究方法:基于像素統(tǒng)計特征、基于紋理特征的人群密度算法以及基于個體分割特征提取技術(shù)的人群密度估計方法,如圖3所示。
2.1 基于像素統(tǒng)計的方法
圖像的像素統(tǒng)計特性是最先被利用同時也是很有效的人群密度特征,通過提取圖像的全局特征和內(nèi)部邊緣特征對人群密度進(jìn)行估計。其基本思想是:在人群越密集的狀態(tài)中,其分離出的前景在圖像中占有更高的比例。但是這種方法基于一個基本的假設(shè),即人群密度的大小與圖像中具有顯著運(yùn)動的區(qū)域有關(guān)。這種方法具有算法簡單、運(yùn)算速度快等特點,但在人群密度較高的情況下,人群的嚴(yán)重遮擋會導(dǎo)致個體信息的嚴(yán)重缺失,從而使得算法的誤差急劇增大,一般說來,在進(jìn)行較為簡單的像素統(tǒng)計時,我們僅僅利用像素之間的空域相關(guān)性,而在進(jìn)行復(fù)雜統(tǒng)計時,我們還利用視頻在時間序列上的相關(guān)性,稱之為時域相關(guān)性。
在利用空域相關(guān)信息進(jìn)行密度估計研究方面,1995年,Davies[4]等研究發(fā)現(xiàn),在人群密度較低的情況下,前景圖像(只包含人)的總像素數(shù)和邊緣圖像的總像素數(shù)與圖像中的人群數(shù)量大致呈線性關(guān)系。在減背景操作和邊緣檢測的基礎(chǔ)上,采取多元線性回歸分析,通過人工訓(xùn)練學(xué)習(xí),能夠得到像素數(shù)與人數(shù)之間的比例關(guān)系,可以用函數(shù)y=ax+b表示。1999年,W.S.Chow 提出了基于混合全局學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)分析人群密度[5],并在2002年采取了改進(jìn)措施[6],通過提取人群對象的邊緣長度、人群對象的像素在整個圖像中占有的比例、背景像素在整個圖像中占有的比例以及顯著個體特征等四類特征,組成一個四維特征矢量,采用分類和自學(xué)習(xí)性能更加的RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行密度估計,使得系統(tǒng)性能更加穩(wěn)定,并于同年在香港地鐵中得到了推廣應(yīng)用。
在利用時域相關(guān)信息的研究方面,比較有代表性的有Regazzoni[2]和Paragios[3]等人。1994年,Regazzoni提出了基于分布式擴(kuò)展卡爾曼濾波的人群密度估計方法。該算法通過提取出邊緣像素數(shù)、邊緣像素數(shù)與矩形框的長寬比、邊緣像素直方圖中極大值個數(shù)和幅度和等特征,組成一組五維向量,利用分布式卡爾曼濾波器進(jìn)行人群密度的估計。2001年,Paragios等利用馬爾科夫隨機(jī)場(MRF)進(jìn)行人群密度估計研究,主要思路是采取MRF的方法對圖像進(jìn)行檢測,獲取到一個平滑的變化檢測圖像,而后將得到的檢測圖像與一個幾何模塊結(jié)合起來進(jìn)行透視校正來估計人群密度。
2.2 基于紋理分析的方法
紋理是圖像的重要特征,是模式識別和圖像處理等學(xué)科中辨別圖像區(qū)域的重要依據(jù)。常使用區(qū)域尺寸、可分辨灰度元素以及灰度元素之間的關(guān)系來描述圖像區(qū)域。基于紋理分析的人群密度估計方法就是通過紋理分析、紋理提取、特征分類等方法,實現(xiàn)人群密度的估計。該方法在人群密度較高的情況下,能得到較為準(zhǔn)確的估計值。其基本原理是:不同的人群密度對應(yīng)不同的紋理模式,高密度的人群在紋理上表現(xiàn)為細(xì)模式,而低密度的人群圖像在紋理上表現(xiàn)為粗模式。常用的方法包括灰度共生矩陣、小波包分解法、分形方法等,下面進(jìn)行簡要介紹。
2.2.1 灰度共生矩陣算法
20世紀(jì)70年代初出現(xiàn)的灰度共生矩陣算法(GLDM)指的是從灰度為i的像素點出發(fā),離開某個固定點(距離為d,方位為θ)的點上灰度值為j的概率。得到的估計值可以表示成一個矩陣的形式,反映出了不同灰度像素的位置分布信息。從GLDM導(dǎo)出的一些統(tǒng)計學(xué)參數(shù)可以作為描述紋理特征的參量。Haralick[7]提出了14種基于GLDM提出的統(tǒng)計參數(shù)包括能量、熵、對比度、均勻性、方差、差熵、差平均、相關(guān)性、和平均、和方差、和熵、逆方差、相關(guān)信息測度以及最大相關(guān)系數(shù)。常采用能量、對比度、逆方差、熵四個特征量作為特征參數(shù)。
由于GLDM算法計算量十分龐大,研究人員通常在特征提取前降低圖像的灰度級,能夠大大減小計算量,提升計算的速度,使得該算法具有更廣泛的應(yīng)用能力。近年來,基于GLDM的改進(jìn)算法大量涌現(xiàn),2008年,劉曉銳[8]等提出了一種基于二維快速傅立葉變換和灰度共生矩陣的人群密度特征提取方法.主要思想是依據(jù)不同密度的人群圖像在其頻譜圖上的不同。將頻譜圖視為紋理圖像,并提取紋理特征,采用Adaboost實現(xiàn)人群密度級別的分類,實驗結(jié)果表明其計算速度能大大提高。2013年,XueMin Hu[9]等改進(jìn)的混合高斯建模梯度估計法,提出了細(xì)分人群的思想。該方法通過計算加權(quán)面積來解決個體之間的阻擋問題,能有效處理拍攝角度不合適的圖像,采用自適應(yīng)提高分類器(Adaptive Boost Classifier)提取特征加權(quán)面積,并結(jié)合混合高斯建模梯度估計出人群密度,實驗證明能取得很好的實時處理結(jié)果。2014年侯鵬鵬[10]在傳統(tǒng)的GLDM分析法中,采用能量、熵、慣性矩、局部平穩(wěn)性和相關(guān)性這五個特征量進(jìn)行紋理分析,并采用處理小樣本效果明顯的SVM分類器訓(xùn)練特征樣本,其分析計算效率高,魯棒性好。
2.2.2 小波包分解法
在視頻監(jiān)控取景過程中,由于攝像頭的拍攝角度存在差異,所獲取的人群圖像具有一定的透視效果,因此存在著多尺度特性。2001年,Marana[11]等提出的小波包分解法正是利用這種多尺度特性來提取人群圖像的紋理特征。首先把人群圖像f(x,y)當(dāng)成二維信號,進(jìn)行二維圖像的小波分解,得到小波系數(shù)矩陣,將計算出的系數(shù)矩陣能量值作為特征矢量送入自組織神經(jīng)網(wǎng)絡(luò)(SOM)進(jìn)行分類。圖4展示了SOM網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
圖像獲取過程中所產(chǎn)生的多尺度特性給紋理分析帶來了新的思路,其中小波包分解法就是一種非常有效的分析途徑。但是也存在著分解系數(shù)數(shù)據(jù)量過大、計算繁雜等一些不容忽視的缺陷,同時也使得分類特征的選擇比較困難。
2.2.3 分形算法
在圖形圖像處理領(lǐng)域中,圖像的粗糙度是圖像存在的一種客觀屬性,具有一些統(tǒng)計性質(zhì),在不同尺度上存在自相似性。分形[12]作為一種常用的紋理分析方法對于這些性質(zhì)的建模非常有用,其粗糙度的度量我們常常用分形維數(shù)進(jìn)行表示。它能同時反映出圖像的灰度信息和空間信息,在人群密度估計領(lǐng)域中得到了研究人員的廣泛關(guān)注。其主要思想是:人群的邊緣曲線與分形曲線非常相似,人群密度的大小可以通過邊緣曲線的細(xì)碎程度及時反映出來,邊緣曲線越平滑代表著人群密度越低,相應(yīng)的其分形維數(shù)越小,反之亦然。通常情況下,越平滑圖像的分形維數(shù)越接近1;而越高粗糙度圖像的分形維數(shù)越接近2。具體工作流程如圖5所示。
這種方法在人群密度估計中有著十分顯著的優(yōu)點,僅僅所需分形維數(shù)這一個特征量,因此流程簡單,計算速度快,能很好地區(qū)分低、中、高各密度人群。但是在人群密度很高的情況下,其錯誤分類的概率會升高,無法區(qū)分高密度和極高密度的人群。為了解決這類問題,王爾丹[13]等提出了一種基于多尺度分析和分形的人群密度估計方法,該方法通過對圖像進(jìn)行正交小波分解,得到不同尺度不同方向上的子帶圖像,并采用分形方法對不同子帶進(jìn)行多尺度特征提取,通過采用微分計盒法(Differential Box-counting)來計算出計盒維數(shù)(Box-counting Dimension),并構(gòu)成多維特征矢量送入最小二乘支持向量機(jī)(LSSVM)中進(jìn)行分類。在很高密度的估計實驗中,其分類的平均正確率能達(dá)到94%,算法性能上有了較大的提升。
2.3 基于個體特征的方法
基于個體特征的人群密度估計方法需要獲取較為精確的個體信息,通常在前景分割的基礎(chǔ)上,對個體外形、邊緣、顏色等等特征進(jìn)行有效的提取。
Lin [14]等利用Haar小波變換算法提取行人頭部輪廓特征,通過支持向量機(jī)分類器和計算機(jī)透視變換實現(xiàn)了行人人數(shù)的統(tǒng)計和密度估計。但是此種方法對攝像機(jī)拍攝角度要求較高,而且在人群較為密集的情況下,由于個體之間的阻擋,其特征提取非常困難,檢測效果較差。
Felzenszwalb 等[15]提出了一種基于多尺度形變的多部位混合目標(biāo)識別模型,該方法通過進(jìn)行部分標(biāo)注數(shù)據(jù)的區(qū)分性訓(xùn)練和自改進(jìn)的latent-SVM 的迭代訓(xùn)練法,提高了對圖像中尺度和形狀都發(fā)生變化的目標(biāo)的識別能力。但是,當(dāng)人群密度較大、目標(biāo)較小或圖像分辨率很低時難以準(zhǔn)確提取人體幾何特征,算法的有效性會大大降低。
2009年,Mehran[16]等將人群個體的活動用牛頓力學(xué)加以量化,通過提取場景中人群運(yùn)動的光流特征,用粒子的平流傳送來計算“社會力”流,估計出似然力流,而后設(shè)定閾值范圍進(jìn)行密度判定。該方法在基于個體分析算法研究中創(chuàng)造性地將“社會力”這一社會心理學(xué)的概念引入研究中,綜合了其他學(xué)科領(lǐng)域的知識,為以后的人群密度算法分析開闊了思路,有著較好的借鑒意義。
3 人群密度估計的研究展望
隨著計算機(jī)視覺和人工智能領(lǐng)域相關(guān)技術(shù)的快速發(fā)展,智能視頻監(jiān)控作為安防的智能化手段將從公共應(yīng)用走向個人應(yīng)用,人群密度估計將逐漸和流量統(tǒng)計、異常事件識別等技術(shù)融合發(fā)展,從而為人群監(jiān)控、人群管理和決策制定提供重要依據(jù)。然而目前,基于視頻圖像的人群密度估計仍然是一個十分具有挑戰(zhàn)性的研究課題?,F(xiàn)有各類算法在準(zhǔn)確度和復(fù)雜度方面都需要進(jìn)一步改進(jìn),研究條件也不一而足,具體說來,還需對以下幾個方面進(jìn)行探索改進(jìn):
1)現(xiàn)有的不管是基于個體的還是基于群體的人群密度分析方法都具備一定的局限性,無法對高密度甚至極高密度人群做出準(zhǔn)確的分析。如何針對大規(guī)模、高密度的研究對象,尋找出高效準(zhǔn)確的特征子描述方式,進(jìn)一步提升人群特征的描述精度,有效克服各類噪聲和外部環(huán)境等因素帶來的影響是擺在廣大研究人員一個現(xiàn)實而復(fù)雜的問題。
2)現(xiàn)在被廣泛使用的支持向量機(jī)的理論仍然還沒有形成有關(guān)核函數(shù)選擇的有效理論,具體參數(shù)只能通過經(jīng)驗進(jìn)行嘗試和選擇,存在著SVM 的計算量較大,參數(shù)不容易調(diào)整等問題。如何針對人群分析的實際,綜合考慮復(fù)雜度和精度,進(jìn)行尋求最優(yōu)參數(shù)的方法研究將是今后人群密度分析算法一個重要研究方向。
3)開展此類研究樣本需求量較大,研究人員往往難以獲得大規(guī)模群體事件的真實場景樣本,訓(xùn)練樣本在規(guī)模和復(fù)雜度上都和實際的應(yīng)用需求有著較大的不同,導(dǎo)致各類人群密度算法難以用真實的場景數(shù)據(jù)進(jìn)行驗證。雖說近年來,計算機(jī)圖形學(xué)和計算機(jī)圖像學(xué)等學(xué)科發(fā)展較為迅速,所開展的計算機(jī)人群場景仿真研究一定程度地彌補(bǔ)了人群分析算法在的驗證方面的不足,但還沒有從根本上解決這一問題,還需要更多的理論技術(shù)研究充實這一領(lǐng)域。
參考文獻(xiàn):
[1] Schofer J, Ushpiz A, Polus A.Pedestrian flow and level of service[J].Journal of Transportation Engineering,1983,109(1):46-56.
[2] Regazzoni C S.Distributed Extenged Kalman Filter Network For Estimation and Tracking Multiple Objects[J].Electronic Leters,1994,30(15):1202-1203.
[3] Paragios N,Ramesh V.A MRF-based Approach for Real-time Subway Monitoring[J]. IEEE Computer Vision and Pattern Recognition,2001(1):1034-1040.
[4] Davies A C,Yin J H,Velastin S A.Crowd monitoring using image Processing[J].IEEE Elcetronics and Communication Engineering Journal,1995,7(1):37-47.
[5] Chow T,Yam J,Cho S.Fast Training algorithm for feedforward neural networks: application to crowd estimation at underground stations[J].Artificilf Intelligence in Engineering,1999,13:301-307.
[6] Chow T, Cho S.Industrial neural vision system for underground railway station platform surveillance[J].Advance Engineering Informatics,2002,(16):73-83.
[7] Haralick K.Textural Features for Image Classification[J].IEEE Transactions On System, 1973(11):610-621.
[8] 劉小銳,周激流,李曉華.頻域基于灰度共生矩陣的人群密度估計[J].微計算機(jī)信息,2008(34):310-314
[9] Xuemin Hua, Hong Zheng, Wenwei Wang. A novel approach for crowd video monitorring of subway platforms[J]. Optik, 2013(124):5301-5306.
[10] 侯鵬鵬.基于GLCM紋理特征分析的人群密度估計方法實現(xiàn)[J].中國安防,2014(23):88-90.
[11] Marana A,Velastin S,Costa L.Automatic estimation of crowd density using texture [J].Safety Science,1998,28(3):165-175.
[12] Marana A.Estimating crowd density with minkoski fractal dimension[J].Signal Processing,1999,6:3521-3524.
[13] 王爾丹,李曉華,沈蘭蓀.基于多尺度分析和分形的人群密度估計方法[J].計算機(jī)工程與應(yīng)用,2005,(29):35-38.
[14] Lin, Chen,Chao.Estimation of number of people in crowded scenes using perspective transformation[J].Systems, Man and Cybernetics,Part A:Systems and Humans,IEEE Transactions on.2001,31(6):645-654.
[15] Felzenszwalb,Girshick,McAllester,Ramanan.Object detection with discriminatively trained part based models[J].IEEE Trans. PAMI.2010,32(9):1627-1645.
[16] Mehran R, Oyama A, Shah M. Abnormal crowd behavior detection using social force model[C]. Computer Vision and Pattern Recognition(CVPR09)IEEE Conference,2009:935-942.