劉 京 李宇杰 李 強 王 璐 裴中陽
(1.北京市地鐵運營有限公司,北京 100044;2.北京久譯科技有限公司,北京 100070)
隨著社會的發(fā)展與經濟的繁榮,城市化進程使越來越多的人口涌入城市。作為大型城市的主要公共交通設施,軌道交通是人流密集的典型場所,它具有客流密度大(尤其是瞬時客流高峰大)的特點,客流高峰期容易出現嚴重擁擠的情況,造成乘客滯留站臺的現象,甚至引發(fā)乘客糾紛、踩踏以及騷亂等安全事故,影響列車的正常運營。運營管理方對車站的大廳、站臺以及換乘通道等區(qū)域進行實時監(jiān)控,利用視頻智能分析技術及時掌握車站整體和局部的客流密度情況,及時地對可能出現的客流擁堵情況進行預判,保障軌道交通的安全運行。同時,可以實時地向乘客發(fā)布車站客流密度的相關情況。
基于公共安全的需求,在軌道交通車站內部組建完善的監(jiān)控安防系統,對站內重點區(qū)域進行圖像采集[1]。早期主要依靠站內工作人員(監(jiān)視監(jiān)控畫面)和安保人員(巡邏車站)來收集客流密度數據,在發(fā)生客流擁擠時通知站區(qū)其他工作人員對相關情況進行處理。除了存在人力消耗大、智能化程度低等問題以外,還無法保證對所有監(jiān)控點位進行全程、實時監(jiān)控,不能及時發(fā)現潛在的安全隱患。目前,深度學習在計算機視覺領域獲得了跨越式發(fā)展[2]。但是,在軌道交通場景下,會遇到人群遮擋、光線變化、監(jiān)視范圍大以及距離遠等問題。因此,亟需建立1 個檢測精確度更高、效率更快的模型。
人群密度估計是視頻監(jiān)控的重要信息之一,是軌道交通視頻智能化的核心需求[3]?;谝曨l的人群密度估計方法主要分為以下5 類:基于視頻幀的圖像處理方法、基于檢測的方法[4]、基于回歸的方法、基于密度圖的方法和基于卷積神經網絡的方法[5]。
基于視頻幀的人群密度估計方法使用一系列視頻幀作為背景,相減提取前景人像所占據的空間,利用邊緣提取檢測人像的邊緣長度,用該特征進行密度估計,該方法的局限是無法估計靜態(tài)圖片中的人群密度(并且在擁擠情況下估計精度較差)[6]?;跈z測的人群密度估計最早是采用滑動窗口檢測,通過預先定義的網格窗口遍歷整張圖像,以檢測相應的目標,然后增加窗口,以獲得大小不同的目標,通過傳統圖像處理方法來判斷滑動窗口是否包括目標。這種檢測方法的缺點是計算量很大,而且由于遮擋和空間變化的影響,因此無法計算密集人群,預測的準確性較差,難以滿足軌道交通這類可能出現極密人群的復雜場景的需求,缺乏魯棒性。
估計人口密度的主要思想是研究人口的特征映射。首先,提取透視、邊緣特征、紋理和梯度等較低的場景特征。其次,研究線性回歸或高斯過程等回歸模型,研究低特征與人數的關系?;貧w法雖然能在一定程度上解決遮蔽問題,但是該方法采用回歸技術,以使用全光譜圖像為特征,忽略了圖像的空間信息,人口密度根據一定區(qū)域內的人口數量來確定且計數過程中包括圖像的空間信息,便于教授如何顯示圖像的局部特征和相應的密度圖。通過具有特殊功能的過濾器獲取圖像特征,用雙向濾波提取圖像邊緣以及用形態(tài)學濾波進行形狀控制和紋理分析。傳統方法是輸入圖像的1 個色斑(patch),通常分為2 個步驟:特征的提取和回歸(或者分類),而基于 CNN 的方法則輸入是完整的圖片并對其進行 end-to-end 的訓練。無論是使用回歸還是密度圖,CNN 的方法都能取得較好的結果。最后,主干神經網絡采用堆疊沙漏網絡(Stacked Hourglass Networks),該方法的優(yōu)勢是2 個網絡各司其職,可以更好地提取特征。
軌道交通場景具有背景復雜、相互遮擋、人群密集以及相機清晰度低等特點,目標檢測和目標跟蹤算法的性能無法滿足相關要求,而基于卷積神經網絡的人群密度估計方法能夠從低清晰度的圖像中保持較高的精確度。該方法在計數的過程中加入了圖像的空間信息,從而學習圖像的局部特征和相應的密度圖之間的映射。
圖像預處理主要對圖像進行圖像降噪、尺度縮放和直方圖均衡化,對偏暗的場景可以采用逆向光線補償的方法進行處理;人群密度估計模型采用級聯神經網絡,即移動網絡(Mobilenet)與堆疊沙漏網絡(Stacked Hourglass Networks)。
基于紋理分析技術的人群密度估計方法可以解決基于像素特征人群密度估計方法不能解決的問題(人群密度較高時估計的精確性)。圖1 是基于紋理分析技術的人群密度估計的結構框架圖。其實現過程如下:首先,通過計算對輸入圖像的紋理進行統計分析。其次,提取紋理特征。最后,通過機器學習對這些特征進行分類,得到人群密度估計的結果。紋理分析方法通常分為4 類:統計的方法、基于結構的方法、基于頻譜的方法以及基于模型的方法。一般來說,統計分析紋理描述方法是最常用的紋理分析方法,也是紋理分析研究最多、最早的方法。
圖1 紋理分析人群密度估計
機器學習模型在訓練過程中,由于存在數據有噪聲、正樣本不足或者模型過度復雜等因素,因此會導致模型過擬合,具體表現為模型在訓練集上表現很好,但是在驗證集上的測試精度反而下降。其中,可以通過數據預處理技術優(yōu)化數據有噪聲(即數據質量差)的問題;可以使用正則化和丟棄(Dropout)優(yōu)化模型過度復雜的問題,在卷積神經網絡模型中常采用的正則化技術包括L1正則化、L2正則化。
1.2.1 正則化技術
機器學習的過程是通過修改參數來減小誤差的過程,可是誤差越小,非線性越強的參數變化越大,如果使用非線性強的參數就能使方程更加曲折, 也能更好地擬合那些分布的樣本數據。因此,需要修正非線性強的參數,從而更好地刻畫模型的整體性能。在正樣本數量較少的情況下,通常采用正則化技術將有監(jiān)督學習轉變?yōu)閮?yōu)化問題。現階段,深度學習常用的正則化技術包括L1正則化、L2正則化以及Dropout 操作等。
1.2.2 數據增廣技術
針對數據中正樣本少的情況,可以通過擴增正樣本數據集來優(yōu)化模型過擬合的問題。目前,常用的方法為圖像仿射變換、圖像裁剪以及類別平衡等。
神經網絡相鄰層所有神經元之間都有連接,稱為全連接(Fully-connected)。而卷積神經網絡(Convolutional Neural Network,CNN)對全連接網絡的局限進行修正,加入了卷積層(Convolution 層)和池化層(Pooling 層)。
表1 人群密度檢測結果
采用Mobilenet(1 種小巧而高效的卷積神經網絡模型)作為前端網絡,由于該前端網絡主要負責利用注意力機制提取前景信息而忽略了背景信息,因此,該模型需要優(yōu)先保證速度。
后端網絡采用堆疊沙漏網絡(Stacked Hourglass Networks)作為網絡主架構,其網絡結構由高分辨率下采樣至低分辨率,再由低分辨率上采樣至高分辨率,整個網絡呈現沙漏形狀,并且在網絡中加入變形卷積來對圖像的變化進行建模。該網絡在淺層和深層的特征之間有連接通道,可以很好地融合多個尺度特征信息,以應對大小不同的目標。
由于人群具有明顯的運動特征,而背景往往不會在短時間內突變。因此,在后端網絡中加入光流追蹤技術做為輔助。從物理意義的角度來看,光流描述了視頻中物體、對象在時間維度上的關聯性,從而建立了視頻中連續(xù)圖像之間的關聯關系。它是基于亮度恒定假設、時間持續(xù)性假設以及一般物體和人的移動在光流的表現上有所不同,因此,采用光流可以輔助預測2 幀圖像之間發(fā)生移動的是否為人群。
軌道交通車站(大規(guī)模公共空間)往往具有復雜的背景信息,為了盡可能排除無效區(qū)域對算法結果造成的影響,需要采用注意力機制提取前景信息而忽略背景信息的方法。該文按照注意力關注的域劃分通道域(Channel Domain),從特征通道之間的關系入手,需要明確地建模特征通道之間的相互依賴關系。
該注意力機制分成3 個部分,擠壓(Squeeze),激勵(Excitation)以及范圍(Attention)。執(zhí)行流程如下:首先,對輸入特征進行全局平均池化(Global AVE Pooling),得到 1×1×頻道。其次,經過全連接操作,先壓縮頻道數,再重構原來的頻道數。再次,經過Sigmoid 激活函數生成頻道為0~1 的注意力權重(Attention Weights)。最后,對應通道相乘輸出特征。
在地鐵站臺(大范圍場景)應用人群密度算法時,還面臨畫面中人的尺度變化范圍非常大的問題,采用可變性卷積的方法來適應不同的感受野尺寸??勺冃尉矸e是指卷積核在每個元素上額外增加了1 個方向參數,使卷積核的形態(tài)更貼近特征物??勺冃尉矸e的學習過程的偏差是通過1 個卷積層獲得的,該卷積層的卷積核與普通卷積核一樣,輸出的偏差尺寸和輸入的特征圖尺寸一致,生成通道維度為2N,分別對應原始輸出特征和偏移特征。采用雙線性插值反向傳播算法同時學習2 個卷積核。
在預測場景中每個人的位置時,傳統方案是采用全連接直接回歸坐標點的方法,雖然該方法的訓練和前向速度較快,但是對訓練數據的依賴程度較高,非常容易出現過擬合的現象。
該文采用預測高斯熱圖的方式,用argmax 找出峰值對應的索引,即坐標點,這種方法的精度更高,原因是其輸出特征圖較大且空間泛化能力較強。在人群非常擁擠的低分辨率場景下,很難分辨每個人的位置,使用熱圖來表示人員分布的方式更加合理。
混合高斯背景模型就是將背景圖像中每個像素都定義K個高斯模型來表示該像素點在某段時間內不同的狀態(tài)。假設Xt為某像素點在時刻t的顏色值,則其概率密度函數如公式(1)所示。
通過Vibe 算法和形態(tài)學處理前景圖像,可以很好地對不同密度等級的人群進行密度估計,采用該方法的平均識別準確率在97%以上,可以滿足正常視頻監(jiān)控對密度檢測的需要,但是在識別速讀上,還有進一步提升的空間。
采用軌道交通站臺監(jiān)控畫面采集的圖像測試算法除了可以給出畫面內的人總數外,還可以把人員分布的熱力情況展示在圖上,可以對畫面近處和遠處人的位置有比較合理的估計。
在這種情況下,人口密度可以分為低(0~15 人)、中低(15~30 人)、中(30~45 人)、高(45~60 人)和非常高的(60 人)。測試數據取自PETS2009 數據集,使用該數據集對5 個密度等級的SVM 參數進行訓練,然后選擇5 組測試參數,以獲得最終結果。
表2 基于該文所寫方法得到的人群密度檢測結果
以軌道交通站臺場景為例,利用人群密度估計算法可以得到多方面的數據。首先,可以用監(jiān)視畫面范圍內的總人數除以該畫面的實際面積,從而得到人群密度值。其次,根據預先設定的閾值進行擁擠度分檔,例如劃分為空曠、稀疏、正常、擁擠以及極度擁擠,更加直觀地展示站臺當前的擁擠程度。最后,算法估計出人群的分布情況,可以統計不同劃分區(qū)域內的人群密度值,分別統計站臺上每個車門前的人群密度值可以體現整個站臺上的客流分布情況。
綜合全站所有監(jiān)控相機分析的人群密度結果可以得到車站整體全景人群密度分布,可以直觀地看到站內人員分布情況以及人員密度的實時變化情況??梢栽O定每個區(qū)域的人群密度閾值,當局部或者整體人群密度超過閾值時自動報警。
我國各城市的軌道交通正處于快速建設發(fā)展的時期,基于保障公共安全和提升乘客體驗的需求,亟需智能化的視頻監(jiān)控分析系統來輔助車站的安全運營和客流疏導,為管理者提供可靠的數據支持。以人群密度自動監(jiān)測和預警為代表的視頻圖像智能分析算法對構建新一代智慧軌道交通具有重要意義。