蔡烜 蔣龍泉 馮瑞
摘 要: 針對廣場等區(qū)域人流量大、安保要求高的特點,設(shè)計并實現(xiàn)了一套基于音視頻識別的區(qū)域安防管控平臺。該平臺從區(qū)域安防的需求出發(fā),設(shè)計了嫌疑人員報警、人群擁擠報警和異常聲音報警三大功能,以人臉識別、人群密度估計、異常聲音識別三個音視頻識別算法作為支撐,實現(xiàn)對區(qū)域內(nèi)與人相關(guān)的異常事件的預(yù)警。首先介紹了基于深度神經(jīng)網(wǎng)絡(luò)的人臉識別算法,然后介紹了一種引入注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn)的人群密度估計算法,和一種基于多卷積神經(jīng)網(wǎng)絡(luò)模型融合的異常聲音識別算法;最后介紹了平臺需求與設(shè)計過程,主要包括平臺建設(shè)的需求分析和界面設(shè)計。
關(guān)鍵詞: 視頻分析;音頻分類;深度學(xué)習(xí);人臉識別;人群密度估計;異常聲音識別;區(qū)域安防管控;
中圖分類號: TP311
文獻(xiàn)標(biāo)志碼: A
文章編號:1007-757X(2019)06-0017-04
Abstract: We design and complete a regional security control platform based on audio and video recognition in order to protect people in the area from dangerous situation. The platform is designed three functions: suspect alarm, crowd crowding alarm and abnormal voice alarm. It uses face recognition, crowd density estimation and abnormal voice recognition as the support to realize the early warning of abnormal events in the region. Firstly, it introduces the face recognition algorithm based on deep neural network, then a convolutional neural network model with attention mechanism is introduced to realize the population density estimation algorithm. Finally, it introduces an abnormal voice recognition algorithm based on multi-convolutional neural network model fusion. At last it introduces the platform requirements and design process, including the platform construction requirement analysis and interface design.
Key words: Video analysis; Audio classification; Deep learning; Crowd density estimation; Abnormal voice recognition; Regional security management
0?引言
近年來,我國經(jīng)濟保持高速發(fā)展,城鎮(zhèn)化率不斷提高,城鎮(zhèn)人口增多,廣場、景區(qū)、高鐵站等人流量大的區(qū)域成為城市安全的重點管控區(qū)域,這些區(qū)域人員流動性大,人員身份難確認(rèn),存在各種安全隱患和威脅,現(xiàn)有傳統(tǒng)視頻監(jiān)控手段還比較落后,監(jiān)控中心無法實現(xiàn)實時視頻全覆蓋,單純依靠人力無法及時發(fā)現(xiàn)區(qū)域內(nèi)的風(fēng)險和隱患,只能通過視頻回放進(jìn)行事后追查已經(jīng)不符合新時期安防工作的需要。
與此同時,科技領(lǐng)域中音視頻識別技術(shù)不斷提升,如人臉識別技術(shù)、音頻識別技術(shù)等,這些技術(shù)已逐步在各行各業(yè)中開始應(yīng)用,在推動科技進(jìn)步和經(jīng)濟發(fā)展同時,為安防管控新增了強有力的技術(shù)手段,區(qū)域安防管控平臺也可以利用這些新技術(shù)手段提升管理水平。隨著大數(shù)據(jù)、人工智能等技術(shù)的推廣應(yīng)用,安防管控平臺的構(gòu)建采用智能音視頻分析手段已經(jīng)成為一個必然趨勢。
1?平臺框架
平臺架構(gòu)一共分為三層,由下至上分別為算法層、應(yīng)用層和平臺層,如圖1所示。
分層架構(gòu)的優(yōu)勢是使各層之間相互獨立,通過統(tǒng)一的接口進(jìn)行通信,每層內(nèi)部各個部分按功能模塊相互獨立,使其具有良好的可擴展性。
算法層由人臉識別算法、人群密度估計算法和異常聲音識別算法構(gòu)成;人臉識別算法和人群密度估計算法的輸入為視頻或圖像,異常聲音識別算法的輸入為音頻;人臉識別算法的輸出為視頻圖像中的人臉與人臉庫中的人臉的相似程度,人群密度估計算法的輸出是單位面積下人的數(shù)量,異常聲音識別的輸出是音頻段落中是否包括某個種類的音頻;各算法相互獨立,可擴展性強。
應(yīng)用層通過與算法層的數(shù)據(jù)通信,獲得算法的計算結(jié)果,并結(jié)合實際應(yīng)用的業(yè)務(wù)邏輯,生成相應(yīng)的結(jié)果和數(shù)據(jù);其中嫌疑人員報警模塊生成是否發(fā)現(xiàn)嫌疑人和發(fā)現(xiàn)哪位嫌疑人的信息,人群擁擠報警模塊生成某區(qū)域人群密度數(shù)據(jù)以及是否超過警戒值的信息,異常聲音報警模塊則是生成音頻中是否包含爆炸、尖叫等異常聲音的信息;應(yīng)用層將這些報警信息上報給平臺層。
平臺層主要完成人機交互、數(shù)據(jù)可視化和調(diào)度指揮的功能,將應(yīng)用層上報的報警信息進(jìn)行直觀展示,并結(jié)合聲光電的方式進(jìn)行更明顯的提示。平臺及時響應(yīng),調(diào)用人力采用應(yīng)急措施,將風(fēng)險和威脅扼殺在萌芽階段。
2?人臉識別
人臉識別屬于生物特征識別的一種,主要用于人身份的識別;相比于指紋識別和虹膜識別,它具有易獲得性,可以在被識別人無感的情況下進(jìn)行識別,對于區(qū)域安防管控工作的開展具有明顯的優(yōu)勢;計算機通過人臉識別算法對人臉圖像進(jìn)行特征提取,然后將兩張或多張人臉的特征進(jìn)行比對,判斷該人臉是否與人臉庫中的某個人臉相似,最終確認(rèn)人員的身份。
2.1?算法步驟
算法流程圖如下如圖2所示。
首先需要采集大量人臉的樣本圖像用于訓(xùn)練人臉特征,采集時要求按每個人進(jìn)行分類歸納,每個人需要采集不同時期、不同角度、不同光照環(huán)境等情況下的多張照片,保證樣本的數(shù)量和多樣性,是訓(xùn)練一個優(yōu)秀的分類識別模型的基本保障;然后對人臉進(jìn)行特征提?。喊ㄈ帧⑷搜?、鼻、嘴等多個特征點,然后得到訓(xùn)練樣本的特征集合;最后使用樣本圖像的特征集合訓(xùn)練人臉識別的分類器。
識別比對時,算法將提取待識別的人臉圖像的特征,獲取到人臉圖像的特征向量后,使用離線學(xué)習(xí)訓(xùn)練好的分類器進(jìn)行特征比對,并將比對結(jié)果進(jìn)行輸出,從而得到人臉識別的結(jié)果。
2.2?算法結(jié)果
基于深度學(xué)習(xí)的人臉識別算法在效果上有兩方面提升,一方面,算法不再采用傳統(tǒng)已知人臉特征,由深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練抽象特征,深度學(xué)習(xí)得到的特征表達(dá)具有人工設(shè)計特征表達(dá)不具備的重要特性;另一方面,深度學(xué)習(xí)網(wǎng)絡(luò)中卷積層中濾波器的分辨率更小,使網(wǎng)絡(luò)能夠具備更精細(xì)的細(xì)節(jié)特征刻畫能力。基于以上兩點,使用基于深度學(xué)習(xí)的人臉識別算法在室外自然光線條件下具有更好的效果,更好的應(yīng)用于區(qū)域安防管控平臺。
3?人群密度估計
人群密度估計的主要任務(wù)是:人群場景的視頻中的圖像幀或拍攝的圖片,計算單位面積內(nèi)人群的密度,再將單位面積人群密度累加,得到整體場景的人群密度,連續(xù)的視頻幀的人群密度即反映場景中的人群密度變化。
本文采用一種引入注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型,用以實現(xiàn)結(jié)構(gòu)簡單、訓(xùn)練消耗少的人群密度方法。
3.1?算法流程
算法流程如圖3所示。
a.將圖像進(jìn)行預(yù)處理獲得預(yù)處理圖像;預(yù)處理的操作包括圖像分割及將分割的圖像進(jìn)行正則化;
b.構(gòu)建基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型;
c.將多張已標(biāo)注人群密度的圖像組成訓(xùn)練集,將數(shù)據(jù)集輸入步驟b中搭建的基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行模型訓(xùn)練;
d.將待計算人群密度的圖像輸入步驟c中訓(xùn)練的基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型,計算得到該圖像中的人群密度結(jié)果并進(jìn)行輸出。
3.2?算法結(jié)果
本文采用的通過引入注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)的人群密度估計算法,該模型的注意力機制可以使模型更好的定位到人群和識別人群的密度,因此,此模型能夠?qū)W習(xí)到更多的特征,更好地進(jìn)行特征表達(dá),也更加適合高密度人群的人群密度估計任務(wù),在高密度人群中的平均誤差率只有10%左右;此外,該模型結(jié)構(gòu)簡單,不需要使用模型混合、多任務(wù)訓(xùn)練以及度量學(xué)習(xí)等方法,也提高了模型訓(xùn)練的效率。
4?異常聲音識別
異常聲音識別本質(zhì)上是音頻分類;隨著近幾年深度學(xué)習(xí)的發(fā)展和硬件性能的高速提升,音頻分類作為計算機聽覺領(lǐng)域一項基礎(chǔ)的任務(wù),其精度也得到了大幅提升。
視頻圖像一般受圖像質(zhì)量、光線等因素的影響,而聲音是全向傳播的,受影響的因素較小,所以異常聲音識別能為安防工作提供聽覺維度的異常預(yù)警。本文采用一種基于多卷積神經(jīng)網(wǎng)絡(luò)模型融合的異常聲音識別方法,實現(xiàn)針對槍聲、爆炸聲、尖叫聲三類異常聲音的檢測和分類。
4.1?算法流程
算法流程如如圖4所示。
a.讀入音頻文件并進(jìn)行分段處理,本文分為每2秒一段;
b.搭建多個深度卷積神經(jīng)網(wǎng)絡(luò),包括但不限于如:ResNet-101、VGG16,Resnext;
c.將步驟a中完成分段的音頻進(jìn)行預(yù)處理,然后通過步驟b中的多個深度卷積神經(jīng)網(wǎng)絡(luò)分別提取音頻特征;
d.把提取的訓(xùn)練集的音頻段落的特征輸入到步驟b中的多個卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型訓(xùn)練;
e.根據(jù)驗證集使用不同網(wǎng)絡(luò)模型進(jìn)行識別的準(zhǔn)確率,設(shè)定該模型的權(quán)值;
f.將需要識別的音頻同樣進(jìn)行預(yù)處理然后輸入步驟d中訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)模型,綜合步驟e各模型的權(quán)值計算,得到多模型聯(lián)合預(yù)測的類別結(jié)果。
4.2?算法結(jié)果
在國際通用音頻數(shù)據(jù)集UrbanSound、FreeSound中整理了包括槍聲、爆炸聲、尖叫聲、啼哭聲和玻璃破碎聲共5類音頻數(shù)據(jù),采用上述的基于多卷積神經(jīng)網(wǎng)絡(luò)模型融合的異常聲音識別方法進(jìn)行識別。
從表1的算法效果可以看出,相較于傳統(tǒng)的計算機聽覺方法,本文采用的基于多卷積神經(jīng)網(wǎng)絡(luò)模型融合的異常聲音識別方法大幅提升了音頻分類的準(zhǔn)確率,使區(qū)域安防管控平臺的異常聲音報警模塊有了良好的準(zhǔn)確率保證。
5?平臺設(shè)計
從第1章中的平臺架構(gòu)圖中可以看出,平臺需要完成的主要任務(wù)是:人機交互、數(shù)據(jù)可視化和調(diào)度指揮。音視頻識別算法將前端監(jiān)控系統(tǒng)獲取的音視頻數(shù)據(jù)識別分析生成相應(yīng)音視頻文件的人員身份、人群密度或異常聲音的結(jié)果,通過功能層編輯整理為實際業(yè)務(wù)數(shù)據(jù),傳輸至平臺進(jìn)行直觀呈現(xiàn)和交互。
5.1?需求分析
需求用例圖如圖5所示,需求點如下:
a.監(jiān)控中心的值班人員通過平臺能實時獲取到報警信息;
b.報警信息呈現(xiàn)需準(zhǔn)確顯示報警出現(xiàn)的地理位置信息;
c.報警信息呈現(xiàn)需顯示現(xiàn)場的視頻圖像或音頻數(shù)據(jù);
d.管理人員通過平臺能進(jìn)行嫌疑人員人臉數(shù)據(jù)的管理;
e.平臺支持報警記錄的查詢。
5.2?界面設(shè)計
界面設(shè)計如圖6所示。
其中報警信息的呈現(xiàn)采用彈窗和列表的方式進(jìn)行信息提示,界面的中心部分是管控區(qū)域的GIS地圖,地圖中的彈窗位置對應(yīng)報警信息的地理位置信息,報警信息彈窗中顯示報警現(xiàn)場的視頻圖像或音頻數(shù)據(jù),報警記錄查詢的結(jié)果頁通過列表顯示,管理人員通過將嫌疑人員的人臉圖像在平臺中進(jìn)行注冊和刪除來實現(xiàn)嫌疑人員管理;此外,平臺還應(yīng)該提供方便的接口實現(xiàn)應(yīng)急響應(yīng),如平臺與前端警務(wù)設(shè)備通過接口進(jìn)行數(shù)據(jù)傳輸。
6?總結(jié)
文章通過人臉識別、人群密度估計和異常聲音識別三個音視頻識別算法的實現(xiàn)和應(yīng)用,構(gòu)建基于音視頻識別的區(qū)域安防管控平臺的應(yīng)用功能模塊,主要解決實際安防工作中監(jiān)控手段單一、科技應(yīng)用匱乏以及缺乏事前預(yù)警等問題;并對平臺部分進(jìn)行了需求分析和界面設(shè)計,平臺具有良好的人機交互效果,并將算法結(jié)果進(jìn)行數(shù)據(jù)可視化,讓監(jiān)控中心更好的進(jìn)行調(diào)度指揮。但實際安防工作中業(yè)務(wù)更多、場景更復(fù)雜,安防管控平臺需接入更多的功能模塊,本文的設(shè)計范圍和考慮因素還比較窄,實際工作中的設(shè)計和實現(xiàn)需要具有更高的集成度和統(tǒng)一調(diào)度指揮的業(yè)務(wù)邏輯。
參考文獻(xiàn)
[1]?鄒國鋒,傅桂霞,李海濤等. 多姿態(tài)人臉識別綜述[J].模式識別與人工智能,2015,28(7):613-625.
[2]?丁蓮靜,劉光帥,李旭瑞,等. 加權(quán)信息熵與增強局部二值模式結(jié)合的人臉識別[J].計算機應(yīng)用,2019(4):1-8.
[3]?Arun Kumar Dubey,Vanita Jain.A review of face recognition methods using deep learning network[J].Journal of Information and Optimization Sciences,2019,40(2):547-558.
[4]?Sugiura, Motoaki,Miyauchi, Carlos Makoto,Kotozaki, Yuka, et al.Neural Mechanism for Mirrored Self-face Recognition[J].Cerebral cortex,2015,25(9):2806-2814.
[5]?Hao-xiang Zhang,Peng An,De-xin Zhang.Application of robust face recognition in video surveillance systems[J].Optoelectronics letters,2018,14(2):152-155.
[6]?Youmei Zhang, Chunluan Zhou, Faliang Chang, Alex C. Kot. Multi-resolution attention convolutional neural network for crowd counting[J]. Neurocomputing,2019, Volume 329:144-152.
[7]?Luo H, Sang J, Wu W, et al. A High-Density Crowd Counting Method Based on Convolutional Feature Fusion[J]. Applied Sciences, 2018, 8(12):2367.
[11]?Gunduz A E,Temozel T T,Temizel A.Density estimation in crowd videos[C].//2014 22nd Signal Processing and Communications Applications Conference: 2014 22nd Signal Processing and Communications Applications Conference (SIU2014), 23 – 25 April 2014, Trabzon, Turkey.2014:822-825.
[12]?曹金夢,倪蓉蓉,楊彪.基于多尺度多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的人群計數(shù)[J].計算機應(yīng)用,2019,39(1):199-204.
[13]?Brian M F, Justin S, Pablo B J. Adaptive Pooling Operators for Weakly Labeled Sound Event Detection[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11):2180-2193.
[14]?王開武. 基于深度神經(jīng)網(wǎng)絡(luò)的異常聲音事件檢測[D].重慶:重慶大學(xué),2018.
[15]?吳曉東.智能視頻監(jiān)控技術(shù)在智慧城市中的深入應(yīng)用[J].設(shè)備管理與維修,2019(6):150-152.
[16]?董煒.智能視頻分析技術(shù)在智慧安防中的應(yīng)用與展望[J].電子技術(shù)與軟件工程,2019(7):251-252.
[17]?任龍剛,王偉,劉峰,等.基于平安校園建設(shè)的高校安全管理體系構(gòu)建——以西安歐亞學(xué)院為例[J].安全,2019,40(3):68-71.
[18]?黃凱奇,陳曉棠,康運鋒,等.智能視頻監(jiān)控技術(shù)綜述[J].計算機學(xué)報,2015,38(6):1093-1118.
(收稿日期: 2019.05.01)