劉 信
(中鐵上海設(shè)計院集團有限公司, 200070, 上海市∥高級工程師)
隨著我國經(jīng)濟的快速發(fā)展,軌道交通建設(shè)項目與日俱增,針對高鐵站的監(jiān)視與控制管理的研究已成為軌道交通安全的重要課題[1]。目前,高鐵車站的安全運營問題愈發(fā)突出[2],如鐵軌異物、旅客逆行等事件,若能及時采取措施,則可有效預(yù)防事故的發(fā)生。在日常工作中,由于高鐵站內(nèi)監(jiān)控繁多,監(jiān)控人員需長時間監(jiān)視各路畫面的視頻[3],極易產(chǎn)生視覺疲勞,無法實現(xiàn)大面積區(qū)域的連續(xù)觀測,監(jiān)控效率低下;在警報發(fā)生時,監(jiān)控人員無法實時關(guān)聯(lián)警報和相關(guān)監(jiān)控視頻進行事態(tài)評估[4]。因此,在信息技術(shù)[5]快速發(fā)展的今天,“智能化、高效率、人機友好性”是對高鐵車站安防監(jiān)控的新要求[6],也是實現(xiàn)減少人力資源消耗的新途徑。
高鐵車站傳統(tǒng)視頻監(jiān)控系統(tǒng)受各種主、客觀因素的制約,不能完全滿足重要場合安全管理的實戰(zhàn)需要[7]。傳統(tǒng)視頻監(jiān)控系統(tǒng)的弊端主要有:
1) 盲點不易察覺。在傳統(tǒng)視頻監(jiān)控系統(tǒng)模式下,雖攝像設(shè)備數(shù)量較多,但資源配置不合理,極易出現(xiàn)監(jiān)控盲區(qū)。
2) 海量數(shù)據(jù)零散且難以對應(yīng)。傳統(tǒng)視頻監(jiān)控系統(tǒng)顯示的視頻畫面過多,長此以往,監(jiān)控人員會感到身心俱疲,既看不過來,也不愛看,從而加劇其抵觸心理,使該監(jiān)控視頻淪為事后追責的工具。
3) 無法全局實時監(jiān)控。監(jiān)控中心受顯示屏幕數(shù)量的制約,需要輪流切換多個分鏡頭畫面。傳統(tǒng)監(jiān)控系統(tǒng)僅刻板地顯示監(jiān)控畫面,缺乏位置感和方向感,整體布局難以體現(xiàn)。攝像機輪詢模式與實際應(yīng)用場景的空間位置相對獨立,出現(xiàn)突發(fā)狀況時,無法使各類攝像機聯(lián)動,需人工干預(yù),這極大地制約了應(yīng)急處置效率。
4) 用戶體驗較差。傳統(tǒng)視頻監(jiān)控系統(tǒng)忽視監(jiān)控人員的用戶體驗,導致工作效率低,追責時易出現(xiàn)責任推諉等問題。
1) 視頻三維場景融合。傳統(tǒng)視頻的二維畫面展示無法給予足夠的空間感,使得用戶時刻處于時空斷裂之中。視頻融合智能監(jiān)控系統(tǒng)將某一場景的幀序列視頻通過建模、特征拼接等方式與三維場景有效融合,生成一體化的VR(虛擬現(xiàn)實)世界,大幅度地增加了視頻畫面的互動性和虛擬模型的信息承載量。
2) 三維實景監(jiān)控。將監(jiān)控視頻通過視頻融合的方式與三維場景進行組合,可有效提升用戶對于監(jiān)控視頻關(guān)聯(lián)性的理解,對監(jiān)控場景整體事態(tài)的監(jiān)管和決策具有重大意義。
3) 統(tǒng)一歷史時間線。視頻融合智能監(jiān)控系統(tǒng)支持NVR(網(wǎng)絡(luò)視頻錄像機)的歷史視頻流訪問,為所有監(jiān)控視頻流建立統(tǒng)一時間線,讓用戶可方便地切換到某歷史時刻,所有的視頻流可同步到該時刻同時播放,并可隨時進行暫停和繼續(xù),簡化了現(xiàn)有歷史視頻檢索方法。
4) 多源信息融合。用戶可根據(jù)需要自行設(shè)置POI(信息點)說明,以圖標或圖片的方式植入到虛擬場景中,配置網(wǎng)頁鏈接,設(shè)置熱區(qū)、熱鏈。這樣用戶不僅能從三維世界直接獲取數(shù)據(jù),還可集成添加各類傳感器(如溫度、濕度、煙霧傳感器),并標識出傳感器所在位置,在虛擬現(xiàn)實世界中實時顯示動態(tài)傳感信息。
高鐵車站視頻融合智能監(jiān)控系統(tǒng)(見圖1)主要由用戶層、表現(xiàn)層、應(yīng)用層、服務(wù)層、數(shù)據(jù)層及基礎(chǔ)設(shè)施層等6部分組成。
1) 用戶層:是指使用該視頻融合智能監(jiān)控系統(tǒng)的各類用戶,主要包括指揮中心監(jiān)控值班人員、指揮人員、管理人員和上級管理部門的相關(guān)人員,可通過網(wǎng)絡(luò)在中間層進行通信,從而完成所需工作。
2) 表現(xiàn)層:可為視頻融合智能監(jiān)控系統(tǒng)提供圖形工作站供監(jiān)控人員日常執(zhí)勤使用,同時將視頻推送至移動端以供領(lǐng)導調(diào)閱,也可將系統(tǒng)投影到監(jiān)控大屏;監(jiān)管人員對系統(tǒng)的操作和觀看等人機交互行為都在圖形工作站完成。該工作站放置在指揮中心,可投放于大屏幕顯示,也可用電腦顯示器觀看,還可根據(jù)不同業(yè)務(wù)需求構(gòu)建三維模型。
3) 應(yīng)用層:是終端用戶與虛擬現(xiàn)實視頻融合監(jiān)控平臺進行互動的唯一接口。該層具有為用戶提供業(yè)務(wù)運行的基礎(chǔ)環(huán)境、視頻處理的基礎(chǔ)應(yīng)用,以及基于視頻圖像的智能應(yīng)用等一系列功能,并提供二次開發(fā)接口,滿足其他系統(tǒng)數(shù)據(jù)共享需求。其主要包括視頻融合監(jiān)控、智能視頻分析和多源信息融合等應(yīng)用軟件模塊。
4) 服務(wù)層:提供各類基礎(chǔ)服務(wù),包括視頻分析、圖像分析、數(shù)據(jù)分析、視頻流媒體和警報等服務(wù)。視頻分析基礎(chǔ)服務(wù)是通過較高精度的行人識別算法,對接入系統(tǒng)的多路視頻進行定時抓怕、圖形分析等操作?;跈C器學習,提取輸入圖像前景以獲取邊緣特征、前景特征、HOG(方向梯度直方圖)特征等;對獲取到的特征做透視變換,增大距離較遠的圖像像素特征的權(quán)值,實現(xiàn)不同的報警分析。
5) 數(shù)據(jù)層:能提供系統(tǒng)所需的各類數(shù)據(jù),其包括空間數(shù)據(jù)、三維模型數(shù)據(jù)、系統(tǒng)配置數(shù)據(jù)、視頻圖片數(shù)據(jù)和系統(tǒng)管理數(shù)據(jù)等。
6) 基礎(chǔ)設(shè)施層:可最大化地利用監(jiān)管人員重點防控區(qū)域已有的設(shè)備資源。其主要包括網(wǎng)絡(luò)基礎(chǔ)設(shè)施、監(jiān)控指揮中心大屏、NVR(網(wǎng)絡(luò)硬盤錄像機)/DVR(硬盤錄像機)、存儲和服務(wù)器等。視頻支持??低?、大華等主流品牌的NVR平臺接入。對目前尚未支持的設(shè)備,只要提供平臺或設(shè)備的SDK(軟件開發(fā)工具包)通信協(xié)議即可進行二次開發(fā)接入。
注:Web為全球廣域網(wǎng),也稱為萬維網(wǎng)。圖1 高鐵車站視頻融合智能監(jiān)控系統(tǒng)整體架構(gòu)圖
高鐵車站視頻融合智能監(jiān)控系統(tǒng)建設(shè)了虛擬顯示視頻融合監(jiān)控平臺,可將多個分鏡頭的畫面進行融合[8]。利用智慧自動巡邏機制,實現(xiàn)基于時空位置的智能精準定位和時空動態(tài)分析,從而提升視頻分析及人工智能的應(yīng)用價值。
1個平臺系指虛擬現(xiàn)實視頻融合監(jiān)控平臺。利用三維全景視頻融合技術(shù),在前端視頻監(jiān)控點布設(shè)的基礎(chǔ)上,直觀地將高鐵車站安全行政執(zhí)法相關(guān)部門以及周邊場景中處在不同位置、不同視角的分鏡頭監(jiān)控圖像實時、智能地融合到已構(gòu)建好的三維模型中。
1種機制系指基于重點區(qū)域的智慧自動巡邏機制。作為視頻管理的核心區(qū)域,對人流量大、站內(nèi)環(huán)境復(fù)雜的重點區(qū)域,制定合理的虛擬現(xiàn)實視頻融合空中自動巡邏路線。在高鐵車站安全行政執(zhí)法相關(guān)部門的三維全景視頻系統(tǒng)中,按照制定的空中自動巡邏路徑,為監(jiān)控指揮人員帶來直觀的視頻監(jiān)控畫面,從而形成一套體系完整的設(shè)備自動巡檢機制。
7項功能系指高鐵車站視頻融合智能監(jiān)控系統(tǒng)滿足用戶需求的7項主要功能(見圖2)。即虛擬現(xiàn)實視頻融合顯示、智慧自動巡邏、三維全景歷史視頻統(tǒng)一回放、三維中球機關(guān)聯(lián)顯示、三維測量與規(guī)劃預(yù)演、警報聯(lián)動掛屏顯示和三維全景視頻智能分析。
圖2 高鐵車站視頻融合智能監(jiān)控系統(tǒng)的7項主要功能圖
目前,很多高鐵車站的現(xiàn)實場景中都安裝有監(jiān)控安防系統(tǒng),但大多數(shù)場所的監(jiān)控系統(tǒng)只具有原始的功能。車站視頻融合智能監(jiān)控系統(tǒng)由大量的監(jiān)控攝像頭接入,并需要人工進行觀察和檢測異常,這導致了人力資源浪費,以及不能及時發(fā)現(xiàn)與處理異常情況。
隨著計算機深度學習技術(shù)的不斷發(fā)展,深度神經(jīng)網(wǎng)絡(luò)已滲透到各個領(lǐng)域,特別是在多媒體數(shù)據(jù)的分類與目標識別上取得了巨大的成就。卷積神經(jīng)網(wǎng)絡(luò)[9]模型對數(shù)據(jù)的紋理特征有著較好的提取能力,且無需太多的人工干預(yù),故其取代了絕大多數(shù)的傳統(tǒng)識別算法。
針對現(xiàn)有的問題,本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的智能監(jiān)控系統(tǒng),旨在進一步提高目標識別的速度、數(shù)據(jù)處理的智能化與高效化,以及減少一定的人力資源消耗。高鐵車站視頻融合智能監(jiān)控系統(tǒng)的工作流程如圖3所示。該系統(tǒng)能夠?qū)σ曨l流進行實時分析處理,且保留異常報警分析結(jié)果,并將異常報警日志存入相應(yīng)的數(shù)據(jù)庫中。
圖3 高鐵車站視頻融合智能監(jiān)控系統(tǒng)的工作流程圖
圖3中,如何利用深度神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)進行精確的特征提取與分析,是該研究內(nèi)容的重點與難點。本文主要使用了卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)視頻數(shù)據(jù)中目標物體的監(jiān)督,且對異常情況進行預(yù)測與分析。因此,可將該問題歸納為特征提取和特征分類2類,即如何提高特征的表達能力和分類器的準確度和速度。因此,對視頻融合智能監(jiān)控系統(tǒng)的現(xiàn)實需求和神經(jīng)網(wǎng)絡(luò)進行了綜合研究。基于深度神經(jīng)網(wǎng)絡(luò)的目標檢測算法如圖4所示。
圖4是針對解析過的監(jiān)控視頻流進行處理,并將處理好的數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)當中。該卷積神經(jīng)網(wǎng)絡(luò)是一個端到端的網(wǎng)絡(luò),其完成了輸入的圖像數(shù)據(jù)到目標物體位置的輸出,即該模型將目標物體預(yù)測和分類預(yù)測歸納到單個深度神經(jīng)網(wǎng)絡(luò)模型中,在保證目標檢測和識別高準確率的情況下,能極大地契合現(xiàn)實應(yīng)用場景。
圖4 基于層深度神經(jīng)網(wǎng)絡(luò)的目標檢測算法圖Fig.4 Graph of target detection algorithm based on deep neural network
該卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、采樣層和全連接層組成。卷積層是網(wǎng)絡(luò)的核心,其主要作用是產(chǎn)生網(wǎng)絡(luò)中大部分的計算量;采樣層主要作用是逐步降低數(shù)據(jù)量的空間尺寸,對數(shù)據(jù)量進行簡化,降低計算資源消耗;全連接層在網(wǎng)絡(luò)中充當分類的作用,將分布式特征映射到樣本標簽空間,可對模型的復(fù)雜度有著一定程度的保留。在該網(wǎng)絡(luò)中,主要用到的激活函數(shù)是雙曲正切函數(shù),其優(yōu)點是收斂速度較快,減少模型的迭代次數(shù)。
綜上所述,視頻融合智能監(jiān)控系統(tǒng)的詳細處理過程描述如下:
1) 從攝像頭或者所保存的視頻文件中獲取每秒的視頻流并進行解碼;
2) 將解析后的數(shù)據(jù)進行量綱一化和白化操作,即減去每幀圖像的像素平均值;
3) 將上述結(jié)果輸入卷積神經(jīng)網(wǎng)絡(luò),通過卷積神經(jīng)網(wǎng)絡(luò)采樣計算后輸出特征向量,該特征向量就是這一秒視頻提取出的用于對目標物體分類的特征;
4) 將該特征向量輸入到全連接層中,輸出預(yù)測結(jié)果;
5) 將真實的樣本標簽與預(yù)測結(jié)果進行比較,計算誤差。
基于深度學習的視頻融合智能監(jiān)控算法相較于傳統(tǒng)的算法而言,大大提升了數(shù)據(jù)的處理能力和識別準確率,減少人力資源消耗,更加適用于大型場景和多目標的應(yīng)用環(huán)境。
協(xié)作機器人是學術(shù)界和工業(yè)界的熱門研究內(nèi)容之一,并為不同的應(yīng)用領(lǐng)域提供關(guān)鍵技術(shù),其中最突出的是視頻融合智能監(jiān)控。針對大多數(shù)監(jiān)控系統(tǒng)而言,多個視頻流的監(jiān)控對操作員而言是一項繁重的任務(wù)。因此,基于協(xié)作機器人的視頻融合智能監(jiān)控系統(tǒng),可以監(jiān)控和分析多個視頻流。
基于協(xié)作機器人的視頻融合智能監(jiān)控系統(tǒng)主要通過使用智能攝像設(shè)備和視覺處理技術(shù)來提供有關(guān)特定環(huán)境或場景中不同活動的有用信息。該系統(tǒng)提供的信息可有助于行為分析、事件和活動分析和目標跟蹤,詳細描述如圖5所示。
注:算法處理單元嵌入了智能機器人攝像頭,以便執(zhí)行對象檢測和跟蹤,可在監(jiān)控應(yīng)用中協(xié)助操作員。
高鐵車站視頻融合智能監(jiān)控系統(tǒng)定位為全融合高新視頻解決方案,其通過將真實世界中的大量視頻實時融合到虛擬現(xiàn)實中,構(gòu)建實時反映真實世界動態(tài)變化的虛擬現(xiàn)實世界,帶給用戶更高清、更沉浸、更自由的視頻新體驗。該系統(tǒng)支持可視化指揮調(diào)度和管理,實現(xiàn)事前主動預(yù)防、事中快速掌控、事后高效復(fù)盤;實現(xiàn)快速瀏覽真實世界的演化狀態(tài)和歷史變化,統(tǒng)一按時間調(diào)度視頻歷史數(shù)據(jù),形成真正意義上高鐵車站的最佳運營、運維,從而構(gòu)建三維全景視頻融合監(jiān)控體系。