浦世亮
淺析視頻數(shù)據(jù)挖掘技術(shù)在監(jiān)控系統(tǒng)中的應(yīng)用
浦世亮
近年來,隨著視頻監(jiān)控系統(tǒng)的大量普及安裝,監(jiān)控系統(tǒng)所獲取并存儲的視頻數(shù)據(jù)容量正以驚人的速度增長。從理想角度看,這些視頻包含了現(xiàn)實世界中的大量信息,應(yīng)該為我們的管理及安保工作帶來巨大的價值。但是從現(xiàn)實角度看,依靠人工處理包含數(shù)以萬計的視頻數(shù)據(jù)集,并從中獲取信息,是非常困難、甚至是不可能的。也因此,監(jiān)控系統(tǒng)所獲取并存儲的絕大部分視頻數(shù)據(jù)成了存儲在硬盤中無人使用的數(shù)據(jù),使我們陷入了一個數(shù)據(jù)爆炸卻信息匱乏的困境。
視頻數(shù)據(jù)之所以無法成為我們能夠直接使用的信息,是因為兩者之間存在著“語義鴻溝”,即計算機(jī)所理解的低層次圖像特征與人類所理解的高層次語義信息之間的差異。舉例來說,人類在觀看一段監(jiān)控視頻時,可以迅速結(jié)合先驗知識判斷出視頻中奔跑的行人、交談的人群、甚至行人之間的相互關(guān)系及情緒等更加細(xì)節(jié)的信息,而計算機(jī)只能獲取圖像色塊、區(qū)域紋理或者運動方向等圖像特征。
數(shù)據(jù)挖掘技術(shù)正是一座架在“語義鴻溝”之上的橋梁,使我們能夠從無法直接理解的圖像特征信息中獲取到能夠應(yīng)用的語義信息。但是現(xiàn)階段視頻數(shù)據(jù)的挖掘在數(shù)據(jù)挖掘技術(shù)領(lǐng)域還是一個難題,與文本數(shù)據(jù)不同,視頻數(shù)據(jù)是非規(guī)則的且信息量非常龐大的數(shù)據(jù)格式,它不具備文本數(shù)據(jù)那樣的語法及段落等規(guī)則;另外,視頻中包含的信息量相當(dāng)龐大,對于視頻數(shù)據(jù)的特征融合及信息提取具有較高的難度。所以總體來看,視頻數(shù)據(jù)挖掘技術(shù)目前還處于初級階段,但是有部分技術(shù)已經(jīng)到了較成熟的規(guī)?;瘧?yīng)用階段,例如車牌識別技術(shù)、視頻入侵檢測技術(shù)等。
如何從海量視頻數(shù)據(jù)中提取到我們所能應(yīng)用的信息,甚至是經(jīng)過歸納總結(jié)的知識,無疑是監(jiān)控系統(tǒng)各個行業(yè)用戶都迫切需要解決的問題。但是視頻包含了非常龐大的信息量,不同行業(yè)客戶對于視頻信息的提取及使用方式有很大的差異性。這就要求監(jiān)控技術(shù)的供應(yīng)商能夠針對不同行業(yè)客戶的需求提供不同的視頻數(shù)據(jù)挖掘解決方案。舉例來說,公安行業(yè)用戶在日常治安管理工作中需要從視頻中及時的獲取治安異常事件的信息,例如斗毆事件或者群聚性事件,從而可以及時進(jìn)行處理;在進(jìn)行刑偵工作時要對大量視頻進(jìn)行目標(biāo)查找,需要從視頻中獲取目標(biāo)的身份信息,例如人員身份信息及車輛牌照信息等。而高速公路行業(yè)用戶需要在收費處獲取車輛牌照信息,在道路監(jiān)控視頻中獲取異常事件信息,例如擁堵事件、停車等,還需要提取例如車流量、平均車速等統(tǒng)計類信息以實現(xiàn)管理優(yōu)化。還有一些視頻信息是各行業(yè)用戶都需要的,例如視頻質(zhì)量信息,即從視頻數(shù)據(jù)中獲取的當(dāng)前視頻設(shè)備運行狀態(tài)是否正常的信息量,這對于各行業(yè)監(jiān)控系統(tǒng)的運行維護(hù)都有著重要實用價值。
根據(jù)實際應(yīng)用需求及應(yīng)用方式的不同,可以將視頻中挖掘的信息分為五類,分別是:事件語義信息、目標(biāo)身份信息、目標(biāo)圖像特征信息、視頻統(tǒng)計信息及視頻質(zhì)量信息。事件語義信息是指從視頻中獲取的可用語言描述的事件信息,例如有人闖入?yún)^(qū)域、有人奔跑、發(fā)生群聚性事件等,這類信息主要以報警的方式實時呈現(xiàn)給用戶,用戶可以根據(jù)這類信息實時對異常事件進(jìn)行判斷并進(jìn)行處理。目標(biāo)身份信息主要是指人員身份及車輛牌照信息,用戶以報警的方式或者檢索的方式使用這類信息,例如車輛黑名單報警或者嫌疑人照片檢索。目標(biāo)圖像特征信息是指可描述的目標(biāo)圖像特征,例如紅色轎車、穿黑白條紋衣服的人員等,用戶在刑偵工作中可以利用這類信息在海量視頻數(shù)據(jù)中對目標(biāo)進(jìn)行快速定位。視頻統(tǒng)計信息是指從視頻中獲取的長時間統(tǒng)計數(shù)據(jù),例如商場的客流量、交通要道的車流量等,用戶可以利用這類信息進(jìn)行管理工作的優(yōu)化。視頻質(zhì)量信息是指對視頻質(zhì)量進(jìn)行診斷獲取的對視頻質(zhì)量異常進(jìn)行描述的信息,例如視頻被遮擋、視頻失焦、視頻偏色等,用戶可以利用這類信息進(jìn)行監(jiān)控系統(tǒng)的運行維護(hù)。
視頻數(shù)據(jù)挖掘技術(shù)的實現(xiàn)方式可分為前端設(shè)備實現(xiàn)方式和后端設(shè)備實現(xiàn)方式兩種。前端設(shè)備實現(xiàn)方式是指在各種前端監(jiān)控設(shè)備中集成智能視頻分析技術(shù),以實現(xiàn)視頻信息的實時挖掘;后端設(shè)備實現(xiàn)方式是指利用后端服務(wù)器集群,對前端監(jiān)控設(shè)備采集的視頻信息進(jìn)行數(shù)據(jù)挖掘。一般而言,前端設(shè)備實現(xiàn)方式的優(yōu)點是可以對視頻數(shù)據(jù)進(jìn)行實時分析,并具有根據(jù)視頻分析算法的需要對前端設(shè)備進(jìn)行成像控制的能力,對于信息實時性或者視頻成像特性有特定要求的數(shù)據(jù)挖掘技術(shù)更適合用前端設(shè)備實現(xiàn)方式。圖1是視頻數(shù)據(jù)挖掘技術(shù)前端實現(xiàn)方式的拓?fù)鋱D,視頻數(shù)據(jù)挖掘技術(shù)可以根據(jù)需要在DVS、DVR、IP攝像機(jī)及網(wǎng)絡(luò)球機(jī)等多種前端設(shè)備中集成。視頻數(shù)據(jù)挖掘技術(shù)的后端實現(xiàn)方式的優(yōu)點在于可以利用服務(wù)器集群提供更強(qiáng)大的處理能力,并可同時對多路視頻數(shù)據(jù)進(jìn)行處理實現(xiàn)多路視頻數(shù)據(jù)之間的信息融合。圖2是視頻數(shù)據(jù)挖掘技術(shù)后端實現(xiàn)方式的拓?fù)鋱D,視頻數(shù)據(jù)挖掘技術(shù)在后端服務(wù)器集群中實現(xiàn)。云計算平臺由于具有高度的靈活性及擴(kuò)展性,是視頻數(shù)據(jù)挖掘技術(shù)后端實現(xiàn)方式優(yōu)秀的承載平臺,隨著云計算技術(shù)的發(fā)展及成熟,或許在不遠(yuǎn)的將來,云計算平臺將在視頻數(shù)據(jù)挖掘技術(shù)中有大量應(yīng)用。
不同的視頻數(shù)據(jù)挖掘技術(shù)根據(jù)其應(yīng)用及技術(shù)特點需要采用不同的實現(xiàn)方式。有的信息對于實時性及處理能力的要求不高,用兩種方式都可以實現(xiàn)數(shù)據(jù)挖掘,例如視頻質(zhì)量信息及統(tǒng)計類的信息。而有些信息的應(yīng)用對于實時性有較高的要求,或者在數(shù)據(jù)挖掘的過程中需要對成像設(shè)備進(jìn)行控制,這類數(shù)據(jù)挖掘技術(shù)就適用于前端設(shè)備實現(xiàn)方式,例如,事件語義信息的提取,這類信息一般以報警的方式呈現(xiàn)給用戶,用戶需要及時的獲取這類信息以做出應(yīng)對,這類信息的挖掘技術(shù)就適合用前端設(shè)備實現(xiàn)。又例如,車牌信息的提取及人臉圖像的檢測,一般需要對成像設(shè)備進(jìn)行實時的控制,例如攝像機(jī)的曝光時間、攝像機(jī)增益值等,以獲取高清晰度的圖像并保證所獲取信息的精確度,因此這類數(shù)據(jù)挖掘技術(shù)在前端攝像機(jī)中實現(xiàn)具有較大的優(yōu)勢。
有一些數(shù)據(jù)的挖掘過程中需要系統(tǒng)提供很強(qiáng)的計算能力支撐,或者需要對多路視頻數(shù)據(jù)進(jìn)行信息融合,這類數(shù)據(jù)挖掘技術(shù)就適用于后端實現(xiàn)方式。例如公安部門在刑偵工作中需要用到的目標(biāo)特征信息——在刑偵過程中,需要在較短的時間內(nèi)完成對海量視頻數(shù)據(jù)中具有一定特征的目標(biāo)進(jìn)行檢索。在這類應(yīng)用中,需要系統(tǒng)在短時間內(nèi)完成對海量視頻數(shù)據(jù)中的目標(biāo)特征進(jìn)行提取及檢索,因此利用服務(wù)器集群的后端實現(xiàn)方式就可以提供高密度計算能力的支撐。又例如,對人員身份信息的檢索,用戶需要輸入目標(biāo)人員的人臉圖片在海量視頻數(shù)據(jù)中對該目標(biāo)人員進(jìn)行檢索。在這類應(yīng)用中需要對海量視頻數(shù)據(jù)進(jìn)行人臉檢測并建立人臉特征庫,并在人臉特征庫中檢索出特征相似的目標(biāo),由于涉及多路視頻數(shù)據(jù)的信息融合建立人臉特征庫,因此需要應(yīng)用后端實現(xiàn)方式。
視頻數(shù)據(jù)挖掘的目的是建立底層視頻數(shù)據(jù)到高層語義信息之間的映射關(guān)系,由于這種映射關(guān)系比較復(fù)雜,一般采用多層次的信息提取及映射技術(shù)來最終實現(xiàn)數(shù)據(jù)挖掘過程,其信息提取的層次模型可以由圖3表示。在視頻數(shù)據(jù)挖掘過程中,從底層的視頻數(shù)據(jù)中首先提取低層圖像特征信息,包括圖像紋理、圖像色塊、運動矢量、圖像邊緣、灰度直方圖等信息,這類信息無法為我們所直接理解,它們是提取元語義信息的基礎(chǔ)。然后利用目標(biāo)檢測、目標(biāo)跟蹤、特征比對等手段從圖像特征中提取元語義信息,包括運動目標(biāo)、運動目標(biāo)軌跡、車牌圖片、人臉圖片等,這類信息已經(jīng)可以為我們所理解,但是離最終應(yīng)用還有距離。最后將元語義信息融合為高層的語義級描述信息,例如融合運動目標(biāo)軌跡信息及用戶設(shè)計的禁區(qū)信息所生成的描述內(nèi)容為“發(fā)現(xiàn)有人闖入禁區(qū)”的語義級報警信息,再例如融合目標(biāo)行人目標(biāo)檢測信息及運動軌跡信息可以生成客流量統(tǒng)計報表……隨著提取信息的層次越高,其包含的信息量逐步減少,其信息的抽象程度越高,也更接近我們所能應(yīng)用及理解的范疇。
不同行業(yè)對于視頻信息的需求及應(yīng)用方式是截然不同的,因此很難開發(fā)出一套通用的視頻數(shù)據(jù)挖掘技術(shù)去適用于各個行業(yè)。在現(xiàn)有的技術(shù)發(fā)展水平下,比較合理的做法是根據(jù)各行業(yè)的需求開發(fā)專用的視頻數(shù)據(jù)挖掘系統(tǒng)。以下筆者將著重介紹異常事件報警應(yīng)用及客流量統(tǒng)計應(yīng)用。
監(jiān)控系統(tǒng)的主要用途之一是為了在監(jiān)控場景中發(fā)生各類異常事件時,用戶可以及時發(fā)現(xiàn)這類事件并進(jìn)行處理,但是在缺少視頻數(shù)據(jù)挖掘技術(shù)時,監(jiān)控系統(tǒng)很難發(fā)揮應(yīng)有的效能。視頻數(shù)據(jù)挖掘技術(shù)可以從視頻中獲取描述運動目標(biāo)的各種元語義信息,并結(jié)合用戶事先設(shè)定的規(guī)則生成報警事件描述性語義信息,并及時通知用戶,使用戶能夠及時對這類事件做出反應(yīng)。這類視頻數(shù)據(jù)挖掘技術(shù)已經(jīng)發(fā)展到一定的成熟度,并在機(jī)場、鐵路、監(jiān)獄、油田、住宅小區(qū)等監(jiān)控領(lǐng)域有了較多的應(yīng)用,但是這類技術(shù)具有比較強(qiáng)的場景依賴性,在比較復(fù)雜多變的場景下其應(yīng)用效果還需要進(jìn)一步提升。
監(jiān)控視頻中包含了大量統(tǒng)計類信息,這類信息對管理優(yōu)化及決策輔助有寶貴的應(yīng)用價值,例如連鎖店的客流量、保有量及客戶購買率等信息對于連鎖行業(yè)客戶非常重要,現(xiàn)階段要獲取這類信息一般只能靠人工方式統(tǒng)計,成本非常昂貴。視頻數(shù)據(jù)挖掘技術(shù)可以通過安裝在連鎖店門口的攝像機(jī)獲取進(jìn)出店門的人員視頻,并從視頻中獲取進(jìn)出人員及人員運動軌跡等元語義信息,并最終根據(jù)用戶設(shè)定的需求生成各類統(tǒng)計報表。目前,由于技術(shù)限制,從視頻中挖掘的統(tǒng)計信息雖無法保證百分之百精確,但是其勝處在于獲取的數(shù)據(jù)量龐大且成本低廉。
監(jiān)控視頻數(shù)據(jù)是埋藏了大量有用信息的“寶庫”,由于巨大的“語義鴻溝”存在,我們一直以來對這座寶庫可望不可及,借助數(shù)據(jù)挖掘技術(shù)這座“橋梁”我們有望跨越這條鴻溝。然而由于視頻數(shù)據(jù)包含的信息非常龐大且各行業(yè)對于信息的需求不同,不同的視頻數(shù)據(jù)挖掘技術(shù)的成熟度有所不同,有些已經(jīng)可以成熟應(yīng)用,而有些還處于起步階段,需要監(jiān)控技術(shù)供應(yīng)商及集成商付出長期的努力來完善該類技術(shù)。
作者為杭州??低晹?shù)字技術(shù)股份有限公司項目總監(jiān)