張 俊,任延珍
(1.湖北警官學院 信息技術系,湖北 武漢430034;2.武漢大學 計算機學院,湖北 武漢430072)
基于學習的視頻行為分析技術的特點和應用
張 俊1,任延珍2
(1.湖北警官學院 信息技術系,湖北 武漢430034;2.武漢大學 計算機學院,湖北 武漢430072)
視頻行為分析(VBA,Video Behavioral Analytics)是智能視頻監(jiān)控(IVS,Intelligent Video Surveillance)技術領域近幾年來倍受關注的發(fā)展方向?;趯W習的視頻行為分析系統從攝像頭或視頻錄像中接受輸入,自動學習場景中出現的正常行為和動作,并在發(fā)現異常行為時用實時警報通知安全人員,它結合了計算機視覺和人工智能技術,在公安工作中具有廣泛的應用前景。
智能視頻監(jiān)控;視頻行為分析;應用
當前,隨著“暢通工程”、“平安城市”等警務信息化工程的加速建設和深入應用,公安機關等社會管理部門建立了龐大的視頻監(jiān)控網絡。例如,武漢市2011年底投入使用,由25萬個攝像頭構成的“天網”城市視頻監(jiān)控工程。這些視頻監(jiān)控系統在治安管理、交通管控、偵查破案等公安工作中發(fā)揮著越來越大的作用,受到各級部門的高度重視。然而,越來越大的監(jiān)控系統和越來越多的攝像機也給監(jiān)控人員帶來沉重的工作壓力,很多時候他們無法及時發(fā)現異常、獲取情報、采取措施。
智能視頻監(jiān)控(Intelligent Video Surveillance),或稱為視頻行為分析(VideoBehavioral Analytics)是近幾年來應運而生的一種新技術,它綜合應用了計算機視覺和人工智能的最新研究成果,可以對視頻場景內的相關運動目標(人或物體)進行檢測、分類及軌跡追蹤,并根據制定的分析(觸發(fā))規(guī)則,由系統自動分析、判斷運動目標的行為信息,并將信息輸出到相應的系統響應平臺。根據監(jiān)控對異常行為的感知方法,視頻行為分析技術可以分為基于規(guī)則和基于學習兩大類。前者的技術和應用較為成熟。后者的研究和應用方興未艾,正吸引越來越多的重視,并必將成為未來視頻監(jiān)控技術的主要發(fā)展方向。
傳統的視頻監(jiān)控系統提供的是沒有經過任何分析的視頻裸數據,不能實現監(jiān)控系統應有的實時、主動監(jiān)督的作用,在安全性和實用性方面達不到人們的期望。主要表現在:第一,人類自身生理弱點導致監(jiān)控人員無法長時間集中注意力工作而產生漏報和誤報。漏報是指發(fā)生了安全威脅,但沒有被系統或人員發(fā)現;誤報是指安全活動被誤認為是威脅而產生錯誤的報警。第二,響應時間長,監(jiān)控人員無法及時發(fā)現控制場景內的異常情況,導致監(jiān)控失效。這兩種問題都會降低用戶對視頻監(jiān)控系統的信任度。
視頻行為分析技術利用計算機視覺和圖像處理等技術對視頻信號進行處理、分析和理解,并根據預定義的規(guī)則發(fā)出相應的控制信號。比如自動識別不同的物體,發(fā)現監(jiān)控畫面中的異常情況,并以最快的速度和最佳的方式發(fā)出警報和提供有用信息,從而更加高效地協助監(jiān)控人員獲取準確信息和處理突發(fā)事件;或者過濾掉監(jiān)控人員不關心的信息,僅僅提供有用的關鍵信息,從而提高視頻監(jiān)控系統智能化和自動化水平。這種監(jiān)控系統在特殊區(qū)域的接近控制、流量統計與阻塞分析、異常檢測與報警、特殊身份識別與多攝像頭的協同監(jiān)控等方面具有極高的應用價值。
視頻行為分析監(jiān)控系統能有效解決傳統的視頻監(jiān)控系統存在的監(jiān)控效率低下和工作量大等問題,自從推出以來逐步成熟和實用,大大提高了視頻監(jiān)控的效率和效能。
基于規(guī)則的視頻行為分析技術需要事先設定某種判定特征或者規(guī)則,即由人教會軟件如何去識別異常,只有符合指定特征或者規(guī)則的異常行為才會引發(fā)報警響應。規(guī)則可以是邊界、軌跡、時間窗口等,特征可以是物品狀態(tài)、人臉或步態(tài)特點等。根據設定規(guī)則的不同,基于規(guī)則的視頻分析技術可以衍生出許多不同的運用模式,例如運動目標的軌跡檢測和追蹤、周界警戒及入侵檢測、物品狀態(tài)檢測、絆線檢測等。
基于學習的視頻行為分析技術一般利用無監(jiān)督的機器學習算法,模擬人腦的觀察過程來發(fā)現異常,具有感知記憶、場景關聯、動作學習等性能。整個過程無需人的干預和設定,因而具有更高的智能性。
基于學習的視頻行為分析技術綜合感知機器學習和計算機視覺,利用對人類大腦學習和記憶過程研究的成果并將此過程應用到視覺數據的分析,實時、自動識別監(jiān)控攝像機視野內的異常行為,使得安全人員能夠更高效和快速地監(jiān)視海量的視頻信息?;趯W習的視頻行為分析技術的優(yōu)勢在于能精確地分類目標,例如人、車輛、動物等,以及高效地辨識和跟蹤場景內的大量移動目標。這種技術就像人類對新環(huán)境的反應,行為分析通過眼睛(視頻攝像頭)觀察場景,用大腦(機器學習軟件)學習場景內正常行為,然后對異常行為產生響應,特別適用于人群聚集場合。
視頻行為分析系統主要由管理單元、視頻分析單元、智能分析單元、觸發(fā)判定單元及響應單元等部分構成,完成觀察、分類和報告攝像機記錄事件的完整過程。在基于學習的視頻行為分析中,視頻分析和機器學習是兩個最核心的部分,下面對這兩個關鍵部分進行介紹。
這個單元包括預處理、背景去除、目標跟蹤和目標描述四個部分,見圖1。
預處理完成將連續(xù)編碼的視頻信號轉換為視頻幀的工作,要從標準的MPEG-4或H.264信號中解碼出幀信號,或者直接使用模擬信號,這取決于系統的設置。
背景去除是從復雜的圖像中提取目標,即從連續(xù)的視頻幀中分離出不變的像素(代表背景),專注于變化的像素(代表前景移動的物體),除了要克服噪聲和細微變化像素的影響,還必須考慮的關鍵因素是視覺場景改變(FOVC)的情況。攝像機的動作(推進、拉遠或搖動)會產生視場變化,這種改變可以通過對背景的觀察得到。光線的變化會產生突發(fā)照明改變(SILC),導致背景移除和跟蹤算法混亂而立即跟蹤所有的物體。不管何種原因產生視覺場景改變,FOVC處理器都會感覺到這些變化,發(fā)出系統告警,停止背景去除運算,等待場景穩(wěn)定后,從先前觀察的背景庫中識別新的背景,如果匹配,則加載場景記憶繼續(xù)處理,如果沒有匹配的,就開始新的學習過程。
跟蹤過程就是關聯多個視頻幀之間的相同目標,以理解目標如何在場景中移動,收集其位置、速度和加速度。為了跟蹤多個目標,還利用目標緩存器建立跟蹤目標列表。傳統的基于規(guī)則的方法利用預定義的庫來區(qū)分目標,而基于學習的方法首先利用宏分類的方法測量目標的多個屬性,例如外觀比例、亮度、顏色等,然后這些描述信息連同目標列表一起編碼,送到下一步作進一步的分析。
圖1 視頻分析單元的工作流程
視頻分析單元只負責觀察場景內除了背景的所有事物,而不管它是什么、移動還是靜止。所以它觀察到樹枝搖擺、灌木移動,觀察到汽車、人、兔子或鳥,然后記錄這些目標的動作,并描述其屬性。
這個單元通過建立記憶和假設概念來模擬人腦。它能夠自動學習,類似于反映人腦形成記憶和認知關聯的方式。這些假設概念使得所觀察的行為模式能夠形成、存儲和衰退,并經過一段時間后“遺忘”,這種模式不斷優(yōu)化而成為結構,以解釋系統的觀察結果。假設概念隨著時間而成熟,系統能從觀察中學習、記憶行動模式,適應環(huán)境、視場和設備的改變,不需要人的干預。
圖2 機器學習單元的工作流程
機器學習單元分為語義表達、建立模型、識別循環(huán)、算法處理、記憶五個階段,見圖2
第一個階段是語義表達。語義表達將計算機視覺觀察到的跟蹤目標和目標描述轉換成描述場景的語言流,然后輸出到識別循環(huán)。很多機器學習技術基于符號和文本,而不是視覺數據,所以必須將視覺數據轉換為機器學習算法能理解的語言。這個過程分三步完成,第一步是段空間劃分,它將場景劃分為區(qū)域,以理解目標在哪里、如何移動和通過場景的路徑;第二步是基本事件檢測,是一種壓縮觀察數據的方法,即把事件的描述信息用連接語法壓縮成描述序列;第三步是形式語言學習,建立目標的形式語言向量序列,以描述目標的軌跡信息。這三步的信息連同原始的跟蹤目標信息一起被編碼為語法符號流,送入識別循環(huán),然后生成機器學習建立的不同模型的基礎。
目標描述的數據經過類型聚合后,動態(tài)地形成目標類型,這是一個無監(jiān)督學習、動態(tài)發(fā)現目標類型的技術?;谝?guī)則的系統需要事先建立一套特征庫進行匹配,而基于學習的系統并沒有關于人或物是什么樣子之類的先驗知識。類型聚合能將具有相似形狀的目標歸類,這意味著經過一段時間的觀察后,系統能理解任何類型的生物或非生物目標應該長什么樣,各自行為有什么不同等。
第二個階段是建立位置和動作模型。依靠自適應共振神經網絡(ART),系統可以知道目標出現在場景的位置和速度等信息。此模型是基于空間和時間的,例如在特定位置的特定時間段內是否有目標出現。
第三個階段是識別循環(huán),它在更高抽象層建立更復雜和豐富的模型。識別循環(huán)包括工作空間和代碼庫,模仿人腦神經和認知過程,加工輸入的語法符號流,然后輸出到學習算法。
第四個階段是各種不同的學習算法的處理。包括再一次使用ART網絡和支持向量機(SVM)等,從而建立目標的行為模型和軌跡模型。這一階段從更高更精確的層面理解目標,發(fā)現異常的行為。
第五個階段是記憶?,F階段模擬了人腦記憶的三個階段:感知關聯記憶、情節(jié)記憶和長期記憶,并依靠這些記憶模型領會識別循環(huán)輸出的符號流,并在更抽象的層面上理解場景。感知關聯記憶中引入了假設概念的元件,這是一些相互鏈接的列表類型的數據模塊,建立在一段時間內學習引擎的描述數據上。如果相同的數據模式重復出現,特定的假設概念就被標記為“興奮的”,并擬用來構建抽象模型而進入情節(jié)記憶。也就是說,通過定期的觀察,得到增強的假設概念用來構建更高的用來解釋場景的抽象層,而沒有得到增強的假設概念在一段時間后會衰退并消失。用同樣的方法再將場景模型從情節(jié)記憶過渡到長期記憶,用來學習場景中目標之間的相互關系,建立交互模型。長期記憶用來描述目標的活動,而假設概念不僅描述目標的類型和活動,還描述目標之間的相互關系,例如人沿著路邊行走和汽車在道路上行駛的不同。當人停下靠近道路上的一輛汽車并與之交互,那么對長期記憶中的假設概念就是異常,因為在長期記憶中沒有關于這兩個目標互動行為的描述。
依靠建立的4個模型:位置和動作模型、行為模型、軌跡模型和交互模型,系統就能在接下來的響應階段決定哪些行為是異常的。
基于學習的視頻行為分析技術具有廣泛的應用前景,下面列舉若干應用場景。
機場、港口、車站等人群流動場所?;趯W習的視頻行為分析技術特別適合對異常行為,例如故意遺留可疑物品、人群的突然聚集和散開等進行實時報警。系統不僅收集場景內重要目標的大小、顏色、形狀、亮度、反光度、單個或群體的一部分出現等信息,還跟蹤、觀察單目標或群目標,進而分辨出展現某種行為的目標類型。如果加上人臉識別技術,還能自動鎖定、跟蹤場景內的特定人員并報警。
政府機關、軍事重地、金融等限制性場所?;趯W習的視頻行為分析技術不僅能識別人,還能通過識別目標的顏色、飽和度和色調,區(qū)分制服和車輛,特別適合于安保人員和特定車輛經常出入的限制性場合。
商場、廣場、商業(yè)街道等人群聚集場所?;趯W習的視頻行為分析技術能根據每個攝像頭獨特的視覺場景來自動辨識和分類目標,也就是目標分類規(guī)則是針對每個攝像頭自適應的。更精確的目標辨識加上描述性的架構,使得系統能夠學習人群運動模式,包括涌動方向、速度和聚集程度,從而對場景內異常的群體運動模式和擁擠情況進行報警。
視頻行為分析技術在實踐中逐步得到廣泛應用,但在實施時還有一些復雜問題需要考慮。一是誤報和漏報,這是所有監(jiān)控系統重要的考量指標,誤報率和漏報率不可能同時降低,要根據實際需要側重選擇;二是對畫面質量的要求比較高,主要是每秒幀數和像素;三是對場所的選擇和安裝有一定的要求,比如攝像機的安裝、調整和輔助照明設備;四是視頻行為分析技術與其他手段聯合使用的整合,例如被動紅外傳感器(PIR)、地面震動傳感器等傳統直線(或點式)傳感器等。
總之,視頻行為分析技術是視頻監(jiān)控發(fā)展的必然趨勢,隨著方法的不斷成熟和計算能力的提高,必將得到愈來愈廣泛的應用。
[1][EB/OL].http://www.policereview.com/sites/default/files/ppr/iss ues/ppr_fe b_mar11.pdf.
[2][EB/OL].http://www.brslabs.com/files/pdf/AISight_2%201_Fina l.pdf.
[3]視頻行為分析技術[EB/OL].http://www.firscom.cn/case_43_58.html.
[4]劉安安.感知,思維,行為:層次化的視頻內容分析技術研究[D].天津:天津大學,2010.
[5]張一.智能視頻監(jiān)控中的目標識別與異常行為建模與分析[D].上海:上海交通大學,2010.
[6]王立.步態(tài)識別及其在智能視頻監(jiān)控中的應用[J].淮北煤炭師范學院學報(自然科學版),2010(3):51-54.
[7]黃永鑫.基于視覺的運動人體行為分析技術研究[J].黑龍江科技信息,2010(27):27-29.
[8]姜麗芬,鄭陶然.安全監(jiān)控系統中的運動檢測和運動方向的判定[J].天津師范大學學報(自然科學版),2004(2):45-49.
[9]刁一平.理性與務實——點評智能視頻分析行業(yè)發(fā)展現狀[J].智能建筑與城市信息,2010(9):44-46.
[10]徐楊,吳成東,陳東岳.基于視頻圖像的交通事件自動檢測算法綜述[J].計算機應用研究,2011(4):23-27.
[11]張俊芳.智能視頻監(jiān)控技術在監(jiān)獄中的應用[J].價值工程,2010(35):33-35.
[12]25萬只“智慧之眼”守護大武漢[EB/OL].http://ctdsb.cnhubei.com/html/ctdsb/20111229/ctdsb1608090.html,2011-12-19.
TP309
A
1673―2391(2012)05―0175―03
2012—01—10
張俊,男,湖北應城人,湖北警官學院信息技術系;任延珍,女,陜西西安人,武漢大學計算機學院。
本研究得到2011年湖北公安中心工作理論研究課題支持。
【責任編校:李 烽】