隨著行業(yè)的發(fā)展,傳統(tǒng)的安防行業(yè)由原來單純的視頻監(jiān)控系統(tǒng),慢慢的擴(kuò)展為視頻綜合管理系統(tǒng)。其功能逐漸從視頻采集、視頻編解碼和錄像存儲(chǔ)為主、逐步過渡到視覺內(nèi)容(Visio Analytics)分析和元數(shù)據(jù)應(yīng)用為主。不論是視頻監(jiān)控系統(tǒng),還是視頻綜合管理系統(tǒng),就其本質(zhì)而言,是通過光電傳感器來代替人眼來獲取外部有用信息并加以利用。
視覺分析,又稱為智能視覺(Intelligent Visio)、計(jì)算機(jī)視覺(Computer Vision)。智能視頻分析(Intelligent Video analytics),或者稱為視頻內(nèi)容分析(Video Content Analysis),智能視頻(Intelligent Video)等。兩者既有聯(lián)系又有區(qū)別。
視頻分析是對(duì)多幀圖像組成的序列進(jìn)行分析,視頻分析的對(duì)象都是攝像機(jī)采集的自然視頻。但視覺分析研究對(duì)象和內(nèi)容更廣,還包括合成圖像和拼接圖像,不僅用到圖像處理技術(shù)、視頻處理算法,還包括一些攝像機(jī)成像技術(shù)、圖像合成技術(shù),三維重構(gòu)技術(shù)、對(duì)象檢測(cè)技術(shù)、對(duì)象識(shí)別技術(shù)、行為分析等等。
不論在學(xué)術(shù)界,還是產(chǎn)業(yè)界,對(duì)智能視覺分析都沒有正式而又明確的定義,自然的對(duì)智能視覺分析技術(shù)也就沒有成型的公式。
智能視覺技術(shù)的突出特點(diǎn)就是多樣性和不完善性。如圖1所示,智能視覺技術(shù)是一個(gè)多學(xué)科交叉研究領(lǐng)域。用到了數(shù)學(xué)、物理學(xué)、攝影學(xué)、神經(jīng)生物學(xué)、信號(hào)處理、圖像處理、人工智能、自動(dòng)控制機(jī)器人、機(jī)器視覺、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等多學(xué)科相關(guān)知識(shí)。
圖1 計(jì)算機(jī)視覺與其他領(lǐng)域的關(guān)系
智能視覺分析主要是模仿人眼視覺分析和人腦視覺信息處理與提取過程,在生物視覺方面,人類對(duì)人腦視覺信息處理和提取的具體過程還知之甚少。在整個(gè)20世紀(jì)中,人類對(duì)各種動(dòng)物的眼睛、神經(jīng)元、以及視覺刺激相關(guān)的腦部組織都進(jìn)行了廣泛研究,得出了視覺系統(tǒng)如何運(yùn)作的粗略描述。人們?cè)噲D建立一個(gè)人工系統(tǒng),使之在不同程度上模擬生物視覺運(yùn)作。
如圖2所示為一個(gè)典型的智能視覺分析應(yīng)用框架。首先對(duì)輸入視頻信號(hào)進(jìn)行圖像處理和視頻處理,對(duì)視頻信號(hào)中每個(gè)像素點(diǎn)建立隨時(shí)間變化的模型,并前背景分離。然后對(duì)分離出的前景圖像區(qū)域提取合適的特征向量。根據(jù)線下訓(xùn)練器使用正負(fù)樣本得到的模型檢測(cè)該區(qū)域是否有模型對(duì)應(yīng)的對(duì)象存在,若存在,則認(rèn)為檢測(cè)到該對(duì)象。然后繼續(xù)對(duì)該對(duì)象本身內(nèi)部屬性特征進(jìn)一步檢測(cè)識(shí)別。使用對(duì)象模型檢測(cè)對(duì)象,不僅在視頻前景區(qū)域中進(jìn)行檢測(cè),也可以直接在整個(gè)圖片中遍歷檢測(cè)。模型檢測(cè)之前需要建立特征金字塔,并以滑動(dòng)窗的形式進(jìn)行光柵順序掃描,以實(shí)現(xiàn)在多尺度下對(duì)象檢測(cè)。
圖2 智能視覺分析框架
前景中檢測(cè)出對(duì)象后,繼續(xù)對(duì)對(duì)象動(dòng)作姿態(tài)進(jìn)行識(shí)別。同時(shí)在視頻中對(duì)對(duì)象特征角點(diǎn)進(jìn)行跟蹤,以完整繪制出對(duì)象運(yùn)動(dòng)軌跡。
以上的場(chǎng)景分析、前背景建模、對(duì)象模型檢測(cè)、對(duì)象姿態(tài)識(shí)別、運(yùn)動(dòng)軌跡分析,即可以在原始視頻圖像中完成,也可以在變換圖像、拼接圖像、視頻集合中完成。
不同攝像頭得到的運(yùn)動(dòng)檢測(cè)識(shí)別結(jié)果、行為軌跡分析結(jié)果可以綜合分析挖掘,提煉出更有潛力價(jià)值的信息。
圖2所說的視覺分析框架并不是一成不變的,由于智能視覺技術(shù)多樣性和不完善性,針對(duì)不同的應(yīng)用場(chǎng)景,其中各技術(shù)模塊會(huì)有不同。每一模塊中的算法,都僅適用于某些特定的應(yīng)用,不具有通用性,故智能視覺分析算法有相當(dāng)?shù)碾y度。
浙江宇視科技有限公司的IA8500智能服務(wù)器、IA8500-VD智能視頻診斷服務(wù)器、DB9500數(shù)據(jù)庫服務(wù)器、DR9500數(shù)據(jù)檢索服務(wù)器就是在該基礎(chǔ)上實(shí)現(xiàn)的集智能視覺分析、視頻預(yù)處理與診斷、視覺分析元數(shù)據(jù)存儲(chǔ)與檢索、數(shù)據(jù)挖掘等功能的大型解決方案。
安防行業(yè)中的智能視覺分析主要完成的功能包括:視覺信號(hào)前背景分離、對(duì)象跟蹤、對(duì)象特征提取、對(duì)象分類器設(shè)計(jì)。
前背景分離是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)經(jīng)典課題,到目前來看,研究學(xué)者從不同角度提出了幾十種背景建模算法,部分算法如下:
視頻時(shí)間軸上的均值和方差法:
·幀差(Frame Difference)法
·加權(quán)運(yùn)動(dòng)均值(Weighted Moving Mean)法
·加權(quán)運(yùn)動(dòng)方差(Weighted Moving Variance)法
·自適應(yīng)背景學(xué)習(xí)(Adaptive Background Learning)法
·自適應(yīng)選擇背景學(xué)習(xí)(Adaptive-Selective Background Learning)法
模糊法(Fuzzy-based methods):
·Fuzzy Sugeno Integral (with Adaptive-Selective Update)
·Fuzzy Choquet Integral (with Adaptive-Selective Update)
·Fuzzy Gaussian of Laurence Bender
單高斯模型統(tǒng)計(jì)法(Statistical methods using one gaussian)
多高斯模型統(tǒng)計(jì)法(Statistical methods using multiple gaussians)
類型2模糊(Type-2 Fuzzy based)法
使用顏色和紋理特征的統(tǒng)計(jì)法(Statistical methods using color and texture features)
非參數(shù)法(Non-parametric methods)
特征空間法(Eigenspace-based methods)
神經(jīng)和神經(jīng)模糊法(Neural and neuro-fuzzy methods)
這些算法有的基于空間特征,有的在時(shí)間軸上建立高斯模型,有的采用特征空間模型,有的基于像素顏色和紋理。但這些算法沒有一個(gè)適用于所有的視頻場(chǎng)景,或者說某一類算法只適用于某一類場(chǎng)景。但真實(shí)情況是視頻場(chǎng)景千差萬別。比如對(duì)一十字路口:白天、傍晚、夜間補(bǔ)光燈、夜間沒有補(bǔ)光燈、紅外、白天雨天、夜間雨天、大風(fēng)天氣、霧霾天氣、雪天,這些因素導(dǎo)致場(chǎng)景隨機(jī)變化,無法找到合適算法進(jìn)行自動(dòng)識(shí)別。
無法找到一個(gè)通用于所有場(chǎng)景的智能視覺算法,這就是智能視覺分析的難點(diǎn)所在。
對(duì)象跟蹤的難點(diǎn)在于物體在運(yùn)動(dòng)過程中外表特征發(fā)生變化、遮擋、遮擋后重現(xiàn)、運(yùn)動(dòng)物體發(fā)生交疊、群體性對(duì)象跟蹤、多攝像機(jī)接力跟蹤,等等。這些難點(diǎn)仍然是當(dāng)前視覺分析領(lǐng)域的研究熱點(diǎn)。
目前產(chǎn)品中實(shí)現(xiàn)的對(duì)象跟蹤算法大抵分為幾類:
點(diǎn)跟蹤(blob tracking)法:比如斑點(diǎn)檢測(cè)(blob detection)和光流(optical flow)法跟蹤。
內(nèi)核跟蹤(kernel-based tracking)法:比如均值漂移(mean-shift)法。
輪廓跟蹤(contour tracking)法。
視覺特征匹配(feature matching)法。
卡爾曼濾波器(Kalman filter)法。
粒子濾波器(Particle filter)法。
智能視覺分析中主要用的視覺特征有:邊緣(edge)特征,角點(diǎn)(corner)特征,斑點(diǎn)(blob)特征,顏色特征,紋理特征,尺寸特征,等等,針對(duì)這些特征還有各種特征描述符(feature description),比如SIFT(Scale Invariant Feature Transform)、SURF(Speeded Up Robust Features)、HOG(Histogramof Oriented Gradients)、LBP(Local Binary Pattern)、FAST( Features from Accelerated Segment Test)。
對(duì)模型訓(xùn)練庫中的正負(fù)樣本特征提取后,需要把這些特征輸入一個(gè)機(jī)器學(xué)習(xí)算法,以便學(xué)習(xí)得到某一個(gè)對(duì)象的分類器。通常用到的分類器有Adboost、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)、隨機(jī)森林(Random Decision Forests)。在有些情況下,需要把分類器級(jí)聯(lián)起來以形成一個(gè)強(qiáng)分類器。
浙江宇視科技有限公司的智能卡口系統(tǒng)中的HTS-HC121系列單車道、HTS-HC122系列雙車道、HTS-HC151系列500萬高清卡口攝像單元智能攝像機(jī)單元、以及HTS-HC581系列、800萬、HTS-HC551系列500萬、HTS-HC531系列300萬、HTS-HC521系列200萬電子警察系統(tǒng)的高清電警攝像單元,HIC6621EX22I系列1080p、HIC6501EX22I系列720p智能違停抓拍球,選用業(yè)界領(lǐng)先的智能視覺算法模塊,并針對(duì)卡口系統(tǒng)場(chǎng)景和電子警察場(chǎng)景做出專門的適應(yīng)性優(yōu)化,在車輛捕獲、車牌號(hào)碼識(shí)別、車輛屬性特征提取、車輛軌跡跟蹤、車輛行為分析、信號(hào)燈檢測(cè)、交通流量統(tǒng)計(jì)、車輛違法行為分析判斷,等各個(gè)功能模塊在業(yè)界不論是性能都達(dá)到業(yè)界領(lǐng)先水平。
視頻監(jiān)控行業(yè)的本質(zhì)需求是,類似于人眼,從攝像機(jī)采集的圖像視頻中提取對(duì)行業(yè)有用的信息,而剔除無關(guān)信息。不同行業(yè)需求不同,感興趣的信息不同,有的是車輛信息、有的是行人信息、有的是運(yùn)動(dòng)信息、有的是軌跡信息。
不僅僅在視頻監(jiān)控行業(yè),在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,尤其是智能終端設(shè)備上攝像頭使得每個(gè)人都成為圖像視頻采集者,這帶來了視頻圖像素材的爆炸性增長(zhǎng),由此大大促進(jìn)了智能視覺技術(shù)的進(jìn)步。現(xiàn)在越來越多的國(guó)際頂級(jí)研究機(jī)構(gòu)和學(xué)者在智能視覺分析領(lǐng)域大力投入,由此不斷涌現(xiàn)出性能更優(yōu)秀的算法,不斷提高產(chǎn)品中視覺分析技術(shù)的性能。