盧滌非+++斯進+++王秋
摘 要: 為了克服傳統(tǒng)視頻處理技術(shù)面臨的“語義鴻溝”等難題,借助三維模型時空子空間所蘊含的信息進行視頻處理分析,提出了三維模型時空子空間引導(dǎo)的智能視頻偵查技術(shù)。①在體形子空間的引導(dǎo)下從視頻中匹配三維目標模型。②三維模型時空子空間引導(dǎo)下提取視頻事件:監(jiān)控對象視頻+三維模型時空子空間→監(jiān)控對象三維動作。③三維事件庫中的動作比對分類:運動數(shù)據(jù)+三維事件庫→視頻類型和性質(zhì)。文章涉及圖形學、視頻處理和刑事技術(shù),探索了使用三維圖形學技術(shù)解決視頻偵查難題的新渠道。
關(guān)鍵詞: 智能視頻偵查; 三維模型時空子空間; 運動比對; 快速研判; 三維事件庫; 大數(shù)據(jù)
中圖分類號:TP391.41 文獻標志碼:A 文章編號:1006-8228(2016)05-16-05
Abstract: In order to overcome the problem of the "semantic gap" faced by the traditional video processing technology, this paper proposes a three-dimensional model of spatio-temporal subspace guided smart video detecting technology. Its core idea is that the video data is processed and analyzed with the information contained in the 3D model of spatio-temporal subspace. This paper include: 1, matching 3D target model with the video under the guidance of the shape subspace; 2, 3D model of spatio-temporal subspace guided extraction of video events: monitor object video + spatio-temporal subspace of 3D model → 3D monitored object movement; 3, Comparison of movements in 3D event Library: Sports data + 3D event library → video type and nature. This paper is related to graphics, video processing and criminal technology. It establishes new channels for the use of 3D graphics technology to solve the problem of video detection and has an important academic significance.
Key words: smart video based crime detecting; 3D model spatio-temporal sub-space; motion matching; rapid judge; 3D events database; big data
0 引言
隨著大量視頻探頭的廣泛使用,以視頻內(nèi)容為突破口的視頻偵查逐漸成為公安機關(guān)偵破案件的重要方法。然而,傳統(tǒng)視頻偵查的成果多是在花費大量警力和時間的基礎(chǔ)上獲得的。于是,具備對海量視頻有快速研判方法的智能視頻偵查成了解決該問題的關(guān)鍵。
1 相關(guān)研究
智能視頻偵查是指借助計算機視覺和視頻分析的方法對視頻數(shù)據(jù)進行分析,完成監(jiān)控目標的定位、識別和跟蹤,并判斷目標對象的行為,輔助公安機關(guān)對疑難案件的偵破面對日益復(fù)雜的治安形勢,智能視頻偵查正逐漸成為“公安技術(shù)”學科中繼刑事技術(shù)、行動技術(shù)和網(wǎng)偵技術(shù)之后的第四大警務(wù)技術(shù)支柱。智能視頻在技術(shù)層面上都包含視頻分析和視頻理解這兩個重要環(huán)節(jié),其中視頻分析技術(shù)主要包括背景減除檢測、基于區(qū)域的跟蹤以及時間差分檢測等[1]。
由于二維視頻圖像丟失了現(xiàn)實場景的深度、方向等信息,這些方法都限制了特定的場景構(gòu)成、相機配置、動作形式和視點角度等前提條件。在實際刑事案件中,這些前提條件基本上無法保證,導(dǎo)致大多數(shù)方法無法有效的處理目標對象被遮擋、短時間內(nèi)消失,以及多個目標相互交錯等復(fù)雜情形,因而這些無法直接應(yīng)用于刑事案件中。
雖然視頻分析仍是大多數(shù)研究者關(guān)注的方向,但人們已注意到視頻理解才是智能視頻偵查的最終目標,是智能視頻偵查的核心。視頻理解的關(guān)鍵是視頻事件語義描述。視頻語義內(nèi)容分析是抽取用戶所關(guān)心的語義內(nèi)容,這會出現(xiàn)計算機自動理解與用戶需求之間的矛盾,即語義鴻溝(the Semantic Gap)[2]。
傳統(tǒng)視頻處理技術(shù)中存在的這些難題根源在于,視頻圖像中特征屬性和結(jié)構(gòu)化信息的缺失。顯然,如果能借助一些先驗知識,在三維空間里對視頻數(shù)據(jù)進行分析處理,這些問題就可以迎刃而解。但是依靠現(xiàn)有技術(shù)從視頻序列中恢復(fù)目標對象的三維運動信息和三維結(jié)構(gòu)是非常困難的。究其原因,主要是由于問題本身的困難性所致:包含在視頻中的目標對象運動信息是不充分的,不足以用來重構(gòu)三維動畫,這是典型的欠約束問題。
針對于此,在前期工作的基礎(chǔ)上[3~8],本文提出了在三維時空子空間中分析處理視頻數(shù)據(jù)的新思路。利用三維時空子空間蘊含的先驗知識引導(dǎo)整個處理過程,克服了傳統(tǒng)人體運動識別技術(shù)需要限定前提條件和行為描述困難的不足。研究的關(guān)鍵問題有:①在體形子空間的引導(dǎo)下在視頻中匹配三維目標模型;②在運動子空間引導(dǎo)下進行視頻事件跟蹤;③在三維事件庫中進行動作比對分類。
2 系統(tǒng)目標與框架
2.1 目標
本系統(tǒng)在盡量少的人工干預(yù)下,通過三維模型時空子空間的引導(dǎo),探索目標體型匹配、視頻事件提取以及動作比對分類技術(shù),開拓使用三維圖形學的理論和方法處理視頻偵查難題的新渠道,完成智能視頻偵查的快速研判,圖1顯示了智能視頻偵查的基本工作模式。
2.2 框架
人體的運動是符合一定規(guī)律的,反向運動學IK(Inverse Kinematics)[9]是描述人體運動規(guī)律的一個比較合適的方法。傳統(tǒng)的IK一個比較大問題是定義關(guān)節(jié)結(jié)構(gòu)不是一件容易的事情,其整個過程也不直觀,要花大量的時間用于參數(shù)的設(shè)置工作。針對這種情況,文獻[10]提出了基于網(wǎng)格的反向運動學(Mesh-Based Inverse Kinematics)。與基于骨骼體系的傳統(tǒng)IK相比,該方法依賴已有的樣例網(wǎng)格來隱含地確定各種約束條件。本文直接使用空間序列模型庫、時間序列模型庫和空間關(guān)系模型庫來指導(dǎo)人體運動跟蹤,通過對仿射變換矩陣的比對來匹配特定的人體運動,圖2顯示了本系統(tǒng)的總體架構(gòu)。
2.2.1 體形子空間中的模型匹配
選擇模型匹配模塊主要作用是,對應(yīng)于復(fù)雜視頻場景選擇最為合適的三維人體模型來跟蹤視頻,以有效地解決遮擋和多目標交錯等問題。研究的關(guān)鍵點有:①人體局部插值算法的建立;②建立從二維圖像生成三維人體模型的數(shù)學模型。
2.2.2 運動子空間中的人體運動視頻跟蹤
本系統(tǒng)的一個重點就是如何在空間關(guān)系模型庫的支撐下完成運動子空間中的人體運動視頻跟蹤。人體運動是遵循運動學規(guī)律的,采用運動子空間來描述其反向運動學信息,然后把運動子空間作為運動捕捉的約束條件,以應(yīng)對復(fù)雜的視頻場景。研究的關(guān)鍵點為:①運動子空間的約束方程的建立;②動作庫模型投影與視頻序列匹配的約束方程的建立;③空間關(guān)系模型庫的約束方程的建立。
2.2.3 三維事件庫中的動作比對分類
人體運動比對分類是本文的另一個研究重點,其功能就是輸入一套人體運動數(shù)據(jù),然后在三維事件庫中進行動作比對分類,用來確定最相似的動作,以確定目標特點或分析事件性質(zhì)。
3 關(guān)鍵算法
3.1 體形子空間中的模型匹配
在跟蹤視頻人體運動時,首先根據(jù)空間序列模型庫合成與被跟蹤對象體形最為接近的三維人體模型。文獻[11]對人體模型進行了比較全面的研究,提出了在指定人體模型間線性插值的方法產(chǎn)生新的模型。本文拓展了文獻[11]的算法,其基本方案為:模型Mi可以表示為標準人體模型通過仿射變換獲得的結(jié)果,把仿射矩陣極分解(Polar Decomposition),對非旋轉(zhuǎn)部分可以直接采用線性插值,而對旋轉(zhuǎn)部分需要先對旋轉(zhuǎn)矩陣求對數(shù),然后對矩陣對數(shù)(Matrix Logarithm)線性插值,最后通過矩陣指數(shù)(Matrix Exponential)把疊加后的值映射回原來的坐標空間。通過這種方法可以在體形子空間上構(gòu)造一個函數(shù),M是空間序列模型庫中的模型集合{M1,…,Mn},ξ是參數(shù)向量{ξ1,…,ξn},ξi與Mi一一對應(yīng)。
為了確定參數(shù)ξ,需要對確定的模型與視頻圖像進行匹配。本文使用自底向上法(bottom-up)進行匹配。匹配之前需對空間序列模型庫中的模型按主要關(guān)節(jié)進行分解,采用SNAKE算法或人工分解,分解過程只需進行一次就可以反復(fù)使用。三維模型與圖像的匹配問題一直是計算機視覺領(lǐng)域一個富有挑戰(zhàn)性的話題,可以把此問題歸結(jié)為一個高維空間中的帶約束的數(shù)值優(yōu)化問題。本文通過輪廓匹配(圖3a)與邊界匹配(圖3b)來完成三維模型選擇。匹配計算時,各三維模型子塊只做剛體運動。
為了提高算法可靠性,需要在開始的多幀視頻圖像中進行模型匹配,為此設(shè)計了公式(1)表示的數(shù)學模型,其中有三個約束項,通過求取三個約束項線性組合的最優(yōu)參數(shù)合成最匹配的三維人體數(shù)學模型。
⑴
其中P為投影矩陣;parti為獲取人體模型第i部分的函數(shù);T為仿射變換矩陣,不同部分的人體模型對應(yīng)不同的Ti;j表示第j幀視頻圖像;SVideo是視頻圖像輪廓;E是求取三維模型透影邊界的函數(shù),Evideo是視頻圖像邊界;V是三維人體模型頂點;C1是輪廓約束的簡化表達式;C2是邊界約束的簡化表達式;C3保證各人體模型子塊剛體運動。k1、k2和k3是權(quán)重系數(shù),可以調(diào)整各約束條件所起的作用。求取ξ*后,就是所需要的結(jié)果。
3.2 運動子空間中的人體運動視頻跟蹤
對于有瑕疵的視頻圖像,可以先進行圖像變形矯正、運動模糊去除和去霧處理。在跟蹤過程中有三組約束,第一組約束就是運動子空間的約束,結(jié)合前期工作,提出如下數(shù)學模型:
其中ROI(k)表示第k個感興趣區(qū)域(ROI);R為三維人體模型中ROI的數(shù)量;V與為變形前后的頂點坐標,變形后的人體模型是的函數(shù),記為;N(i)是頂點Vi相鄰頂點的集合;Gi是對應(yīng)于頂點Vi的仿射變換矩陣,它的合成需要先把仿射矩陣的旋轉(zhuǎn)部分從全旋轉(zhuǎn)群SO(3)映射到Lie代數(shù)空間so(3)上,在so(3)上進行線性疊加,然后映射回SO(3)空間,對非旋轉(zhuǎn)部分,直接進行線性疊加,最后兩者相乘:
其中L(l1,…,lt)是運動子空間中的系數(shù)向量;Q是指仿射矩陣的旋轉(zhuǎn)部分,U是指非旋轉(zhuǎn)部分,Exp和Log分別是矩陣指數(shù)和對數(shù)函數(shù)。
第二組約束是動作庫模型投影與視頻序列匹配的約束。具體跟蹤以跟蹤片斷(Tracklet) (圖4a)為單位,每個Tracklet包含n幀,n的值需要在研究中確定。在進行下一步處理前,使用三維智能剪刀獲得一個時空體(Space Time Volume,圖4c),三維智能剪刀是在文獻[8]基礎(chǔ)上拓展出來的。除了采用輪廓匹配和邊界匹配外,還采用3D SIFT(Scale Invariant Feature Transform)特征匹配。輪廓匹配和邊界匹配概念的表達式不同,即式(4)的C5和C6。3D SIFT匹配首先需要在視頻圖像上計算出所有3D SIFT特征,如圖4b的d就是一個3D SIFT;然后要把d和三維人體模型頂點進行匹配。具體過程如下:對第j幀的d,找出離其最近的第j-1幀三維人體模型投影點u,而u是由三維頂點V投影產(chǎn)生,這樣就把d和V關(guān)聯(lián)起來。這樣,對第j幀上的所有3D SIFT特征都可以找出對應(yīng)的三維頂點,可以寫出3D SIFT匹配的表達式C7。為保持跟蹤結(jié)果的連續(xù)性,還要使用C8約束。
第三組約束利用多目標間的空間關(guān)系來解決相互遮擋問題。如果其中一個角色被另外一個遮擋,可以把這種多目標間的空間聯(lián)系作為約束條件來輔助視頻跟蹤。多目標空間關(guān)系的約束可以用下式表示:
其中Mi是對應(yīng)于頂點Vi的仿射變換矩陣。其余符號與C4類似。聯(lián)立C4~ C9,可以得到公式(2),其中k1~k6為權(quán)重系數(shù)。
⑵
3.3 三維事件庫中的動作比對分類
三維事件庫中的人體運動是使用標準三維人體存儲的,而用于匹配的人體運動也是用標準三維人體模型表示的。經(jīng)過前期探索,提出了基于三維時空子空間的人體運動比對分類方案:
記待檢索人體運動為,其中Fj表示第j幀三維模型,共L幀,是對應(yīng)各幀的時鐘數(shù)據(jù);類似的,可以用和表述三維事件庫中的第i套人體運動,共p(i)幀。對于Fj,第k個頂點相對于初始位置的仿射變換矩陣記為;同樣,對于,對應(yīng)其第i套動作的仿射變換矩陣可以標記為的形式。
Fl在中匹配的數(shù)學模型為:
其中λ是對應(yīng)于的系數(shù);n為標準三維人體模型的頂點數(shù);k1和k2為權(quán)重系數(shù),用于調(diào)整子項的權(quán)重。計算出λ*后,需要找出其中的最大值:,然后設(shè)立閾值α>0,如 則表示匹配,形成匹配對。
4 實驗結(jié)果與分析
本文使用Visual C++實現(xiàn)了系統(tǒng)初步框架。在體型庫中,以浙江警察學院普通學生為藍本,建立男和女兩個模型,在動作庫中,建立了走、跑、跳、蹲幾個動作。在此基礎(chǔ)上,針對簡單背景的20段視頻進行了測試,識別率為80%,在Intel i5 CPU和4G內(nèi)存的普通PC機上平均耗時100秒鐘。初步實驗表明,本文提出系統(tǒng)是可行的。
5 結(jié)束語
本文是涉及圖形學、視頻處理技術(shù)和刑事技術(shù)的交叉性課題,不僅在學術(shù)上有諸多閃光點,而且為智能視頻偵查在刑事偵查和治安管理等方面的應(yīng)用打下了良好的理論基礎(chǔ)。主要創(chuàng)新與特色之處有以下。
5.1 從方法層面看
通過三維時空子空間,把三維圖形學的理論和方法引入到了視頻處理中,為處理視頻偵查難題提供了新的渠道,可以有效地克服視頻數(shù)據(jù)結(jié)構(gòu)性差和缺乏特征信息等弱點,促進了智能視頻偵查技術(shù)的發(fā)展和完善。
5.2 從技術(shù)層面看
提出了基于體形子空間的二維監(jiān)控目標與三維模型匹配的三維重建算法。在三維人體模型局部參數(shù)化以后,可以根據(jù)二維體形生成最為匹配的三維模型。
結(jié)合3D SIFT圖像特征和三維運動子空間以及空間關(guān)系模型庫中的引導(dǎo)信息,提出了新的運動跟蹤算法,對動作進行預(yù)測,并處理遮擋問題,可以應(yīng)對復(fù)雜場景的運動跟蹤。
參考文獻(References):
[1] WITOLD C, Real-Time Image Segmentation for Visual Serving[J]. Lecture Notes in Computer Science,2007.4432:633-640
[2] MARC DAVIS, CHITRA DORAI, FRANK NACK, Understanding Media Semantics[C].The 11th Tutorial Program of the 11th ACM International Conference on Multimedia. Berkeley, CA,USA,Nov 2003.
[3] LIU F, ZHUANG Y, WU E, et al. 3D motion retrieval withmotion Index tree[J]. Computer Vision and Image Understanding,2003.92(2-3):265-284
[4] 盧滌非,任文華,李國軍等.基于樣例的交互式三維動畫的生成[J].計算機研究與發(fā)展,2010.47(1):62-71
[5] DIFEI LU, XIUZI YE, GUOMIN ZHOU, Animating byexample[J]. Journal of Visualization and Computer Animation,2007.18(4-5):247-257
[6] DIFEI LU, YING ZHANG, XIUZI YE. A New Method ofInteractive Marker-Driven Free form Mesh Deformation[C]. GMAI 2006:127-134
[7] DIFEI LU, XIUZI YE, Sketch Based 3D Animation Copy[C].ICAT 2006:474-485
[8] LU DIFEI,WU YIN, HARRIS GORDON et al. Iterativemesh transformation for 3D segmentation of livers with cancers in CT images, Computerized medical imaging and graphics,2015.43:1-14
[9] GROCHOW K, MARTIN SL, HERTZMANN A, et al.Style-based inverse kinematics[J]. ACM Trans. Graph,2004.23(3):522-531
[10] SUMMER RW, ZWICKER M, GOTSMAN C, et al.Mesh-based inverse kinematics[J]. ACM Trans. Graph,2005.24(3):488-495
[11] ALLEN B, The space of human body shapes:reconstruction and parameterization from range scans[C]. SIGGRAPH '2003. ACM, New York, NY, 587-594
[12] BAI X,. Video SnapCut: robust video object cutout usinglocalized classifiers[C]. In ACM SIGGRAPH 2009 Papers. H. Hoppe, Ed. SIGGRAPH '09. ACM, NY, 1-11
[13] http://www.cise.ufl.edu/research/sparse/umfpack/[OL].