王新宇,諶 達,馮 輝,楊 濤,胡 波, 2
(1. 復旦大學 電子工程系,上海 200433; 2. 復旦大學 電磁波信息科學教育部重點實驗室,上海 200433)
?
基于目標檢測及高密度軌跡的動作識別
王新宇1,諶達1,馮輝1,楊濤1,胡波1, 2
(1. 復旦大學 電子工程系,上海 200433; 2. 復旦大學 電磁波信息科學教育部重點實驗室,上海 200433)
為了實現(xiàn)準確的動作識別效果,我們通常需要提取能夠充分代表運動特征的信息。近年來,基于高密度軌跡的動作識別方法因為能夠提供豐富的時空信息而受到研究者們的廣泛關注。但高密度軌跡類的動作識別算法通常都要面臨背景冗余信息干擾的問題,為了解決這一問題,本文在高密度軌跡的動作識別方法基礎上引入了目標檢測算法,通過可變形塊模型方法檢測運動主體位置后計算其周圍的高密度軌跡,有效地排除了背景冗余信息的干擾。而目標檢測算法通常要面臨丟幀問題,為了應對這一情況,本文采用了詞袋模型和支持向量機進行動作特征表述和分類,詞袋模型根據大量數據詞頻構建特征描述符的工作原理,使得目標檢測偶有丟幀的情況并不影響動作識別的最終效果,結合高密度軌跡算法后有效地提高了傳統(tǒng)高密度軌跡算法的效率,也獲得了更為準確的識別效果。本文算法在KTH, UCF YouTube和UCF Sports數據集上較當前算法都取得了更高的動作識別準確率,尤其在復雜背景數據集UCF YouTube和UCF Sports上識別準確率分別可達89.2%和90.2%。
目標檢測; 高密度軌跡; 可變形塊模型; 動作識別
動作識別因廣泛應用于視頻監(jiān)控、視頻檢索、人機交互、虛擬現(xiàn)實、運動分析、智能家居等領域,一直以來都是計算機視覺領域的研究熱點。但由于人體動作本身具有較大自由度,同時存在類內和類間差異,也因運動主體速度和頻率各異[1],同時動作識別易受到遮擋和自遮擋、視角和尺度變化、光照變化、復雜背景、相機移動等多重因素影響[2],致使該領域研究仍然頗具挑戰(zhàn)性。
我們研究的動作通常指人在完成某個特定任務時的運動序列,而從計算機視覺角度來看,動作識別就是將輸入視頻序列賦予正確標簽、歸入正確分類集的過程[3]。根據文獻[1,3-9]對于動作識別研究領域的梳理和分析,依照特征描述方法的特點,動作識別算法主要可以分為以下3類: 全局特征方法、局部特征方法和混合特征方法。
全局特征方法一般是指以整幀圖像或者整個視頻為單位提取特征進行描述的方法。這類特征通常通過人體邊界或輪廓檢測得到運動主體位置,然后基于全局光流、全局梯度直方圖等方式描述特征。整體來講,基于全局特征的方法通常都包含了豐富的時空信息,但這類方法也都是基于前景和背景有良好分割或者目標能夠被穩(wěn)定跟蹤的前提假設,同樣也容易受到遮擋或尺度變換的影響。由于對于遮擋具有更好的魯棒性,基于局部特征的方法也頗受研究者關注。其中最經典的實現(xiàn)框架就是通過時空興趣點檢測獲取局部特征,然后構造詞袋(Bag of Words, BoW)模型進行動作分類和識別,興趣點檢測通常采用Harris角點、SIFT算子等方法。整體而言,基于局部特征的方法通常能夠解決遮擋問題,但這類方法也容易忽略運動過程中的時間信息和結構關系,關鍵信息的缺失使得基于局部特征的動作識別方法仍然具有局限性。
由于單獨采用全局特征或者局部特征描述運動都具有局限性,近年來越來越多的研究人員開始采用基于混合特征的方法進行動作識別?;旌咸卣鞣椒]有一個嚴格的定義,通常是在全局特征的框架下構建局部特征描述符,或者聯(lián)合全局和局部特征構建表述二者之間關聯(lián)性的特征描述符,例如文獻[10]將高密度軌跡聚類成為子運動塊,然后用圖模型刻畫運動塊之間的關系。高密度軌跡(Dense Trajectory)是混合特征方法的一個典型代表,最初由文獻[11]在2011年提出,主要靈感來自于圖像分類領域中的高密度采樣(dense sampling)。但在文獻[11]提出的方法中,相機移動和復雜背景因素帶來的影響可能會累積誤差甚至導致識別失敗。因此文獻[12]提出從高密度軌跡中選取部分軌跡,再重構成新的有序軌跡(ordered trajectory)的方法來解決上述問題。文獻[13]在無監(jiān)督條件下識別局部運動,采用多核方法提升動作識別效果。文獻[14]基于高密度軌跡提出了一種新的時空不變特征池的方法,并證明了該方法相比于文獻[12]提出的有序軌跡方法和文獻[13]提出的局部運動方法取得了更好效果。事實上,查閱近幾年發(fā)表的動作識別領域文章就不難看出,以高密度軌跡為代表的混合特征方法,正在逐漸取代單獨采用全局特征或局部特征的方法,成為動作識別研究領域的新趨勢。
本文提出了一種基于運動目標檢測和高密度軌跡的動作識別方法。這種方法首先通過運動目標檢測算法獲取每一幀圖像中運動主體位置信息,然后針對運動主體計算高密度軌跡,并在軌跡周圍采用方向梯度直方圖(Histogram of Oriented Gradient, HOG)刻畫形狀信息,利用光流直方圖(Histogram of Optical Flow, HOF)和運動邊界直方圖(Motion Boundary Histogram, MBH)表征運動信息,用軌跡形狀描述運動的時空關系和結構信息。之后采用詞袋模型構建完整的特征描述符,利用支持向量機(Support Vector Machines, SVM)進行動作識別。
提到動作識別,從人類大腦識別動作的角度出發(fā),描述運動最直觀的方法就是直接利用運動軌跡表述運動。早在1973年就有研究[15]表明,人類大腦不需要通過觀察完整的人體運動,只觀察人體重要部位標記的光點移動軌跡,就可以判斷和識別動作。受到這一想法的啟發(fā),研究者們對基于二維稀疏軌跡[16]表述的動作識別進行了充分的研究。但基于二維稀疏軌跡的動作識別方法都無法很好地解決遮擋和人體自遮擋帶來的不能獲得連續(xù)穩(wěn)定軌跡的問題,直到2011年文獻[11]提出高密度軌跡方法才從根本上解決了稀疏軌跡的固有問題。
本文正是基于高密度軌跡的方法,從最直觀的軌跡角度出發(fā)進行動作識別。而高密度軌跡方法普遍面臨冗余背景信息干擾的問題,為了解決這一問題,本文采用基于可變形塊模型(Deformable Part-based Model, DPM)[17]在輸入視頻序列的每一幀中進行人體目標檢測,獲得人體邊界框(bounding box),在每一幀人體邊界框范圍內計算高密度軌跡。
有研究[18]表明,人的大腦視覺皮層存在兩個分別用于感知運動與形狀的區(qū)域,兩個區(qū)域神經元的共同響應傳送到大腦進行協(xié)同處理,完成人腦動作識別過程。因此在計算得到人體邊界框內高密度軌跡之后,本文對每一個動作序列同時提取表示運動信息的運動描述符和代表形狀信息的形狀描述符。本文形狀描述符采用方向梯度直方圖,運動描述符利用光流直方圖和運動邊界直方圖,與此同時還用軌跡形狀刻畫運動的時空關系和結構信息。
在高密度軌跡基礎上引入目標檢測算法時同樣也要面臨目標檢測丟幀問題,為了解決這一問題,本文在得到運動描述符和形狀描述符后采用詞袋模型對運動特征進行總體表示。對于所有訓練視頻提取的特征描述符采用k-means聚類構建一個400維的碼本,再將每一個視頻的特征映射到碼本上得到最終的特征直方圖。詞袋模型詞頻映射的工作原理自然地避免了目標檢測偶有丟幀帶來的問題,使其完全不影響動作識別的效果。最后利用支持向量機進行動作模型的學習和分類。本文采用的動作識別系統(tǒng)框架如圖1(見第444頁)所示。
2.1運動目標檢測
本文采用文獻[17]提出的基于多尺度可變形塊混合模型的方法實現(xiàn)人體邊界框檢測,這一模型適合對于具有極高自由度的人體目標進行檢測。該方法主要基于圖形結構(pictorial structures)[19]框架,將一個檢測目標表示為可變形塊的組合,每個塊表示目標的一個局部形狀特征。可變形塊模型在Dalal-Triggs檢測子[20]基礎上引入了星狀塊模型結構,該模型由一個類似Dalal-Triggs濾波器的根濾波器加上一系列塊濾波器組成。
Dalal-Triggs檢測子對HOG特征進行濾波區(qū)分物體類別,它采用滑窗方法將濾波器應用于一幅圖的所有位置和尺度,可以看作是一個輸入為一幅圖、圖上位置和對應尺度的分類器。因為該模型是一個簡單濾波器,所以我們可以計算得到一個得分w·φ(x),其中w是濾波器,x是在特定位置和尺度下的圖像,φ(x)是特征向量。而星狀塊模型的得分是在給定位置和尺度下,根濾波器得分加上塊濾波器相關分數之和,再減去衡量塊實際位置與相對于根理想位置偏差的變形代價。
訓練只有部分標記數據的模型,采用隱支持向量機(Latent SVM, LSVM)方法。在隱支持向量機中,每一個樣本x評分如下:
(1)
其中:w是模型參數向量;z是隱變量;φ(x,z)是特征向量。在星狀塊模型中,w是根濾波器、塊濾波器和變形代價權重的級聯(lián),z是目標結構,φ(x,z)是特征金字塔和塊變形特征子窗的級聯(lián)。在混合星狀塊模型中,某一特定位置和尺度下,混合模型的得分等于其子模型的最高分。
模型中,每個濾波器都可以看作是一個由d維權重向量數組定義的矩形模板,濾波器R在特征圖G上(x,y)位置的響應或得分由濾波器與左上角在(x,y)位置的特征圖的子窗的點乘定義:
∑x′,y′R[x′,y′]·G[x+x′,y+y′].
(2)
采用特征金字塔方法實現(xiàn)一幅圖不同位置和尺度的計算,通過重復平滑和子采樣計算特征金字塔,然后在圖金字塔每個尺度上計算特征圖。
星狀模型中根濾波器采用可以覆蓋整個目標的濾波器,塊濾波器采用2倍根濾波器的分辨率對目標細節(jié)進行采樣。更精細分辨率的塊濾波器對于識別準確率有重要意義,例如想要識別一個人體目標時,根濾波器主要目的是找到人的大體位置和輪廓,而塊濾波器可以更加精細地描述人的四肢、軀干、頭等局部特征。一個由n個塊組成的模型可以由一個n+2維向量(R0,P1,P2,…,Pn,b)表示,其中R0是根濾波器,Pi是第i個塊模型,b是一個偏置項。每一個塊模型可以表示為(Ri,li,di),其中Ri是第i個塊濾波器,li是一個表示第i塊與根相對位置的2維向量,di是一個表示塊相對于根每個可能位置對應的二次代價函數系數的4維向量。一個假設的得分表示為每個濾波器在對應位置得分,減去一個取決于每個塊與根之間相對位置的可變形代價,再加上一個偏置項:
(3)
其中
(dxi,dyi)=(xi,yi)-(2(x0,y0)+li),
(4)
φd(dx,dy)=(dx,dy,dx2,dy2).
(5)
(4)式表示第i個塊相對于根的位置偏差,(5)式是變形特征,M是特征金字塔。
z的得分可以表示為w·ψ(M,z),即模型參數w向量與ψ(M,z)向量的點乘,其中:
w=(R′0,R′1,…,R′n;d1,d2,…,dn;b),
(6)
ψ(M,z)=(φ(M,p0),φ(M,p1),…,φ(M,pn);-φd(dx1,dy1),
-φd(dx2,dy2),…,-φd(dxn,dyn);1).
(7)
這體現(xiàn)了可變形塊模型與線性分類器之間的關聯(lián),利用這種關系可以在LSVM框架下學習模型參數。
一個由m個元素組成的混合模型可以表示為M=(M1,M2,…,Mm),其中Mi表示模型中第i個元素?;旌夏P偷囊粋€目標假設對應混合模型中某個元素i和Mi中每個濾波器位置,即z=(i,p0,p1,…,pni),其中ni是Mi中塊的個數。這個z的得分就是第i個模型元素z′=(p0,p1,…,pni)的得分。當模型是只有1個元素時,混合模型中z的得分就可以表示為模型參數w和向量ψ(M,z)的點乘;而當混合模型中元素多于1個時,向量w是每個模型元素參數向量的級聯(lián),向量ψ(M,z)是由稀疏的、非零的元素組成,這些元素由與w中wi的間隔相同的ψ(M,z′)定義:
w=(w1,w2,…,wm),
(8)
ψ(M,z)=(0,0,…,0,ψ(M,z′),0,0,…,0).
(9)
在這個結構中,w·ψ(M,z)=wi·ψ(M,z′)。
用混合模型進行目標檢測時采用如上匹配算法,找到每個模型元素獨立產生最高得分的目標假設的根位置??勺冃螇K模型進行人體目標檢測效果如圖2所示: 其中(a)列是原始圖像;(b)列兩幅圖中最大的紅色框是混合模型根濾波器的效果示意,找到運動主體大致位置,而目標范圍內一系列藍色小框是不同塊濾波器的效果示意;(c)列是未加入運動目標檢測前高密度軌跡效果,由于相機移動、復雜背景等原因整個畫面都有軌跡覆蓋;(d)列是本文算法高密度軌跡效果,即加入了可變形塊模型運動目標檢測過程之后,不難看出軌跡主要覆蓋運動目標主體,有效消除了相機移動等因素引入的大面積背景冗余軌跡。
2.2動作特征表示
當輸入視頻每一幀都經過運動目標檢測獲得人體邊界框后,在此目標區(qū)域內采集人體運動的高密度軌跡。采集高密度軌跡時,我們采用文獻[11]提出的算法,對于每個特征點都在其周圍W×W范圍內進行采樣,之后在不同尺度下跟蹤這些采樣點以獲得軌跡(通常W=5時就可以獲得密度足夠大的軌跡)。第t幀的點Pt=(xt,yt)在高密度光流場ω=(ut,vt)中通過中值濾波得到第t+1幀的位置:
(10)
通常在圖像同質化嚴重的區(qū)域不可能得到跟蹤軌跡,這種情況下我們計算得到采樣點自相關矩陣最小的特征值,當它小于某一閾值的時候就舍棄該采樣點。與此同時,軌跡有很大位移突變的情況有違牛頓運動物理定律,也舍棄這些異樣點。軌跡的形狀可以表示局部運動特征,用位移序列S=(ΔPt,ΔPt+1,…,ΔPt+L-1)表示一條長度為L的軌跡,其中ΔPt=(Pt+1-Pt)=(xt+1-xt,yt+1-yt),得到的結果再進行歸一化處理,就可以得到形狀描述符當中的軌跡形狀描述符。
為了得到完整的形狀描述符和運動描述符,我們在軌跡周圍構建一個N×N×L的時空體(圖3)。在此基礎上再將此時空體切成一些nσ×nσ×nτ的子時空體(通常取N=32,nσ=2 nτ=3)。在每個子時空體中,沿著軌跡計算方向梯度直方圖HOG作為形狀描述符,計算光流直方圖HOF作為運動描述符。其中光流計算的是絕對運動,因此必然包含了相機運動,文獻[21]提出的MBH特征在光流的水平和垂直兩個方向分別求導,可以刻畫像素之間的相對運動,消除相機運動等背景運動帶來的影響,因此我們在運動描述符當中加入MBH特征。
總結來說,在高密度軌跡周圍的子時空體中,采集HOG和軌跡形狀作為形狀描述符,利用HOF和MBH作為運動描述符。聯(lián)合運動描述符和形狀描述符共同刻畫運動特征。
2.3動作分類
在計算得到運動描述符和形狀描述符后,本文采用詞袋模型和支持向量機進行動作特征的理解和分類。詞袋模型非常適合對高密度軌跡采樣得到的高維特征描述符進行表述和分類,同時由于詞袋模型的特性,對于目標檢測算法可能出現(xiàn)的個別幀檢測失敗的情況也有很好的魯棒性,不會因此影響識別的準確率。首先,對于每個特征描述符分別單獨構建一個碼本。綜合考量算法效率和準確性,通過實驗我們發(fā)現(xiàn),本文使用的特征描述符在碼本中單詞(visual words)的數量達到400時就可以很好地進行動作分類,因此我們對訓練集中所有視頻的特征描述符進行k-means聚類(k=400)得到向量維度為400的碼本。得到碼本后對每個視頻的特征描述符進行映射,將特征描述符中每一個元素利用歐氏距離映射到碼本中最近的單詞上,因此每個視頻都可以用一個400維的向量進行重新表示,向量的每一個元素表示了特征描述符的詞頻。新生成的400維詞頻直方圖就是視頻描述符,而對于視頻描述符的分類,本文采用了直方圖正交核(histogram intersection kernel)的支持向量機[22]方法。
3.1動作數據集
為了便于與文獻[11]的識別結果進行對比,本文采用了在動作識別領域廣為應用的KTH、UCF YouTube和UCF Sports動作數據集進行算法效果的檢驗。
KTH數據集[23]包含6種不同的人體動作: 行走(walking)、慢跑(jogging)、快跑(running)、拳擊(boxing)、揮手(waving)和拍手(clapping)。每個動作由25個不同的人分別在室外、室內、室外尺度變化、室外著裝變化4種場景下完成,大多數場景下視頻背景是同質且靜止的。本文與文獻[11]采用相同設置,利用編號2、3、5、6、7、8、9、10和22共9個人的視頻作為測試集,其余16個人的視頻作為訓練集,即訓練集和測試集視頻數量比例近似2: 1。
UCF YouTube數據集[24]包含11種不同的人體動作: 投籃(basketball shooting)、騎車(biking)、跳水(diving)、高爾夫(golf swinging)、騎馬(horse riding)、顛足球(soccer juggling)、蕩秋千(swinging)、打網球(tennis swinging)、跳蹦床(trampoline jumping)、打排球(volleyball spiking)和遛狗(walking with a dog)。由于該數據集視頻來自視頻網站YouTube,多數為手持設備拍攝,因此具有很大的相機移動。同時在運動目標外觀、姿態(tài)、尺度、視角、光照條件和復雜背景等因素的干擾下,該數據集十分具有挑戰(zhàn)性。相比于文獻[11]采用的留一交叉驗證法設置,本文采用了與KTH相同的訓練集和測試集視頻數量比例2∶1的設置,條件更為嚴苛。
UCF Sports數據集[31]包含10種不同的動作: 鞍馬(swinging on the pommel horse)、跳水(diving)、踢球(kicking)、舉重(weight-lifting)、騎馬(horse-riding)、跑步(running)、滑板(skateboarding)、單杠(swinging at the high bar)、高爾夫(golf swinging)和走路(walking)。該數據集由150段具有較大類內差異的視頻組成,同時在視角、尺度、背景等方面都頗具挑戰(zhàn)性。相比于文獻[11]在此數據集上采用的留一交叉驗證法設置,本文采取了與UCF YouTube數據集相同的設置,條件更加苛刻。
3.2結果
本文對于軌跡形狀描述符(Trajectory)、方向梯度直方圖(HOG)、光流直方圖(HOF)和運動邊界直方圖(MBH)四種描述符在KTH、UCF YouTube和UCF Sports 3個數據集上分別進行了識別準確率(η)測試,并與文獻[11]測試結果進行了比較。在實驗設置上,本文將詞袋模型字典的維度設置為400,而文獻[11]的對應參數設置為4000。聚類成400個類別比聚類成4000個類別要節(jié)省很多時間,而這一部分也是整個算法中比較耗時的部分,因此在構建碼本部分本文比文獻[11]更為高效。此外,由于本文在高密度軌跡的基礎上引入了目標檢測算法,高密度軌跡的數目只有文獻[11]的5.3%~34.0%(表1),也在很大程度上提高了算法效率。
表1 本文算法與文獻[11]采樣軌跡數目比較
對于KTH數據集,本文的訓練集和測試集采用了與文獻[11]相同的設置,即訓練集和測試集視頻數量比例近似2∶1。在實驗條件完全相同的情況下,本文在Trajectory和HOF兩個描述符上較文獻[11]取得了更高的準確率,而HOG和MBH兩個描述符準確率與文獻[11]基本相仿,略低0.1%~0.3%。因為KTH數據集大多數視頻背景是同質化且靜止的,相對來講基本沒有背景冗余信息的干擾,因此本文引入目標檢測算法帶來的準確率提升效果并不明顯,但在算法識別效率上有明顯提升。
對于UCF YouTube和UCF Sports數據集,文獻[11]采用了留一交叉驗證法的實驗設置,即將一個視頻作為測試集,其他視頻全部作為訓練集,如此循環(huán)直至所有視頻都做過測試集為止。而本文采用了與KTH一樣的訓練集和測試集視頻數量比例2∶1的實驗設置,相比于留一交叉驗證法,因為訓練視頻數量更少,這樣的設置無疑是更加苛刻的。而就在更為苛刻的條件下,本文在四種描述符上依然全部比文獻[11]取得了更高的識別準確率(表2),UCF YouTube準確率提升達1.3%~14.7%,UCF Sports準確率提升達3.2%~5.4%。由于UCF YouTube和UCF Sports數據集是在復雜背景下拍攝的,而且光照、視角、尺度等條件都更為復雜,因此在高密度軌跡基礎上引入目標檢測算法十分有效地去除了背景冗余信息帶來的干擾,提高了識別準確率,同時也比文獻[11]算法識別效率更高。
表2 KTH, UCF YouTube和UCF Sports數據集不同描述符動作識別準確率(η)比較
而在與最近幾年發(fā)表的動作識別算法文章進行比較時,本文依舊取得了更好的識別效果。
對于KTH數據集,文獻[13-14]都采用了高密度軌跡的方法,其中文獻[14]在高密度軌跡基礎上引入了一種時空不變特征池的方法來提升識別效率,而文獻[13]在無監(jiān)督條件下識別局部運動,采用多核方法提升動作識別效果。文獻[26]將體局部二進制模型與光流相結合提出了運動二進制模型的動作識別方法,而文獻[25]采用了神經網絡的方法進行動作識別。與2013—2015年間發(fā)表的這4種具有代表性的典型算法相比較,無論是同樣基于高密度軌跡的文獻[13-14],還是基于其他模型的文獻[25-26],本文都在KTH數據集取得了更加準確的識別效果(表3)。
對于UCF YouTube和UCF Sports數據集,本文選取了2011—2015年間發(fā)表的8篇文章進行比較。因為UCF YouTube和UCF Sports數據集本身受到運動目標外觀、姿態(tài)、尺度、視角、光照條件、復雜背景等多重因素的干擾,因此十分具有挑戰(zhàn)性。與近幾年采用此數據集進行測試的算法進行比較,在訓練集與測試集視頻數量2∶1的嚴苛條件下,對于挑戰(zhàn)性頗高的UCF YouTube數據集取得了89.2%的識別準確率,而對于UCF Sports數據集取得了90.2%的準確率,均超過現(xiàn)有算法。因此在背景更為復雜,條件更為苛刻的數據集上,本文算法對于動作識別準確率的提升效果更為明顯。
表3 KTH, UCF YouTube和UCF Sports數據集動作識別準確率(η)比較
本文提出了一種基于運動目標檢測和高密度軌跡的動作識別算法。首先,通過可變形塊模型方法對于輸入視頻每一幀進行運動目標檢測,獲取運動目標邊界框之后在其范圍內計算高密度軌跡。之后,在高密度軌跡周圍子時空體內分別計算表示形狀信息的方向梯度直方圖和表示運動信息的光流直方圖、運動邊界直方圖,同時用軌跡形狀描述符刻畫運動的時空關系和結構信息。接著,采用詞袋模型將特征描述符映射到400維的碼本上,構成新的視頻描述符。最后,用支持向量機進行動作模型的學習和分類。本文算法在簡單數據集KTH和復雜數據集UCF YouTube和UCF Sports上都取得了良好的識別效果,實驗結果充分證明了基于運動目標檢測和高密度軌跡的方法在動作識別領域的出色表現(xiàn)。目前,本文算法已經在工程項目中得到了實際應用(圖4),未來在本文研究基礎上,結合高密度軌跡描述符,將進一步探索目標檢測和目標跟蹤在動作識別領域的應用,融合目標跟蹤和動作識別過程,以期獲得更好的識別效果。
[1]POPPE R. A survey on vision-based human actionrecognition[J].ImageandVisionComputing,2010,28(6): 976-990.
[2]SADANAND S, CORSO JJ. Action bank: A high-level representation of activity in video[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE Press, 2012: 1234-1241.
[3]WEINLAND D, RONFARD R, BOYER E. A survey of vision-based methods for action representation, segmentation andrecognition[J].ComputerVisionandImageUnderstanding,2011,115(2): 224-241.
[4]AGGARWAL J K, CAI Q. Human motion analysis: A review[J].ComputerVisionandImageUnderstanding,1999,73(3): 428-440.
[5]AGGARWAL J K, PARK S. Human motion: Modeling and recognition of actions and interactions[C]∥Proceedings. 2nd International Symposium on 3D Data Processing, Visualization and Transmission, 2004. Thessaloniki, Greece: IEEE Press, 2004: 640-647.
[6]MOESLUND T B, HILTON A, KRUGER V. A survey of advances in vision-based human motion capture andanalysis[J].ComputerVisionandImageUnderstanding,2006,104(2): 90-126.
[7]CHENG G, WAN Y, SAUDAGAR A N, et al. Advances in Human Action Recognition: A Survey[J]. arXiv preprint arXiv: 1501.05964, 2015.
[8]RAMANATHAN M, YAU W Y, TEOH E K. Human action recognition with video data: Research and evaluationchallenges[J].IEEETransactionsonHuman-MachineSystems,2014,44(5): 650-663.
[9]BORGES P V K, CONCI N, CAVALLARO A. Video-based human behavior understanding: A survey[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2013,23(11): 1993-2008.
[10]RAPTIS M, KOKKINOS I, SOATTO S. Discovering discriminative action parts from mid-level video representations[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE Press, 2012: 1242-1249.
[11]WANG H, KLASER A, SCHMID C, et al. Action recognition by dense trajectories[C]∥2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE Press, 2011: 3169-3176.
[12]MURTHY O V R, GOECKE R. Ordered trajectories for large scale human action recognition[C]∥2013 IEEE International Conference on Computer Vision Workshops (ICCVW). Sydney, Australia: IEEE Press, 2013: 412-419.
[13]CHO J, LEE M, CHANG H J, et al. Robust action recognition using local motion and group sparsity[J].PatternRecognition,2014,47(5): 1813-1825.
[14]BALLAS N, YANG Y, LAN ZZ, et al. Space-time robust representation for action recognition[C]∥2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia: IEEE Press, 2013: 2704-2711.
[15]JOHANSSON G. Visual perception of biological motion and a model for itsanalysis[J].Attention,Perception&Psychophysics,1973,14(2): 201-211.
[16]YILMA A, SHAH M. Recognizing human actions in videos acquired by uncalibrated moving cameras[C]∥Tenth IEEE International Conference on Computer Vision, 2005. Beijing, China: IEEE Press, 2005,1: 150-157.
[17]FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-basedmodels[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(9): 1627-1645.
[18]GIESE M A, POGGIO T. Neural mechanisms for the recognition of biologicalmovements[J].NatureReviewsNeuroscience,2003,4(3): 179-192.
[19]FELZENSZWALB P F, HUTTENLOCHER D P. Pictorial structures for objectrecognition[J].InternationalJournalofComputerVision,2005,61(1): 55-79.
[20]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005. San Diego, USA: IEEE Press, 2005,1: 886-893.
[21]DALAL N, TRIGGS B, SCHMID C. Human detection using oriented histograms of flow and appearance[M]∥Computer Vision-ECCV 2006. Berlin Heidelberg, Graz, Austria: Springer, 2006: 428-441.
[22]LI P, MA J, GAO S. Actions in still web images: Visualization, detection andretrieval[M]∥Web-Age Information Management. Berlin Heidelberg: Springer, 2011: 302-313.
[23]SCHULDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]∥Proceedings of the 17th International Conference on Pattern Recognition, 2004. Cambridge, UK: IEEE Press, 2004,3: 32-36.
[24]LIU J, LUO J, SHAH M. Recognizing realistic actions from videos “in the wild”[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2009. Miami, USA: IEEE Press, 2009: 1996-2003.
[25]JI S, XU W, YANG M, et al. 3D convolutional neural networks for human actionrecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2013,35(1): 221-231.
[26]BAUMANN F, EHLERS A, ROSENHAHN B, et al. Recognizing human actions using novel space-time volume binary patterns[J].Neurocomputing, 2016,173(1): 54-63.
[27]ZHANG Y, LIU X, CHANG M C, et al.Spatio-temporal phrases for activity recognition[M]∥Computer Vision-ECCV 2012. Berlin Heidelberg, Firenze, Italy: Springer, 2012: 707-721.
[28]CHAKRABORTY B, HOLTE M B, MOESLUND T B, et al. Selective spatio-temporal interest points[J].ComputerVisionandImageUnderstanding,2012,116(3): 396-410.
[29]WANG Y, TIAN Y, SU L, et al. Detecting Rare Actions and Events from Surveillance Big Data with Bag of Dynamic Trajectories[C]∥2015 IEEE International Conference on Multimedia Big Data (BigMM). Beijing, China: IEEE Press, 2015: 128-135.
[30]ZHANG Z, LIU S, LIU S, et al. Human Action Recognition using Salient Region Detection in Complex Scenes[C]∥The Proceedings of the Third International Conference on Communications, Signal Processing, and Systems. Chengdu, China, Springer International Publishing, 2015: 565-572.
[31]RODRIGUEZ M D, AHMED J, SHAH M. Action mach a spatio-temporal maximum average correlation height filter for action recognition[C]∥Computer Vision and Pattern Recognition, 2008. Anchorage, USA: IEEE Press, 2008: 1-8.
[32]LE Q V, ZOU W Y, YEUNG S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]∥2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE Press, 2011: 3361-3368.
[33]JIANG Z, LIN Z, DAVIS L S. Recognizing human actions by learning and matching shape-motion prototype trees[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,34(3): 533-547.
[34]YANG Y, SALEEMI I, SHAH M. Discovering motion primitives for unsupervised grouping and one-shot learning of human actions, gestures, and expressions[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2013,35(7): 1635-1648.
[35]應銳,王新宇,馮輝,等.基于運動及形狀原語的人體動作識別[J].太赫茲科學與電子信息學報,2014,12(4): 572-578.
Action Recognition Based on Object Detection and Dense Trajectories
WANG Xinyu1, CHEN Da1, FENG Hui1, YANG Tao1, HU Bo1, 2
(1.DepartmentofElectronicEngineering,FudanUniversity,Shanghai200433,China; 2.KeyLaboratoryforInformationScienceofElectromagneticWaves,FudanUniversity,Shanghai200433,China)
For recognizing human actions in video sequences, it is necessary to extract sufficient information that can represent motion features. In recent years, researchers pay more attention on dense trajectories because of its rich spatio-temporal information. However, dense trajectories based action recognition algorithms are all faced with redundant background problem. To solve this problem, we involve object detection in dense trajectories algorithm, detect motion object location through deformable part-based model and calculate dense trajectories around the motion object, which suppresses redundant background effectively. However, object detection algorithms are usually faced with missing frames problem. To solve this problem, human actions are classified by the bag-of-words model and SVM approach. Bag-of-words model constructs feature descriptors with word frequency, which makes few frames missing in object detection not influence action recognition result. Involving object detection improves dense trajectories approach efficiency, which also improves action recognition accuracy. Our algorithm achieves superior results on the KTH, UCF YouTube and UCF Sports datasets compared to the state-of-the-art methods, especially outstanding 89.2% and 90.2% accuracy on complex background dataset UCF YouTube and UCF Sports respectively.
object detection; dense trajectories; deformable part-based model; action recognition
0427-7104(2016)04-0442-10
2015-09-25
教育部博士點基金(20120071110028)
王新宇(1989—),男,碩士研究生;胡波,男,教授,通訊聯(lián)系人,E-mail: bohu@fudan.edu.cn.
TP 391.4
A