国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人體行為識別特征提取方法綜述

2020-11-17 03:30:06張會珍劉云麟任偉建1b劉欣瑜
吉林大學學報(信息科學版) 2020年3期
關鍵詞:時空軌跡人體

張會珍, 劉云麟, 任偉建,1b, 劉欣瑜

(1.東北石油大學a.電氣信息工程學院; b.黑龍江省網(wǎng)絡化與智能控制重點實驗室, 黑龍江大慶163318;2.中國石化銷售股份有限公司上海石油分公司 信息管理處, 上海200002)

0 引 言

多媒體信息(尤其是視覺信息)在如今網(wǎng)絡和電子視頻設備快速發(fā)展并普及的時代, 不斷滲透到人類生活的各個領域, 已逐漸成為信息交互的主要載體。 計算機視覺應運而生, 目的是希望計算機獲得與人相似的視覺感知能力, 其最吸引人的一面是能從圖像或視頻中獲取外部信息的描述。 由于大多數(shù)視頻記錄的都是作為組成社會活動主要部分的人類的活動, 由此衍生出了行為識別這個備受重視的研究方向。該方向在例如智能視頻監(jiān)控[1]、 醫(yī)療診斷監(jiān)護[2]、 智能人機交互[3]和身份識別等[4]領域中具有廣泛的應用。 基于視覺的人體行為識別主要是為了解決原始圖像和圖像序列數(shù)據(jù)的處理分析問題, 這些圖像通常是計算機通過傳感器(攝像機)采集的, 同時該方法還能學習并理解其中人的動作和行為[5]。 人類行為識別涵蓋了計算機視覺中的許多研究課題, 包括視頻中的人體檢測、 姿態(tài)估計、 跟蹤以及對時間序列數(shù)據(jù)的分析和理解。 識別過程主要分為以下3 部分[6]: 1) 在視頻幀中檢測運動信息并提取底層特征;2) 對行為模式進行建模研究; 3) 建立動作行為類別與底層視覺特征等高層語義信息間的對應關系。近年來, 該領域得到了廣泛的關注與研究, 例如IJCV( International Journal of Computer Vision)、 CVIU(Computer Vision and Image Understanding)、 PAMI(Pattern Analysis and Machine Intelligence)等國際知名期刊以及ICCV( IEEE International Conference on Computer Vision)、 CVPRI ( EEE Conference on Computer Vision and Pattern Recognition)和ECCV(European Conference on Computer Vision)等重要學術會議都將人類行為識別與理解作為一個重要的研究課題[6]。

隨著人體行為識別領域的發(fā)展和研究任務的深入, 從最初在受限條件下只能識別簡單的單體動作到如今在真實自然場景下的復雜群體行為識別, 無論對信息采集設備或算法能力上都提出了嚴峻的挑戰(zhàn)。而特征提取作為行為識別過程的重要環(huán)節(jié), 提取結果的好壞在很大程度上影響著行為識別效果的實時性與準確性。 特征提取作為計算機視覺和機器學習領域中的經典問題, 與圖像空間中的特征提取不同, 視頻中人類動作的特征表示不僅描述了人在圖像空間中的形態(tài), 而且必須將人的外貌以及姿態(tài)變化提取出來, 將特征提取問題從二維空間擴展到三維時空, 大大增加了行為方式表達及后續(xù)識別任務的復雜程度, 與此同時也為視覺研究者在解決思想和技術方法方面拓寬了思路[4,7]。 人體特征是指從視頻序列底層提取出可以對目標行為進行表征的信息[8], 比如顏色、 輪廓、 紋理、 深度, 或是人體運動方向、 速度、軌跡以及時空興趣點和時空上下文等。

筆者旨在從不同類型行為識別特征的角度、 常用的行為數(shù)據(jù)集等方面論述目前該領域的研究現(xiàn)狀,探討研究難點并闡述未來可能的發(fā)展方向。

1 特征提取

特征提取旨在從底層數(shù)據(jù)抽取部分具有代表性的特征信息對人體動作進行表征。 特征提取的好壞直接影響識別方法的精確度和魯棒性, 從原始視頻序列中提取具有較強表征能力的行為特征一直是行為識別領域的一個研究難點。

1.1 外觀形狀特征

外觀形狀特征一般包括運動物體的大小、 側影輪廓、 顏色、 緊密度和深度等, 這些特征在行為識別中由于能較好地表征人體行為細節(jié), 因此被廣泛采用。

Bobick 等[9]最早采用輪廓描述人體的運動信息, 在其方法中, 首先采用背景減法, 然后將一系列的背景減法塊聚合到單個靜態(tài)圖像中,并提出了兩種聚合方法—— 第1 種方法對序列中的所有圖像給予同等的權重, 從而產生了一種稱為 “運動能量圖像”(MEI: Motion Energy Image)的表示, 其可以指示運動在哪些部位發(fā)生過; 第2 種方法對序列中的圖像給出衰減的權重, 給新幀賦予更高的權重、 舊幀賦予較低的權重, 被稱為“動態(tài)歷史圖像”(MHI: Motion History Image), 其可以表征人體在一個動作過程中最近的動作情況。 Sahoo 等[10]提出了一種基于MHI 的興趣點細化算法去除噪聲興趣點, 將方向梯度直方圖和光流直方圖技術從空間擴展到時空域保存時間信息。 Khan 等[11]針對動作識別的表示通常只使用形狀特征而忽略顏色特征的問題, 受到顏色在圖像分類和目標檢測方面的成功啟發(fā), 研究了顏色在靜態(tài)圖像中用于動作分類和檢測的潛力, 并對顏色描述符和動作識別的融合方法進行了綜合評價, 實驗表明, 顏色和形狀信息的后期融合在動作識別方面優(yōu)于其他方法, 同時給出不同的顏色形狀融合方法會產生互補的信息, 并將其進行組合, 從而獲得先進的動作分類性能。 Elmezain 等[12]提出了一種基于亮度不變顏色和自適應高斯混合的背景建模方法, 能自適應地建立和更新具有顏色不變性假設的陰影, 用于復雜場景中前景目標與背景的識別, 該方法在不犧牲實時性能的前提下, 比現(xiàn)有的先進技術更有效。

Liang 等[13]提出了一種基于深度的局部描述子和基于位置約束的仿射子空間編碼的三維動作識別方法, 實現(xiàn)了再深度圖像中對人體行為進行識別。 Maity 等[14]提出了基于剪影圖像序列的人體行為識別方法, 首先采用尺度平移歸一化和輪廓畸變去除, 用于提取新引入的活動區(qū)域能量特征( AREF: Active Region Energy Features)和軌跡分析; 其次, 使用層次結構進行分類。 一個活動區(qū)域是兩個連續(xù)輪廓中的變化區(qū)域, 用以描述完成的動作; 最后利用包含活動區(qū)域能量的有功區(qū)域能量像(AREI: Active Region Energy Image)估計AREF, 其值越高, 表示該區(qū)域在剪影序列中越活躍(變化), 即該區(qū)域被更多地使用(活動)完成動作, 提取的特征更加具有魯棒性和尺度不變性。 Kushwaha 等[15]針對以往基于輪廓的人類活動識別工作大多是從單一視角進行識別, 忽略了視角不變性的問題, 提出了一種基于輪廓的姿態(tài)特征和基于均勻旋轉的局部二值模式的視圖不變活動識別方法。 該框架由3 個連續(xù)的模塊組成: 首先通過背景減法檢測和定位人; 然后將從輪廓中提取基于尺度不變輪廓的位姿特征和均勻旋轉不變局部二值模式(LBP: Local Binary Pattern)結合; 最后使用多類支持向量機(SVM: Support Vector Machine)分類器對人的活動進行分類。 Vishwakarma 等[16]旨在利用人體輪廓的關鍵姿態(tài), 構造一種新的分類模型, 為視頻序列中的人體活動識別提供一種新的方法。 將人體輪廓的時空形狀變化通過輪廓的關鍵姿勢劃分成固定數(shù)量的網(wǎng)格和單元表示, 從而實現(xiàn)無噪聲的描述。 Cai 等[17]提出利用Procrustes 分析和局部保留投影(LPP:Locality Preserving Projection)技術從剪影圖像中提取姿態(tài)特征, 然后將所提取的特征能保留人體姿態(tài)的判別形狀信息和局部流形結構, 且不受平移、 旋轉和縮放的影響, 最后在提取姿態(tài)特征后, 利用基于費舍爾向量編碼(FV: Fisher Vector)和多類支持向量機的識別框架對人體動作進行分類。 Qian 等[18]提出了變速度下的虛擬粒子隨機游動理論。 在該理論的指導下, 利用九點有限差分法對二維泊松方程解進行離散, 并在基于人體輪廓的時空運動累積圖像上進行定義, 得到了用于動作描述的深度輪廓圖像, 成功地將人類行為的時空演化信息包含在深度輪廓圖像中。 此外, 與直接使用三維時空描述符相比, 將三維人體動作投影到二維圖像描述符中, 可大大降低相應識別算法的計算成本。

外觀形狀特征是全局特征的一類, 這類特征包含了豐富的人體信息, 因此它是有效的, 要獲取這類特征必須要先將人體所在區(qū)域事先定位。 實現(xiàn)這個目的的方法有很多, 例如背景減法、 幀間差分法或目標跟蹤算法等, 因此其解決了視覺監(jiān)控系統(tǒng)中人體行為識別的問題。 然而其又十分依賴底層視覺的處理, 比如精確的前景提取和跟蹤, 這本身也是計算機視覺中的難點。 尤其是在場景較為復雜和視頻采集設備運動的情況下, 無法獲得準確的人體外觀, 并且隨著計算機設備與深度學習領域的發(fā)展, 研究者們將研究的重點更傾向于真實場景中, 因此單一的外觀形狀特征并不適用。

1.2 運動特征

目前被廣泛使用的運動特征包括軌跡、 方向、 速度、 加速度和光流特征等。 使用這些特征提取方法的優(yōu)點是所提取的特征信息較為完整, 且完全不考慮人體結構的任何形狀信息, 對視頻中的人體行為是一種良好的表征方式。 Wang 等[19]提出了一種基于密集軌跡的人體行為識別方法, 通過對各個視頻幀不同空間尺度進行密集采樣, 對采樣獲得的興趣點進行幀間追蹤得到密集軌跡, 并結合灰度圖像方向梯度直方圖(HOG: Histogram of Oriented Gradient)、 光流直方圖(HOF: Optical Flow Histogram)、 運動邊界直方圖(MBH: Motion Boundary Histogram)3 種描述子組成特征描述符對人體信息進行表征, 最后通過使用SVM 分類器在不同行為數(shù)據(jù)集上進行分類, 可以獲得良好的的分類精度。 但提取基于軌跡的采樣方法考慮到了人體運動的時間信息, 因其沿著軌跡密集采樣, 所以采樣得到的興趣點數(shù)目較多, 算法運行效率無法達到預期, 而例如背景的細小變化也對識別結果有一定的影響。 為了解決這個問題,Wang 等[20]提出改進方法, 其中最明顯也是最重要的改進是引入了消除背景光流的方法( 估計相機運動), 目的是去除無意義背景光流對識別造成的干擾, 識別效果得到顯著提升。 受此啟發(fā), Lu 等[21]提出了一種新型多尺度軌跡池三維卷積描述符(MTC3D: 3D Multi-scale Trajectory Convolution Descriptor), 即從輸入視頻中計算多尺度密集軌跡, 并在三維卷積神經網(wǎng)絡(CNN: Convolutional Neural Network)的特征圖上進行軌跡池化, 提出的描述符具有兩個優(yōu)點: 3D CNN 具有從視頻中提取高級語義信息的能力, 多尺度軌跡池方法巧妙地利用了視頻的時間信息。 Carmona 等[22]通過改進的稠密軌跡(IDTs: Improved Dense trajectories)提高性能, 增加新的基于時態(tài)模板的特征, 把一個視頻序列看作一個三階張量, 并計算3 個不同的投影構造這些模板, 通過使用幾個函數(shù)投影視頻序列中的數(shù)據(jù)及求和池的方式將它們組合。

Yi 等[23]提出了一種基于顯著性檢測和低秩矩陣恢復的突出前景軌跡提取方法, 將密集軌跡劃分為顯著軌跡和非顯著軌跡。 突出軌跡與感興趣的前景區(qū)域近似對應, 而非突出子集主要由背景軌跡組成。此外, 根據(jù)背景運動的低秩性, 如果視頻具有背景運動, 則通過低秩矩陣恢復方法在隱式軌跡子集上進一步構造背景軌跡子空間。 然后可以減去突出子集中可能的背景軌跡。 最后, 采用特征詞袋模型或Fisher 向量法對得到的突出前景軌跡特征進行編碼和動作分類。

軌跡描述的是目標在空間中的運動軌跡, 因此想要計算出目標的速度、 方向等運動特征變得十分容易。 Hu 等[24]結合人的空間位置、 運動方向和速度等不同特征, 提出了一種三維場景的軌跡聚類算法和一種室內感興趣區(qū)域(ROI)提取方法, 并利用動態(tài)時間規(guī)整(DTW)方法研究了異常動作序列。 Fan 等[25]提出了一組動力學特征描述人體每個關節(jié)的速度、 加速度、 角速度、 角加速度、 動能、 勢能和總能量。Malawski 等[26]在相似運動模式的分析中使用動力學, 提出了基于加速度測量數(shù)據(jù)、 骨骼關節(jié)特征和深度圖的信息運動描述符, 并展示了它們對運動動力學建模的潛力。

由于軌跡特征在對目標進行長時間跟蹤過程中可能發(fā)生軌跡漂移的情況, 特別是在復雜的場景下更易出錯, 因此, 研究者們將目光放在光流特征上。 光流(Optical Flow)計算的是像素的瞬時變化, 當物體運動模式發(fā)生改變時, 所對應的像素點亦會發(fā)生變化, 因此光流法被廣泛應用于目標檢測跟蹤領域中。Shi 等[27]提出了一種基于多尺度局部模型的動作識別系統(tǒng), 并使用一種保持不連續(xù)的光流算法提高識別性能; Kinoshita 等[28]基于旋轉觀測器的一維光流跟蹤方法, 利用運動物體的像素計算一維光流, 以消除靜止環(huán)境物體的視運動, 也較好地實現(xiàn)了復雜背景下的人體跟蹤, 但這會引入運動噪聲。 為了解決這個問題, Efros 等[29]提出了模糊光流特征(Blurred Optical Flow)對運動目標進行表征,該方法僅通過提取以人體為中心點的光流特性即可實現(xiàn)降低噪聲的目的。

綜上所述, 針對表觀特征在中遠距離視覺和能見度低條件下難以很好地對運動進行表征的問題,基于運動特征的行為識別取得了不錯的效果。 但大多數(shù)運動特征尤其是光流的計算方法非常復雜, 抗噪性能差, 且需要滿足一些基本假設條件從而難以進行實際應用, 因而使該方面的研究較為困難。 目前,因外觀形狀特征和運動特征各有優(yōu)勢, 可以相互補充, 人們更傾向于融合運動特征與外觀形狀特征共同對人體行為進行表征。

1.3 時空特征

在行為表達過程中, 物體的姿態(tài)孕育了空間信息, 而運動信息則反映在時間空間中, 因此, 時間的動態(tài)信息對于行為表達至關重要[8]。 時空特征將一段視頻視作時間軸上的級聯(lián), 通過提取如時空興趣點、 時空上下文信息、 時空立方體等特征, 對人體行為進行表述。

由于時空興趣點特征很容易被提取, 因此該特征在行為識別領域被廣發(fā)使用, 興趣點的求解思想[30]是將視頻看作三維函數(shù), 建立一個映射函數(shù), 將三維空間的數(shù)據(jù)經過該函數(shù)計算映射到一維空間, 對此一維空間的局部極大值進行求解, 得到的各個極值點即是時空興趣點。 比較經典的求取時空興趣點的算法有Harris 角點算法, Susan 算法和(SIFT: Scale-Invariant Feature Transform)算法以及以其為基礎的一些改進算法等。 Maity 等[31]提出了一種新的時空人體部位運動( STBPM: Space and Time Body Parts Movement)特征, 其特性的設計目的是累積多個主體部分的活動簽名, 以完成任何操作, 并將其應用于人體行為識別。 紀亮亮等[32]為了研究真實條件下的人體行為識別, 建立一個基于深度圖像攝像機的動態(tài)多視角人體行為數(shù)據(jù)庫, 該數(shù)據(jù)庫收集了20 人的600 多個行為視頻, 約60 萬幀彩色圖像和深度圖像,利用(CRFasRNN: Conditional Random Fields as Recurrent Neural Networks)圖片分割技術將人像進行分割并分別提取Harris3D 特征, 利用隱馬爾可夫模型對動態(tài)視角下的人體行為進行識別。 Wei 等[33]為了充分利用視頻序列的邏輯結構, 同時提取方向梯度的三維直方圖、 基于頻域濾波(FDF: Frequency Domain filtering)的全局描述符和基于時空興趣點(STIP: Space-Time Interest Point)的局部描述符特征對人體行為進行表征。

基于時空興趣點的方法在目前行為識別領域中取得了良好的效果, 但是這類方法幾乎都是描述單一的興趣點特征而忽略了視頻序列中大量時間和空間信息, 因此研究人員希望通過引入上下文特征彌補這個不足。 時空上下文特征是對事物時間上的聯(lián)系進行描述, 這種聯(lián)系主要發(fā)生在視頻相鄰幀之間, 對以人體為主的運動中心這種時間聯(lián)系更加明顯。 Yuan 等[34]針對具有長距離運動或多個身體部位與人交互的高層次人類活動中低層次的特征具有局限性, 提出一個計算中層特征并考慮其上下文信息的框架解決這一問題。 首先采用一組中層構件(它們在空間和時間域中具有一致的結構和運動)表示人類活動; 然后引入時空上下文內核(STCK: Space-Time Context Kernel), 其不僅捕獲了特征的局部屬性, 而且考慮了特征的時空上下文信息。 Chen 等[35]在改進的運動尺度特征變換(iMoSIFT: Improved Motion Scale-Inviriant Feature Transform )的基礎上, 考慮了iMoSIFT 興趣點之間的時空結構關系, 并采用局部加權的上下文描述符進行編碼, 然后對每個視頻片段使用雙層弓表示。 時空立方體特征是將提取到的時空興趣點特征映射到一個三維立方體上進行表征的方法, Seo 等[36-37]利用時空局部回歸核(3D LSKs: 3D Space-Time Local Regression Kernels)對視頻圖像中人體行為進行表征, 通過進行時空立方體的匹配完成行為識別。 Vieira等[38]提出了一種利用深度圖序列進行三維動作識別的新視覺表示方法—— 時空占用模式(STOP: Space Time Occupation Pattern), 其不僅捕獲了特征的局部屬性, 而且考慮了特征的時空上下文信息, 同時具有優(yōu)秀的靈活性適應動作內部變化, 對解決深度圖像序列中的遮擋和噪聲問題取得了良好的效果并且降低了行為特征的類內差。 Nazir 等[39]提出了一種動態(tài)時空詞袋包(D-STBoE)模型, 用于人類動作識別, 其表達式是基于視覺詞的時空立方體的密度形成以處理類間的變化, 通過使用類特定的視覺詞表示生成視覺表達式。

總之, 基于時空特征的行為識別方法在一定程度上解決了外觀形狀特征和運動特征存在的視覺變化和部分遮擋等較為敏感的問題, 并且時空特征屬于局部特征, 因此不需要精確的人體定位和跟蹤。 另外還可以通過引入上下文信息提升局部特征的表征能力, 從而引起研究者廣泛興趣。 但由于時空局部特征點本身包含大量的噪聲, 從而導致特征的表征能力有限, 同時, 對于復雜的真實場景, 以及如今數(shù)據(jù)量的激增所導致的巨大的行為類內差, 使得行為表達也受到限制。 因此, 如何解決這些問題, 是未來該領域研究學者們的攻克難點與方向。

1.4 特征融合

近年來隨著硬件設備的不斷提升, 深度學習領域的快速發(fā)展, 采取特征融合的方法應用到行為識別中的優(yōu)勢也越來越明顯。 研究者們通過使用特征融合的方法以獲得魯棒性更好的行為特征表征能力, 從而達到將不同種類的特征融合, 減少信息冗余, 提高識別精度和效率的目的。

多特征融合技術在人體動作識別領域得到廣泛應用, Huan 等[40]提出了一種基于方向興趣區(qū)域運動直方圖的融合特征和基于親和傳播(AP: Affinity Propagation)聚類的詞袋模型(BOWs: Bag of Words)的人體動作識別方法, HOIRM(Histogram of Interest Region Motion)是介于局部特征和全局特征之間的一個中層特征, 使用累積直方圖將HOIRM 與3D HOG 和3D HOF 局部特征融合, 該方法進一步提高了局部特征對復雜場景中攝像機視角和距離變化的魯棒性, 從而提高了動作識別的正確率。 Wang 等[41]使用骨架和骨架節(jié)點周圍的深度點學習由不同節(jié)點特征構成的集成模型表示每個動作并捕獲類內方差, 然后, 通過多核學習對不同的特征進行融合和分類。 Majd 等[42]將光流特征和時空特征進行融合。 Gao 等[43]提出多特征映射和字典學習模型 ( MMDLM: Multi-feature Mapping Dictionary Learning Model ),首先提取深度圖像序列的不同特征, 然后使用MMDLM 旨在深入發(fā)現(xiàn)這些不同特征之間的關系, 同時學習兩個字典和一個特征映射函數(shù); 而且, 這些詞典可以充分表征不同特征的結構信息, 而特征映射功能是一個正則化項, 可以揭示這兩個特征之間的內在聯(lián)系, 在大規(guī)模數(shù)據(jù)集中取得了較好的效果。Azher 等[44]利用深層卷積網(wǎng)絡提取深度空間特征, 采用基于韋伯定律的體積局部梯度三元模式提取時空特征, 利用梯度運算考慮形狀信息, 將這兩個提取的特征連接后提供給支持向量機進行分類。 Yao 等[45]提出了一種基于時空雙特征的多特征融合算法提取有用的視覺信息進行識別, 同時將壓縮的時空視頻表示方法引入到詞包表示中, 在兩個流行數(shù)據(jù)集上的實驗顯示了有效的性能。 Zhong 等[46]通過對密集軌跡上的時空網(wǎng)格進行分析, 生成HOG 和HOF 描述人體物體的外觀和運動, 然后, 通過詞匯樹將HOG 與HOF 組合轉換為BoWs, 最后, 應用隨機森林識別人類行為的類型。 Abdulmunem 等[47]提出了一種基于突出目標檢測和局部描述符與全局描述符相結合的人體動作識別新框架, 首先檢測視頻幀中的突出對象, 提取這些對象的特征; 然后使用 一個簡單策略識別和處理包含突出對象的視頻幀, 并用突出目標代替所有幀, 在提高算法效率的前提下抑制了背景像素的干擾; 最后將這種方法分別與局部描述符和全局描述符結合(分別稱為3d-sift 和方向光流直方圖), 利用所得到的顯著性指導特征, 結合多類SVM 分類器進行人體行為識別。 姚明海等[48]從特征提取和選擇的角度提出了融合特征區(qū)分度和相關性的方法對視頻數(shù)據(jù)進行降維并去除特征集合中的冗余信息。 Li 等[49]提出了一種加權融合方案, 將RGB 和光流與人體姿態(tài)特征結合進行動作分類。

在人體行為識別過程中, 僅僅使用單一特征對人體行為進行表征是完全不夠的, 并且如淺層特征的自遮擋問題及深度特征的復雜性問題亦是不可忽視的弊端, 因此多特征是未來的研究方向之一。 隨著新特征的不斷引入, 特征向量的維度也隨之提高, 雖然引入新的特征會提高識別精度, 但過高的特征維度使計算量大幅提高, 因此需要有效的特征選擇和降維方法, 提高分類性能。 而目前多特征的融合策略十分單一, 因此如何將多特征更巧妙的融合設計和提出或選擇更適合的降維手段是未來人體行為識別過程中的研究重點。

2 行為識別常用數(shù)據(jù)集

在行為識別過程中使用公開可用的數(shù)據(jù)集可以比較不同的方法, 并深入了解各自方法的能力, 是識別方法在統(tǒng)一標準下校驗各種不同性能指標的重要判別依據(jù)。 表1 列出了行為識別研究發(fā)展歷程中一些常用數(shù)據(jù)集的信息[50-64], 包括對各個常用數(shù)據(jù)集特點進行簡要以及提供下載網(wǎng)址, 并列舉了2 個具有代表性的數(shù)據(jù)庫UCF101 和KTH 上分析得近年來傳統(tǒng)機器學習方法和深度學習方法, 如表2 ~表3 所示[27,64-79]。 由表2 ~表3 中所示文獻的準確率可以發(fā)現(xiàn), 傳統(tǒng)機器學習方法在行為識別已逐漸陷入瓶頸,且近年來主要以圍繞改進密集軌跡算法展開, 但效果并不明顯; 而深度學習方法通過近年來的發(fā)展,準確率得到顯著提升, 成為研究未來行為識別任務的主流方法。

表1 人體行為識別領域常用數(shù)據(jù)集Tab.1 Common data sets in the field of human behavior recognition

(續(xù)表1)

表3 KTH 數(shù)據(jù)集行為識別方法分析比較Tab.3 Analysis and comparison of behavior recognition methods for KTH data sets

總而言之, 隨著人體行為識別領域的發(fā)展, 數(shù)據(jù)集變得更龐大, 樣本類別也越來越多, 視頻中背景也越來越復雜。 例如較早的KTH、 Weizmann 等數(shù)據(jù)集, 視頻場景簡單, 動作種類很少, 相機視角固定且只有焦距變化, 這使現(xiàn)有的算法很容易達到飽和, 很難對比算法的優(yōu)劣。 近年來, 隨著深度學習在行為識別領域的高速發(fā)展, 需要訓練的數(shù)據(jù)相比傳統(tǒng)算法更加龐大, 小數(shù)據(jù)集無法滿足深度學習算法的需求。 因此學者們在選擇測試評估數(shù)據(jù)時更傾向于HMDB51、 UCF101 等這種大型的且更接近真實環(huán)境的數(shù)據(jù)集, 因此對算法的魯棒性提出了更大的挑戰(zhàn)。

3 目前的難點與未來可能的研究方向

在人體行為識別中, 特征提取起著十分重要的作用, 當前, 外觀形狀特征、 運動特征和時空特征都屬于人體行為識別特征的種類, 且其中每類特征具有多種不同的表述形式。 盡管如此, 在特征提取上仍然有很多亟待解決的問題, 這些問題也同時是特征提取領域未來主要的研究方向。

1) 特征的選擇。 在選擇特征時, 為了保證識別方法的有效性以及識別性能的良好性, 選擇合適的特征向量至關重要。 深層特征具有大量的信息, 能區(qū)分不同的動作模式, 但相對提取算法復雜性, 盡管能在特定場景下識別顏色、 形狀和運動等單一的視覺線索, 并取得較好的效果, 但在實際的自然場景卻有較差的識別性能。 在識別過程中, 特征過多的選取會導致特征向量維數(shù)過大, 從而增加計算的復雜程度, 而若選取的特征太少, 則無法獲取較高的識別率。 因此如何在這兩者中權衡, 是研究者們未來需要解決的問題。

2) 特征的比較與算法性能評測。 要對不同特征進行比較和測評, 需要構造較為合理的包含人體動作行為視頻的測試庫, 并在合理比較和測評方法的基礎上進行研究, 同時還要考慮魯棒性、 準確率和實時性這3 個衡量算法性能的指標。 目前的研究工作中這3 個指標準確率是最重要的, 魯棒性相對其他兩個指標受到關注較少, 但在實際應用中魯棒性和實時性都是不容忽視的問題, 在實際情景中衡量算法性能時, 需將這3 個因素綜合考慮。 因此, 在考慮某些具體應用時需開發(fā)既能提高識別性能, 又能降低算法復雜度的新技術。

3) 多特征融合。 每種算法在不同的環(huán)境中對人體行為的特征提取不盡相同, 如何融合多種行為特征尋找出描述人體行為更根本的特征, 并運用于其他學科中, 有待研究者們進一步的研究。 目前, 多攝像機環(huán)境由于能解決單攝像機系統(tǒng)中存在的視頻特征與三維模型對應的歧義問題, 在多視角環(huán)境下能提供深度信息[80]并通過準確恢復三維模型的參數(shù)幫助解決遮擋問題受到人們廣泛關注。 因此, 多攝像機的特征融合已經成為目前人體行為識別研究的一個熱點。

4 結 語

人類行為識別與理解已成為計算機視覺領域的一個重要研究方向。 它在智能視頻監(jiān)控、 醫(yī)療診斷監(jiān)護、 智能人機交互、 身份識別等領域中具有廣泛的應用。 筆者主要從不同類型特征的角度, 較為全面的介紹了特征提取方法以及一些常用的經典行為數(shù)據(jù)集, 最后討論了目前行為識別中特征提取所存在的問題以及未來可能的發(fā)展方向。

猜你喜歡
時空軌跡人體
跨越時空的相遇
人體“修補匠”
人體冷知識(一)
排便順暢,人體無毒一身輕
鏡中的時空穿梭
軌跡
軌跡
玩一次時空大“穿越”
奇妙的人體止咳點
特別健康(2018年3期)2018-07-04 00:40:10
軌跡
崇明县| 甘肃省| 兴隆县| 青岛市| 沂源县| 贵南县| 中卫市| 开平市| 阿尔山市| 油尖旺区| 普兰店市| 保康县| 黄平县| 和田县| 凉山| 颍上县| 临武县| 文昌市| 宣汉县| 衡阳县| 胶州市| 义乌市| 新晃| 昌宁县| 沧州市| 库尔勒市| 武胜县| 左权县| 洪雅县| 东至县| 巴马| 灵璧县| 兴仁县| 司法| 政和县| 芷江| 泊头市| 涞源县| 黑龙江省| 天镇县| 凤山市|