戰(zhàn)青卓 王大東
摘 要: 本文介紹了一種三維建模人體模型的方法,通過(guò)分層次地識(shí)別人體各部位的行為,從底層行為組合成為高層的動(dòng)作和活動(dòng),應(yīng)用隱馬爾科夫模型完成人體行為的學(xué)習(xí)工作。同時(shí),應(yīng)用該模型,同樣可以完成人體行為及活動(dòng)的檢索功能,通過(guò)輸入一些自然語(yǔ)言,完成相關(guān)視頻信息的獲取。
關(guān)鍵詞: 人體模型;遷移學(xué)習(xí);隱馬爾科夫模型
Abstract:This paper introduces a 3-dimensional method of human body modeling which uses the hidden Markov model to explore the learning and working of human body behavior by identifying the behavior of various parts of human body from bottom behavior to top action as well as body's activity. Based on the above by inputting the natural language the corresponding video information could be obtained.
Key words: model of human body;transfer learning;HMM
引言
隨著互聯(lián)網(wǎng)及基礎(chǔ)通信行業(yè)的不斷發(fā)展,視頻影像逐漸成為社交媒體的主要方式之一,但是海量的視頻信息大部分未能得到有效利用。而且,隨著人口老齡化問(wèn)題的突出與加劇,有關(guān)老年人照顧問(wèn)題也對(duì)視頻分析領(lǐng)域提出了更多的需求。相對(duì)于國(guó)外來(lái)說(shuō),國(guó)內(nèi)的人體動(dòng)作識(shí)別起步較晚,但是近些年卻呈現(xiàn)良好進(jìn)步態(tài)勢(shì)[1-2]。成效卓著的當(dāng)數(shù)中國(guó)科技大學(xué)的王上飛團(tuán)隊(duì)[3],通過(guò)使用自身采集的NVIE數(shù)據(jù)庫(kù)針對(duì)人體行為和自發(fā)表情的圖片去訓(xùn)練網(wǎng)絡(luò)。而本文則主要研究了人體復(fù)雜行為理解方法,通過(guò)建立人體三維模型,分層次地應(yīng)用隱馬爾科夫模型,組合低層次的行為識(shí)別結(jié)果信息,并應(yīng)用遷移學(xué)習(xí),融合已有的數(shù)據(jù)庫(kù)實(shí)現(xiàn)人體復(fù)雜行為理解。應(yīng)用本文提出的算法,可以通過(guò)輸入特定行為或活動(dòng)的自然語(yǔ)言描述,最終成功達(dá)到視頻檢索的功能目的。
1 人體復(fù)雜行為的表示方法
1.1 行為、行動(dòng)的表示
行為和活動(dòng)有多種不同情況,運(yùn)動(dòng)狀態(tài)可能是持續(xù)的(如行走、跑步),或具有可定位的特征(如抓、踢)。要知道人在某時(shí)的發(fā)生動(dòng)作,需要由時(shí)間尺度來(lái)刻畫。在本次的研究中,即把短時(shí)的運(yùn)動(dòng)稱為行為,如向前走一步,如走路、跑步、跳躍、站立、揮舞。因而,可以辨識(shí)區(qū)分短時(shí)間尺度表示(行為),就像前進(jìn);中等時(shí)間的運(yùn)動(dòng)稱為行動(dòng),如走路、跑步、跳躍、站立、揮手,其時(shí)間范圍可以很短、但有些或許稍微長(zhǎng)些,通常是多種行為的組合;研究中把長(zhǎng)時(shí)間的運(yùn)動(dòng)稱為活動(dòng),活動(dòng)是復(fù)雜的行動(dòng)的組合。為了處理活動(dòng),需要對(duì)行動(dòng)建立模型。復(fù)雜的組合活動(dòng)由一組基本的行動(dòng)模型組成,利用人體的運(yùn)動(dòng)學(xué)模型作為行動(dòng)模型特征。
1.2 肢體活動(dòng)模型
肢體的行動(dòng)模型建立后,將肢體行動(dòng)模型通過(guò)狀態(tài)轉(zhuǎn)移概率串聯(lián)成一個(gè)更大的隱馬爾科夫模型。設(shè)行動(dòng)A處于狀態(tài)m,行動(dòng)B處于狀態(tài)n,定義狀態(tài)m和狀態(tài)n之間的距離為:
其中,om和on是轉(zhuǎn)移值;p(om)和p(on)是轉(zhuǎn)移概率;N是可能的轉(zhuǎn)移狀態(tài)數(shù)量;C(om,om)是轉(zhuǎn)移值中心之間的歐幾里德距離,而且也是矢量量化的三維關(guān)節(jié)點(diǎn)的聚類中心。
狀態(tài)按肢體分組,將與一個(gè)特定肢體模型相對(duì)應(yīng)的一組狀態(tài)稱為肢體活動(dòng)模型。而身體各個(gè)部分的活動(dòng)在隱馬爾科夫模型下的描述則如圖1所示。在連接這些狀態(tài)時(shí),可將當(dāng)前行動(dòng)轉(zhuǎn)移到其它行動(dòng),若當(dāng)前行動(dòng)不發(fā)生轉(zhuǎn)移,對(duì)其可分配相同的概率。計(jì)算每個(gè)狀態(tài)的概率序列由一組確定行動(dòng)的隱馬爾科夫模型運(yùn)算產(chǎn)生。
1.3 位置跟蹤
跟蹤器會(huì)輸出人體的二維位置,但是不能提供研究需要的三維位置信息。研究人員也陸續(xù)展開(kāi)了多種方法的探討與攻關(guān),如通過(guò)連續(xù)多幀的圖像數(shù)據(jù)間的運(yùn)動(dòng)關(guān)系、雙目立體視覺(jué)法、動(dòng)態(tài)規(guī)劃相機(jī)法等獲取三維信息。其中,動(dòng)態(tài)規(guī)劃相機(jī)方法是通過(guò)動(dòng)態(tài)規(guī)劃相機(jī)的移動(dòng)位置,來(lái)設(shè)計(jì)創(chuàng)建多角度的人體圖像獲取,進(jìn)而恢復(fù)出人體的三維姿態(tài)。該方法的不足是如果沒(méi)有捕捉到運(yùn)動(dòng),則不能獲得理想的圖像匹配。本文在動(dòng)態(tài)規(guī)劃相機(jī)法基礎(chǔ)上,提出如下設(shè)計(jì)改進(jìn):把身體分解成4個(gè)部分(2條胳膊,2條腿)。用局部匹配的方法匹配腿,但允許左右腿來(lái)自不同的運(yùn)動(dòng)捕捉片段 搜索20個(gè)攝像頭的觀看方向。每幀的匹配代價(jià)反映了相機(jī)在根坐標(biāo)系下運(yùn)行捕捉情況。以類似的方式選擇手臂和腿,要求相機(jī)靠近腿。在研發(fā)實(shí)踐中,這個(gè)方法能夠從較小的運(yùn)動(dòng)中獲得相當(dāng)豐富的運(yùn)動(dòng)序列的捕捉集合。由此研究可得,行走、拾取、搬運(yùn)的后驗(yàn)概率可如圖2所示。
1.4 查詢活動(dòng)
為了找到某一特定事件發(fā)生時(shí)的視頻記錄,通過(guò)視頻回看尋找視頻所表達(dá)的活動(dòng),通過(guò)輸入各個(gè)肢體的活動(dòng)名稱,得到符合該活動(dòng)描述的視頻圖像數(shù)據(jù),實(shí)際上,并不需要精確得到活動(dòng)發(fā)生的確切時(shí)間點(diǎn),而是只要找到這個(gè)活動(dòng)發(fā)生的可能的時(shí)間序列位置即可。研究中,通用的運(yùn)動(dòng)查詢方法就是正則化表達(dá)式的方法。對(duì)應(yīng)的計(jì)算公式可表述如下:
將正則表達(dá)式替換為有限狀態(tài)機(jī)后,利用sum-product方法計(jì)算這個(gè)狀態(tài)機(jī)達(dá)到最終狀態(tài)的概率。
假設(shè)研究要查找正在走路并且揮舞著雙手的視頻。對(duì)于腿,賦予一個(gè)走路的狀態(tài)機(jī)。對(duì)于手臂,賦予揮舞的狀態(tài)機(jī)。同時(shí)查詢兩者的狀態(tài)機(jī)。圖3、圖4所示即為相應(yīng)的查詢狀態(tài)機(jī)。
在形成有限狀態(tài)機(jī)時(shí),每個(gè)動(dòng)作有一個(gè)單位長(zhǎng)度ux。查詢字符串被轉(zhuǎn)換為正則表達(dá)式 然后基于這些單位長(zhǎng)度的行動(dòng)得到一個(gè)FSA。單位行動(dòng)的長(zhǎng)度與2個(gè)因素有關(guān)。一個(gè)是視頻的fps,另一個(gè)是行動(dòng)的可持續(xù)性的水平。行走和跑步等行為是可持續(xù)的,單位長(zhǎng)度會(huì)定義得較長(zhǎng),而一些原地的運(yùn)動(dòng),比如跳躍或觸摸,則會(huì)定義得較短。
本方法不需要輸入要查詢的視頻的圖像例子,只要知道想要查詢的視頻的語(yǔ)意描述,便可以快捷查詢到相關(guān)視頻信息。
至此,研究中還涉及到復(fù)雜的復(fù)合查詢編寫。例如,欲搜索順次標(biāo)定有步行、站立、揮舞、步行、步行的視頻序列,將得到一個(gè)人走進(jìn)視野,站立和揮舞,然后走出視野視頻圖像。圖4就展示給出了搜索走步、拾取、搬運(yùn)。通過(guò)輸入不同的查詢信息實(shí)現(xiàn)不同復(fù)雜的行為檢索。手臂和腿分開(kāi)查詢,因?yàn)槭叭『投追膭?dòng)作在腿部的行動(dòng)非常相似,為此就加設(shè)了一個(gè)“或”的查詢以獲得更廣泛的搜索。
2 實(shí)驗(yàn)及分析
本文使用JAFFE和FER2013數(shù)據(jù)庫(kù)對(duì)識(shí)別率的精度進(jìn)行了測(cè)試。
為了測(cè)試及驗(yàn)證的便捷性,使用Matlab搭建了GUI交互的界面,使用電腦USB攝像頭捕捉的實(shí)時(shí)視頻截取圖片,并提送測(cè)試結(jié)果的識(shí)別。
為了直觀地驗(yàn)證、查證研究建立的卷積神經(jīng)網(wǎng)絡(luò),編寫了neuralnetwork.m函數(shù)。此函數(shù)可以觀看建立的網(wǎng)絡(luò)的訓(xùn)練、執(zhí)行速度,梯度計(jì)算結(jié)果,以及有效性檢查等參數(shù)。設(shè)計(jì)運(yùn)行結(jié)果如圖6所示。
為了測(cè)試系統(tǒng)的識(shí)別率,把2個(gè)數(shù)據(jù)庫(kù)分別留有的100張256*256像素待測(cè)試的圖片集聚成如圖7格式所示的.mat文件。即把256*256的圖片數(shù)據(jù)每一行首尾相接,組成1*65 536的向量,每一行代表一幅圖片。
在此基礎(chǔ)上,可使用如下的語(yǔ)句,計(jì)算網(wǎng)絡(luò)預(yù)測(cè)結(jié)果,并與正確的結(jié)果展開(kāi)對(duì)比,得到識(shí)別率。Theta1 Theta2為卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù),采用這樣的自動(dòng)測(cè)試流程可以大大提升測(cè)試的效率。研發(fā)可得設(shè)計(jì)代碼如下:
3 結(jié)束語(yǔ)
在當(dāng)下的人體行為的識(shí)別研究中,仍然亟待建成一個(gè)規(guī)范、完善的數(shù)據(jù)庫(kù),且使未來(lái)的識(shí)別研發(fā)方法能夠有效應(yīng)用在不受控制的環(huán)境中。如沒(méi)有正面的面部,部分遮蓋的圖像,自發(fā)的表情等等)。類似這樣的問(wèn)題,對(duì)目前的學(xué)術(shù)工程界也仍可堪稱現(xiàn)實(shí)挑戰(zhàn)[4-6]。本論文的研究主要立足于識(shí)別算法的普適性上,并且重點(diǎn)圍繞在受控制的背景環(huán)境中,使經(jīng)過(guò)訓(xùn)練的識(shí)別算法能夠具有全局適用性,即可應(yīng)用于不同國(guó)籍、不同種族的人體行為識(shí)別中。
參考文獻(xiàn)
[1] 高文,金輝. 面部表情圖像的分析與識(shí)別[J]. 計(jì)算機(jī)學(xué)報(bào),1997,20(9):782-789.
[2] 金輝,高文. 基于HMM的面部表情圖像序列的分析與識(shí)別[J]. 自動(dòng)化學(xué)報(bào),2002,28(4):646-650.
[3] WANG Shangfei LIU Zhilei LV Siliang. A natural visible and infrared facial expression database for expression recognition and emotion inference[J]. IEEE Transaction on Multimedia,2010,12(7):682-691.
[4] LIU Mengyi LI Shaoxin SHAN Shiguang et al. Au-inspired deep networks for facial expression feature learning[J]. Neuro computing 2015,159(2): 126-136.
[5] MEGUID M K A E LEVINE M D.Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers[J]. IEEE Transactions on Affective Computing 2014,5(2):141-154.
[6] TURAN C LAM K M. Regionbased feature fusion for facialexpression recognition[C]//IEEE International Conference on Image Processing (ICIP). Paris France:IEEE 2014: 5966-5970.