摘要:文中旨在研究基于輪廓圖像空頻域特征的舞蹈翻騰姿態(tài)識(shí)別模型。該模型先將待識(shí)別舞蹈視頻圖像實(shí)施腐蝕、膨脹、中心歸一化等預(yù)處理,利用處理后圖像提取舞蹈翻騰姿態(tài)能量圖,通過(guò)離散余弦變換提取舞蹈翻騰姿態(tài)能量圖頻域特征,利用C ontourlet變換提取舞蹈翻騰姿態(tài)能量圖空域輪廓特征,采用特征級(jí)融合方法融合以上特征獲取舞蹈輪廓圖像的空頻域特征向量集,再將待識(shí)別舞蹈視頻序列候選姿態(tài)利用Baum-Welch算法訓(xùn)練為隱馬爾可夫模型,利用舞蹈輪廓圖像的空頻域特征向量集將隱馬爾可夫模型量化至觀察序列,通過(guò)前向后向算法獲取觀察序列姿態(tài)概率,觀察序列概率值最大的隱馬爾可夫模型對(duì)應(yīng)姿態(tài)即為所需識(shí)別舞蹈翻騰姿態(tài)。實(shí)驗(yàn)結(jié)果表明,該模型可較好地提取具有空頻域特征的舞蹈輪廓圖像,有效識(shí)別舞蹈視頻中舞蹈翻騰姿態(tài),且識(shí)別100幀有陰影舞蹈視頻圖像中舞蹈翻騰姿態(tài)識(shí)別準(zhǔn)確率高于96%。
關(guān)鍵詞:舞蹈翻騰姿態(tài);姿態(tài)識(shí)別;輪廓圖像;空頻域特征;模型訓(xùn)練;對(duì)比驗(yàn)證
中圖分類號(hào):TN911.73-34;TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-373X( 2019) 24-0146-04
隨著社會(huì)不斷進(jìn)步,舞蹈藝術(shù)逐漸進(jìn)入普通人的生活,人們鑒賞水平以及藝術(shù)關(guān)注度逐漸提高,如何提升舞蹈藝術(shù)水平成為近年來(lái)急需解決的問(wèn)題。利用姿態(tài)識(shí)別分析人體運(yùn)動(dòng)行為已成為近年來(lái)相關(guān)專家學(xué)者的重要研究方向[1]。舞蹈翻騰技巧是評(píng)價(jià)舞蹈演員基本功以及綜合能力的重要指標(biāo),識(shí)別舞蹈翻騰姿態(tài)對(duì)于藝術(shù)教學(xué)以及研究具有重要意義。目前,人體姿態(tài)識(shí)別已取得較大成效。文獻(xiàn)[2]方法先通過(guò)人體姿態(tài)時(shí)空特征建立人體結(jié)構(gòu)信息高層描述模型,再采用圖像特征識(shí)別方法識(shí)別人體姿態(tài)。該方法需要通過(guò)完整度較高的人體輪廓識(shí)別姿態(tài),而視頻中圖像多數(shù)無(wú)法提取完整度較高的人體輪廓,因此識(shí)別準(zhǔn)確率較低。文獻(xiàn)[3]方法先提取人體行為特征,利用人體行為特征建立時(shí)空與或圖模型,再采用視頻序列運(yùn)動(dòng)目標(biāo)檢測(cè)與識(shí)別方法識(shí)別時(shí)空與或圖模型中人體姿態(tài)。該方法僅可識(shí)別二維圖像中人體姿態(tài),未考慮視頻圖像變化情形,導(dǎo)致識(shí)別穩(wěn)定性較差。文獻(xiàn)[4]方法利用面向情感語(yǔ)音識(shí)別方法識(shí)別人體姿態(tài)特征,該方法選取單一特征識(shí)別人體姿態(tài),導(dǎo)致無(wú)法準(zhǔn)確區(qū)分目標(biāo)區(qū)域以及背景區(qū)域,識(shí)別結(jié)果準(zhǔn)確性較差。為了解決以上問(wèn)題,本文提出基于輪廓圖像空頻域特征的舞蹈翻騰姿態(tài)識(shí)別模型,先提取輪廓圖像的頻域特征以及空域輪廓特征,再通過(guò)隱馬爾可夫模型識(shí)別舞蹈翻騰姿態(tài)特征,具有較強(qiáng)的識(shí)別性能,便于人們識(shí)別視頻中舞蹈翻騰姿態(tài)。
1 舞蹈翻騰姿態(tài)識(shí)別模型
基于輪廓圖像空頻域特征的舞蹈翻騰姿態(tài)識(shí)別模型的識(shí)別基本流程如圖1所示。
將待識(shí)別舞蹈視頻圖像通過(guò)腐蝕、膨脹、中心歸一化等預(yù)處理后,提取舞蹈翻騰姿態(tài)能量圖。利用離散余弦變換以及C onto urlet變換方法提取舞蹈翻騰姿態(tài)能量圖中頻域特征以及多方向多分辨率空域輪廓特征[5];利用提取特征區(qū)分人體在舞蹈翻騰姿態(tài)時(shí)高低頻分量并捕捉舞蹈翻騰特征細(xì)節(jié)信息;采用特征級(jí)融合方法融合以上特征獲取輪廓圖像的空頻域特征向量集等進(jìn)行處理。
1.1 提取舞蹈翻騰姿態(tài)能量圖
通過(guò)舞蹈翻騰姿態(tài)能量圖體現(xiàn)人體舞蹈翻騰姿態(tài)速度以及形態(tài)等詳細(xì)信息,提取舞蹈翻騰姿態(tài)能量圖可過(guò)濾隨機(jī)噪聲,具有較高的魯棒性。
計(jì)算待識(shí)別視頻各圖像中包含像素點(diǎn)數(shù)量,獲取目標(biāo)像素?cái)?shù)量極小時(shí)幀號(hào),將相鄰三個(gè)具有極小值幀號(hào)的圖像幀設(shè)置為完整姿態(tài)周期,獲取周期內(nèi)姿態(tài)圖像幀數(shù)。設(shè)一個(gè)舞蹈翻騰姿態(tài)周期具有n幀圖像,經(jīng)中心歸一化方法預(yù)處理后可得第t幀舞蹈翻騰姿態(tài)圖像為Bi(x,y),第t幀舞蹈翻騰圖像所對(duì)應(yīng)舞蹈翻騰姿態(tài)能量圖公式如下:式中,G(x,y)為灰度圖像,圖像中各像素點(diǎn)灰度值為該點(diǎn)舞蹈翻騰姿態(tài)周期內(nèi)能量,即舞蹈翻騰過(guò)程中像素點(diǎn)出現(xiàn)于此處的頻次?;叶戎荡笮◇w現(xiàn)該像素點(diǎn)出現(xiàn)于此處的頻次高低[6]。
1.2 提取輪廓圖像空頻域特征
通過(guò)離散余弦變換方法提取舞蹈翻騰姿態(tài)能量圖中頻域特征,利用頻域信息劃分舞蹈翻騰姿態(tài)中高低頻分量;通過(guò)C ontourlet變換方法提取舞蹈翻騰姿態(tài)能量圖中空域輪廓特征[7]。
1.2.1 提取頻域特征
采用局部二值法等局部特征描述方法無(wú)法描述完整舞蹈翻騰姿態(tài)。而離散余弦變換方法可區(qū)分舞蹈翻騰姿態(tài)中高頻與低頻成分,將舞蹈翻騰姿態(tài)中動(dòng)作較小的頭和肩等低頻部分與高頻的四肢擺動(dòng)動(dòng)作區(qū)分,有效提取舞蹈翻騰姿態(tài)頻域特征。利用離散余弦變換方法可準(zhǔn)確區(qū)分人體舞蹈翻騰姿態(tài)時(shí)各種頻率,且計(jì)算簡(jiǎn)單,輕松提取舞蹈翻騰姿態(tài)頻域特征[8]。式中f(x,y)表示舞蹈翻騰姿態(tài)能量圖中像素點(diǎn)坐標(biāo)為(x,y)的灰度值;u表示像素點(diǎn)(x,y)水平方向變換率即水平空間頻率;v表示像素點(diǎn)(x,y)垂直方向變換率即垂直空間頻率;F(u,v)表示離散余弦變換后頻率系數(shù),其中,F(xiàn)(O,0)表示圖像頻域特征直流部分。
通過(guò)離散余弦變換方法計(jì)算舞蹈翻騰姿態(tài)能量圖C(x,y)后,獲取與原圖像尺寸相同的變換系數(shù)矩陣,該變換系數(shù)矩陣體現(xiàn)舞蹈翻騰姿態(tài)能量圖像隊(duì)形的頻域特征一,。舞蹈翻騰姿態(tài)能量圖中低頻分量處于頻率幅度譜左上角,表示圖中像素值較大區(qū)域,即變換較慢區(qū)域,該區(qū)域?yàn)槲璧阜v姿態(tài)能量圖主體部分;舞蹈翻騰姿態(tài)能量圖中高頻分量處于頻率幅度譜右下角,表示圖中像素值較小區(qū)域,該區(qū)域體現(xiàn)舞蹈翻騰姿態(tài)能量圖細(xì)節(jié)以及邊緣部分。
1.2.2 提取空域輪廓特征
1.3 舞蹈翻騰姿態(tài)識(shí)別
為增加識(shí)別準(zhǔn)確性,將待識(shí)別視頻序列候選姿態(tài)訓(xùn)練為隱馬爾可夫模型[10],需要尋找最優(yōu)模型參數(shù)(A,B,π),使基于該模型生成觀察序列o的概率P(OIA)存在最大值。通過(guò)隱馬爾可夫模型中前向后向算法構(gòu)造輔助變量尋找最優(yōu)參數(shù)識(shí)別舞蹈翻騰姿態(tài)。前向變量局部概率公式如下:
將待識(shí)別視頻序列候選姿態(tài)利用Baum-Welch算法訓(xùn)練為隱馬爾可夫模型,利用輪廓圖像的空頻域特征向量集將隱馬爾可夫模型量化至觀察序列,通過(guò)前向后向算法以隱馬爾可夫模型為條件獲取觀察序列的姿態(tài)概率P(Ot|λt),即計(jì)算所有候選姿態(tài)隱馬爾可夫模型生成的觀察序列概率P(Ot|λt),其中f表示候選姿態(tài)類別編號(hào)。
2 實(shí)驗(yàn)分析
選取CPU為Intel i7 8700,內(nèi)存為8 GB的PC作為實(shí)驗(yàn)平臺(tái),利用Matlab 7.0數(shù)據(jù)分析軟件分析實(shí)驗(yàn)結(jié)果。從互聯(lián)網(wǎng)中選取5段具有翻騰姿態(tài)的舞蹈視頻作為實(shí)驗(yàn)對(duì)象。
2.1 舞蹈翻騰姿態(tài)識(shí)別結(jié)果
從5段視頻中各截取舞蹈翻騰姿態(tài)視頻1 min,其中1 min視頻包括圖像1 440幀。采用本文模型識(shí)別5段1 min視頻中的舞蹈翻騰姿態(tài),截取舞蹈視頻中識(shí)別的舞蹈翻騰姿態(tài)圖像如圖2a)所示,采用本文模型獲取具有空頻域特征的輪廓圖像和5段視頻舞蹈翻騰姿態(tài)識(shí)別結(jié)果如圖2b)所示。
通過(guò)圖2識(shí)別結(jié)果可以看出,采用本文模型可較好地提取具有空頻域特征的舞蹈輪廓圖像。在5段具有1 440幀圖像的舞蹈翻騰視頻中,本文模型識(shí)別結(jié)果分別為1 429幀、1 429幀、1 431幀、1 427幀、1 419幀。通過(guò)以上實(shí)驗(yàn)結(jié)果表明,采用本文模型可有效識(shí)別舞蹈視頻中舞蹈翻騰姿態(tài)。
2.2 舞蹈翻騰姿態(tài)識(shí)別準(zhǔn)確率
以上實(shí)驗(yàn)結(jié)果表明,本文模型可有效識(shí)別舞蹈翻騰姿態(tài)。為進(jìn)一步檢測(cè)本文模型識(shí)別性能,將本文模型與分層次模型以及動(dòng)態(tài)路徑模型對(duì)比。視頻圖像中存在的陰影嚴(yán)重干擾識(shí)別舞蹈翻騰姿態(tài)準(zhǔn)確率,從5段實(shí)驗(yàn)視頻中選取有陰影以及無(wú)陰影圖像樣本各100幀,統(tǒng)計(jì)三種模型識(shí)別情況,對(duì)比結(jié)果如表1所示。
通過(guò)表1實(shí)驗(yàn)結(jié)果可以看出,采用本文模型在有陰影的5段100幀視頻圖像中識(shí)別舞蹈翻騰姿態(tài)準(zhǔn)確率均在96%以上;在無(wú)陰影的5段100幀視頻圖像中識(shí)別舞蹈翻騰姿態(tài)準(zhǔn)確率均在98%以上。而采用分層次模型在有陰影的5段100幀視頻圖像中識(shí)別舞蹈翻騰姿態(tài)準(zhǔn)確率均在88%以上;在無(wú)陰影的5段100幀視頻圖像中識(shí)別舞蹈翻騰姿態(tài)準(zhǔn)確率均在85%以上。采用動(dòng)態(tài)路徑模型在有陰影的5段100幀視頻圖像中識(shí)別舞蹈翻騰姿態(tài)準(zhǔn)確率均在77%以上;在無(wú)陰影的5段100幀視頻圖像中識(shí)別舞蹈翻騰姿態(tài)準(zhǔn)確率均在78%以上。
分析實(shí)驗(yàn)結(jié)果可知,本文模型在陰影干擾下識(shí)別舞蹈翻騰姿態(tài)準(zhǔn)確率有所降低,但識(shí)別結(jié)果均高于96%,而分層次模型以及動(dòng)態(tài)路徑模型雖受陰影干擾影響不大,但識(shí)別準(zhǔn)確率明顯低于本文模型,驗(yàn)證了本文模型識(shí)別舞蹈翻騰姿態(tài)的準(zhǔn)確性。采用三種模型重復(fù)識(shí)別5段實(shí)驗(yàn)視頻10次,取10次識(shí)別結(jié)果平均值,統(tǒng)計(jì)三種模型的誤識(shí)別率,檢測(cè)三種模型識(shí)別魯棒性。采用三種模型重復(fù)識(shí)別舞蹈翻騰姿態(tài)誤識(shí)別率結(jié)果如圖3所示。
通過(guò)圖3實(shí)驗(yàn)結(jié)果可以看出,采用本文模型重復(fù)識(shí)別5段視頻中舞蹈翻騰姿態(tài)誤識(shí)別率均在4%以下,明顯低于采用分層次模型以及動(dòng)態(tài)路徑模型識(shí)別舞蹈翻騰姿態(tài)誤識(shí)別率結(jié)果,再次驗(yàn)證了采用本文模型識(shí)別視頻中舞蹈翻騰姿態(tài)的準(zhǔn)確性。
3 結(jié)論
本文研究一種基于輪廓圖像空頻域特征的舞蹈翻騰姿態(tài)識(shí)別模型,通過(guò)離散余弦變換提取舞蹈翻騰姿態(tài)能量圖頻域特征,采用Contourlet變換提取舞蹈翻騰姿態(tài)能量圖空域輪廓特征,有效提高了利用隱馬爾可夫模型識(shí)別舞蹈翻騰姿態(tài)精準(zhǔn)度。并通過(guò)實(shí)驗(yàn)驗(yàn)證本文模型在有無(wú)陰影情況下均可有效識(shí)別視頻中舞蹈翻騰姿態(tài),且識(shí)別準(zhǔn)確率高。
參考文獻(xiàn)
[1]王曲,趙煒琪,羅海勇,等,人群行為分析研究綜述[Jl計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2018. 30(12):163-175.
WANG Qu, ZHAO Weiqi, LUO Haiyong, et al.Research oncrowd behavior analysis:a review [J]. Journal of computer-aid-ed design&computer graphics, 2018, 30( 12): 163-175.
[2]鄭瀟,彭曉東,王嘉璇.基于姿態(tài)時(shí)空特征的人體行為識(shí)別方法[J]計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2018,30(9):1615-1624.
ZHENG Xiao. PENG Xiaodong, WANG Jiaxuan. Human ac-tion recognition based on pose spatio-temporal features [J]. Jour-nal of computer-aided design&computer graphics. 2018. 30(9):1615-1624.
[3]易唐唐.基于時(shí)空與或圖模型的視頻人體動(dòng)作識(shí)別方法[Jl.控制工程,2017 .24(9):1792-1797.
YI Tangtang. Video human action recognition based on spatialtemporal and-or graph model[J]. Control engineering of China,2017. 24(9):1792-1797.
[4]宋春曉,孫穎.面向情感語(yǔ)音識(shí)別的非線性幾何特征提取算法[J]計(jì)算機(jī)工程與應(yīng)用,2017,53( 20):128-133.
SONG Chunxiao, SUN Ying. Nonlinear geometric feature ex-traction algorithm for emotional speech recognition [J]. Comput-er engineering and applications, 2017. 53(20): 128-133.
[5]周濤,范影樂(lè),朱亞萍,等.基于主視通路層級(jí)響應(yīng)模型的輪廓檢測(cè)方法[J],航天醫(yī)學(xué)與醫(yī)學(xué)T程,2018.31(3):75-83.
ZHOU Tao, FAN Yingle, ZHU Yaping, et al.Fast contour de-tection method based on hierarchical response model of prima-ry visual pathway [J]. Space medicine&medical engineering,2018, 31(3):75-83.
[6]陳家益,黃楠,熊剛強(qiáng),等.基于灰度最值和方向紋理的概率濾波算法[J]計(jì)算機(jī)工程與應(yīng)用,2017 .53(8):186-192.
CHEN Jiayi, HUANG Nan. XIONG Gangqiang, et al.Proba-bility filtering algorithm based on maximum and mini - mumgray and directional texture [J]. Computer engineering and ap-plications, 2017. 53(8): 186-192.
[7]范哲意,蔣姣,曾亞軍,等.基于空一頻域特征和線性判別分析的視頻步態(tài)識(shí)別[J]光學(xué)技術(shù),2017.43(4):374-380.FAN Zheyi. JIANG Jiao, ZENG Yajun, et al.Video humangait recognition based on space-frequency domain features andlinear discriminant analysis [J]. Optical technique, 2017, 43(4):374-380.
[8]倪曉航,肖明波,基于改進(jìn)邊緣活動(dòng)輪廓模型的超聲圖像分割[J]計(jì)算機(jī)工程與設(shè)計(jì),2018,39(6):183-186.
NI Xiaohang, XIAO Mingbo. Ultrasound image segmentationbased on improved edge active contour model [J]. Computer en-gineering and design, 2018. 39(6): 183-186.
[9]蘇富林,錢素娟,魏霖靜,等,頻域內(nèi)基于鄰域特征學(xué)習(xí)的單幅圖像超分辨重建[J]計(jì)算機(jī)工程.2017 .43 (5):255-260.
SU Fulin, QIAN Sujuan, WEI Linjing, et al.Single-image su- per- resolution reconstruction in frequency domain based onneighborhood feature learning [J]. Computer engineering,2017. 43(5):255-260.
[10]康乃馨,何明浩,韓俊,等.時(shí)頻域綜合分析的雷達(dá)信號(hào)識(shí)別方法[J]現(xiàn)代防御技術(shù),2017.45(5):162-169.
KANG Naixin, HE Minghao, HAN Jun. et al_Radar signalrecognition method via synthetic analysis in time-frequency do-main [J]. Modern defense technology, 2017, 45(5): 162-169.
作者簡(jiǎn)介:耿君(1982-),女,山東濟(jì)南人,博士,講師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用。