齊興斌,趙 麗,李雪梅,田 濤
(1.山西大學 計算機工程系,山西 太原 030013;2.北京航空航天大學 計算機學院,北京 100083;3.北京師范大學 教育信息技術(shù)協(xié)同創(chuàng)新中心,北京 100875)
視頻檢索中基于GMM聚類的無監(jiān)督情感場景檢測
齊興斌1,趙 麗2,李雪梅1,田 濤3
(1.山西大學 計算機工程系,山西 太原 030013;2.北京航空航天大學 計算機學院,北京 100083;3.北京師范大學 教育信息技術(shù)協(xié)同創(chuàng)新中心,北京 100875)
為了高效地從視頻中檢索出激動人心的場面,提出了一種基于高斯混合模型的無監(jiān)督情感場景檢測方法。首先,從面部選取42個特征點,并定義10種面部特征;然后,利用高斯混合模型將視頻的幀劃分為多個聚類;最后,利用每一幀的面部表情分類結(jié)果將情感場景劃分為單個聚類,并通過場景集成和刪除完成檢測。在生活記錄視頻和MMI人臉表情數(shù)據(jù)庫上的實驗結(jié)果表明,該方法的檢測率、分類率分別高達98%,95%,檢測5分鐘左右的情感場景視頻僅需0.138 s,性能優(yōu)于幾種較為先進的檢測方法。
視頻檢索;情感場景檢測;面部表情識別;無監(jiān)督;高斯混合模型
生活記錄視頻[1]有著較為嚴重的問題,即難以輕松有效地從大量的視頻數(shù)據(jù)中檢索出有用的場景畫面。因此,有價值的生活記錄視頻并不能經(jīng)常得到使用。為了解決該問題,本文提出了一種對于生活記錄視頻檢索有效且令人印象深刻的場景檢測方法。令人印象深刻的場景通常都是有用的,因為從生活記錄視頻檢索中檢索出來都作為重要事件來使用。生活記錄視頻通常包含人,他們的情緒變化會改變令人印象深刻的場景。因此,本文基于人臉表情識別提出了一種情感場景檢測(ESD)方法,因為情緒可以從面部表情來估計。
近來面部表情識別[2]被廣泛地研究,并應用到視頻場景檢測中[3],但大多數(shù)現(xiàn)有的方法側(cè)重于識別典型的面部表情[4](例如憤怒、厭惡、恐懼、快樂、悲傷和驚奇)。然而在生活記錄視頻中,那些更復雜和/或微妙的面部表情,例如,微微一笑、充滿微笑和苦笑都可以觀察到[5]。因為大多數(shù)現(xiàn)有的方法需要預定義的面部表情[6],這使得有用的場景難以被檢測,包括各種各樣生活記錄視頻的面部表情。
文獻[7]提出了一種基于人臉表情識別的生活記錄視頻的情感場景檢測方法,該方法能夠檢測不同的面部表情但是面部表情必須被提前指定。考慮到要檢測出各種情緒的場景,因此所有的面部表情很難預先確定,此外,大量較為麻煩的練習數(shù)據(jù),都需要構(gòu)建一個面部表情識別模型。
本文方法中,面部表情識別模型是基于使用高斯混合模型[8]的無監(jiān)督聚類方法構(gòu)建的。由于本文方法是無監(jiān)督的,它不需要同時要求學習的數(shù)據(jù)和面部表情的預定義。此外,利用人臉表情識別中幾個人臉特征點的唯一位置關(guān)系,并通過引入分層情感場景集成方法顯示出本文提出的情感場景檢測方法是完全有效的。通過一些情感場景檢測實驗,可發(fā)現(xiàn)本文方法的靈活性和有效性。
1.1 面部特征點
1.2 面部特征值
使用面部特征點來定義以下10種面部特征,從而檢測在不同面部表情外觀下面部特征點的區(qū)別。
這個特性值是基于利用最小二乘法從左右眉毛上的面部特征點上得到兩行的梯度a1和ar。通過式(1)可獲得該特征值。
(1)
使用眉毛和眼睛上側(cè)之間的人臉特征點的平均距離,并通過式(2)來獲得該特征值。
(2)
式中,lN是一張人臉大小的差異歸一化因子。它被定義為左眼和右眼的中心點之間的距離,lN=‖p27-p28‖。
這個特征值是在4個人臉特征點p5,p6,p16和p15圍成的區(qū)域中通過式(3)得到的,并且p15位于眉毛和眼睛的內(nèi)角形成的區(qū)域。
(3)
通過歸一化的兩個八邊形所表示的左眼和右眼的區(qū)域,特征值由式(4)來定義。
(4)
基于眼睛頂部和底部點之間的距離與眼睛左側(cè)和右側(cè)點之間的距離比,這個特征值定義為
(5)
這個特征值是在由嘴巴周圍的8個面部特征點所圍成的一個八邊形區(qū)域中,定義為
(6)
類似于第6個特征值,這個特征值是通過嘴巴內(nèi)圈內(nèi)8個面部特征點而形成的八邊形區(qū)域,定義為
(7)
基于嘴巴周圍頂部和底部點之間的距離與嘴巴周圍左側(cè)和右側(cè)點之間的距離比,定義為
(8)
類似于第8個特征值,這個特征值是基于嘴巴內(nèi)圈頂部和底部點之間的距離與嘴巴內(nèi)圈左側(cè)和右側(cè)點之間的距離比,定義為
(9)
10)垂直于嘴角的位置
此特征值代表嘴角的位置高度,定義為
大多數(shù)現(xiàn)有的面部識別方法都是基于監(jiān)督學習的[11-12],監(jiān)督學習通常需要大量的訓練數(shù)據(jù)。本文提出了一種無監(jiān)督人臉表情識別模型,以消除預定義的面部表情和準備訓練數(shù)據(jù)。
2.1 特征向量
(11)
(12)
(13)
式中,m是用于構(gòu)造新的特征向量的主成分的數(shù)目,因此Xi是m維向量。對于每個j≤m,ljk是第j個主分量的第k個分量的量。
2.2 高斯混合模型
面部表情識別模型是通過基于高斯混合模型使用特征向量的聚類算法構(gòu)建的,聚類通過期望最大化(ExpectationMaximization,EM)算法[14]構(gòu)成。在視頻的每個幀被分配到聚類,聚類對應一個特定的面部表情,從而生成的K聚類對應的幀劃分為K種面部表情。
該聚類算法如算法1所示,本文在初始化步驟中給出隨機值參數(shù)值ξ,μ和M,閾值ε設(shè)置為10-3。
算法1,即基于高斯混合模型的聚類算法,具體描述如下:
1)初始化ξk,μk和Mk,分別表示混合系數(shù)、平均矢量和第k個高斯分布的方差-協(xié)方差矩陣。
t←1,其中t為步數(shù)。
(14)
(15)
3)(M步驟)分別根據(jù)方程(16)、(17)和(18)更新ξ,μ和M。
(16)
(17)
(18)
4)如果式(19)條件滿足,則轉(zhuǎn)到步驟5)。否則,t←t+1,回到步驟2)。
(19)
式中:ε是終止條件的閾值,并且
(20)
5)根據(jù)式(21)分配給每個幀的集群CK(Xi)。
(21)
通過使用第2章中所示的面部表情識別模型,將一個視頻的幀劃分為K個聚類[15](即劃分為K種面部表情)。利用每一幀的面部表情分類結(jié)果將情感場景劃分為單個聚類,因為某些類型的面部表情可以從一個視頻中通過分析單個聚類進行檢測。
(22)
對于場景Si,如果Si和Si-1之間的距離小于閾值θ,則Si-1被集成為Si,如圖1a所示。如果Si和Si+1之間的距離小于閾值θ,則Si+1被集成為Si。
圖1 場景集成和刪除
情感場景的集成和刪除過程一直重復進行,直到?jīng)]有更多的場景可以被用來集成或刪除,在視頻中包含著多個面部表情的情況下,上述情感場景檢測分到每個聚類中,詳細的檢測算法如算法2所示。
算法2,即情感場景檢測算法,其偽代碼如下:
結(jié)束條件
結(jié)束條件
如果v=1,那么
完成場景檢測(沒有情感場景輸出)。
或者
轉(zhuǎn)到步驟6)。
結(jié)束條件
結(jié)束條件
6) 如果p=v,那么
i從1到v
結(jié)束條件
完成場景檢測。
或者
p←p+1并且回到步驟5)。
結(jié)束條件
7)更新S中元素的索引,如下所示:
4.1 生活記錄視頻
實驗通過5位研究對象來準備了5個生活記錄視頻(稱為研究對象A、B、C、D和E),所有研究對象都是男性大學生。對于所有研究對象,都通過打牌場景記錄為生活記錄視頻。每個生活記錄視頻的長度、大小和幀速率分辨為5 min、640×480像素、25 f/s(幀/秒),從每個視頻中每10幀挑選出1幀,每個視頻共750幀。
由于大多數(shù)生活記錄視頻中觀察到的面部表情都是微笑[16],設(shè)定聚類K的大小為2,即通過生活記錄視頻的幀分成笑容和非微笑來檢測微笑的場景。圖2a和2b所示為情感幀圖像示例,圖2c和2d所示為非情感幀圖像示例。
情感場景檢測精度的閾值θ如圖3所示,對于大多數(shù)的受試者,閾值θ越小,檢測精度越低。當θ值較小時,檢測結(jié)果中會出現(xiàn)許多無用的場景,導致精度降低。此外,θ值較大時,檢測結(jié)果可能會忽略許多有用的場景,因此,θ=25適合大多數(shù)的受試者。
圖2 情感幀及非情感幀
圖3 對于每個受試者情感場景檢測的精度
當θ=25時,除了受試者E,所有受試者檢測精度都在0.9以上,甚至最高可達0.996??紤]到本文方法不需要訓練數(shù)據(jù),并且在該實驗中所用的視頻包含各種類型的笑容,因此檢測精度應該是相當不錯的。
受試者E的檢測精度比其他受試者都相對較低,這是因為受試者E的臉有時會用其雙手遮擋,這種情況下很難精確地檢測面部特征點,故無法很好地辨別面部表情。
4.2MMI表情數(shù)據(jù)庫
使用MMI人臉表情數(shù)據(jù)庫[17]進行了一次情感的場景檢測實驗,該數(shù)據(jù)集包含29個受驗者,年齡在18~63歲之間,有男性和女性的短片。實驗從MMI數(shù)據(jù)集中選取100個實例(即視頻剪輯)。由于實驗使用的視頻包含一種無表情及6個面部表情,聚類K設(shè)定為7,表1所示為實際的訓練和測試序列,表2所示為檢測到的訓練和測試序列平均數(shù),表3所示為測試序列的正確和錯誤分類。
表1 實際的訓練和測試序列
表2 檢測到的訓練和測試序列
表3 測試序列的分類結(jié)果
從表2可以看出,分別有1個憤怒和1個驚訝表情沒有檢測到,主要由于這兩種表情的特征點受表情影響而不規(guī)則,檢測到的訓練和測試序列總數(shù)為98,而實際的訓練和測試總數(shù)為100,檢測正確率為98%。
從表3可以看出,分類階段,所有惡心、幸福、悲傷和驚訝表情的分類都準確,由于憤怒與恐懼、恐懼與驚訝易混淆,一個憤怒場景被誤分類為恐懼,一個恐懼場景被誤分類為驚訝,40個測試表情中產(chǎn)生了2個錯誤分類,正確分類率為95%。
此外,使用處理器為XeonW3580(主頻為3.33GHz)內(nèi)存為8Gbyte的計算機測試了檢測模型的用時,“功能”、“主成分”、 “聚類”和“檢測”的處理時間分別對應于計算面部特征、進行主成分分析得到特征向量、通過聚類分類每個幀的面部表情、檢測情感場景,“總數(shù)”表示整個處理時間,表4所示為本文模型各個階段的耗時情況。
表4 各個階段的耗時 s
提取人臉特征和集群的特征矢量的時間構(gòu)成了處理時間的很大一部分,然而,該方法非常有效,從表4可以看出,檢測平均5min長的情感場景視頻僅需0.138s,表明本文方法有望應用于大規(guī)模視頻數(shù)據(jù)庫。
4.3 性能比較
實驗將本文方法的檢測率、分類率和總耗時與其他幾種較好的檢測方法進行比較,包括Gabor多方向特征融合(GMDFF)[2]、文獻[7]提出的面部特征選取方法、基于稀疏表示的KCCA方法(SRC-KCCA)[13]、文獻[15]提出的霍夫森林(HoughForest,HF)方法,比較結(jié)果如表5所示,其中,實驗設(shè)置與4.2節(jié)相同,各個比較方法的參數(shù)設(shè)置均參考各自所在文獻。
表5 各方法的性能比較
從表5可以看出,相比其他幾種方法,本文方法取得了更高的檢測率和分類率,相比文獻[15]方法,本文方法耗時較高,霍夫森林方法通過構(gòu)建隨機森林尋找目標,相比傳統(tǒng)的分類方法更偏向判別式,可在訓練階段減少耗時,未來也會考慮在本文方法中引入該方法,相比其他幾種方法,本文方法取得了更好的耗時。文獻[7]方法通常需要提前限定面部表情才能取得較好的檢測結(jié)果,故檢測率、分類率低于上述所有比較方法。在提高檢測率和分類的情況下,仍然能保持較低的耗時,表明了本文方法的優(yōu)越性。
本文提出了一種基于高斯混合模型的視頻情感場景檢測方法,通過引入無監(jiān)督的方式,構(gòu)建一個面部表情模型,在沒有訓練數(shù)據(jù)和面部表情預定義的情況下可以檢測出不同的情感場景。此外,本文方法由于簡單的面部特征和低計算量的現(xiàn)場檢測算法顯得非常有效。實驗結(jié)果表明,相比其他幾種較新的檢測方法,本文方法取得了更高的檢測率和分類率,同時僅需很少的總耗時。
未來會將本文方法與其他新穎技術(shù)相結(jié)合,并使用更多的生活記錄視頻數(shù)據(jù)集、更多的受驗者、更廣泛的面部表情評估本文方法。此外,由于情感場景檢測精度不夠,計劃通過改善面部特征值的質(zhì)量,提高面部表情識別模型的性能以提高檢測精度。
[1]LEEMW,KHANAM,KIMTS.Asingletri-axialaccelerometer-basedreal-timepersonallifelogsystemcapableofhumanactivityrecognitionandexerciseinformationgeneration[J].PersonalandUbiquitousComputing, 2011, 15(8): 887-898.
[2]劉帥師, 田彥濤, 萬川.基于Gabor多方向特征融合與分塊直方圖的人臉表情識別方法[J].自動化學報, 2012, 37(12): 1455-1463.
[3]李春芝, 陳曉華.白化散度差矩陣的獨立元分析應用于表情識別[J].計算機應用研究, 2011, 28(11): 4361-4363.
[4]胡敏, 朱弘, 王曉華, 等.基于梯度Gabor直方圖特征的表情識別方法[J].計算機輔助設(shè)計與圖形學學報,2013, 25(12): 1856-1861.
[5]TIANY,KANADET,COHNJF.Facialexpressionrecognition[M].London:Springer, 2011.
[6]VALSTARMF,MEHUM,JIANGB,etal.Meta-analysisofthefirstfacialexpressionrecognitionchallenge[J].IEEETrans.Systems,Man.,andCybernetics,PartB:Cybernetics,2012, 42(4): 966-979.
[7]NOMIYAH,MORIKUNIA,HOCHINT.Emotionalvideoscenedetectionfromlifelogvideosusingfacialfeatureselection[C]//Proc.4thInternationalConferenceonAppliedHumanFactorsandErgonomics.[S.l.]:IEEEPress,2012: 8500-8509.
[8]袁少鋒, 王士同.基于多元混合高斯分布的多分類人臉識別方法[J].計算機應用研究, 2013, 30(9): 2868-2871.[9]梁榮華, 葉錢煒, 古輝, 等.特征點自動標定的顱面復原及其評估方法[J].計算機輔助設(shè)計與圖形學學報, 2013, 25(3): 322-330.
[10]TANPY,IBRAHIMH,BHARGAVY,etal.Implementationofbandpassfilterforhomomorphicfilteringtechnique[J].InternationalJournalofComputerScience, 2013, 1(5):1-6.
[11]DELFM,BOSZORMENYIL.State-of-the-artandfuturechallengesinvideoscenedetection:asurvey[J].MultimediaSystems, 2013, 19(5): 427-454.[12]胡步發(fā), 黃銀成, 陳炳興.基于層次分析法語義知識的人臉表情識別新方法[J].中國圖象圖形學報, 2011, 16(3): 420-426.[13]周曉彥, 鄭文明, 辛明海.基于稀疏表示的KCCA方法及在表情識別中的應用[J].模式識別與人工智能, 2013, 26(7): 660-666.
[14]趙玥, 蘇劍波.一種用于人臉識別的矢量三角形局部特征模式[J].電子學報, 2013, 40(11): 2309-2314.
[15]FANELLIG,YAOA,NOELPL,etal.Houghforest-basedfacialexpressionrecognitionfromvideosequences[M].Heidelberg:SpringerBerlin, 2012.
[16]KELLYP,DOHERTYA,BERRYE,etal.Canweusedigitallife-logimagestoinvestigateactiveandsedentarytravelbehaviour?resultsfromapilotstudy[J].InternationalJournalofBehavioralNutritionandPhysicalActivity, 2011, 8(1): 44-57.
[17]FANGT,ZHAOX,OCEGUEDAO,etal.3D/4Dfacialexpressionanalysis:anadvancedannotatedfacemodelapproach[J].ImageandVisionComputing, 2012, 30(10): 738-749.
齊興斌(1976— ),碩士,講師,主研視頻檢索、圖像處理;
趙 麗(1980— ),女,碩士,講師,主研視頻檢索、中文信息處理,本文通信作者;
李雪梅(1962— ),女,教授,主研多媒體、視頻處理等;
田 濤(1980— ),碩士,工程師,主研視頻檢索、機器學習等。
責任編輯:閆雯雯
Unsupervised ESD Method Based on GMM Clustering in Video Retrieval
QI Xingbin1, ZHAO Li2, LI Xuemei1, TIAN Tao3
(1.SchoolofComputer,ShanxiUniversity,Taiyuan030013,China; 2.SchoolofComputerScienceandTechnology,BeijingUniversityofAeronauticsandAstronautics,Beijing100083,China; 3.Collaborative&InnovationCenterforEducationInformationTechnology,BeijingNormalUniversity,Beijing100875,China)
For the purpose of an efficient retrieval of impressive scenes from videos, an emotional scene detection method based on Gaussian mixture model is proposed.Firstly, 42 feature points are selected from facial, and 10 features are defined.Then, Gaussian mixture model is used to divide video into multiple clusters.Finally, emotion scene is divided into single cluster by using facial expression classification results of each frame, and scene integrating and deleting is used to finish detecting.Experimental results on life record video and MMI face expression database show that the detecting and classification rate of proposed method can achieve 98% and 95% respectively.It takes only 0.138 seconds in detecting emotion scene video with five minutes.Proposed method has better performance than several advanced detecting methods.
video retrieval; emotional scene detection; facial expression recognition; unsupervised; Gaussian mixture model
國家自然科學基金項目(61202163);山西省自然科學基金項目(2013011017-2);山西省科技攻關(guān)項目(20130313015-1)
TP391
A
10.16280/j.videoe.2015.05.032
2014-07-05
【本文獻信息】齊興斌,趙麗,李雪梅,等.視頻檢索中基于GMM聚類的無監(jiān)督情感場景檢測[J].電視技術(shù),2015,39(5).