汪偉鳴 郜沾
摘要:情緒識別是當前人工智能和機器學(xué)習研究領(lǐng)域的熱點問題,情緒識別目前多采用面部表情、身體行為和語音信號分析法。該文提出了一種基于時空興趣點的情緒識別算法,該算法從包含情緒特征的視頻中提取大量的時空興趣點,并將興趣點進行優(yōu)化處理,從而對情緒進行袁征,最后利用最近鄰分類和支持向量分類分別進行情緒識別。實驗在FABO數(shù)據(jù)庫下,分析了開心,悲傷,恐懼,憤怒,迷惑,無聊,驚喜七種不同的情緒,分別對面部和面部結(jié)合肢體動作兩種情況進行了測試,其中最佳識別率能達到80.5%,證明了該算法的有效性和魯棒性。
關(guān)鍵詞:時空興趣點;情緒識別;特征提取;最近鄰分類;支持向量機;面部表情;肢體動作
中圖分類號:TP317 文獻標識碼:A 文章編號:1009-3044(2017)13-0159-03
1概述
隨著計算機視覺和多媒體技術(shù)的進步,智能情緒識別分析已是目前計算機視覺中最活躍的研究領(lǐng)域之一。其目的是對人類的圖像序列進行檢測、跟蹤和識別,更科學(xué)地解釋人類行為。情緒識別可以應(yīng)用于生活的各個方面:游戲廠商可以智能分析玩家的情緒,根據(jù)不同表情針對性地和玩家交互,提高游戲的體驗;相機廠商可以利用該項技術(shù)捕捉人類表情,比如當需要一張微笑或者生氣的照片時,可以捕獲被拍人員的面部表情并快速完成拍照工作;政府或社會學(xué)家可以在公共場合安裝攝像頭,分析整個社會群體的表情以了解人們的生活工作壓力;商廈可以根據(jù)顧客對商品的購物時的動作及表情視頻,對產(chǎn)品做相關(guān)的市場調(diào)查。
目前的情緒識別主要是基于面部表情的情緒識別,研究方法以提取二維面部特征為主,近年來,國內(nèi)外的專家學(xué)者在面部表情識別領(lǐng)域嘗試利用不同的方法以得到更高的識別率。而特征提取和分類識別是面部表情識別研究中兩個非常重要的步驟,因此專家學(xué)者嘗試了各種各樣的方法,都在著重提高這兩個關(guān)鍵技術(shù)。而基于肢體動作的情緒識別還處在啟蒙階段,主要工作是建立動作模型和動作分類,如劉艷結(jié)合人工智能和機器學(xué)習等技術(shù),提取運動視頻中的肢體動作特征,構(gòu)建人類情緒的集合,并且建立情緒與動作之間的映射關(guān)系模型,從而有效地從運動視頻中識別出運動人的情緒信息。本文將面部表情與肢體動作相結(jié)合進行時空興趣點提取,將其轉(zhuǎn)化為情緒特征,并利用分類器進行情緒識別。
2基于時空興趣點的情緒識別模型
本文通過對若干輸入視頻數(shù)據(jù)的訓(xùn)練樣本進行檢測,得到大量時空興趣點,并用非極大值抑制方法對時空興趣點進行刪減處理,得到更為有效的興趣點,再將包含興趣點的固定長方體區(qū)域的亮度梯度轉(zhuǎn)化為特征描述符,用不同的分類器對特征描述符訓(xùn)練學(xué)習得到相應(yīng)模型。再利用訓(xùn)練后的模型,輸入測試視頻數(shù)據(jù),采用和訓(xùn)練樣本相同的方法提取時空興趣點,得到特征描述符,包括所設(shè)置參數(shù)不變,并利用最近鄰分類和支持向量分類分別進行情緒識別。整個流程如圖1所示。
3時空特征
經(jīng)研究發(fā)現(xiàn),視頻數(shù)據(jù)在時間和空間兩個維度上都劇烈變化的地方,往往伴隨時空事件的發(fā)生。因此,問題的關(guān)鍵在于如何從視頻中準確地抽取代表時空事件的興趣點,并用其表征情緒。本文采用Dollar提出的基于Gaussian濾波器和Gabor濾波器相結(jié)合的時空興趣點檢測方法,首先在空間域上使用Gaussian濾波器對圖像進行濾波,然后在時間域上使用一維的Gabor濾波器作用于圖像序列,定義響應(yīng)函數(shù)如下:
定義時空窗的大小為(x,y,t)=(2□3σ□+1,2□3σ□+1,2□3τ□+1),為了提取興趣點,采用非極大值抑制方法搜索局部極大值,即判斷該點是否為其時空窗內(nèi)滿足一定閾值條件的最大值。雖然這種方法能夠檢測到很多的興趣點,但是過多的興趣點反而會使得實驗結(jié)果不準確,所以有必要控制興趣點的個數(shù),可以設(shè)定閾值,取比閾值大的幾百個作為最終的興趣點。通過以上方法得到興趣點,并且將包含興趣點的時空窗定義為長方體,如圖2所示。
圖2所示為視頻中的可視化的長方體。而對于一個長方體,因為數(shù)據(jù)量是比較大的,直接作為特征比較是不合適的,因此需要更進一步地,創(chuàng)建一個長方體描述符。首先在長方體上加以2種不同尺度的高斯濾波,得到更豐富的特征,然后計算長方體中每個點的亮度梯度,所得到的特征向量維度仍然很高,最后采用PCA降維的方法,得到長方體特征描述符。
4情緒分類器
對于已經(jīng)提取好的時空特征,本文用KNN(k-NearestNeighbor,近鄰分類器)和SVM(Support Vector Machine,支持向量機)兩種分類器進行分類,并且根據(jù)分類識別效果進行分析對比。
4.1KNN分類器
KNN算法最初是由Cover和Hart于1968年提出的,已經(jīng)是一個理論上非常成熟的方法,其思路非常簡單直觀,優(yōu)點是易于快速實現(xiàn),以及錯誤低。KNN是一種無參分類器,對于一個測試樣本,在訓(xùn)練樣本的特征空間中搜索與之最近的k個樣本,如果這五個樣本中屬于某一個最多,那么就認為該測試數(shù)據(jù)屬于哪一類。本文采用的是1NN,即最近鄰分類,距離的度量為x2距離,當測試視頻特征向量與某個訓(xùn)練視頻特征向量之間的x2距離最小時,就判斷測試視頻的情緒屬于該訓(xùn)練視頻的標簽情緒類型。
4.2SVM分類器
除了1NN,基于貝葉斯學(xué)習理論的SVM也是一種極為有效的判別方法。SVM的原理是首先將特征向量映射到高維特征空間,然后最大間隔地找到一個線性分離超平面分離這個高維空間的數(shù)據(jù)。給一組訓(xùn)練標記的情緒視頻{(xo,yi),i=1,…,l},其中xi∈{1,-1},測試樣本x通過以下函數(shù)分類:
5實驗及結(jié)果分析
5.1情緒數(shù)據(jù)庫介紹
研究表明,人類存在幾種核心情緒,是人類的基本情緒也是衍生其他情緒的基礎(chǔ)。其中開心(happiness),憤怒(anger),悲傷(sadness),恐懼(fear)這四種情緒是當前情緒識別領(lǐng)域中研究最多的情緒。