于初允,李闖
(吉林師范大學(xué) 計(jì)算機(jī)學(xué)院,吉林 四平 136000)
伴隨科學(xué)技術(shù)迅速發(fā)展,門禁、手機(jī)解鎖和快捷支付等人臉識別技術(shù)的應(yīng)用,給人們生活帶來極大便利,人臉識別逐漸走進(jìn)了日常生活中。而經(jīng)濟(jì)發(fā)展也豐富了人們的精神文化生活,如看電影就已經(jīng)成為了人們休閑娛樂的重要選擇之一。但互聯(lián)網(wǎng)上關(guān)于影評褒貶不一,都是憑借人的主觀意志對影片進(jìn)行評價,人們獲取有效信息的效率降低,挑選合適電影付出的時間代價大。表情識別是人臉識別的重要組成部分,技術(shù)日趨成熟且效率較高、跨平臺性能優(yōu)異。通過對觀影者在觀看電影過程中的表情識別,與預(yù)期效果做出對比,達(dá)到對電影效果進(jìn)行客觀反饋的目的。通過多種實(shí)驗(yàn)驗(yàn)證,基于Dlib 的表情識別技術(shù)可以對電影進(jìn)行有效反饋。
ResNet(Residual Neural Network),即基于殘差學(xué)習(xí)思想的深度神經(jīng)網(wǎng)絡(luò),將人臉數(shù)據(jù)的訓(xùn)練集與面部特征數(shù)據(jù)進(jìn)行對比,是Dlib 在人臉識別部分的核心[2]。
殘差學(xué)習(xí)結(jié)構(gòu)如圖1 所示。將學(xué)習(xí)到的特征記為H(x),由于殘差學(xué)習(xí)相較于原始特征的學(xué)習(xí)更加容易,由其學(xué)習(xí)到的殘差為F(x)= H(x)-x,通過不斷地進(jìn)行F(x)+x的學(xué)習(xí),使系統(tǒng)具有更佳性能[3]。
圖1 ResNet 的殘差學(xué)習(xí)結(jié)構(gòu)[3]Fig.1 Residual learning structure of ResNet[3]
ResNet 有2 種結(jié)構(gòu):2 層殘差學(xué)習(xí)單元和3 層殘差學(xué)習(xí)單元,如圖2 所示。2 種結(jié)構(gòu)分別對應(yīng)ResNet34 和ResNet50/101/152,后者相較于前者顯著的優(yōu)點(diǎn)是減少了參數(shù)量。所以前者常用于層數(shù)更少的網(wǎng)絡(luò),后者常用于更深的網(wǎng)絡(luò)[3]。
圖2 ResNet 的2 種結(jié)構(gòu)[3]Fig.2 Two structures of ResNet[3]
Dlib 使用的是34 層的網(wǎng)絡(luò),ResNet34 的最后一層是fc 1000,為得到128 維向量,在fc 1000 后面加Dense(128)。通過獲取人臉的Dense(128)與原Dense(128)的歐式距離,與閾值和相似程度的百分比做比較,即可判斷獲得到的人臉圖像信息。
本文采用Dlib 的68 特征點(diǎn)檢測模型對人臉進(jìn)行檢測,特征點(diǎn)位置如圖3 所示。
圖3 Dlib 的68 特征點(diǎn)Fig.3 68 feature points of Dlib
此模型的訓(xùn)練流程為:首先,將訓(xùn)練圖片和測試圖片放于同一文件目錄下,為保證此模型識別準(zhǔn)確率的提升,應(yīng)使訓(xùn)練集和測試集圖片包含多種可能,如不同光照、距離的圖片,為擴(kuò)大兩集合,做鏡像處理。其次,圖像中的人臉尺寸可能存在過大差異,影響結(jié)果輸出,所以應(yīng)設(shè)置適當(dāng)掃描窗口。使用SVM訓(xùn)練器訓(xùn)練所提取特征[4],可得到人臉檢測模型。最后,測試人臉檢測模型,若達(dá)到預(yù)期標(biāo)準(zhǔn),即可應(yīng)用。訓(xùn)練過程如圖4 所示。
圖4 Dlib68 特征點(diǎn)的訓(xùn)練過程Fig.4 Training process for Dlib68 feature points
本文應(yīng)用的表情識別框架如圖5 所示,模塊應(yīng)用了人臉圖像的特征點(diǎn)檢測和簡單的表情計(jì)算算法,簡單概括為:首先,為獲取人臉圖像使用人臉檢測技術(shù),判斷是否為人類面部;其次,為減少環(huán)境帶來的影響,對檢測到的人臉圖像進(jìn)行預(yù)處理;再次,對于面部的特征檢測,需要用到人臉圖像的特征點(diǎn)檢測技術(shù);最后,通過特征點(diǎn)計(jì)算進(jìn)行簡單的表情識別。將表情識別的結(jié)果與目標(biāo)電影片段的預(yù)期效果進(jìn)行對比,實(shí)現(xiàn)電影效果反饋。
圖5 系統(tǒng)識別框架Fig.5 System identification framework
論文中重點(diǎn)研究了通過利用Dlib 特征提取器和特征預(yù)測器對人臉進(jìn)行捕獲和特征提取,以達(dá)到簡單的表情識別。設(shè)計(jì)實(shí)現(xiàn)步驟具體如下:
(1)利用OpenCv 捕獲圖像[5],并對每幀圖像進(jìn)行灰度處理。
(2)利用Dlib 的特征提取器檢測人臉,并計(jì)算數(shù)量。
(3)若存在檢測到的人臉數(shù)不為空,顯示每個人臉的68 特征點(diǎn),并計(jì)算人臉識別框的長度。使用特征預(yù)測器獲得68 點(diǎn)數(shù)據(jù)的坐標(biāo)。
(4)通過步驟(3)獲得有關(guān)嘴、眉毛和眼睛的坐標(biāo)數(shù)據(jù),進(jìn)行簡單的表情計(jì)算。需要獲得的坐標(biāo)有:嘴中心、嘴左角和嘴右角;眉毛的10 個特征點(diǎn);2 只眼睛的眼角、眼尾、上眼瞼中點(diǎn)及下眼瞼中點(diǎn)。
(5)通過步驟(4)獲得的坐標(biāo)進(jìn)行計(jì)算,判斷表情。表情判別流程如圖6 所示。
圖6 表情判別流程圖Fig.6 Expression discrimination flowchart
綜合前文提及的表情識別中基于面部幾何的識別方法[7]可知,利用檢測獲得的68 特征點(diǎn),通過數(shù)學(xué)計(jì)算,對人在恐懼、驚訝、高興、憤怒和自然狀態(tài)下進(jìn)行表情的識別。進(jìn)而可以通過獲得的表情數(shù)據(jù),與預(yù)期觀眾的觀影效果進(jìn)行對比,達(dá)到電影效果反饋的目的。研究發(fā)現(xiàn)在此過程中存在的主要問題有:
(1)電影中呈現(xiàn)的內(nèi)容復(fù)雜繁多,不同的人所感受到的情緒不同,所展現(xiàn)的表情各異。期望情緒集的數(shù)量偏大,會導(dǎo)致不符合預(yù)期的表情也被計(jì)入預(yù)期結(jié)果中,導(dǎo)致反饋不準(zhǔn)確;數(shù)量偏小,則符合預(yù)期的表情會有大部分不計(jì)入預(yù)期結(jié)果中,導(dǎo)致反饋不準(zhǔn)確。所以期望情緒集的創(chuàng)建不具備便捷、準(zhǔn)確的優(yōu)點(diǎn)。
(2)由于人的個體個性、身體發(fā)育等方面存在差異,對于同種情緒的表現(xiàn)也有所不同,表現(xiàn)程度也并不一樣。且存在調(diào)動的肌肉、組織變化細(xì)微,多數(shù)呈現(xiàn)復(fù)合表情,約超過21 種。本文探討的表情識別,需要在表情變化幅度較大時才能準(zhǔn)確識別,缺少微表情的識別。且僅對嘴、眼睛和眉毛的部分變化作為表情識別的依據(jù),缺少準(zhǔn)確性且識別模式單一,并且僅能識別5 種普通表情。
為驗(yàn)證上述系統(tǒng)是否能對觀影人的表情及時、準(zhǔn)確地進(jìn)行識別,對正在觀影的人的表情進(jìn)行簡單識別。測試此系統(tǒng)的可行性,并將結(jié)果輸出在屏幕中。對該過程可做闡釋分述如下。
(1)選擇3 類短片:喜劇、恐怖和懸疑。
(2)開啟系統(tǒng),調(diào)用pc 攝像頭捕獲測試者面部。
(3)記錄輸出在屏幕上的檢測結(jié)果。
(4)測試非人類的面部。
(5)記錄結(jié)果。實(shí)驗(yàn)結(jié)果如圖7 所示。
圖7 表情識別結(jié)果圖Fig.7 Expression recognition results graph
研究可知,在喜劇時可以檢測到實(shí)驗(yàn)者有較頻繁的“happy” 表情,懸疑時有“amazing” 表情和“angry”表情,恐怖時可以檢測到實(shí)驗(yàn)者的“afraid”表情和部分“angry” 表情,大多時候人們都是“nature”表情?;贒lib 的表情識別技術(shù)可以較為準(zhǔn)確和迅速地識別觀影者的表情變化,令數(shù)據(jù)更加客觀,說明將其應(yīng)用于電影效果反饋上是可行的。
將表情識別應(yīng)用于電影反饋中,是一項(xiàng)具有良好發(fā)展前景的研究課題。本文實(shí)現(xiàn)了基于Dlib表情識別技術(shù)在電影效果反饋中的應(yīng)用,該應(yīng)用具有跨平臺性優(yōu)異、響應(yīng)速度快和結(jié)果準(zhǔn)確等優(yōu)點(diǎn),達(dá)到了對電影效果反饋的客觀性和準(zhǔn)確性。