基于深度視頻分析的面癱分級方法

2021-12-23 12:24段群郭新明黃素萍謝飛

微型電腦應用 2021年12期

段群，郭新明，黃素萍，謝飛

(1.咸陽師范學院計算機學院，陜西咸陽 712000；2.西北工業(yè)大學計算機學院，陜西西安 710129；3.西安電子科技大學前沿交叉研究院，陜西西安 710068)

0 引言

面癱是以面部表情肌群運動功能障礙為主要特征的一種疾病，面癱病癥的診斷目前主要還是依靠醫(yī)生通過“望聞問切”的診斷方法來對病人的病情進行診斷并評估面癱病癥的嚴重程度。隨著計算機視覺技術(shù)的發(fā)展，相關(guān)學者開始探索能否利用計算機視覺的相關(guān)方法來協(xié)助、甚至代替醫(yī)生“望”診的工作。此外，利用計算機視覺技術(shù)進行診斷還能夠較大程度上避免醫(yī)生在診斷時受主觀因素的影響。

關(guān)于面癱的自動分級與評價，國內(nèi)外學者已進行了許多該方面的研究。王倩倩等[1]基于AAM關(guān)鍵點定位的算法提出了一種面神經(jīng)運動功能評價方法，徐峰等[2-4]主要提出了人臉微表情的識別方法，此方法不能直接應用于面癱病癥診斷過程中的等級評估?，F(xiàn)有的研究成果基本都集中在面癱檢測和面部不對稱性評價的相關(guān)研究。大部分的研究缺乏對這種面部不對稱性評價進行進一步量化和分級評估，而且沒有建立一套完整的評價準則，不能切實地應用于臨床。

針對此問題，本研究引入深度學習在視頻處理與分析中的相關(guān)理論和方法，探索設(shè)計能夠?qū)W習更本質(zhì)、更有效的人臉運動特征信息的深層非線性網(wǎng)絡(luò)結(jié)構(gòu)。

1 面癱患者面部圖像和視頻數(shù)據(jù)的采集及標注

針對面癱病癥嚴重程度的自動評估的相關(guān)研究，由于研究對象涉及個人隱私問題，目前國際上還沒有公開的數(shù)據(jù)集。為此，與陜西省中醫(yī)醫(yī)院針灸醫(yī)療科室合作，協(xié)調(diào)患者關(guān)于面部數(shù)據(jù)隱私的相關(guān)問題，制定相應的數(shù)據(jù)采集標準與規(guī)范，進行數(shù)據(jù)采集。主要包括如下。

1)圖像和視頻拍攝要求

關(guān)于拍攝設(shè)備：手機即可，拍攝圖像或者視頻中人臉區(qū)域的分辨率在200×200像素以上即可。

關(guān)于數(shù)據(jù)的存儲格式：每個病人樣例的數(shù)據(jù)放置在同一個文件夾下，文件夾中包含無面部動作的照片以及7種面部動作(微笑、抬眉、皺眉、閉眼、聳鼻、示齒、鼓腮)的照片和短視頻，每種面部動作的數(shù)據(jù)用其動作名稱作為短視頻和照片的文件名。此外，還應適當考慮數(shù)據(jù)的多樣性，即人員的胖瘦、不同的年齡階段、性別等因素。

對于相應視頻數(shù)據(jù)的獲取方式：每個動作讓志愿者做2次，第一次拍該動作短視頻；第二次拍對應的靜態(tài)圖像。然后對每個樣例(“樣例”指的是某個病人/正常人的一次測試。對于正常人，只需測試一次，而對于病人，可測試2到3次，記錄康復過程中的不同階段。)進行標注(無面部動作以及7個動作中每個動作是否屬于面癱癥狀；以及此面癱癥狀的嚴重程度應該屬于的級別)。

2)數(shù)據(jù)標注的要求

醫(yī)生的標注判斷必須要明確，不能模糊。如果對于同樣一個表情，有的醫(yī)生認為是中度，有的認為是重度，當這種情況常常發(fā)生時，會嚴重影響計算機作出有效的模型！在對面部動作進行標注時，需要根據(jù)不同的面部動作所關(guān)注的不同的區(qū)域分別予以標注。例如聳鼻時，主要標注聳鼻運動時面部的異常程度，可對相應關(guān)注的區(qū)域進行標記，標簽主要分為：正常=0，輕度=1，中度=2和重度=3這4個標準。其他面部動作的數(shù)據(jù)標注與之類似。

2 基于多重卷積神經(jīng)網(wǎng)絡(luò)的面癱視頻劃分

針對利用計算機視覺技術(shù)進行面癱病癥診斷的任務場景，設(shè)計一種可以同時提取面癱患者面部動作的空間特征與時域特征的深層神經(jīng)網(wǎng)絡(luò)模型，以完成在面癱診斷時對面部動作開始與結(jié)束狀態(tài)的識別，實現(xiàn)對面癱診斷視頻按面部動作類型進行的劃分。該網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)鍵在于卷積層的設(shè)計，由于任務場景中，視頻幀之間的差異，主要在于面部皮膚運動的變化，相對于圖像整體來說變化微小，空間特征之間的差異信息難以提取。具有高分辨率的視頻幀序列帶來的卷積層的參數(shù)太多，計算復雜度太高。而傳統(tǒng)CNN一般每層僅包含一個局部感受野較大的卷積核，或者局部感受野較小的卷積核。然而，大尺寸的卷積核，參數(shù)規(guī)模大，計算成本高，特征表達能力有限，獲取了整體運動信息，但忽略了面部變化的細節(jié)。而小卷積核只能提取面部運動過程中的細節(jié)特征，卻無法提取面部整體特征。

針對這些問題，將大的卷積核分解為若干個小型卷積核疊加。使用多個較小的卷積核的卷積層代替一個卷積核較大的卷積層，使得網(wǎng)絡(luò)的層次更深，不僅可以減少參數(shù)，并且進行了更多的非線性映射，可以增加網(wǎng)絡(luò)的擬合表達能力。不僅可以提取面部運動的整體運動信息，并且也可以提取過程中的細節(jié)特征。由此設(shè)計了多重卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：包含4組卷積層，3個全連接層，一個softmax層，描述網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示。

圖1 多重卷積神經(jīng)網(wǎng)絡(luò)框架及設(shè)置

首先將序列視頻幀經(jīng)過多重卷積神經(jīng)網(wǎng)絡(luò)的一系列處理得到的特征向量。然后，將特征序列帶入LSTM中，進而對面癱診斷動作的開始和結(jié)束狀態(tài)進行準確識別。在整個過程中，視頻幀序列的長度T的選擇直接影響了動作狀態(tài)識別的準確率。序列長度足夠短，運算速度快，但是面部動作變化細微，需要足夠長的序列，獲取充足的信息才能進行有效動作識別。完整的算法框架如圖2所示。

圖2 基于多重卷積神經(jīng)網(wǎng)絡(luò)模型的面癱動作開始與結(jié)束狀態(tài)識別框架

3 基于特征點矢量與紋理形變參數(shù)相結(jié)合的面癱等級評估

基本思想是融合人臉圖像的結(jié)構(gòu)特征與紋理信息，然后利用LSTM神經(jīng)網(wǎng)絡(luò)進行面癱等級評估。特征參數(shù)主要分為兩部分：特征點矢量和紋理特征變化信息。在獲取特征點矢量與特征塊之前，首先利用主動外觀模型(Active Appear-ance Model, AAM)對人臉進行特征點進行定位。如圖3所示。

(a)面癱患者面部圖像

1)基于特征點矢量的特征提取

個體之間存在很大差異，在臉型和器官形狀上表現(xiàn)尤為突出。面部各器官的不同導致個體在做同一個面部動作時都具有很大的差異。人在做微笑的面部動作時不同個體嘴巴變化的程度都不一樣。因此，在基于結(jié)構(gòu)特征的面癱識別研究中，應考慮個體差異對識別結(jié)果的影響。利用AAM 算法對人臉共計68 個特征點進行定位，如圖4所示。將選取的特征點記為pi(i=1,2,…,68)。在人臉關(guān)鍵點中，當面部進行不同的面部動作時。多數(shù)關(guān)鍵點都會發(fā)生位置變化，但是鼻梁上的3個關(guān)鍵點幾乎不變，我們稱此3個關(guān)鍵點為主關(guān)鍵點，如圖4中紅色標記的關(guān)鍵點。因此，我們定義面部各特征點與鼻梁3個主關(guān)鍵點之間兩兩構(gòu)成的矢量為特征點矢量，那么每個關(guān)鍵點在每張靜態(tài)幀中都有3個特征矢量，構(gòu)成自身的特征信息?；谔卣鼽c矢量，計算特征點之間的歐氏距離，那么每個關(guān)鍵點在每張靜態(tài)幀中都有3個特征矢量的歐式距離。整個面部共有68-3=65個關(guān)鍵點的歐式距離向量，共65×3維。定義矢量距離特征向量為Df(f=1,2,…)，f為視頻幀序號。

圖4 面部特征點運動矢量分析

然后基于視頻信息，每兩個連續(xù)幀之間特征矢量的距離會發(fā)生變化，我們計算連續(xù)兩幀之間的距離變化參數(shù)Pn,n-1=Dn-Dn-1，2≤n≤N，N為整個視頻的幀數(shù)。隨著視頻的持續(xù)，可以得到一個N×195的距離矩陣P。

2)紋理形變參數(shù)

人在做某些面部動作時，總會伴隨著面部紋理的變化，從而使原本平滑的皮膚表面變得復雜。如何利用面部紋理的變化進行面癱等級的評估是我們關(guān)注的研究點。例如微笑主要是嘴和面頰的運動，并產(chǎn)生紋理變化，如圖5所示。2個特征塊記為Mn-1和Mn，其中下標代表幀序號。然后計算特征塊的紋理特征，例如LBP特征?；颊咦雒娌縿幼鲿r，相應的肌肉均在運動，導致相應區(qū)域的紋理發(fā)生變化，我們計算Qn,n-1=LBPn/LBPn-1，2≤n≤N，N為整個視頻的幀數(shù)。隨著視頻的持續(xù)，可以得到N個紋理差異矩陣Q。

圖5 紋理變化參數(shù)的提取

最后，對P和Q進行歸一化，獲得最后的特征向量，并將其作為LSTM的特征輸入，最后得到面癱等級的評估結(jié)果。

4 基于多源視頻信息融合的多通道神經(jīng)網(wǎng)絡(luò)的面癱分級

在本研究的任務場景中，視頻幀之間的差異，主要在于人臉皮膚運動的微小變化，特別是輕微面癱患者的面部動作與正常人面部運動之間的差異，以及患者在恢復過程中面部狀態(tài)之間的差異非常微小，運動細節(jié)差異特征難以準確提取。為此，結(jié)合可見光和深度視頻兩種類型的視頻數(shù)據(jù)，提出融合多特征的多任務深度神經(jīng)網(wǎng)絡(luò)模型，由2個通道時域卷積神經(jīng)網(wǎng)絡(luò)組成。

不同于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)是在時間維度上有2個相互關(guān)聯(lián)的通道構(gòu)成，利用了多任務訓練的方法把2種數(shù)據(jù)源聯(lián)合起來，用于提取視頻中面部動作的運動特征。網(wǎng)絡(luò)框架圖如圖6所示。該網(wǎng)絡(luò)主體部分由2個通道組成，其中，通道一是對可見光時序RGB圖像提取面部運動狀態(tài)特征的卷積神經(jīng)網(wǎng)絡(luò)，輸入是原始視頻數(shù)據(jù)的序列幀；通道二主要關(guān)注深度視頻中面部運動特征的提取，網(wǎng)絡(luò)輸入為深度視頻序列幀中面部運動差異信息。2個通道之間通過交叉鏈接層對各通道進行正則化，使得各通道間參數(shù)協(xié)調(diào)優(yōu)化。

圖6 多源視頻融合的多通道神經(jīng)網(wǎng)絡(luò)框架圖

由于網(wǎng)絡(luò)模型中各通道的網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)類型不同，學習的特性具有有利于處理運動數(shù)據(jù)流中細微差別的特性。為對網(wǎng)絡(luò)關(guān)注機制進行建模，需要對網(wǎng)路模型中的各通道間建立正則化約束，一般在整個網(wǎng)的前一到兩層的范圍內(nèi)。建立該正則化約束包括以下3個步驟：減小流特征張量x_flowl的維度、均方差歸一化和注意力預測。

令x_rgbl∈iCl×Tl×Hl×Wl，x_flowl∈iCl×Tl×Hl×Wl分別為空間和時間上的l∈{0,1，…，L}層的特征映射，Cl,Tl,Hl,Wl表示特征圖的通道數(shù)，時間長度，高度和寬度。使用一個3維卷積層將特征張量x_flowl的維度減少到x_linkl,如式(1)。

x_linkl=W3D_link?x_flowl

(1)

然后，用x_linkl中的所有空間時間特征的均值μ和方差σ對特征張量x_linkl進行歸一化,如式(2)。

(2)

(3)

最后，每個通道都會有一個輸出層，需要通過利用一種方法將2個輸出層進行融合，并利用融合后特征進行面癱識別及分級評估。在此，可以通過提供兩個輸出層相當于正則化的過程，訓練一個以這些輸出作為特征的SVM。

5 總結(jié)

在利用面癱患者的面部動作視頻進行面癱分級評估的應用背景下，本研究試圖利用高清可見光和深度攝像機全面記錄面癱患者在做相關(guān)面部動作時的視頻信息。針對利用計算機視覺技術(shù)進行面癱等級自動評估過程中存在的對相鄰等級準確評估難度大的挑戰(zhàn)，建立面癱患者面部動作視頻數(shù)據(jù)庫，為基于計算機視覺技術(shù)的面癱等級自動評估研究提供可靠的數(shù)據(jù)支持；融合人臉關(guān)鍵點的運動矢量特征和紋理變化特征參數(shù)，以解決不同患者在做相同面部動作時的個體差異問題；利用深度卷積神經(jīng)網(wǎng)絡(luò)提取面癱圖像的空域特征信息，利用時間遞歸神經(jīng)網(wǎng)絡(luò)提取面部動作的運動信息，充分利用面癱視頻中所包含的上下文信息和運動特征信息，以更準確地實現(xiàn)面癱患者病癥嚴重程度的自動評估。本研究為面癱病癥的臨床診斷、病情嚴重程度的自動評估提供先進的理論、方法和技術(shù)支持，并為其他類似病癥的診斷、醫(yī)療智能化奠定基礎(chǔ)。