張石清,張星楠,趙小明
(1.浙江理工大學(xué) 信息學(xué)院,浙江 杭州 310023;2.臺州學(xué)院 智能信息處理研究所,浙江 臺州 318000)
近年來,抑郁癥對社會和個人的影響越來越深,它存在于各個年齡段。抑郁癥患者通常情緒低下并且寡言少語,與人溝通較少,難以專注于工作,而這種行為對于醫(yī)生診斷抑郁癥也造成了一定的難度[1]。抑郁癥已經(jīng)在世界范圍內(nèi)被公認(rèn)為一種嚴(yán)重疾病,對醫(yī)療系統(tǒng)造成了很大的負(fù)擔(dān)[2]。雖然藥物治療和精神治療對于情緒改善具有一定的作用,但抑郁癥的診斷對治療至關(guān)重要。目前,抑郁癥的診斷方法主要依賴患者自我報告的診斷和癥狀嚴(yán)重程度的臨床判斷等主觀行為[3],受環(huán)境影響非常大。
面部非語言行為的動態(tài)激活對于測量抑郁的嚴(yán)重程度至關(guān)重要[4-5]。針對面部活動和表情[6-7]、頭部姿勢和運(yùn)動[8-9],以及注視和眼睛活動[10],研究者已經(jīng)提出了一些客觀性的自動抑郁估計(jì)(Automatic Depression Estimation,ADE)技術(shù),用來對抑郁癥進(jìn)行估計(jì)和分類。研究表明,抑郁癥患者在行為、語音、面部動作等方面和正常人有所不同[11-12]。例如,Giannakakis等[13]研究了從眼睛活動、口腔活動和頭部運(yùn)動中獲取面部信息,用來識別和分析患者的壓力和焦慮狀態(tài)?,F(xiàn)階段抑郁癥的診斷主要依靠經(jīng)過長期訓(xùn)練的專業(yè)心理醫(yī)生,成本高且效率低,而且結(jié)果往往帶有主觀性。因此,迫切需要一個客觀的自動抑郁檢測系統(tǒng),作為一個輔助手段來幫助醫(yī)生診斷抑郁癥。目前,面向機(jī)器學(xué)習(xí)的自動抑郁檢測技術(shù)逐漸興起,備受關(guān)注。
早期面向機(jī)器學(xué)習(xí)的抑郁癥自動檢測技術(shù)大多采用手工設(shè)計(jì)的音頻和視頻特征參數(shù)和經(jīng)典的機(jī)器學(xué)習(xí)方法。然而這些手工設(shè)計(jì)的特征參數(shù)可靠性不夠,導(dǎo)致抑郁癥自動識別效果不是很理想,有待進(jìn)一步提高。近年來,新發(fā)展起來的深度學(xué)習(xí)方法[14-16]為解決該問題提供了線索。深度學(xué)習(xí)方法的本質(zhì)是通過多層的網(wǎng)絡(luò)結(jié)構(gòu)從輸入數(shù)據(jù)中自動學(xué)習(xí)高層次的特征表示。鑒于所具有的強(qiáng)大特征學(xué)習(xí)能力,目前深度學(xué)習(xí)方法已經(jīng)在計(jì)算機(jī)視覺[17-18]、語音信號處理[19-20]、自然語言處理[21]等領(lǐng)域取得了巨大的成功。
近年來,深度學(xué)習(xí)方法也開始被應(yīng)用于抑郁癥自動識別領(lǐng)域,并取得了一些成果。為了總結(jié)近年來深度學(xué)習(xí)方法在抑郁癥自動識別領(lǐng)域的研究現(xiàn)狀和進(jìn)展,擬在總結(jié)現(xiàn)有多模態(tài)抑郁識別數(shù)據(jù)集的基礎(chǔ)上,對面向音視頻信息的深度多模態(tài)抑郁癥識別研究進(jìn)展進(jìn)行系統(tǒng)性分析和歸納,并指出該領(lǐng)域未來的研究機(jī)遇與挑戰(zhàn)。
目前,大多數(shù)抑郁癥識別最常用的公開數(shù)據(jù)集是來源于Audio/Visual Emotion Challenge (AVEC)挑戰(zhàn)系列數(shù)據(jù)集。表1列出了一些常見的多模態(tài)抑郁識別數(shù)據(jù)集。目前,擁有完整面部元圖像的數(shù)據(jù)集主要有AVEC2013[22]和AVEC2014[23]。包含音頻的數(shù)據(jù)集主要有AVEC2013[22]、AVEC2014[23]、DAIC-WOZ[24]、DementiaBack[25]和FORBOW[26]。包含視頻圖像的數(shù)據(jù)集主要有AVEC2013[22]、AVEC2014[23]、DAIC-WOZ[24]、DementiaBack[25]和BlackDog[27]。包含文本的數(shù)據(jù)集主要有AVEC2016[28]、ACEV2017[29]、AVEC2019[30]、Crisis Text Line[31]和ReachOut Trigage Shared Task[32]。
表1 抑郁檢測數(shù)據(jù)集總結(jié)
AVEC2013[22]和AVEC2014[23]都采用了視聽抑郁語言語料庫的子集。AVEC2013數(shù)據(jù)集包含了3個部分,分別是train、dev和test。其中每個部分包含了50個視頻,共150個視頻。AVEC2014子集中的錄音只包括原始錄音中14項(xiàng)任務(wù)中的兩項(xiàng)任務(wù):Northwind和Freeform。其中,Northwind表示參與者大聲朗讀德語寓言《風(fēng)與太陽》的節(jié)選,而Freeform表示參與者使用德語回答了一些問題,比如:“你最喜歡的菜是什么?”“你最好的禮物是什么,為什么呢?”等。AVEC2014數(shù)據(jù)集也包含了3個部分:train、dev和test,其中每個部分又包含了Northwind和Freeform兩個部分,共包含了300個視頻。
AVEC2016[28]、AVEC2017[29]和AVEC2019[30]包含了抑郁預(yù)測挑戰(zhàn),它們都采用了DAIC-WOZ(Distress Analysis Interview Corpus - Wizard of Oz)[24]的子集。與AVEC2013、AVEC2014不同的是,AVEC2016、AVEC2017和AVEC2019都沒有提供原始視頻,只提供了原始的音頻信號和提取的視頻特征。DAIC-WOZ數(shù)據(jù)集包含臨床訪談。該訪談由一個叫Ellie的動畫虛擬采訪者進(jìn)行,由另一個房間的采訪者控制。該訪談被設(shè)計(jì)用來支持診斷諸如焦慮、抑郁、創(chuàng)傷后精神識別等心理疾病狀態(tài)。DAIC-WOZ包括記錄了大量問答的音頻和視頻數(shù)據(jù)。DAIC-WOZ標(biāo)簽則使用標(biāo)準(zhǔn)化的自我評估主觀抑郁問卷PHQ-8進(jìn)行診斷,每個記錄都會被標(biāo)記一個單獨(dú)的值。
深度學(xué)習(xí)是一種純粹自動從數(shù)據(jù)中學(xué)習(xí)特征的方法[34]。它以分層的層次網(wǎng)絡(luò)結(jié)構(gòu)直接從原始數(shù)據(jù)中學(xué)習(xí)出高層次的特征表示[35-39],現(xiàn)已在各種任務(wù)中表現(xiàn)出了優(yōu)越的性能。在多模態(tài)抑郁識別中,深度學(xué)習(xí)模型可以提取多模態(tài)抑郁數(shù)據(jù)集中的深度特征,經(jīng)過融合后預(yù)測抑郁水平。下面先介紹深度學(xué)習(xí)中經(jīng)典的模型結(jié)構(gòu)。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)啟發(fā)于動物的視覺系統(tǒng)[40],最早由Fukushima[41]提出。CNN主要包括三部分:卷積層、池化層和全連接層。給定一個輸入圖片,經(jīng)過多層卷積,每一層都經(jīng)由一個激活函數(shù),由卷積核提取出圖片的高級特征。然后,經(jīng)過全連接層,將提取的高級特征映射到一個一維向量。目前,CNN在眾多領(lǐng)域都取得了良好的特征學(xué)習(xí)性能,如人臉識別[42-43]、計(jì)算機(jī)視覺[44]、語音信號處理[45]、自然語言處理[46]等。
CNN在圖像領(lǐng)域有著得天獨(dú)厚的優(yōu)勢,由于擁有共享卷積核,可以處理高維數(shù)據(jù),自動提取特征。但是CNN也存在諸多的缺陷,比如當(dāng)網(wǎng)絡(luò)層次太深時,采用反向傳播修改參數(shù)會使靠近輸入層的參數(shù)變化較慢;采用梯度下降算法很容易使訓(xùn)練結(jié)果收斂于局部最小值而非全局最小值;池化層會丟失大量有價值信息,忽略局部與整體之間的關(guān)聯(lián)性;由于特征提取的封裝,為改進(jìn)性能增加了不確定性。
為了克服CNN當(dāng)前的不足和缺陷,許多新的CNN結(jié)構(gòu)被提出來。Szegedy等[47]提出了一種叫GoogleNet的CNN模型,提升了網(wǎng)絡(luò)深度,同時使用了稀疏連接的卷積,使得大量參數(shù)同時避免了過擬合。Krizhevsky等[48]提出了一種叫AlexNet的CNN模型。該網(wǎng)絡(luò)擁有大量的參數(shù)和神經(jīng)元,使用了非飽和神經(jīng)元和GPU運(yùn)算的卷積操作,并開發(fā)了一種“Dropout”的正則方法用于降低過擬合。He等[49]提出了一個深度的殘差學(xué)習(xí)框架,名為深度殘差網(wǎng)絡(luò)(Residual Net,Resnet)。除此以外,其它代表性的CNN模型包括VGGNet[50]、DenseNet[51]、ShuffleNet[52]、MobileNet[53]、3D ResNet[54]、C3D[55]等。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)是一種具有前向傳播的定向循環(huán)網(wǎng)絡(luò)。每個輸出不僅和現(xiàn)在的輸入有關(guān),還和之前所有的輸入相關(guān)。雖然RNN可以有效處理時間序列數(shù)據(jù),并應(yīng)用于語音識別或者手寫字識別任務(wù)[56],但是RNN也存在許多缺陷,比如在反向傳播的過程中,存在梯度消失的問題[57]。此外,RNN訓(xùn)練比較困難,所以RNN只能處理短時的時間序列問題。
為了解決傳統(tǒng)RNN存在的問題,近年來研究者提出了更為先進(jìn)的結(jié)構(gòu),以便可以處理更長的時間序列。Hochreiter等[16]提出了一種名為長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的模型。LSTM避免了RNN中存在的梯度消失問題。Chao等[58]提出了門循環(huán)單元(Gated Recurrent Unit,GRU)。Zhang等[59]提出了雙向長短期記憶(Bi-direction Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)。近年來,LSTM改進(jìn)的模型還有Tree-LSTM[60]、Graph LSTM[61]、SENTENCE LSTM[62]、LSTM-CNN等。
目前,深度學(xué)習(xí)方法被大量應(yīng)用于抑郁癥識別領(lǐng)域。其中,CNN模型常用于視頻信號的抑郁檢測,而RNN/LSTM等模型則用于音頻信號的抑郁檢測。Melo等[63]提出了一種基于最大差分(Maximization-Differentiation)的深度神經(jīng)網(wǎng)絡(luò)模型,用于視頻抑郁癥識別。Zhou等[64]提出了一種采用深度聯(lián)合標(biāo)簽分布(Deep Joint Label Distribution)與度量學(xué)習(xí)(Metric Learning)的面部抑郁識別方法。李金鳴等[65]提出一種基于深度學(xué)習(xí)的音頻抑郁癥識別方法。趙張等[66]提出一種融合注意力機(jī)制和雙向LSTM的音頻抑郁識別方法。
早期面向音頻信號的抑郁癥識別采用的手工特征主要有響度、音高、共振峰、音質(zhì)特征、頻譜特征(Spectral Features)[67],以及Mel頻率倒譜系數(shù)(MFCC)等。
Otero等[68]提出一種基于音頻手工特征的抑郁預(yù)測模型。該方法提取音頻的手工特征,包括MFCC、頻譜變換-感知線性預(yù)測(RASTA-PLP)、能量(Energy)和譜特征。然后,將每個特征集的段向量進(jìn)行拼接,輸入到支持向量回歸(SVR)獲得抑郁預(yù)測結(jié)果。Cummins等[69]采用高斯混合模型(Gaussian Mixture Model,GMM)提取語音抑郁特征,然后使用支持向量機(jī)(SVM)進(jìn)行抑郁預(yù)測。Yalamanchili等[70]利用提取的低層次(Low-level Descriptor,LLD)聲學(xué)特征,如韻律特征、音質(zhì)特征、譜特征等,訓(xùn)練一個抑郁分類模型,以便實(shí)現(xiàn)抑郁和非抑郁的二分類任務(wù)。Simantiraki等[71]提取了聲源(Glottal Source)相關(guān)的相位失真方差(Phase Distortion Deviation,PDD)特征用于抑郁檢測。該特征通過相位成分估計(jì)聲源特征,而聲源特征和抑郁具有相關(guān)性。
手工音頻特征提取方法比較簡單,而且也取得了較好的抑郁識別性能。但是手工提取的音頻特征是屬于低層次的,可靠性不夠,與高層次的抑郁音頻特征存在“語義鴻溝”問題。
目前,各種代表性的深度學(xué)習(xí)方法,如DBN、CNN、RNN/LSTM等,被應(yīng)用于抑郁癥識別中的音頻特征提取任務(wù),即從原始的音頻信號中學(xué)習(xí)出高層次的音頻特征用于后續(xù)的抑郁癥識別。
Dong等[72]提出一種基于聲音和情緒線索的抑郁檢測層次模型。該模型利用預(yù)訓(xùn)練好的深度殘差網(wǎng)絡(luò)(Resnet)模型從原始音頻信號中提取說話人識別特征,并從頻譜圖中提取語音情感識別特征。然后,為了充分利用說話人的聲音和情感差異之間的互補(bǔ)信息,將這兩種深度語音特征結(jié)合起來,輸入到一個由全連接層和模糊分類器構(gòu)成的抑郁癥檢測層次化模型實(shí)現(xiàn)抑郁癥嚴(yán)重程度的預(yù)測。He等[73]提出一種基于CNN的面向音頻信號的抑郁識別方法。該方法首先采用CNN從原始音頻信號和低級描述符(Low-level Descriptors,LLD)特征中提取高層次特征;然后從音頻信號頻譜中提取一種魯棒性的中位值擴(kuò)展的局部二元模式特征(Median Robust Extended Local Binary Patterns,MRELBP);最后,將所有深度特征拼接后經(jīng)過全連接層得到抑郁預(yù)測結(jié)果。Ma等[74]提出一種名為DepAudioNet的音頻抑郁分類方法。該方法將CNN和LSTM結(jié)合來編碼聲音通道中的抑郁特征用于抑郁識別。輸入的音頻信號經(jīng)過3個一維卷積運(yùn)算之后,采用LSTM進(jìn)一步提取128維的深度特征,然后經(jīng)過全連接層獲得最后的抑郁預(yù)測結(jié)果。Zhao等[75]提出一種層次化注意力轉(zhuǎn)移網(wǎng)絡(luò)用于音頻抑郁識別。該方法由四個部分組成:(1)一個由編碼解碼器構(gòu)成的教師(teacher)網(wǎng)絡(luò),用于訓(xùn)練語音識別以獲得最初的注意力圖(Attention Map);(2)一個較淺的學(xué)生(Student)網(wǎng)絡(luò)作為模型的主體結(jié)構(gòu),用于訓(xùn)練抑郁識別,模擬教師網(wǎng)絡(luò);(3)一個層次化注意力自動編碼器,用于獲得豐富的特征表示,在此基礎(chǔ)上可以進(jìn)行監(jiān)督訓(xùn)練;(4)主體學(xué)生抑郁模型加上一個層次化注意力網(wǎng)絡(luò),獲得最終的抑郁識別結(jié)果。
綜上,相比于手工音頻特征提取方法(見表2),深度音頻特征提取方法可以通過搭建深度的神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)更高層次的抽象特征表示用于抑郁癥識別,但是由于深度神經(jīng)網(wǎng)絡(luò)模型采用黑盒子(Black-box)的特征提取操作,導(dǎo)致它們往往無法給出其解釋意義。
表2 音視頻抑郁特征提取方法的比較
一般的手工視頻特征提取方法有特征動態(tài)歷史直方圖(Feature Dynamic History Histogram,FDHH)、運(yùn)動歷史直方圖(Motion History Histogram,MHH)、三個正交平面的局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP-TOP)[85]、局部相位量化(Local Phase Quantization,LPQ)、時空興趣點(diǎn)(Space-Time Interest Points,STIP)[86]、局部二值模式(Local Binary Pattern,LBP)、局部三元模式(Local Ternary Pattern,LTP)[87]等。
Dhall等[78]提出一種用于抑郁分析的時間分段Fisher向量方法。該方法使用LBP-TOP方法提取視頻時空特征,然后計(jì)算出Fisher向量,輸入到支持向量回歸(SVR)獲得抑郁識別結(jié)果。該方法對統(tǒng)計(jì)聚合技術(shù)進(jìn)行了分析和比較,以便選取具有判別性的視頻特征表示。Jan等[76]從相應(yīng)的視頻和音頻信號中提取表示抑郁狀態(tài)下的面部和聲音特征。然后,基于運(yùn)動歷史直方圖提出了動態(tài)特征生成方法,用于提取視頻中的動態(tài)特征。最后,利用偏最小二乘法(Partial Least Square,PLS)和回歸法進(jìn)行抑郁預(yù)測,并采用決策融合獲得最終的抑郁檢測結(jié)果。Wen等[79]采用LBP-TOP方法提取面部區(qū)域子集中的時間信息及動態(tài)特征描述符,然后利用稀疏編碼方法實(shí)現(xiàn)抑郁癥的預(yù)測。Kachele等[77]采用局部相位量化(Local Phase Quantization,LPQ)提取和抑郁相關(guān)的面部表達(dá)特征,然后結(jié)合支持向量機(jī)和多層感知器實(shí)現(xiàn)最終的抑郁癥預(yù)測。
綜上所述,手工視頻特征提取方法,可以提取低層次的視頻特征信息用于抑郁癥識別,操作比較簡單。但是和手工音頻特征提取方法類似,該方法可靠性不夠,提取的視頻特征參數(shù)同樣與高層次的抑郁視頻特征存在“語義鴻溝”問題。
目前,一些典型的深度學(xué)習(xí)方法,如CNN、 C3D、LSTM等,被廣泛用于提取視頻圖像的深度特征,用于抑郁識別。
Zhu等[80]提出了一種基于雙流(two-stream)CNN的視頻抑郁預(yù)測方法。該方法使用一個帶有兩個全連接層的雙流CNN架構(gòu)來聯(lián)合學(xué)習(xí)視頻中面部外觀和動態(tài)的抑郁特征,并設(shè)置了一個集成外觀和動態(tài)信息的聯(lián)合調(diào)優(yōu)層。He等[82]提出了一種深度局部全局注意力卷積神經(jīng)網(wǎng)絡(luò)(Deep Local Global Attention Convolutional Neural Network,DLGA-CNN)的視頻抑郁識別方法。該方法采用基于局部注意力的CNN(Local Attention Based CNN,LA-CNN)關(guān)注局部面部抑郁特征,而使用基于全局注意力的CNN (Global Attention Based CNN,GA-CNN)從整個面部區(qū)域?qū)W習(xí)全局抑郁模式。Jazaery等[83]提出基于視頻的深度時空特征編碼的抑郁水平分析方法。該方法使用三維卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)學(xué)習(xí)兩個不同尺度的時空特征,然后利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)一步學(xué)習(xí)視頻的時空特征。Melo等[81]提出一種結(jié)合全局和局部的面部三維卷積抑郁檢測方法。該方法將三維全局平均池化集成到3DCNN中,分別處理全臉區(qū)域和眼睛區(qū)域的視頻片段,用于關(guān)注與分析抑郁高度相關(guān)的局部面部區(qū)域。周炫余等[84]提出了一種基于多模態(tài)數(shù)據(jù)融合計(jì)算的大學(xué)生心理健康自動評估方法。該方法采用的多模態(tài)數(shù)據(jù)包含文本數(shù)據(jù)、圖像數(shù)據(jù)和學(xué)生特定時間段的網(wǎng)絡(luò)數(shù)據(jù)。其中,使用VGG16提取圖像數(shù)據(jù)的特征。
該方法在自構(gòu)建的多模態(tài)心理評估數(shù)據(jù)集(JA-IPAD)上的測試表明,該模型能夠精準(zhǔn)評估大學(xué)生的心理健康狀態(tài)。
綜上所述,相比于手工視頻特征提取方法(見表2),深度視頻特征提取方法不依賴于專業(yè)知識和繁瑣的步驟,具有自動學(xué)習(xí)高層次的視頻特征能力,受到外界影響(如光照、姿態(tài)等等)小。利用深度學(xué)習(xí)網(wǎng)絡(luò),可以在具有一定時間長度的視頻中,提取靜態(tài)和動態(tài)特征,或者提取全局特征和局部特征,也可以利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同尺度的時空特征,往往取得比手工視頻特征更好的抑郁識別性能。
多模態(tài)信息融合方法一般可以分為三種:特征層融合(Feature-level Fusion)、決策層融合(Decision-level Fusion)和模型層融合(Model-level Fusion)。這些融合方法各有優(yōu)勢和各自的應(yīng)用場景。
特征層融合也叫早期融合(Early Fusion,EF)。在特征層融合中,將輸入的多個特征數(shù)據(jù)直接級聯(lián)得到一個總的特征向量,用于后續(xù)的分類或回歸任務(wù)。在特征層融合中,用來融合的特征包括視覺特征、文本特征、音頻特征和運(yùn)動特征等。但是,特征層融合容易導(dǎo)致級聯(lián)后的特征向量維度過高。
He等[88]提出一種視聽多模態(tài)抑郁識別方法。對于音頻數(shù)據(jù),提取說話速率以及低水平描述符(LLD)特征;對于視頻數(shù)據(jù),提取LGBP-TOP、頭部姿勢、STIP以及Divergence-Curl-Shear (DCS)描述符特征。在特征層融合中,對于每個視頻序列,通過主成分分析(PCA)處理后的音頻和視覺特征被連接到一個高維特征向量中,輸入到SVR進(jìn)行抑郁預(yù)測。Joshi等[89]提出一種包括視聽融合的多模態(tài)抑郁癥診斷方法。該方法使用BoA(Bag Of Audio)框架獲得音頻特征;視頻特征則使用BoV(Bag Of Video)框架,計(jì)算LBP-TOP和STIP。在特征融合方法中,為了避免拼接特征導(dǎo)致的數(shù)據(jù)過大,對組合特征進(jìn)行主成分分析(PCA),然后使用SVM進(jìn)行分類。Cummins等[90]提出一種融合聽視覺的多模態(tài)抑郁識別方法。該方法將GMM-UBM范式和包含一階二階的MFCC結(jié)合起來,用于提取音頻特征;采用時空趣點(diǎn)(Space-Temporal Interesting Point,STIP)和定向梯度的金字塔直方圖(Pyramid Histogram of Oriented Gradients,PHOG)來提取視頻特征。該方法分別測試了單音頻、單視頻和音視頻融合的抑郁評估結(jié)果。在多模態(tài)信息融合中,采用特征融合方法實(shí)現(xiàn)??紤]各特征間時間維度的不相關(guān)性,對上述特征進(jìn)行長度方向的拼接融合,最后使用SVR進(jìn)行抑郁評估。
決策層也叫晚期融合(Late Fusion,LF)。在每個模態(tài)獲得各自的決策結(jié)果之后,再將這些決策結(jié)果按照某種代數(shù)運(yùn)算規(guī)則,比如最小值、最大值、平均值等,進(jìn)行組合,得到最終的結(jié)果。但是,這種基于規(guī)則的決策層融合方法將不同模態(tài)獨(dú)立開來,因而可能無法揭示不同模態(tài)之間的關(guān)系。
Meng等[91]提出一種融合音頻和視頻的抑郁識別方法。對于視頻數(shù)據(jù),該方法先采用運(yùn)動歷史直方圖提取動態(tài)特征,然后提取LBP和邊緣定向直方圖(Edge Orientation Histogram,EOH)特征,并將LBP和EOH特征在特征層上直接拼接輸入到偏最小二乘(Partial Least Square,PLS)進(jìn)行抑郁預(yù)測,得到視頻抑郁檢測結(jié)果;對于音頻數(shù)據(jù),先提取低水平描述符(LLD),然后使用MHH提取音頻動態(tài)特征,并采用PLS得到音頻預(yù)測結(jié)果。最后,使用線性聯(lián)合先驗(yàn)(Linear Opinion Pool,LOP)方法對結(jié)果做決策融合,并得到最終的抑郁檢測結(jié)果。Yang等[92]提出一種集成深度和淺層模型混合架構(gòu)的多模態(tài)抑郁分析方法。對于音視頻數(shù)據(jù),該方法首先采用CNN模型分別對音頻和視頻進(jìn)行訓(xùn)練,之后凍結(jié)CNN的權(quán)重值并丟棄其最后一個全連接層參數(shù),同時接入一個新的六層DNN,獲得音視頻的抑郁預(yù)測結(jié)果。對于文本數(shù)據(jù),提取5個段落矢量(Paragraph Vector,PV)描述符輸入到SVM獲得文本的抑郁識別結(jié)果。最后,建立一個抑郁分類的隨機(jī)森林(Random Forest,RF)模型,對上述獲得的音視頻結(jié)果和文本結(jié)果做決策融合獲得最終的抑郁檢測結(jié)果。Yang等[93]提出一種基于決策樹的融合音視頻和語言信息的抑郁分類方法。該決策樹將語言信息與低層次音視頻特征取得的結(jié)果進(jìn)行決策融合。音頻特征采用了共振峰、韻律和音質(zhì)特征;視頻特征使用了HOG、眼睛注視特征和頭部姿態(tài)特征的直方圖。該方法針對男女性別分開訓(xùn)練,使用SVR及LLR進(jìn)行測試,獲得PHQ值。
模型層融合方法是對每個模態(tài)分別進(jìn)行建模,并同時考慮模態(tài)之間的相互關(guān)聯(lián)性。目前,采用神經(jīng)網(wǎng)絡(luò)的模型層融合方法被廣泛應(yīng)用于抑郁癥識別。
Lin等[95]提出一種基于BiLSTM和CNN的自動抑郁檢測方法。該方法由三個部分組成:第一部分為帶注意力層的BiLSTM用來學(xué)習(xí)訪談序列的語言特征;第二部分為一維CNN學(xué)習(xí)語音信號Mel頻譜特征;第三部分由一個全連接層將前兩個模型的輸出進(jìn)行融合,獲得最終的抑郁檢測結(jié)果。Ray等[94]提出了一種基于多層次注意力的融合文本、音頻和視頻的多模態(tài)抑郁癥預(yù)測方法。該方法對輸入特征采用一種多層次注意力操作,以便讓更有影響力的特征獲得更大的權(quán)重。對于視頻數(shù)據(jù),該方法提取姿勢、凝視和面部動作單元 (Facial Action Unit,FAU)特征,輸入到BiLSTM進(jìn)行時間動態(tài)建模獲得視頻特征;對于音頻數(shù)據(jù),提取包含MFCC的LLD特征輸入到BiLSTM進(jìn)行時間動態(tài)建模獲得音頻特征;對于文本數(shù)據(jù),采用預(yù)訓(xùn)練好的通用句子編碼器(Universal Sentence Encoder)[97]提取文本特征,輸入到BiLSTM進(jìn)行上下文建模獲得文本特征。最后,將上述得到的視頻、音頻和文本特征通過多層注意力網(wǎng)絡(luò)進(jìn)行融合獲得最終的抑郁預(yù)測結(jié)果。Zhang等[96]提出一種基于多模態(tài)深度去噪自編碼器(Multimodal Deep Denoising Autoencoder,MultiDDAE)的抑郁癥識別方法。該方法采用多模態(tài)深度去噪自動編碼器提取視聽特征,然后使用Fisher向量編碼產(chǎn)生會話級(Session-level)特征表示。對于文本數(shù)據(jù),使用段落矢量(Paragraph Vector,PV)方法提取文本特征。最后,將視聽特征與文本特征進(jìn)行串聯(lián),然后輸入到一個多任務(wù)的深度神經(jīng)網(wǎng)絡(luò)上進(jìn)行融合,輸出最終的抑郁癥識別結(jié)果。
綜上所述,現(xiàn)有的多模態(tài)信息融合方法主要包括特征層融合、決策層融合和模型層融合(見表3)。其中,特征層融合方法最簡單,但是容易導(dǎo)致級聯(lián)后的特征向量維度過高而出現(xiàn)“維度災(zāi)難”問題。決策層融合方法采用某種代數(shù)運(yùn)算規(guī)則對不同模態(tài)取得的結(jié)果進(jìn)行組合,從而獲得最終的結(jié)果。然而,這種基于代數(shù)運(yùn)算規(guī)則的決策層融合方法是將不同模態(tài)相互獨(dú)立出來,沒有考慮不同模態(tài)之間的相互關(guān)聯(lián)性。模型層融合方法是一種同時考慮模態(tài)之間的相互關(guān)聯(lián)性的方法,通常能夠獲取比特征層融合方法、決策層融合方法更好的性能。目前,采用注意力機(jī)制[94,97]在模型層上實(shí)現(xiàn)多模態(tài)信息的交互融合,已經(jīng)成為當(dāng)前一種主流的模型層融合方法。但是,模型層融合方法的計(jì)算復(fù)雜度一般比較高。因此,如何設(shè)計(jì)計(jì)算復(fù)雜度低而性能又好的模型層融合方法,是未來一個重要研究方向。
表3 多模態(tài)抑郁癥識別中的融合方法比較
第一,醫(yī)院需要保護(hù)患者診斷數(shù)據(jù)的隱私,使得不同的醫(yī)療機(jī)構(gòu)無法收集和共享數(shù)據(jù),這極大地影響了模型的準(zhǔn)確性[98]。由于單一醫(yī)療機(jī)構(gòu)無法收集到足夠的高質(zhì)量數(shù)據(jù),該模型的預(yù)測能力無法達(dá)到臨床輔助的作用。其次,雖然有許多隱私保護(hù)機(jī)器學(xué)習(xí)算法,但很難獲得良好的訓(xùn)練效果。
第二,由于各醫(yī)療機(jī)構(gòu)之間的巨大差距,它們所擁有的患者數(shù)據(jù)差異很大。為了處理各種情況,算法和模型需要具有較高的泛化能力,而在沒有數(shù)據(jù)交換情況下,模型很難獲得足夠的準(zhǔn)確性和特異性。
第三,缺乏足夠的標(biāo)簽數(shù)據(jù)已經(jīng)嚴(yán)重阻礙深度學(xué)習(xí)等技術(shù)在自動抑郁識別中的應(yīng)用。雖然,深度學(xué)習(xí)在算法和模型上有了很大的進(jìn)步,但在自動抑郁識別上還是受限于標(biāo)簽數(shù)據(jù)的缺乏。如果擁有更大的標(biāo)簽數(shù)據(jù)集,并且數(shù)據(jù)分布平衡,會對基于深度學(xué)習(xí)的自動抑郁識別領(lǐng)域產(chǎn)生積極的影響[12]。
第四,現(xiàn)有數(shù)據(jù)集的模態(tài)選擇還不夠豐富,缺乏諸如和抑郁癥相關(guān)的腦電圖[99-100]、人格特性和情緒的數(shù)據(jù)信息,這些特征可能和抑郁癥有直接的關(guān)聯(lián),并且可以作為多模態(tài)抑郁檢測模型的輸入,提高模型的準(zhǔn)確性。
第一,目前,多模態(tài)抑郁癥識別主流的方法是采用音視頻信息為主,而忽視了將音視頻信息與其它模態(tài)信息,如網(wǎng)絡(luò)社交信息文本、腦電信號等相融合,以便進(jìn)一步改善多模態(tài)抑郁癥識別性能。采用網(wǎng)絡(luò)社交的文本信息進(jìn)行抑郁分析,近年來獲得越來越多的關(guān)注。該數(shù)據(jù)可以從網(wǎng)絡(luò)大量獲得,并且從社交文本中可提取和抑郁癥相關(guān)的顯著特征。腦電信息則是和抑郁癥高度相關(guān)的特征,抑郁癥的腦電信息是一種非常有效的用于抑郁檢測的生理特征。因此,在采用的音視頻信息基礎(chǔ)上,集成網(wǎng)絡(luò)社交信息文本、腦電信號等其它模態(tài)信息用于多模態(tài)抑郁癥識別將是一個非常有意義的研究課題。
第二,現(xiàn)有文獻(xiàn)大多只關(guān)注音頻和視頻的副語言信息,如說話率、面部動作單位(AUs),而不是關(guān)注口語內(nèi)容中的語言信息[92]。然而,后者可以直接反映個人的睡眠狀態(tài)、情緒狀態(tài)、感覺和其他精神分析癥狀。
第一,傳統(tǒng)的RNN結(jié)構(gòu),包括LSTM、BiLSTM和GRU,可以有效處理短期時間序列。然而,它們并不能有效地處理長期序列。隨著序列長度的增加,由于這些RNN結(jié)構(gòu)模型自身存在的遺忘問題,導(dǎo)致它們的性能會迅速下降。由于抑郁癥的復(fù)雜性,抑郁癥的檢測過程往往需要進(jìn)行更長時間的診斷才有效。因此,對于抑郁癥的檢測,如何更加有效地處理長序列的視聽數(shù)據(jù),將是一個極具挑戰(zhàn)的問題。
第二,抑郁癥的癥狀與情感、個性等其他心理學(xué)因素密切相關(guān)。因此,采用多任務(wù)學(xué)習(xí)(Multi-task Learning)方法,結(jié)合情感、個性等因素開展自動抑郁檢測是一個非常有意義的研究課題。此外,當(dāng)前的數(shù)據(jù)集數(shù)據(jù)量很少,多任務(wù)學(xué)習(xí)也可以在數(shù)據(jù)稀疏時防止過擬合。由于有不同的任務(wù)參與訓(xùn)練,可以增強(qiáng)模型的泛化性。
第三,目前,大部分抑郁癥識別采用的是監(jiān)督學(xué)習(xí)方法,而對于自監(jiān)督方法的報道甚少。自監(jiān)督學(xué)習(xí)可以通過數(shù)據(jù)本身創(chuàng)建一個類似于標(biāo)簽的向量,使得大量的無標(biāo)簽數(shù)據(jù)可以利用。對于擁有較少標(biāo)簽數(shù)據(jù)量的自動抑郁識別來說,自監(jiān)督學(xué)習(xí)的探索是一個很好的方向。
該文系統(tǒng)性總結(jié)了深度學(xué)習(xí)在面向音視頻信息的多模態(tài)抑郁癥識別中的應(yīng)用現(xiàn)狀及研究進(jìn)展。首先,回顧了深度學(xué)習(xí)技術(shù)的發(fā)展歷史,并介紹了基本的深度學(xué)習(xí)模型原理。在音視頻特征提取的部分,總結(jié)和歸納了手工音頻特征、深度音頻特征、手工視頻特征和深度視頻特征的提取方法,并對各種特征提取技術(shù)進(jìn)行了比較。對于面向音視頻信息的多模態(tài)信息融合方法,重點(diǎn)分析了特征層融合、決策層融合和模型層融合等方法的應(yīng)用。最后,指出了當(dāng)前的自動抑郁檢測中存在的問題和未來的發(fā)展方向。