李 欣,范 青
上海交通大學(xué)醫(yī)學(xué)院附屬精神衛(wèi)生中心,上海 200030
抑郁癥(major depressive disorder,MDD)是一種以持續(xù)情緒低落、快感喪失、思維遲緩為主要臨床表現(xiàn)的常見精神疾病,還會伴隨認(rèn)知和行為的變化[1],嚴(yán)重影響患者的生活質(zhì)量。根據(jù)WHO 的報告,到2030年抑郁癥的疾病負(fù)擔(dān)將升為全球第一[2]。所以,對抑郁癥患者進(jìn)行早期識別、精確診斷并及時治療是十分重要的。
目前傳統(tǒng)的抑郁癥評估方法主要依賴于自我報告和醫(yī)師觀察,但人工評估往往存在主觀誤差,還存在耗時、臨床工作人員數(shù)量緊張等問題[3]。人們越來越意識到,現(xiàn)在需要一種客觀有效的抑郁癥檢測方法。
抑郁癥會改變多種非語言行為[4],其中面部呈現(xiàn)了人們的大部分非語言信息,因此面部表情在抑郁癥診斷中是具有高信息量的特征指標(biāo)。抑郁癥屬于一種情緒障礙,研究表明抑郁癥可能導(dǎo)致患者對情緒刺激不敏感,降低積極和消極的情緒反應(yīng)[5-6],有較少的面部表情變化[7],某些無意識的面部表情變化可能與抑郁癥高度相關(guān)。所以,抑郁癥研究領(lǐng)域開始通過面部特征來解決臨床問題。
現(xiàn)今人工智能已開始應(yīng)用在精神醫(yī)學(xué)領(lǐng)域。而機(jī)器學(xué)習(xí)作為人工智能的核心技術(shù)有著突出優(yōu)勢,可以對已有數(shù)據(jù)進(jìn)行學(xué)習(xí)后提高決策的準(zhǔn)確性,達(dá)到自動化、規(guī)?;男ЧTS多機(jī)器學(xué)習(xí)架構(gòu)已在數(shù)據(jù)集上進(jìn)行了圖像識別與分類的試驗(yàn)[8-12],也逐漸與心理健康結(jié)合[13-14]。這項(xiàng)技術(shù)可以為抑郁癥領(lǐng)域中的多個臨床研究方向提供支持,比如基于面部特征差異的智能化診斷、癥狀嚴(yán)重程度變化跟蹤、治療效果檢驗(yàn)等,為抑郁癥的自動化檢測提供可能。
因此,本文以IEEE Xplore 數(shù)據(jù)庫為數(shù)據(jù)來源,通過關(guān)鍵詞“facial expression”“facial features”“depression”“machine learning”進(jìn)行檢索,梳理了2016—2021 年基于機(jī)器學(xué)習(xí)的抑郁癥面部特征研究,并對未來研究方向進(jìn)行展望,以期為日后抑郁癥智能化檢測的研究與臨床應(yīng)用提供參考。
機(jī)器學(xué)習(xí)可以根據(jù)模型結(jié)構(gòu)的深度分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí),現(xiàn)在常被應(yīng)用在視覺、語音等任務(wù)上。傳統(tǒng)機(jī)器學(xué)習(xí)算法適用于少量數(shù)據(jù),深度學(xué)習(xí)則在較大數(shù)據(jù)集中具有更高的性能。機(jī)器學(xué)習(xí)在面部特征研究中主要用于特征提取及分類;不同的算法,性能也有所不同。臨床研究者可以根據(jù)研究目的和數(shù)據(jù)特點(diǎn)選擇合適的算法。
支 持 向 量 機(jī) (support vector machine,SVM)[3,15-17]、樸素貝葉斯(naive Bayes,NB)[17]和隨機(jī)森林(random forest,RF)[17]是抑郁癥患者面部特征研究中最常用的分類器。邏輯回歸(logistic regression, LR) 和梯度提升決策樹(gradient boosting decision tree,GBDT)也可以用于分類[15]:LR 常用于二分類的分類模型;GBDT 則適用于發(fā)現(xiàn)多種有區(qū)分性的特征及組合,可以在研究指標(biāo)為多個組合特征時發(fā)揮更好性能。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是近幾年面部識別研究最常用的深度學(xué)習(xí)網(wǎng)絡(luò)。許多研究[15-16,18-27]基于CNN及其創(chuàng)新架構(gòu)如三維CNN (C3D)、模態(tài)分離網(wǎng)絡(luò)(modality separation networks,MSN)、深度殘差回歸卷積神經(jīng)網(wǎng)絡(luò)(deep residual regression convolutional neural networks,DRR-CNN)等進(jìn)行識別、分類、預(yù)測人類情緒,以及探索面部動作強(qiáng)度如何從低水平情緒變化到高水平情緒等。也有研究[28]在CNN基礎(chǔ)上,將期望損失嵌入到ResNet-50 這一殘差神經(jīng)網(wǎng)絡(luò)中進(jìn)行分布學(xué)習(xí),這種分布學(xué)習(xí)允許探索面部圖像和抑郁程度之間的順序關(guān)系,更好預(yù)測抑郁水平。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)則適用于針對時間序列的學(xué)習(xí)[29],更好模擬特征變化以提高分類準(zhǔn)確率,結(jié)合CNN 后還可以處理包含序列輸入的計算機(jī)視覺問題。其中的長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)也常用于面部識別研究[30-31],適合處理和預(yù)測時間序列中間隔和延遲非常長的重要事件,更加符合連續(xù)變化的情緒的檢測,貼近臨床實(shí)際情況。
深度置信網(wǎng)絡(luò)(deep belief network,DBN)[32]、自動編碼器(auto encoder,AE)[31-33]和稀疏編碼(sparse coding,SC)[34]等深度算法也可用于特征提取和分類。除此之外,有研究結(jié)合傳統(tǒng)學(xué)習(xí)和深度學(xué)習(xí),并在算法上進(jìn)行創(chuàng)新以提高計算效率和臨床分類準(zhǔn)確率。例如,有研究團(tuán)隊(duì)提出了中值魯棒局部二值模式—3D正交平面(median robust local binary patterns from three orthogonal planes,MRELBP-TOP)這一新的動態(tài)特征描述符進(jìn)行特征提取,采用隨機(jī)映射(random projection,RP)對幀級特征進(jìn)行降維,去除冗余信息,然后采用稀疏編碼來表征高層模式信息,最后則通過支持向量機(jī)進(jìn)行抑郁程度的估計[35]。
目前基于機(jī)器學(xué)習(xí)的抑郁癥患者面部特征研究主要集中在輔助識別與診斷抑郁癥這一臨床應(yīng)用上,來增加診斷的客觀性,減輕醫(yī)師工作壓力。
鑒別診斷是臨床醫(yī)師面臨的重要問題。比如處于抑郁期的雙相情感障礙(bipolar disorder,BPD)患者與抑郁癥患者有相似癥狀,所以有研究者試圖發(fā)現(xiàn)這2 種疾病患者的面部差異以減少誤診。該研究[31]調(diào)查了抑郁癥患者(12 名)、雙相情感障礙患者(12 名)和健康對照者(12 名)由情緒視頻引起的面部表情變化,使用LSTM 學(xué)習(xí)不同情緒障礙類型的長期變化并建模,以更好模擬其特征變化;但這一研究只將每個面部幀分割成12 個面部區(qū)域進(jìn)行分析,特征指標(biāo)較少,最終只有健康對照組達(dá)到了67.7%的準(zhǔn)確率,對抑郁癥患者的分類效果最差,后續(xù)需要在此基礎(chǔ)上加入更多指標(biāo)開展進(jìn)一步的研究。
除雙相情感障礙外,其他精神疾病癥狀與抑郁癥相似度不高,所以通過面部特征進(jìn)行抑郁癥鑒別的對象主要為健康群體。LI等[17]采用36名抑郁癥患者和36 名健康對照者的臨床數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),通過圖片描述、文本閱讀、視頻觀看、訪談等任務(wù)提供情緒刺激,提取了位置特征、距離特征、區(qū)域特征、角度特征和動作單元(action unit,AU)這5 個類型的面部特征,并針對女性和男性分別建立分類模型,采用支持向量機(jī)、樸素貝葉斯和隨機(jī)森林這3 種廣泛使用的分類器進(jìn)行分類。結(jié)果發(fā)現(xiàn)在視頻觀看這一任務(wù)上實(shí)現(xiàn)了最佳分類準(zhǔn)確率(女性86.8%,男性79.4%);在不同情緒刺激下,中性情緒刺激是比正負(fù)性刺激更好的數(shù)據(jù)收集選擇,眉毛和嘴巴在中性情緒刺激中比面部其他部分有更多的貢獻(xiàn)。而GUO 等[32]則是利用深度置信網(wǎng)絡(luò)構(gòu)建了一系列基于面部標(biāo)記點(diǎn)(facial feature point,F(xiàn)FP)和動作單元的模型來描繪面部特征,在抑郁癥患者(52 名男性、52 名女性)和健康對照者(52 名男性、52 名女性)中分析了不同情緒刺激任務(wù)和性別差異的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)正負(fù)情緒刺激下抑郁識別的表現(xiàn)高于中性情緒刺激,與LI等[17]的研究結(jié)果相反;對于女性的識別準(zhǔn)確率普遍高于男性,這一結(jié)果兩個研究一致。抑郁癥面部特征研究常使用上述情緒刺激范式進(jìn)行實(shí)驗(yàn),由此得來的數(shù)據(jù)可用于分析抑郁癥在不同表達(dá)狀態(tài)下的面部特征變化;但不同的實(shí)驗(yàn)材料、數(shù)據(jù)集、研究指標(biāo)都會導(dǎo)致結(jié)果差異,該類研究需要更大的樣本量和更統(tǒng)一的研究范式來提高結(jié)果質(zhì)量。
還有研究關(guān)注了抑郁癥亞型問題。BHATIA等[3]在39 名受試者(13 名憂郁型抑郁癥患者、13 名非憂郁型抑郁癥患者、13 名健康對照者)中探索了基于面部特征進(jìn)行抑郁癥亞型分類的敏感度和特異度;通過梯度下降法和3 個正交平面中的局部二值模式提取了被試的面部幾何特征和紋理特征,并用支持向量機(jī)進(jìn)行了分類,根據(jù)面部特征區(qū)分了這3 組人群,在碼本大小為200 的組合特征比較中,憂郁組相對于非憂郁組、憂郁組相對于對照組、非憂郁組相對于對照組的敏感度分別為0.75、0.86、1,特異度分別為0.61、0.63、0.57,分類準(zhǔn)確率為69%。這些研究結(jié)果可作為更細(xì)粒度的抑郁癥分類和分析的基線,為臨床中的亞型區(qū)分難題提供了解決方向。
抑郁癥狀的嚴(yán)重程度劃分是臨床工作的重要內(nèi)容。有研究[16,19,22]基于貝克抑郁量表Ⅱ(Beck Depression Inventory Ⅱ,BDI-Ⅱ)和面部視頻,通過CNN 實(shí)現(xiàn)抑郁水平檢測。2017 年,JAN 等[19]利用CNN 從研究對象面部表情圖像中逐幀提取視覺特征,并提出了新的特征提取方法——特征動態(tài)歷史直方圖(feature dynamic history histogram,F(xiàn)DHH)來捕捉特征空間上的時間運(yùn)動,根據(jù)計算的特征對BDI-Ⅱ得分進(jìn)行回歸分析,達(dá)到通過人們的視覺表達(dá)來預(yù)測BDI-Ⅱ得分的目的。2020 年,ZHOU 等[22]則提出了名為DepressNet的深度回歸網(wǎng)絡(luò)來提高識別性能,他們將CNN 中的softmax 層替換為GAP 層,并且基于BDI-Ⅱ得分生成抑郁激活圖(depression activation map,DAM),可以更直觀地查看抑郁嚴(yán)重程度。上述研究通過算法實(shí)現(xiàn)對抑郁癥狀的時空計算和直觀圖像,這將極大提高臨床診斷的準(zhǔn)確率和便捷度。
機(jī)器學(xué)習(xí)研究會使用不同的量表作為劃分依據(jù)。DIBEKLIO?LU 等[33]通過漢密爾頓抑郁量表(Hamilton Depressive Scale,HAMD)在抑郁癥社區(qū)中進(jìn)行臨床訪談,將患者分為中重度抑郁、輕度抑郁和緩解,使用堆疊降噪自動編碼器(stacked denoising auto encoder,SDAE)來編碼面部和頭部運(yùn)動的有效幀。SWAMY 等[23]則是根據(jù)患者健康問卷9(Patient Health Questionaire-9,PHQ-9)將被試分為無、輕度、中度、中重度和重度抑郁癥5 個類別,通過CNN 實(shí)現(xiàn)了抑郁癥自動化分類與篩查。不同的量表和程度劃分方式側(cè)重點(diǎn)不同,是抑郁癥診斷方法多樣化的體現(xiàn);但各研究間的程度分類結(jié)果是否可以相互轉(zhuǎn)化暫未得到驗(yàn)證,后續(xù)臨床研究可檢驗(yàn)不同劃分依據(jù)下的結(jié)果一致性。
同時,機(jī)器學(xué)習(xí)算法及面部特征應(yīng)用在不斷更新。在二維CNN 基礎(chǔ)上,C3D 被構(gòu)建。2019 年,CARNEIRO DE MELO 等[24]在大規(guī)模數(shù)據(jù)集(AVEC2013、AVEC2014) 上通過C3D 學(xué)習(xí)時空特征,并使用回歸模型來預(yù)測抑郁水平分?jǐn)?shù)。同年,YANG 等[25]首次將C3D 應(yīng)用于面部動作單元檢測。2021 年,有研究[29]設(shè)計了RNN-C3D 的新框架,使用C3D 自動學(xué)習(xí)人臉區(qū)域2 個不同尺度的時空特征,然后使用RNN 從時空信息序列中進(jìn)一步學(xué)習(xí)以預(yù)測抑郁程度。這些應(yīng)用為臨床智能化奠定了重要基礎(chǔ),也可以幫助臨床醫(yī)師了解患者的更多特征變化,有利于臨床實(shí)踐。
臨床治療效果的評估往往存在主觀問題,比如患者對醫(yī)師隱瞞真實(shí)情況等,醫(yī)師評估過程費(fèi)時費(fèi)力,所以客觀的檢驗(yàn)方法顯得尤為重要。2016 年,HARATI 等[36]嘗試量化腦深部電刺激療法(deep brain stimulation,DBS)對面部表情的影響,并通過區(qū)分抑郁、改善及其之間的過渡階段(主觀抑郁癥狀恢復(fù),但情緒反應(yīng)保留)來優(yōu)化臨床管理決策;他們在7 名抑郁癥患者(男性6 名,女性1 名)中開展了為期8 個月的研究,以HAMD-17 分?jǐn)?shù)較治療前下降50%作為臨床反應(yīng)標(biāo)準(zhǔn),將受試者狀態(tài)分為抑郁、過渡和改善,并通過非結(jié)構(gòu)化臨床訪談視頻記錄了患者在DBS 治療中的演變,以多尺度熵(multiscale entropy,MSE)捕捉像素強(qiáng)度水平在多個時間尺度上的時間變化,以深度隱變量模型(dynamic latent variable model,DLVM)學(xué)習(xí)動態(tài)因素。結(jié)果表明從這些視頻中學(xué)習(xí)到的無監(jiān)督特征可以區(qū)分醫(yī)師所定義的臨床變化階段,并在此基礎(chǔ)上于2020 年構(gòu)建了預(yù)測模型[37]。JIANG 等[15]于2021年也針對抑郁癥的緩解情況及患者對DBS 治療的反應(yīng)進(jìn)行了分類,臨床醫(yī)師在治療前后8 個月內(nèi)每周對12 名受試者進(jìn)行評估和非結(jié)構(gòu)化訪談錄像,然后使用區(qū)域CNN 檢測器和ImageNet 預(yù)訓(xùn)練的CNN 從中提取了7 種基本情緒,通過Openface2.0 提取了動作單元強(qiáng)度;最終發(fā)現(xiàn)分類準(zhǔn)確率排名前三的特征為“快樂”出現(xiàn)概率的最大值、“快樂”出現(xiàn)概率的平均值、面部動作單元AU4 幅度的最大值;只通過基本情緒進(jìn)行分類的表現(xiàn)在統(tǒng)計學(xué)上優(yōu)于只通過動作單元進(jìn)行分類;既分析情緒也分析動作單元的預(yù)測準(zhǔn)確率與只分析情緒相似。后續(xù)的臨床治療研究可參考上述結(jié)果對研究指標(biāo)進(jìn)行優(yōu)化,讓治療效果評估更加準(zhǔn)確、省時。
此類研究進(jìn)行了長期數(shù)據(jù)采集,與臨床實(shí)際聯(lián)系緊密,能更好記錄患者的面部特征變化;并且JIANG等[15]使用的區(qū)域CNN 檢測器和ImageNet 預(yù)訓(xùn)練的CNN之前都已在大規(guī)模公共數(shù)據(jù)集(包含超過100萬張圖像)上進(jìn)行了訓(xùn)練,由此得出的結(jié)果更為可靠。但上述研究樣本量較小,缺少性別比較,后續(xù)研究可以繼續(xù)完善。
機(jī)器學(xué)習(xí)已廣泛應(yīng)用到抑郁癥研究領(lǐng)域,為解決臨床問題奠定了基礎(chǔ);但許多研究忽略了抑郁癥患者情緒變化的時間特點(diǎn)等問題,且有臨床樣本量小的局限性,這些都影響了研究質(zhì)量。而且面對復(fù)雜的生理特征,目前的研究指標(biāo)也相對單一。以下是對未來研究方向的展望。
抑郁癥的情緒變化具有“晨重暮輕”的特點(diǎn),所以實(shí)驗(yàn)的測試時間是影響抑郁程度判斷的重要因素?,F(xiàn)有的研究暫未對這一變量進(jìn)行控制。同時,面部特征的變化十分豐富,只對單個時間點(diǎn)的數(shù)據(jù)進(jìn)行分析無法達(dá)到精準(zhǔn)診斷抑郁癥的程度。所以未來有必要增加跟蹤研究,設(shè)置隨訪次數(shù),并控制測試時間,以使結(jié)果更符合抑郁癥患者的臨床特點(diǎn),使自動化檢測更加準(zhǔn)確。
目前的機(jī)器學(xué)習(xí)研究直接聚焦于分類和識別的結(jié)果,而其中被忽略的具體面部特征差異同樣很有價值。例如動作單元變化、表情出現(xiàn)頻次、微笑時長等,可以為基礎(chǔ)心理學(xué)提供支持,也可以豐富未來臨床應(yīng)用的檢測指標(biāo)。比如曾有研究[38]比較了與精神分裂癥患者、抑郁癥患者和健康對照者的情感缺陷相關(guān)的面部表情行為,探索了精神疾病中情感鈍化的具體表現(xiàn)。也有研究[39]探索了不同程度抑郁癥患者在訪談中各個類別面部表情的出現(xiàn)頻次,以及具體的動作單元變化差異,驗(yàn)證了抑郁癥的“社會風(fēng)險假說”。
有研究[40]融合了說話行為、眼睛活動和頭部姿勢等多種模態(tài)進(jìn)行抑郁癥預(yù)測,結(jié)果顯示多模態(tài)特征融合表現(xiàn)最佳,與單峰系統(tǒng)相比有顯著改進(jìn)。這預(yù)示著多模態(tài)研究的發(fā)展趨向。目前除面部特征外,機(jī)器學(xué)習(xí)也已在語音[41-43]、身體姿勢[44]、生理信號[45]等研究中發(fā)揮作用,有研究開始嘗試面部表情與其他指標(biāo)的結(jié)合[25,46-48]。未來應(yīng)在高質(zhì)量、大規(guī)模的數(shù)據(jù)集上開展多模態(tài)研究,從而更精準(zhǔn)地檢測抑郁狀態(tài)。
抑郁癥治療方法包括藥物治療、心理治療,以及一些物理治療如重復(fù)經(jīng)顱磁刺激(repetitive transcranial magnetic stimulation,rTMS)、電休克療法(electroconvulsive therapy,ECT)等。這些治療的臨床效果是科研人員和臨床人員共同關(guān)注的內(nèi)容,然而目前的抑郁癥面部特征研究中只有少數(shù)與rTMS相關(guān)的治療效果研究[15,36-37],日后可以更多地與臨床治療結(jié)合,這將是更客觀、無侵入性、省時省力的方法。
目前的抑郁癥自動化檢測研究缺乏可運(yùn)行的平臺或者應(yīng)用程序。雖然2018 年有人嘗試將3D 面部表情和語言融合起來設(shè)計成在手機(jī)上運(yùn)行的抑郁嚴(yán)重程度測量系統(tǒng)[49],2019 年有團(tuán)隊(duì)基于圖像處理和語音助手設(shè)計了無需精神科醫(yī)師幫助的抑郁癥檢測網(wǎng)站[23],但這些平臺不夠完善和普及。日后臨床中心間可以嘗試患者信息共享來收集更多臨床數(shù)據(jù)進(jìn)行分析,也可以開發(fā)有面部采集授權(quán)的手機(jī)治療應(yīng)用程序,提供更貼合個人特點(diǎn)的報告或預(yù)警。這些真實(shí)、大規(guī)模的臨床數(shù)據(jù)將提高檢測模型的準(zhǔn)確率,不斷優(yōu)化臨床應(yīng)用。
總之,目前基于機(jī)器學(xué)習(xí)的抑郁癥患者面部特征研究在輔助識別和診斷抑郁癥方面還在積極發(fā)展中。為了更好服務(wù)于臨床實(shí)踐,后續(xù)研究者需要在未來增加面部特征跟蹤研究、差異研究、多模態(tài)研究、結(jié)合臨床治療研究,并增加臨床實(shí)踐率,真正在臨床中實(shí)現(xiàn)抑郁癥自動化檢測。