国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

加強(qiáng)融合表情和語音的抑郁癥檢測模型

2024-09-15 00:00:00張濤李鴻燕
現(xiàn)代電子技術(shù) 2024年15期
關(guān)鍵詞:遷移學(xué)習(xí)深度學(xué)習(xí)

摘 "要: 抑郁癥患者的表情和語音具有直觀、易于獲取等優(yōu)點(diǎn),已被廣泛應(yīng)用于抑郁癥檢測,但現(xiàn)有研究存在忽略表情變化過程包含的信息在抑郁癥檢測中的作用,未能將動(dòng)態(tài)表情包含的信息與靜態(tài)表情、語音有效結(jié)合,識(shí)別準(zhǔn)確度不高等問題。針對上述問題,提出一種用動(dòng)態(tài)表情和語音加強(qiáng)融合靜態(tài)表情特征的抑郁癥檢測模型。在語音特征提取模塊中加入Bi?LSTM網(wǎng)絡(luò),挖掘語音的時(shí)序信息,用情感語音遷移學(xué)習(xí),再用抑郁癥語音訓(xùn)練。表情特征提取模塊采用雙通道結(jié)構(gòu),利用混合注意力機(jī)制分別提取動(dòng)態(tài)表情和靜態(tài)表情特征,特征更具判別性。特征加強(qiáng)融合模塊用語音和動(dòng)態(tài)表情加強(qiáng)融合靜態(tài)表情,特征信息互補(bǔ)加強(qiáng)。實(shí)驗(yàn)結(jié)果表明,所提方法在AVEC2014數(shù)據(jù)集上檢測的RMSE和MAE降低到8.21和6.03,優(yōu)于目前使用語音和表情檢測抑郁癥的方法。

關(guān)鍵詞: 抑郁癥檢測; 深度學(xué)習(xí); Bi?LSTM; 遷移學(xué)習(xí); 混合注意力; 特征加強(qiáng)融合

中圖分類號(hào): TN911.23?34; TP391.4 " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " "文章編號(hào): 1004?373X(2024)15?0127?06

Depression detection model that enhances fusion of facial expressions and speech

ZHANG Tao, LI Hongyan

(College of Electronic Information and Optical Engineering, Taiyuan University of Technology, Taiyuan 030024, China)

Abstract: The expressions and speech of patients with depression have the advantages of being intuitive and easy to be obtained, so they have been widely used in the depression detection. However, the existing research has overlooked the role of the information contained in the process of expression change in the depression detection, and has failed to effectively combine the information contained in dynamic expressions with static expressions and speech, which results in low recognition accuracy. In view of the above, a depression detection model enhancing the fusion of static expression features with dynamic expressions and speech is proposed. The Bi?LSTM network is added to the speech feature extraction module to mine the temporal information of speech, and perform transfer learning with emotional speech, and then implement training with depression speech. The expression feature extraction module is structured with a dual channel, and a mixed attention mechanism is utilized to extract dynamic and static expression features, so the features are more discriminative. In the feature enhancement fusion module, the speech and dynamic expressions are used to enhance the fusion of static expressions, which enhances the complementation of feature information. The experiment results show that the proposed method can reduce the RMSE (root mean square error) and MAE (mean absolute error) detected on the dataset AVEC2014 to 8.21 and 6.03, respectively, so it is superior to the current methods that detect depression with speech and facial expressions.

Keywords: depression detection; deep learning; Bi?LSTM; transfer learning; mixed attention; feature enhancement fusion

0 "引 "言

抑郁癥是一種常見的心理疾病,是現(xiàn)代人心理疾病最重要的類型,據(jù)統(tǒng)計(jì)全世界抑郁癥患者人數(shù)高達(dá)3.22億,患病率為5%,在年輕人中發(fā)病率最高。在高收入國家,近一半的抑郁癥患者沒有得到診斷或治療,在中低收入國家這一比例[1]更是高達(dá)80%~90%。近年來,人們利用計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和情感識(shí)別從各個(gè)角度開發(fā)了許多診斷和治療臨床抑郁癥的方法。

在目前的研究中,抑郁癥檢測主要采用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法。早期的研究中大多采用機(jī)器學(xué)習(xí)的方法進(jìn)行檢測,如AVEC2013數(shù)據(jù)庫的基線特征是局部相位量化(Local Phase Quantization, LPQ)[2],該特征在面部表情識(shí)別中表現(xiàn)出良好的性能,按幀對人臉區(qū)域檢測、剪切和對齊,從人臉區(qū)域提取LPQ特征,最后用SVR進(jìn)行預(yù)測。文獻(xiàn)[3]比較了兩種不同的特征:時(shí)空興趣點(diǎn)(STIPs)[4]和梯度直方圖金字塔(PHOG)[5],通過按幀跟蹤人臉,從對齊后的人臉圖像提取STIPs和PHOG特征,最后采用直方圖交叉核SVR進(jìn)行預(yù)測。

上述方法對于抑郁癥的識(shí)別和分析都取得了優(yōu)異的性能,但手工制作的特征在檢測抑郁癥上仍有局限性?;谏疃葘W(xué)習(xí)的方法逐漸應(yīng)用于抑郁癥的自動(dòng)檢測[6],卷積神經(jīng)網(wǎng)絡(luò)的特征提取和識(shí)別可以在統(tǒng)一的框架中共同進(jìn)行和優(yōu)化,學(xué)習(xí)到的特征表示更具有鑒別性,抑郁癥檢測效果更好。

文獻(xiàn)[7]提出DepressNet深度回歸網(wǎng)絡(luò),從單一圖像預(yù)測抑郁嚴(yán)重程度,結(jié)合不同面部區(qū)域的多個(gè)局部深度回歸模型以提高整體識(shí)別性能。卷積3D(C3D)網(wǎng)絡(luò)等3D CNN可以對時(shí)空關(guān)系進(jìn)行建模,提高性能。文獻(xiàn)[8]提出融合各種C3D預(yù)測,從主體的全局和局部區(qū)域提取時(shí)空特征,它們的多樣性和互補(bǔ)特征可以提高檢測精度。文獻(xiàn)[9]提出光譜熱圖和光譜向量兩種光譜表示,包含視頻級(jí)別的多尺度時(shí)間動(dòng)態(tài),構(gòu)建的頻譜饋送到卷積神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)進(jìn)行抑郁癥檢測。文獻(xiàn)[10]提出采用深度時(shí)空特征和多層雙向長短時(shí)記憶(Bi?LSTM)識(shí)別抑郁癥的方法,使用Inception?ResNet?v2網(wǎng)絡(luò)提取空間信息,基于體積局部方向數(shù)(VLDN)的動(dòng)態(tài)特征描述捕捉面部運(yùn)動(dòng),得到的特征送入卷積神經(jīng)網(wǎng)絡(luò),獲得更具鑒別性的特征;然后將兩者分別輸入到多層Bi?LSTM,在決策層融合后輸出抑郁癥檢測結(jié)果。

上述基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,對抑郁癥檢測都具有較強(qiáng)的特征提取能力,但忽略在時(shí)間維度上,表情變化過程包含的信息在抑郁癥檢測中的作用,未將動(dòng)態(tài)表情和語音、靜態(tài)表情特征有效結(jié)合,抑郁癥檢測的準(zhǔn)確度較低。

本文提出了一種加強(qiáng)融合靜動(dòng)態(tài)表情和語音的抑郁癥檢測模型,選擇語音和人臉表情靜動(dòng)態(tài)圖像作為模型的輸入。語音特征提取模塊用情感語音數(shù)據(jù)預(yù)訓(xùn)練,再應(yīng)用到抑郁癥語音特征提取中,提取抑郁癥語音特征的效果更好。表情特征提取模塊采用雙通道結(jié)構(gòu),用混合注意力機(jī)制分別提取靜態(tài)表情特征和動(dòng)態(tài)表情特征,提取的特征更具判別性。用提取的語音特征和動(dòng)態(tài)表情特征加強(qiáng)融合靜態(tài)表情特征,保留了原始特征信息,捕捉不同特征間的關(guān)聯(lián)性,使不同特征間加強(qiáng)互補(bǔ),提升了抑郁癥檢測的準(zhǔn)確率。

1 "加強(qiáng)融合表情和語音的抑郁癥檢測模型

抑郁癥患者的語音和表情異于常人,抑郁癥的表現(xiàn)形式多種多樣,單一模態(tài)特征包含的信息不夠充分,多模態(tài)特征又容易信息冗余。本文提出的抑郁癥檢測模型高效提取有效特征,加強(qiáng)融合了不同模態(tài)的特征,最大限度地減少了信息冗余。從視頻數(shù)據(jù)中提取靜態(tài)表情圖像、光流圖像(反映人臉表情變化過程的圖像)和語音信號(hào)作為模型的輸入,模型提取融合不同特征,實(shí)現(xiàn)多模態(tài)的抑郁癥檢測,整體結(jié)構(gòu)如圖1所示。

圖1中:[Xv]、[Xg]和[Xy]分別是靜態(tài)表情特征、動(dòng)態(tài)表情特征(使用光流圖像提取的特征)和語音特征;[Xo]是用動(dòng)態(tài)表情特征加強(qiáng)融合靜態(tài)表情的初步融合特征。用語音特征加強(qiáng)融合初步融合特征,獲得最終的融合特征[Xoutput],輸入到全連接層,擬合出檢測結(jié)果。

1.1 "語音特征提取模塊

抑郁癥患者表現(xiàn)為說話無力、低沉和少抑揚(yáng)頓挫等,利用語音可以對抑郁癥進(jìn)行檢測。語音是時(shí)序信號(hào),上下文具有強(qiáng)關(guān)聯(lián)性,在語音特征提取模塊中加入三層Bi?LSTM網(wǎng)絡(luò),充分挖掘語音的時(shí)序信息。CREMA?D和CASIA是兩個(gè)不同語種的情感語音數(shù)據(jù)庫,語音特征提取模塊用這兩個(gè)情感語音數(shù)據(jù)庫遷移學(xué)習(xí),提高語音特征提取模塊在AVEC2014抑郁癥語音數(shù)據(jù)上的學(xué)習(xí)效率。語音特征提取模塊如圖2所示。

為提升語音特征提取模塊在抑郁癥語音上的學(xué)習(xí)效率和模型的抑郁癥檢測準(zhǔn)確度,語音特征提取模塊用情感語音數(shù)據(jù)遷移學(xué)習(xí),在提取抑郁癥語音特征上獲得更好的效果。將兩個(gè)語音情感數(shù)據(jù)庫(CREMA?D、CASIA)合并,得到情感語音,語音特征提取模塊用情感語音數(shù)據(jù)預(yù)訓(xùn)練,保存模型參數(shù),將AVEC2014抑郁癥語音數(shù)據(jù)通過加載模型參數(shù)輸入語音抑郁癥檢測模型,獲得抑郁癥語音特征[Xy]。

1.2 "表情特征提取模塊

抑郁癥患者比正常人更敏感,常常做出嘴角下垂、眉毛微皺等表情,通過表情變化可以檢測抑郁癥。AVEC2014數(shù)據(jù)集是視頻樣本,視頻包含空間和時(shí)間維度上的特征信息。為挖掘視頻中包含的時(shí)序信息,對視頻抽幀,組成具有前后順序的時(shí)序性幀集合,作為表情特征提取模塊的輸入。表情變化過程與靜態(tài)表情包含不同的特征信息,表情特征提取模塊采用雙通道結(jié)構(gòu),分別輸入靜態(tài)表情圖像和光流圖像(反映表情變化過程的圖像),提取人臉表情的動(dòng)態(tài)和靜態(tài)特征信息。模塊結(jié)構(gòu)如圖3所示。

處理每個(gè)視頻樣本,獲得靜態(tài)表情圖像集合和光流圖像集合。靜態(tài)表情特征提取和動(dòng)態(tài)表情特征提取兩個(gè)通道的操作相同,將視頻按前后順序隨機(jī)抽取[k]幀,構(gòu)成幀集合[x]作為網(wǎng)絡(luò)的輸入。

[x=x1,x2,…,xk, " " " k∈N] (1)

式中:[xk]是從視頻中隨機(jī)抽取的幀;[N]是從視頻中抽取的總幀數(shù)。

靜態(tài)表情和動(dòng)態(tài)表情特征提取兩通道結(jié)構(gòu)相同,使用ResNet50網(wǎng)絡(luò)、混合注意力模塊和GRU網(wǎng)絡(luò)提取圖像信息。ResNet50網(wǎng)絡(luò)負(fù)責(zé)提取表情圖像在空間維度上的特征信息?;旌献⒁饬δK篩選ResNet50提取的特征,與抑郁癥檢測結(jié)果相關(guān)度高的信息獲得更大的權(quán)重。混合注意力篩選后的特征輸入門循環(huán)GRU網(wǎng)絡(luò),提取時(shí)間維度上的信息。使用動(dòng)態(tài)表情特征加強(qiáng)融合動(dòng)態(tài)表情特征,獲得加強(qiáng)融合表情特征[Xo]。

1.3 "混合注意力模塊

為防止信息冗余影響抑郁癥模型的檢測精度,提出一種混合注意力用來提取人臉表情特征。混合注意力模塊由自注意力模塊和幀注意力模塊構(gòu)成,自注意力模塊篩選每幀圖像中的有效信息,給予可以反映抑郁區(qū)域更大的權(quán)重,幀注意力模塊分析幀集合中每幀圖像的重要性,權(quán)重分配給相關(guān)性高的幀,消除視頻中不相干的信息,防止信息冗余,提取的特征更具判別性。模塊結(jié)構(gòu)如圖4所示。

將抽取的第[i]幀圖片的空間特征[xi]輸入到自注意力模塊,得到自注意力權(quán)重[θ1],進(jìn)而得到自注意力特征向量[F1weight1],計(jì)算過程如式(2)所示:

[F1weight1=σxi?θ1] (2)

式中[σ]是Sigmoid激活函數(shù)。由空間特征[xi]與自注意力特征向量[F1weight1]融合獲得自注意力模塊輸出的特征[xiatt1],計(jì)算過程如式(3)所示:

[xiatt1=i=1kFiweight1xii=1kFiweight1] "(3)

隨后將自注意力模塊的輸出組合,如式(4)所示:

[Xiatt1=x1att1,x2att1,…,xkatt1] "(4)

式中:[xiatt1]為自注意力模塊的第[i]個(gè)輸出;[Xiatt1]是自注意力模塊輸出的集合。

單幀提取的特征信息忽略了幀之間的信息關(guān)聯(lián),所以引入幀注意力模塊。將自注意力模塊的輸出[Xiatt1]輸入幀注意力模塊,得到幀注意力權(quán)重[θ2],進(jìn)而獲得幀注意力特征向量[Fiweight2],計(jì)算過程如式(5)所示:

[Fiweight2=σXiatt1?θ2] (5)

最后,幀注意力特征向量[Fiweight2]與特征[Xiatt1]進(jìn)行特征融合,得到混合注意力模塊的最終輸出[Xiatt2],計(jì)算過程如式(6)所示:

[Xiatt2=i=1kFiweight2Xiatt1i=1kFiweight2] (6)

混合注意力特征模塊輸出的特征向量[Xiatt2]包含了視頻中與抑郁癥高度相關(guān)的特征信息。

1.4 "特征加強(qiáng)融合模塊

為有效融合靜態(tài)人臉表情特征、動(dòng)態(tài)人臉表情特征(人臉表情變化過程中包含的信息)和語音特征,本文提出一個(gè)特征加強(qiáng)融合模塊,用語音特征和動(dòng)態(tài)表情特征加強(qiáng)融合靜態(tài)人臉表情特征,特征間互補(bǔ)加強(qiáng),捕捉具有關(guān)聯(lián)性的特征信息。特征加強(qiáng)融合模塊如圖5所示。

將提取的動(dòng)態(tài)表情特征[Xg]和靜態(tài)表情特征[Xv]輸入特征加強(qiáng)融合模塊,通過線性運(yùn)算得到兩通道特征的映射[Xg]和[Xv]。利用加法和[tanh]激活函數(shù)處理,通過softmax得到加強(qiáng)特征[Xc]。最后,加強(qiáng)特征[Xc]乘以靜態(tài)表情特征,再與原動(dòng)態(tài)表情和靜態(tài)表情特征拼接,得到加強(qiáng)融合特征[Xo]。具體公式如下:

[Xc=tanhWvXv+bv+WgXg+bg] (7)

[Xo=softmaxXc?Xv⊕Xg⊕Xv] (8)

此操作使動(dòng)態(tài)表情特征和靜態(tài)表情特征互補(bǔ)加強(qiáng),殘差結(jié)構(gòu)保證原始特征的完整性。同理,使用語音特征[Xy]加強(qiáng)融合圖像特征[Xo],得到最終的多模態(tài)特征[Xoutput],具體過程如下:

[Xb=tanhWyXy+by+WoXo+bo] (9)

[Xoutput=softmaxXb?Xo⊕Xy⊕Xo] (10)

2 "實(shí)驗(yàn)結(jié)果與對比分析

所有測試實(shí)驗(yàn)的硬件為NVIDIA GTX?3080Ti;軟件環(huán)境為Python 3.8.13編程語言以及Pytorch 1.7.1深度學(xué)習(xí)框架。測試模型時(shí),使用常見的Adam優(yōu)化算法和均方誤差(MSE)損失函數(shù)進(jìn)行訓(xùn)練,模型的學(xué)習(xí)率及單次訓(xùn)練樣本數(shù)值(batchsize)分別設(shè)置為0.001和100。為了處理網(wǎng)絡(luò)訓(xùn)練過程中的過擬合現(xiàn)象,設(shè)置丟失率(dropout)為0.2。最終計(jì)算所有被試的平均絕對誤差(MAE)和均方根誤差(RMSE),以評估本文所提出模型的檢測準(zhǔn)確率。MAE和RMSE的計(jì)算公式分別如式(11)和式(12)所示:

[MAE=1Ni=1Nyi-yi] (11)

[RMSE=1Ni=1Nyi-yi2] (12)

式中:[N]為樣本的數(shù)量;[yi]是第[i]個(gè)樣本真實(shí)值;[yi]是第[i]個(gè)預(yù)測值。

2.1 "數(shù)據(jù)集

本文算法的訓(xùn)練和測試在公開數(shù)據(jù)集AVEC2014上進(jìn)行。AVEC2014數(shù)據(jù)庫分為兩個(gè)任務(wù):Freeform和Northwind。在Northwind中,受試者讀一段the north wind sun中的內(nèi)容,F(xiàn)reeform是關(guān)于受試者的個(gè)人生活問題。在這兩個(gè)任務(wù)中,又劃分為訓(xùn)練、開發(fā)和測試集,每個(gè)分區(qū)有50個(gè)視頻,每個(gè)視頻都對應(yīng)一個(gè)抑郁評分,范圍從0~63。抑郁癥數(shù)據(jù)庫中部分樣本如圖6所示。

2.2 "不同特征及混合注意力模塊的有效性實(shí)驗(yàn)

下面驗(yàn)證語音特征、靜態(tài)表情特征和動(dòng)態(tài)表情特征作為模型輸入及使用混合注意力模塊提取表情特征對檢測結(jié)果的影響,結(jié)果如表1所示。

從表1可以看出,在同等特征的輸入下,使用混合注意力模塊提取表情特征,檢測結(jié)果RMSE和MAE分別降低0.03、0.08和0.14、0.03,小幅提高了模型的檢測精度,因?yàn)榛旌献⒁饬δK會(huì)篩選特征信息中的有效部分,忽略與檢測無關(guān)的信息。從檢測結(jié)果中看出,選擇靜態(tài)表情作為輸入,抑郁癥檢測效果優(yōu)于語音特征和動(dòng)態(tài)表情特征,所以以靜態(tài)表情特征為主,語音特征和動(dòng)態(tài)表情特征作為輔助加強(qiáng)靜態(tài)表情特征,可以獲得效果更好的融合特征。

2.3 "特征融合方法的有效性實(shí)驗(yàn)

2.2節(jié)得出用語音特征和動(dòng)態(tài)表情特征加強(qiáng)融合靜態(tài)表情特征,抑郁癥檢測效果更好。下面驗(yàn)證用不同方法融合特征對抑郁癥檢測結(jié)果的影響,結(jié)果如表2所示。

從表2可以看出,使用Concat、Add特征融合方法,檢測準(zhǔn)確度與使用靜態(tài)人臉表情作為輸入的檢測結(jié)果沒有明顯區(qū)別,直接相加或拼接后的特征包含不同模態(tài)的全部信息,但有很多信息是重復(fù)無用的,信息冗余會(huì)影響檢測結(jié)果。使用基于Attention的特征融合方法,檢測準(zhǔn)確度明顯上升,注意力機(jī)制會(huì)篩選有效信息,防止信息冗余。本文提出的特征加強(qiáng)融合方法優(yōu)于以上三種特征融合方法,特征加強(qiáng)融合采用殘差結(jié)構(gòu),保留了原始特征信息,捕捉不同特征間的關(guān)聯(lián)性,獲得更高效的特征信息。

2.4 "不同特征及混合注意力模塊的有效性實(shí)驗(yàn)

2.3節(jié)驗(yàn)證了本文提出的特征加強(qiáng)融合方法是有效的,下面驗(yàn)證加強(qiáng)融合不同特征對抑郁癥檢測結(jié)果的影響,結(jié)果如表3所示。

從表3可以看出,融合特征的RMSE和MAE更低,檢測結(jié)果更好,融合后的特征涵蓋原特征和特征間的關(guān)聯(lián)信息。動(dòng)態(tài)表情加強(qiáng)融合靜態(tài)表情,動(dòng)態(tài)表情獨(dú)有的表情變化趨勢、幅度、頻率等信息會(huì)補(bǔ)充靜態(tài)人臉表情特征,增加了特征信息的多樣性。語音特征加強(qiáng)融合表情融合特征,數(shù)據(jù)集中包含的語音信息實(shí)現(xiàn)了信息的加強(qiáng)互補(bǔ),提升了抑郁癥檢測的準(zhǔn)確度。

2.5 "本文模型的有效性實(shí)驗(yàn)

將本文模型與AVEC2014數(shù)據(jù)集上截至2023年的最新工作進(jìn)行性能比較。參與比較的方法包括:文獻(xiàn)[11]提出的基線模型;文獻(xiàn)[12]提出的基于動(dòng)態(tài)面部外觀和DPF編碼的抑郁癥檢測模型;文獻(xiàn)[13]提出的使用動(dòng)態(tài)特征信息的抑郁癥檢測模型;文獻(xiàn)[14]提出的RNN?C3D網(wǎng)絡(luò)模擬來自連續(xù)的面部表情的局部和全局時(shí)空特征信息,用來檢測抑郁癥;文獻(xiàn)[10]提出的基于深層時(shí)空特征和Bi?LSTM的抑郁癥檢測模型;文獻(xiàn)[16]提出的使用語音和面部表情的TFCAV抑郁癥檢測模型。不同模型在AVEC2014數(shù)據(jù)庫上的檢測結(jié)果如表4所示。

通過表4可以看出,本文提出的抑郁癥檢測模型在AVEC2014數(shù)據(jù)集上取得了較低的RMSE和MAE,證明了本文算法在抑郁癥檢測任務(wù)上的優(yōu)越性和可行性。

3 "結(jié) "語

本文提出加強(qiáng)融合表情和語音的抑郁癥檢測模型,在語音特征提取模塊中用情感語音數(shù)據(jù)庫進(jìn)行遷移學(xué)習(xí),語音特征提取模塊得到充分訓(xùn)練;在模塊中加入Bi?LSTM網(wǎng)絡(luò),挖掘語音在時(shí)間序列上的關(guān)聯(lián)性。為分別獲取靜態(tài)表情和動(dòng)態(tài)表情包含的特征信息,圖像特征提取模塊采用雙流結(jié)構(gòu),通道中使用混合注意力模塊提取表情特征,防止信息冗余。最后在殘差結(jié)構(gòu)的加強(qiáng)融合特征模塊中,用語音特征和動(dòng)態(tài)表情特征加強(qiáng)融合靜態(tài)表情特征,保證原始特征的完整性,特征互補(bǔ)加強(qiáng),捕捉更有效的特征信息。在AVEC2014數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果優(yōu)于目前使用的表情和語音的抑郁癥檢測模型,驗(yàn)證了本文所提模型的有效性。

注:本文通訊作者為李鴻燕。

參考文獻(xiàn)

[1] CURRAN E, ROSATO M, FERRY F, et al. Prevalence and factors associated with anxiety and depression in older adults: Gender differences in psychosocial indicators — ScienceDirect [J]. Journal of affective disorders, 2020, 267: 114?122.

[2] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray?scale and rotation invariant texture classification with local binary patterns [C]// IEEE transactions on pattern analysis and machine intelligence, 2002, 24(7): 971?987.

[3] CUMMINS N, JOSHI J, DHALL A, et al. Diagnosis of depression by behavioural signals: A multimodal approach [C]// Proceedings of the 3rd ACM International Workshop on Audio/Visual Emotion Challenge. New York: IEEE, 2013: 11?20.

[4] LAPTEV I, MARSZAIEK M, SCHMID C, et al. Learning realistic human actions from movies [C]// 26th IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2008: 3222?3229.

[5] BOSHC A, ZISSERMANA A, MUNOZ X, et al. Representing shape with a spatial pyramid kernel [C]// Proceedings of the 6th ACM International Conference on Image and Video Retrieval. New York: IEEE, 2007: 401?408.

[6] MELO W C D, GRANGER E, HADID A. A deep multiscale spatiotemporal network for assessing depression from facial dynamics [J]. IEEE transactions on affective computing, 2022, 13(3): 1581?1592.

[7] ZHOU X Z, JIN K, SHANG Y Y, et al. Visually interpretable representation learning for depression recognition from facial images [J]. IEEE transactions on affective computing, 2020, 11(3): 542?552.

[8] MELO W C D, GRANGER E, HADID A. Combining global and local convolutional 3D networks for detecting depression from facial expressions [C]// 14th IEEE International Conference on Automatic Face and Gesture Recognition. New York: IEEE, 2019: 1?8.

[9] SONG S Y, JAISWAL S, SHEN L L, et al. Spectral representation of behaviour primitives for depression analysis [J]. IEEE transactions on affective computing, 2022, 13(2): 829?844.

[10] UDDIN M A, JOOLEE J B, LEE Y K. Depression level prediction using deep spatiotemporal features and multilayer Bi?LTSM [J]. IEEE transactions on affective computing, 2022, 13(2): 864?870.

[11] VALSTAR M F, SCHULLER B W, SMITH K, et al. AVEC 2014: 3D dimensional affect and depression recognition challenge [C]// Proceedings of the 4th International Workshop on Audio/Visual Emotion Challenge. New York: ACM, 2014: 3?10.

[12] HE L, JIANG D M, SAHLI H. Automatic depression analysis using dynamic facial appearance descriptor and Dirichlet process Fisher encoding [J]. IEEE transactions on multimedia, 2019, 21(6): 1476?1486.

[13] ZHU Y, SHANG Y Y, SHAO Z H, et al. Automated depression diagnosis based on deep networks to encode facial appearance and dynamics [J]. IEEE transactions on affective computing, 2018, 9(4): 578?584.

[14] JAZAERY M A, GUO G D. Video?based depression level analysis by encoding deep spatiotemporal features [J]. IEEE transactions on affective computing, 2021, 12(1): 262?268.

[15] 江筱,邵珠宏,尚媛園,等.基于級(jí)聯(lián)深度神經(jīng)網(wǎng)絡(luò)的抑郁癥識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(10):117?122.

[16] NIU M Y, LIU B, TAO J H, et al. A time?frequency channel attention and vectorization network for automatic depression level prediction [J]. Neurocomputing, 2021, 450: 208?218.

作者簡介:張 "濤(1998—),男,山西忻州人,碩士研究生,研究方向?yàn)槿斯ぶ悄芘c模式識(shí)別。

李鴻燕(1973—),女,山西太原人,博士,教授,研究方向?yàn)樾畔⑴c信號(hào)處理。

猜你喜歡
遷移學(xué)習(xí)深度學(xué)習(xí)
遷移學(xué)習(xí)研究綜述
從認(rèn)知角度探討大學(xué)英語網(wǎng)絡(luò)教學(xué)模式
基于多特征融合的跨域情感分類模型研究
奇異值分解與移移學(xué)習(xí)在電機(jī)故障診斷中的應(yīng)用
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
崇文区| 大关县| 灯塔市| 遂溪县| 鹰潭市| 灵寿县| 南澳县| 浮山县| 射洪县| 青铜峡市| 剑河县| 伊春市| 郑州市| 顺义区| 霞浦县| 桂东县| 西林县| 涟源市| 南华县| 尖扎县| 黔西| 息烽县| 荔波县| 衡南县| 建瓯市| 淅川县| 平阳县| 房产| 泽普县| 清镇市| 磐安县| 留坝县| 尼木县| 镶黄旗| 许昌市| 黎城县| 海宁市| 通海县| 德江县| 彭州市| 洛宁县|