陳銳霆,徐瑞吉,應(yīng)靈康,金潤輝,毛科技,趙永標(biāo)
(1.浙江工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310014;2.杭州惠嘉信息科技有限公司,浙江 杭州 311121;3.浙江工業(yè)大學(xué)之江學(xué)院,浙江 紹興 312030)
隨著現(xiàn)代生活節(jié)奏加快,人們感受到來自方方面面的壓力。壓力的積累導(dǎo)致各種各樣的心理健康問題,最后發(fā)展到精神疾病。這些精神疾病危害著人們的身心,嚴(yán)重時(shí)甚至導(dǎo)致患者做出威脅個(gè)人或他人生命安全的行為[1]。世界衛(wèi)生組織最新報(bào)告顯示2021 年底全球約13%的人群擁有不同程度的精神疾病問題,每年用于治療和預(yù)防的花費(fèi)就高達(dá)萬億美元,給個(gè)人、家庭和社會都造成了巨大的負(fù)擔(dān)和影響[2]。
精神疾病的檢測識別一直是一個(gè)復(fù)雜且耗時(shí)的任務(wù)。要判定一個(gè)人是否正在遭受精神疾病的困擾,不僅需要具備專業(yè)的知識、基本掌握個(gè)人信息,還需要將目標(biāo)人群放在一個(gè)時(shí)間跨度之下觀察才能臨床確診。很多擁有輕度精神疾病的人往往無法意識到自己精神狀態(tài)的異常,也不會主動透露自身情況或?qū)で笾委煟@導(dǎo)致精神疾病的篩查面臨巨大的現(xiàn)實(shí)困難[3]。
視覺傳感器可以準(zhǔn)確地獲得人的面部表情、手勢、姿態(tài)、以及頭部運(yùn)動等信息。研究表明,人的面部表情占情感信息量的55%,而聲音特征和語義特征分別占情感信息量的38%和7%[4]。因此利用視覺傳感器采集面部變化進(jìn)行精神疾病評估是非常有效的方法。
除了數(shù)據(jù)采集之外,基于視覺傳感器的精神疾病識別方法能為精神疾病的輔助篩查提供了一種成本低廉、便捷、非侵入性的方式。相比傳統(tǒng)的臨床訪談和問卷評估,采用視覺傳感器可以直接采集患者在日常生活中的行為、表情等數(shù)據(jù),無需人工干預(yù),因此能夠更加客觀地反映患者的真實(shí)狀態(tài)。
基于上述分析,本文提出了一個(gè)基于視覺傳感器采集光流特征的精神疾病識別框架。該算法根據(jù)視覺傳感器的特點(diǎn)設(shè)計(jì)了一種光流特征提取方法,能夠捕捉患者面部表情變化豐富的局部特征,也能組合局部特征以維持面部拓?fù)浣Y(jié)構(gòu)的變化,不丟失全局特征信息。算法中使用適用于光流變化特征的網(wǎng)絡(luò)TSMOSNet 進(jìn)行訓(xùn)練,從而構(gòu)建了一個(gè)高準(zhǔn)確率和魯棒性的精神疾病識別算法模型。該模型參數(shù)體積小,推理速度快,可以與視覺傳感器進(jìn)行整合,開發(fā)出一系列精神疾病預(yù)警系統(tǒng),及時(shí)監(jiān)測患者的行為變化,發(fā)現(xiàn)異常情況,并及時(shí)采取相應(yīng)的干預(yù)措施。這為精神疾病的預(yù)防和治療提供了新的思路和方法。
由于通過視覺傳感器采集而來的患者視頻時(shí)間跨度大,且包括房屋背景等無用信息,需要對原始視頻做預(yù)處理,構(gòu)建出面部序列單元。本算法中通過HOG 特征描述算子從采集視頻中按每幀提取出患者的面部圖片。提取到的患者面部圖片通過仿射變化進(jìn)行矯正對齊,并統(tǒng)一圖片大小到128×128,以標(biāo)準(zhǔn)化面部圖片的分辨率。
其中,仿射變換是一種線性變換,能夠保持平行線的平行性和長度的比例不變。它由旋轉(zhuǎn)、縮放、錯(cuò)切和平移四種基本變換組成,可以表示為矩陣乘法的形式,如式(1)所示:
式中:(x,y)是像素點(diǎn)變換前的坐標(biāo),(x′,y′)是像素點(diǎn)變換后的坐標(biāo),a11和a21分別表示圖像在x方向和y方向的縮放因子,a12和a22表示圖像在x方向和y方向的錯(cuò)切因子,t1和t2表示圖像在x方向和y方向的平移量。
由于精神疾病患者并不會一直正對視覺傳感器。偏轉(zhuǎn)角度小的患者面部可以通過仿射變化進(jìn)行矯正,但是存在偏轉(zhuǎn)角度大,且有物體遮擋等干擾的患者面部圖片。對于這些低質(zhì)量的圖片,通過OpenFace[5]中的人臉檢測算法,定義置信度來進(jìn)行清洗。
當(dāng)置信度設(shè)置得比較高時(shí),視覺傳感器能采集到的符合要求的面部圖片數(shù)量會變少,丟失掉一些可用的特征。反之當(dāng)置信度取到較低值,會存在大量受到污染的面部圖片,影響整體方法的效果。對于置信度的設(shè)置,通過對比試驗(yàn),最后設(shè)置的置信度閾值為0.95。
因?yàn)榛颊叩拿娌繄D片是一個(gè)時(shí)序變化的圖片序列,通過對采集到的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)低置信度的面部圖片都是連續(xù)的。為了保持時(shí)序性,使用低置信度面部圖片前出現(xiàn)的最后一張正常面部圖片作為填充,而不是直接刪除低置信度的面部圖片。
最后可以得到有效且高質(zhì)量的患者面部圖片序列,即本文算法中定義的面部序列單元。本節(jié)方法流程如圖1 中的視覺傳感器視頻采集模塊所示。
圖1 本文的整體算法框架
精神疾病患者的面部表情變化會被一些特定的內(nèi)容所激發(fā)。其有效特征往往分散在采集而來的視頻片段之中。此外,因?yàn)椴杉鴣淼囊曨l時(shí)間不定,直接輸入模型訓(xùn)練,存在時(shí)序跨度大、干擾信息多、有效特征難以定位等問題。所以,在本文的算法框架中,需要對1.1 節(jié)中提取到的面部序列單元進(jìn)一步處理,提取出受到激發(fā)的患者面部圖片序列,即面部應(yīng)激單元。
受到相關(guān)研究的啟發(fā),光流特征在表情變化分析中能夠提取出有效的時(shí)空運(yùn)動信息[6-7]。本算法在患者的面部序列單元中選定一張患者自然狀態(tài)下的面部圖片作為中性幀。然后,計(jì)算患者每幀的面部圖片和中性幀的光流特征。光流特征的水平分量u和垂直分量v采用TV-L1 光流方法來計(jì)算[8]。此外,光流應(yīng)變采用了無窮小應(yīng)變理論,可以反映出患者的細(xì)微面部形變。光流應(yīng)變的定義如式(2)所示:
式中:δx為坐標(biāo)(x,y)的像素點(diǎn)在x軸上的微分,δy為像素點(diǎn)在y軸上的微分,εxx和εyy為正切應(yīng)變分量,εxy和εyx為剪切應(yīng)變分量。則光流應(yīng)變的幅值可以按式(3)進(jìn)行計(jì)算。
在本文的算法中,以光流應(yīng)變幅值作為量化患者面部運(yùn)動的程度。而光流特征圖為水平分量u、垂直分量v和光流應(yīng)變ε三個(gè)矩陣疊加而成,可視為一張通道數(shù)為3 的特征圖。
從已有的研究中可知,患者面部的表情變化通常集中在特定區(qū)域[9]。在本文算法中,定義了三塊ROI 區(qū)域,分別為左眼左眉、右眼右眉和嘴部區(qū)域。通過面部標(biāo)志點(diǎn)來區(qū)分這些區(qū)域,如圖2 所示。
圖2 通過面部標(biāo)志點(diǎn)定義的ROI 區(qū)域
在各個(gè)ROI 區(qū)域之中,以面部標(biāo)志點(diǎn)的最高點(diǎn)、最低點(diǎn)、最左側(cè)的點(diǎn)和最右側(cè)的點(diǎn)作為基準(zhǔn)進(jìn)行截取。為了保證ROI 區(qū)域被完整地截取,不丟失邊界的信息,分別在每個(gè)方向都擴(kuò)展12 個(gè)像素。算法中將左眼左眉區(qū)域定義為ROI 1,右眼右眉的區(qū)域定義為ROI 2,嘴部區(qū)域定義為ROI 3。
將ROI 1 和ROI 2 的大小都調(diào)整為27×27 像素,ROI 3 的大小調(diào)整為27×52 像素。最后,將三塊ROI 區(qū)域拼接在一起,得到54×54 大小的ROI 區(qū)域圖片。三塊ROI 區(qū)域的位置關(guān)系如圖3 所示。
圖3 面部ROI 區(qū)域位置關(guān)系
隨后,按照光流應(yīng)變幅值中提到的方法計(jì)算面部序列單元的每一幀面部圖片和中性幀的光流特征圖。在計(jì)算光流特征圖時(shí),雖然已經(jīng)在采集視頻的預(yù)處理中對患者面部圖片進(jìn)行了矯正對齊。本算法中還選取了鼻子區(qū)域的標(biāo)志點(diǎn)位置,來進(jìn)一步消除患者頭部全局運(yùn)動對光流產(chǎn)生的影響[10]。
得到光流特征圖后,以原始圖片上識別出的面部標(biāo)志點(diǎn),按上述ROI 區(qū)域定義方式,從光流特征圖中裁剪拼接得到面部ROI 區(qū)域光流特征圖。該步驟算法流程如圖4 所示。
圖4 面部ROI 區(qū)域光流特征圖構(gòu)建流程
通過面部ROI 區(qū)域光流特征圖構(gòu)建流程中的算法,得到了患者面部序列單元中每幀面部圖片的面部ROI 區(qū)域光流特征圖。然后通過光流應(yīng)變幅值計(jì)算方法,計(jì)算出患者每幀面部ROI 區(qū)域光流特征圖的光流應(yīng)變幅值。可以得到時(shí)序幀和光流應(yīng)變幅值的峰值關(guān)系圖,如圖5(a)所示。
在原始的峰值關(guān)系圖中存在著許多噪聲元素,這些噪聲元素的產(chǎn)生和圖片的質(zhì)量、患者面部本身的過度偏轉(zhuǎn)和視覺傳感器的采集環(huán)境等因素相關(guān)。這導(dǎo)致了在峰值圖中存在大量微小的波峰和偽峰,影響后續(xù)算法的效果。所以需要對原始峰值圖進(jìn)行去噪以及離群值檢測。
在去噪算法的選擇中,對比了傅里葉變化,滾動平均值和Savitzky-Golay 濾波。根據(jù)消融實(shí)驗(yàn)數(shù)據(jù),選擇Savitzky-Golay 濾波作為本文算法框架中的去噪算法。同樣,對于離群值檢測算法的選擇,對比了基于滾動統(tǒng)計(jì)的方法、孤立森林算法和K-Means 算法。在這些方法中,孤立森林算法取得了最好的效果。
經(jīng)過去噪和離群值檢測后,得到處理后的峰值圖,如圖5(b)所示。處理后的峰值圖中減少了大量的微小波峰,也處理了偏離正常趨勢的離群點(diǎn)。然后,通過峰值檢測器尋找成峰時(shí)序段所在的起始幀位置、結(jié)束幀位置、峰值幀位置和持續(xù)幀長度。
每一個(gè)成峰時(shí)序段都是一個(gè)應(yīng)激單元。為了后續(xù)輸入模型的數(shù)據(jù)長度統(tǒng)一,需要統(tǒng)計(jì)所有應(yīng)激單元的持續(xù)幀長度,進(jìn)行K-Mean 聚類,獲得一個(gè)最為合適的持續(xù)幀長度。
在本文使用的數(shù)據(jù)集中,聚類得到的時(shí)序幀長度為128。
按照本節(jié)算法流程可以將視覺傳感器采集而來的長時(shí)間的患者視頻,轉(zhuǎn)化為短時(shí)間的應(yīng)激單元,應(yīng)激單元中既包含了有效的患者面部表情變化特征,又保持了時(shí)序關(guān)聯(lián)性,易于后續(xù)模型進(jìn)行訓(xùn)練。能夠有效解決時(shí)序跨度大、干擾信息多、有效特征難以定位等問題。
本節(jié)整體的算法流程如圖1 中面部應(yīng)激單元提取部分所示。
以每個(gè)成峰時(shí)序段所在的峰值幀位置作為基準(zhǔn),對兩側(cè)起始幀位置和結(jié)束幀位置盡量等額進(jìn)行擴(kuò)充或是刪除(對于無法擴(kuò)充前置幀或者后序幀的情況,通過復(fù)制幀來解決)。最后,得到標(biāo)準(zhǔn)化后的應(yīng)激單元,為128 幀的分段面部序列單元。對于每一個(gè)標(biāo)準(zhǔn)化后的應(yīng)激單元,同樣利用1.2 小節(jié)中介紹的方法,計(jì)算每一幀和中性幀的光流特征圖,保留指定ROI 區(qū)域部分,可以得到128 幀所對應(yīng)的128張光流特征圖。
為了去除人臉個(gè)體性的差異,保持光流特征圖的時(shí)序聯(lián)系性以及采集環(huán)境對圖片帶來的色澤影響。對光流特征圖矩陣基于HSV 色彩空間做歸一化[11]。然后以16 frame/s 的規(guī)格將128 幀歸一化后的光流特征圖拼接成8 s 的視頻,即本算法中的光流特征單元。
光流特征單元為本算法框架后續(xù)模型的數(shù)據(jù)輸入。對于每一個(gè)光流特征單元,需要生成一個(gè)匹配的標(biāo)簽。針對本文中所使用的數(shù)據(jù),設(shè)計(jì)了一個(gè)偽標(biāo)簽函數(shù)(線性函數(shù))來對每一個(gè)光流特征單元生成標(biāo)簽。偽標(biāo)簽函數(shù)的表達(dá)形式g(·)如式(4)所示:
式中:label 為輸入視頻數(shù)據(jù)對應(yīng)的標(biāo)簽。
本算法以TSM 網(wǎng)絡(luò)為基礎(chǔ),結(jié)合光流特征單元的特性,設(shè)計(jì)了新的網(wǎng)絡(luò)結(jié)構(gòu)TSMOSNet。TSMOSNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。
在TSMOSNet 模型的開始,輸入的光流特征單元被分割成N個(gè)大小相等的片段。在本文的算法中,因?yàn)楣饬魈卣鲉卧目値瑪?shù)已經(jīng)被控制在128 幀,所以在采樣環(huán)節(jié)使用了更為密集的采樣方法。模型中將N值設(shè)置為成16,也就是每個(gè)片段的大小為8 幀,從輸入的光流特征單元中采樣出16 幀光流特征圖輸入后續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)之中,來提高模型的精度。
光流特征圖的性質(zhì)和一般圖片不同,為了提高光流特征單元的解碼速度,在模型中采用了PyAV作為解碼器。
模型的下一部分是光流處理頭。光流處理頭是針對光流特征圖提出的預(yù)提取網(wǎng)絡(luò),替換了原TSM網(wǎng)絡(luò)之中的卷積模塊。光流處理頭的結(jié)構(gòu)如圖7 所示。光流處理頭將輸入的特征圖拆分成三個(gè)通道分別進(jìn)行卷積。以維持光流水平分量、垂直分量和光流應(yīng)變矩陣的獨(dú)立性。每個(gè)卷積層的卷積核通道數(shù)分別是3、5、8,來獲取不同的感受野,隨后是一個(gè)最大池化層來減少特征圖的大小。然后,將每個(gè)流的特征圖按照通道堆疊重新組合特征,經(jīng)過一個(gè)平均池化層后輸出。
圖7 光流提取頭的結(jié)構(gòu)
光流提取頭能夠有效地提取光流特征圖的空間信息,送入后續(xù)的時(shí)序注意力模塊。
原TSM 網(wǎng)絡(luò)通過把特征在時(shí)間通道上位移,來獲取時(shí)序信息。但這種位移方式僅讓局部的特征進(jìn)行交互,缺少對全局時(shí)序信息的建模能力。所以,本算法設(shè)計(jì)的TSMOSNet 在TSM 模塊之前,添加了輕量級的LTA 時(shí)序注意力模塊,可以讓后續(xù)的網(wǎng)絡(luò)在全局信息的指導(dǎo)下進(jìn)行時(shí)序位移,進(jìn)一步提高模型的精度。LTA 時(shí)序注意力模塊的結(jié)構(gòu)如圖8 所示。
圖8 LTA 時(shí)序注意力模塊
本文提出算法的最后一步便是通過權(quán)重分類,讓光流變化單元的分類結(jié)果回歸到視覺傳感器采集視頻的分類結(jié)果之中。設(shè)面部序列單元M有l(wèi)個(gè)光流特征單元,第i(0<i≤l)個(gè)光流特征單元的模型輸出標(biāo)簽記為Li,可表示為M={L1,L2,L3,…,Ll}。其中任意標(biāo)簽Li屬于n類偽標(biāo)簽類別集合{P1,P2,…,Pn},表示為Li∈{P1,P2,…,Pn}。則權(quán)重分類函數(shù)的表達(dá)形式如式(5)所示:
式中:LM為權(quán)重分類函數(shù)計(jì)算出的面部序列單元M對應(yīng)的標(biāo)簽。函數(shù)MaxP 取輸入?yún)?shù)的最大值所對應(yīng)的偽標(biāo)簽。函數(shù)Count 為計(jì)數(shù)函數(shù),統(tǒng)計(jì)輸入?yún)?shù)在M={L1,L2,L3,…,Ll}出現(xiàn)的次數(shù)。
通過權(quán)重分類函數(shù),可以聚合光流特征單元的輸出標(biāo)簽到面部序列單元所對應(yīng)的標(biāo)簽上,最后得到采集視頻的分類結(jié)果。
為了評估本文提出的精神疾病識別算法框架的有效性,在H7-BDSN 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。在本節(jié)中,將介紹數(shù)據(jù)集、實(shí)驗(yàn)內(nèi)容并討論分析實(shí)驗(yàn)結(jié)果。
H7-BDSN 數(shù)據(jù)集是本文研究團(tuán)隊(duì)和某人民精神醫(yī)院合作所采集構(gòu)建的數(shù)據(jù)集。數(shù)據(jù)集在真實(shí)診室和問診流程下使用視覺傳感器進(jìn)行患者問診流程視頻和音頻的采集,同時(shí)包括了精神疾病專家對患者的評估量表[12-13]。其中包括了抑郁癥、雙相情感障礙和精神分裂癥三種精神疾病以及正常人的樣本。
采集到的抑郁癥患者病例有130 例,雙相情感障礙患者62 例,精神分裂癥患者79 例。對于采集到的數(shù)據(jù),進(jìn)行了嚴(yán)格的篩選,去除了其中視頻質(zhì)量低、視頻時(shí)間短、拍攝角度傾斜大、患者戴有口罩、非初診病例等情況的視頻。
最后保留的有效視頻,時(shí)間持續(xù)在10 min 左右,患者面部清晰可見,表情激發(fā)豐富,且有精神疾病專家的詳細(xì)診斷資料和評估量表。在H7-BDSN數(shù)據(jù)集中,除了通過視覺傳感器采集到的原始視頻數(shù)據(jù)之外,通過OpenFace 提取了面部標(biāo)志點(diǎn)的2D坐標(biāo)數(shù)據(jù)、面部標(biāo)志點(diǎn)的3D 坐標(biāo)數(shù)據(jù)、頭部姿態(tài)、面部動作單元、眼部注視數(shù)據(jù)。本文的對比算法也是在該數(shù)據(jù)上進(jìn)行。
最后,H7-BDSN 數(shù)據(jù)集的分布如表1 所示。
表1 H7-BDSN 數(shù)據(jù)集樣本分布表
在實(shí)驗(yàn)中,本文選用了ResNet-50[14]作為TSMOSNet 的骨干網(wǎng)絡(luò)。使用在ImageNet 上訓(xùn)練好的ResNet-50 權(quán)重作為骨干網(wǎng)絡(luò)的初始化參數(shù)。為了進(jìn)一步提高模型的精度,引入了DML 蒸餾方法[15]。使用DML 蒸餾方法,無需額外的教師模型,兩個(gè)結(jié)構(gòu)相同的模型可以互相進(jìn)行學(xué)習(xí),計(jì)算彼此輸出的KL 散度,完成訓(xùn)練結(jié)果。在實(shí)驗(yàn)中,便以TSMOSNet 自身為教師模型進(jìn)行蒸餾,提高了模型的性能。
針對輸入的數(shù)據(jù),本文在實(shí)驗(yàn)中通過VideoMix[16]的方法來進(jìn)行數(shù)據(jù)增強(qiáng)。對每個(gè)輸入的光流特征單元,抽取固定數(shù)量的幀,并賦予每一幀相同的權(quán)重,然后與另一個(gè)光流特征單元疊加作為新的輸入。
實(shí)驗(yàn)使用的評價(jià)指標(biāo)包括精確率(Precision)、召回率(Recall)和F1 分值。另外,在分析中會對樣本假陽和假陰的情況進(jìn)行分析。評估指標(biāo)的計(jì)算公式如式(6),式(7)和式(8)所示:
式中:TruePositive 表示算法識別結(jié)果為精神疾病患者,實(shí)際也是精神疾病患者的樣本數(shù)量,F(xiàn)alsePositive 代表的是算法識別結(jié)果為精神疾病患者,實(shí)際為非精神疾病患者的樣本數(shù)量。
在實(shí)驗(yàn)中,對置信度閾值的選擇進(jìn)行了消融實(shí)驗(yàn)。圖9 展示了置信度閾值的消融實(shí)驗(yàn)結(jié)果。消融實(shí)驗(yàn)中置信度從0.8 開始,每隔0.02 進(jìn)行一次實(shí)驗(yàn),最大值為0.98,以分類準(zhǔn)確率為指標(biāo)。從圖9 的數(shù)據(jù)趨勢中進(jìn)行分析可知,當(dāng)置信度閾值設(shè)置的比較低時(shí),提取出來的面部特征受到一定的污染,導(dǎo)致特征信息少,算法效果差。當(dāng)置信度設(shè)置的過高時(shí),可供使用的面部圖片變少,導(dǎo)致模型的準(zhǔn)確率也會下降。所以在本文算法的參數(shù)設(shè)置中,取置信度閾值為0.95。
圖9 置信度閾值的消融實(shí)驗(yàn)結(jié)果
圖10 和圖11 分別展示了面部應(yīng)激單元提取環(huán)節(jié)中去噪算法和離群值檢測算法的消融實(shí)驗(yàn)結(jié)果,比較指標(biāo)也是識別準(zhǔn)確率。從消融實(shí)驗(yàn)的結(jié)果可知,去噪算法中Savitzky-Golay 濾波取得了最好的效果,比傅里葉變換和滾動平均值分別高出了3.79%和12.07%。相比之下,Savitzky-Golay 濾波在平滑數(shù)據(jù)的同時(shí)保留數(shù)據(jù)的整體趨勢和形狀,對于處理面部噪聲更為合適。
圖10 去噪算法的消融實(shí)驗(yàn)結(jié)果
圖11 離群值檢測的消融實(shí)驗(yàn)結(jié)果
在離群值檢測算法的消融實(shí)驗(yàn)中,孤立森林算法取得了最好的效果,這得益于孤立森林算法不受數(shù)據(jù)分布的影響,普適性較高,適合于處理視頻數(shù)據(jù)中波動較大的離群值。
表2 給出了本文算法和其他算法在H7-BDSN數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。算法框架中所使用的數(shù)據(jù)維度都為視頻維度。從表2 中可知,本文算法在精確率、召回率和F1 分值上都取得了最好的結(jié)果,分別為0.89、0.80 和0.84。表2 的實(shí)驗(yàn)結(jié)果證明了本文方法擁有更好的識別效果。
表2 本文算法和其他算法的效果對比
此外,對識別結(jié)果的混淆矩陣進(jìn)行統(tǒng)計(jì)分析后發(fā)現(xiàn),本文算法對于樣本的誤判主要表現(xiàn)為假陽,假陰性樣本少。這意味著本文的算法能夠更好地檢測出患有精神疾病的樣本。這對于精神疾病患者的篩查任務(wù)而言,有著積極的意義。
表3 給出了本文算法中提出的模型TSMOSNet和常用模型的比較。除了比較各類模型的準(zhǔn)確率,還比較了模型的預(yù)處理時(shí)間和模型的推理時(shí)間,以衡量模型的開銷。此處時(shí)間的單位為ms。
表3 TSMOSNet 和其他模型效果對比
從表3 中可知,TSMOSNet 的準(zhǔn)確率指標(biāo)最高。和基礎(chǔ)模型TSM 相比,TSMOSNet 因?yàn)榧尤肓斯饬魈幚眍^,LTA 時(shí)序注意力等模塊,模型預(yù)處理時(shí)間和推理時(shí)間開銷都更大,但是準(zhǔn)確率分別提升了5%和8%。此外,TSMOSNet 和其他模型相比,在各個(gè)指標(biāo)中都具有很大的優(yōu)勢。其中,雖然VideoSwin在準(zhǔn)確率上和TSMOSNet 接近,但是VideoSwin 的預(yù)處理時(shí)間和推理時(shí)間都遠(yuǎn)高于TSMOSNet??芍?,TSMOSNet 相比于其他模型,最適用于本文的算法。
在本文的工作中,提出了一種新的基于視覺傳感器采集光流特征的精神疾病識別算法。在H7-BDSN 數(shù)據(jù)集上,本文提出的算法在精神疾病識別任務(wù)上取得了最優(yōu)的結(jié)果。其中,算法的準(zhǔn)確率為85%,F(xiàn)1 分值為0.84,優(yōu)于其他方法。此外,TSMOSNet 的規(guī)模規(guī)模小,推理速度是VideoSwin 的10 倍、SlowFast 的3 倍和TSN 的16 倍,能夠和視覺傳感器進(jìn)行整合,利用視覺傳感器成本低、非侵入性、客觀性高等優(yōu)勢,開發(fā)出精神疾病預(yù)警系統(tǒng)。
在未來的工作中,會嘗試引入更多的傳感器,例如使用毫米波雷達(dá)來監(jiān)測體征數(shù)據(jù),音頻傳感器提取聲波情緒特征,進(jìn)行共同建模分析。