姬廣軍,王寧,魏棟帥,彭尚飛,位彥鴿,張錫哲,王菲,侯鋼,劉榮勛
抑郁癥是一類以心境低落、快感缺失、精力疲乏、精神運動遲滯為主要臨床特征的精神疾病,終生患病率約為16%,在所有精神疾病中自殺風險最高[1],減低患病率和自殺率的關(guān)鍵在于提高抑郁癥的早期識別率并作出精確臨床診斷。但目前抑郁癥的診斷主要依據(jù)臨床癥狀,診斷與篩查方法單一,缺乏客觀指標進行有效識別。隨著生物特征識別技術(shù)的不斷發(fā)展,語音作為一個相對客觀、可量化的指標在抑郁癥的識別方面具有潛在的價值[2]。語音是人的身體狀態(tài)和心理的綜合反應,語音特征與說話人的情緒密切相關(guān)。由于語音具有容易采集和成本低的特點,采用語音特征作為客觀指標對抑郁癥進行輔助識別成為近些年來研究的熱點。然而,語音信息中包含頻譜、節(jié)奏和頻率等多種元素,屬于一種高維數(shù)據(jù),如果直接對語音信息進行特征提取分析將會非常復雜,使得語音的識別性能下降。因此,采用以機器學習和深度學習為代表的人工智能技術(shù),結(jié)合臨床量表信息和語音特征進行抑郁癥的輔助識別,成為解決問題的關(guān)鍵途徑。
臨床研究發(fā)現(xiàn),抑郁癥患者常表現(xiàn)為聲音低沉、語速緩慢、音調(diào)低、停頓時間長。和正常人群相比,抑郁癥患者的語音聲學特征存在一些顯著改變,這些語音特征大致分為:韻律特征、共振峰特征、頻譜特征和聲源特征。
1.1 抑郁癥患者的韻律特征 韻律特征是指說話人的音量、音高及語速,對應的是發(fā)生的音位在壓力、語調(diào)和節(jié)奏方面的變化?;l和能量參數(shù)是研究中最常用的韻律特征。研究發(fā)現(xiàn),抑郁癥早期患者的韻律特征會出現(xiàn)異常,表現(xiàn)為音量減小、音高范圍減小、語速減慢、語調(diào)降低[3]。聽音人能夠感知到抑郁癥患者在臨床治療前后音量、音調(diào)、語速及發(fā)音的變化[2]?;l是聲帶振動頻率的參數(shù),可以反映說話人聲帶發(fā)聲的物理狀態(tài),也能反映其情緒狀態(tài)的發(fā)生變化[4]。抑郁癥患者基頻的變化受自身情緒狀態(tài)的影響,早期患者基頻范圍縮小以及均值降低與癥狀嚴重程度相關(guān)[5]。抑郁癥患者精神運動遲滯會引發(fā)患者肌肉張力的細微擾動,引起基頻變化[6]。音量是語音的能量參數(shù),其高低變化與癥狀嚴重程度相關(guān),在抑郁癥早期,音量可以反映說話人的運動協(xié)調(diào)能力。抑郁癥患者經(jīng)過臨床治療前后音量會顯著變化,而且患者的病情緩解程度與其音量有關(guān)。
1.2 抑郁癥患者的共振峰特征 共振峰是指聲音在經(jīng)過聲道時產(chǎn)生共振的頻率,一般可以提取4~5個共振峰,最常用的是前3個共振峰參數(shù)。共振峰會隨著聲道的狀態(tài)而變化,因此共振峰可以作為判斷個體情緒狀態(tài)的一個重要語音特征。抑郁癥患者表現(xiàn)為在第一共振峰的顯著上升以及第二共振峰的下降,主要在元音上,如在第二共振峰英文ai的發(fā)音上和健康人群存在顯著差異,同時,這種共振峰的異常與癥狀的嚴重程度相關(guān)[7]。有研究發(fā)現(xiàn)抑郁癥患者在第一、二、三共振峰的組合特征上存在組間差異[8]。與之相反,Mundt等[5]發(fā)現(xiàn),第一共振峰的改變與抑郁癥無關(guān)。目前抑郁癥共振峰的研究結(jié)果不相一致,可能原因在于語音產(chǎn)生過程以及語音和共振峰關(guān)系復雜;另外,可能與語音特征采集的設(shè)備、流程和標準不一致有關(guān)。
1.3 抑郁癥患者的頻譜特征 頻譜特征體現(xiàn)了發(fā)生運動和聲道形狀變化的相關(guān)性,包含了豐富的聲道變化信息,與其他語音特征相比,頻譜特征更能反映人在說話時的情緒狀態(tài)。常用的頻譜特征參數(shù)包括梅爾倒譜系數(shù)和功率譜密度,其中梅爾倒譜系數(shù)使用一組從低頻到高頻、由密到疏交疊排列的三角形帶通濾波器構(gòu)建特征,這種特征對輸入信號未做任何限制,充分結(jié)合了人耳的聽覺感知特征與語音的形成機制,很好地模擬了人耳聽覺系統(tǒng),因此梅爾倒譜系數(shù)常用于抑郁癥語音識別研究中[9]。
1.4 抑郁癥患者的聲源特征 聲源特征主要用于評估聲音是否清晰,具有一定的辨識度。與抑郁癥有關(guān)的聲源特征中常用的參數(shù)是振幅微擾和頻率微擾,它們共同反映聲帶振動的穩(wěn)定性,與抑郁癥患者精神運動遲滯相關(guān),運動遲滯降低了喉部肌肉的張力,使聲門更加開放,振幅微擾隨之增加。抑郁癥患者的振幅微擾和頻率微擾與抑郁癥狀的嚴重程度有關(guān)[6]。相對其他語音特征,聲源特征的研究相對較少。
隨著人工智能技術(shù)發(fā)展,研究重點逐漸從語音特征與抑郁的相關(guān)性到模式識別。以機器學習和深度學習為代表的人工智能技術(shù)可以準確地對海量高維的語音數(shù)據(jù)進行處理分析建模,客觀量化抑郁癥語音特征異常的程度,從而有效輔助抑郁癥的早期診斷。
2.1 機器學習 機器學習的核心是模式識別方法,目前對語音特征進行分類識別的過程包括:對原始語音信號進行預處理,構(gòu)建語音數(shù)據(jù)庫;然后進行抑郁癥組間的差異分析和相關(guān)分析,篩選出差異有統(tǒng)計學意義的語音特征作為分類特征;利用降維技術(shù)對向分類器輸入的數(shù)據(jù)進行特征選擇與特征提?。粡亩鴺?gòu)建分類系統(tǒng)并進行模型評估。機器學習常見的分類方法包括K-最鄰近分類器、支持向量機、高斯混合模型、決策樹[10]。K-最鄰近分類器主要是基于某種距離度量,在分類任務(wù)中使用投票法,選擇K個樣本中出現(xiàn)最多的類別標記作為分類結(jié)果。K-最鄰近分類器適用于多分類問題,其方法簡單易于實現(xiàn),但分類任務(wù)執(zhí)行速度比較慢。支持向量機利用帶類標簽的訓練數(shù)據(jù)構(gòu)造函數(shù)模型,通過搜索最大邊緣超平面來搭建學習器[10]。在語音特征處理研究中,常用高斯徑向基核函數(shù)支持向量機,通過核方法來發(fā)現(xiàn)輸入空間中的非線性決策邊界,對于抑郁癥語音識別具有較好的分類結(jié)果。支持向量機降低了對數(shù)據(jù)的維度以及訓練過程的敏感性,具有一定的泛化能力。但在數(shù)據(jù)維度較大時,執(zhí)行速度比較慢。高斯混合模型是一類有監(jiān)督的學習算法,具有計算精度較高、計算復雜度較低和穩(wěn)定性較好的優(yōu)勢。總之,機器學習方法的優(yōu)點在于可以在不需要大樣本的情況下進行模型訓練,同時可能會丟失一些關(guān)鍵特征,難以判斷特征的質(zhì)量。
2.2 深度學習 深度學習是一種基于特定的網(wǎng)絡(luò)結(jié)構(gòu)以及訓練方法對數(shù)據(jù)進行表征學習的算法,它可以模仿人體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的架構(gòu)層次,使用多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進行高層抽象,使得模型能夠揭示數(shù)據(jù)的內(nèi)在規(guī)律和表示層次[11]。常用的分類方法包括卷積神經(jīng)網(wǎng)絡(luò)、生成式對抗網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、遞歸網(wǎng)絡(luò)等[10]。卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層、全連接層以及輸出層等組成[11],旨在建立一個輸入變量與輸出變量相對應的模型映射,在建立模型的過程中通過卷積池化過程學習到這種映射的能力并使模型不斷完善,深度學習算法可以使得卷積層對輸入的語音特征進行卷積的基礎(chǔ)之上完成特征信息的分級表達,使模式識別更加精確。深度學習神經(jīng)網(wǎng)絡(luò)模型是根據(jù)系統(tǒng)所提供的原始數(shù)據(jù),通過訓練和學習的方式,表達語音輸入和輸出之間的內(nèi)在聯(lián)系,語音識別可以借助深度學習神經(jīng)網(wǎng)絡(luò)和數(shù)理統(tǒng)計方法,基于人腦的活動基理和組織架構(gòu),建立對語音信號處理的生物神經(jīng)網(wǎng)絡(luò)模型。這種以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的語音識別系統(tǒng)可以模仿神經(jīng)元的活動機制,通過不同的機制采用多種算法對語音特征進行提取[12]。深度學習具有強大的特征學習能力,只需要一組經(jīng)過預處理的語音數(shù)據(jù)就能夠進行自主特征學習;而且特征提取、選擇、分類可以在同一個最優(yōu)化的深層結(jié)構(gòu)中實現(xiàn),提高了分類結(jié)果的準確率。
近些年來,隨著語音建模方法的不斷更新,研究的重點問題由 “音隨抑郁嚴重程度的變化規(guī)律”演變?yōu)椤盎谡Z音特征的抑郁癥識別”。越來越多的研究利用機器學習或深度學習的方法對抑郁癥患者的語音特征進行研究,探討語音這一客觀生理指標在抑郁癥輔助識別中的可行性。
3.1 國外研究進展 國外研究發(fā)現(xiàn),語音特征可以有效識別抑郁癥。在橫斷面研究中,抑郁癥患者共振峰和功率譜密度是分類模型中的有效特征[13]?;诠舱穹逄卣鲄?shù), 采用支持向量機和高斯混合模型構(gòu)建的抑郁癥分類器,準確率分別為73%和70%。也有研究以基頻和基頻微擾作為輸入特征,采用多元最大似然值方法,選取 30 例抑郁癥患者和 30 名健康對照建立語音識別模型,其模型準確率高達90%[14]。Shin等[15]通過對抑郁癥患者按病情程度(高、中、低)進行分類,通過半結(jié)構(gòu)式訪談獲取其語音數(shù)據(jù),并提取其中21個語音特征,發(fā)現(xiàn)抑郁癥患者語音特征與正常人之間存在明顯差異;利用多層感知器方法對抑郁癥患者語音數(shù)據(jù)進行分析發(fā)現(xiàn),通過語音特征來檢測輕度抑郁癥患者效果較好。在不同性別的抑郁癥患者研究中,Lee等[16]使用增強學習法對所收集的語音進行分析,發(fā)現(xiàn)男性患者語音特征中的能量特征對于抑郁癥的辨別能力較好,而女性患者中與韻律相關(guān)的語音特征辨別能力較強。由于語音特征的多樣性,使用單一類別的語音特征無法捕捉具有一定辨識度的信息來輔助臨床進行抑郁癥識別。Cummins等[4]使用梅爾倒譜系數(shù)和共振峰,構(gòu)造高斯混合模型,分類準確率為77%和74%,將兩類語音特征進行融合后分類準確率高達79%。在縱向的研究中,Ooi等[17]對青少年進行隨訪,基于4種語音特征建立多通道音頻信號分類器,一共識別出15例抑郁癥患者,并通過兩年隨訪進行驗證,其分類模型準確率為73%。
3.2 國內(nèi)研究進展 國內(nèi)學者針對抑郁癥患者的語音發(fā)聲特點,采用改進性譜減算法進行語音增強,發(fā)現(xiàn)基頻、前三共振峰、能量可以作為識別抑郁癥的有效特征[18]。潘瑋等[19]收集45例抑郁癥患者和58名健康對照的語音數(shù)據(jù),采用分類算法邏輯回歸構(gòu)建抑郁癥識別模型,其預測準確率為82.9%,召回率為73.9%。譚彪等[20]基于支持向量機-遞歸特征消除算法對語音特征進行評級排序,然后將前N維評級特征通過多層感知器進行分類識別,該模型具有較高的抑郁識別率。蘭州大學團隊基于樣本概率的集成剪枝算法建立抑郁癥識別模型,通過結(jié)合多語段數(shù)據(jù)融合的分析方法構(gòu)建結(jié)合多個學習器,提高了語音識別的準確性。針對不同性別的語音研究中,王田陽等[21]選取132例,使用高斯混合模型在多個特征集上建立多特征集決策系統(tǒng),通過模型訓練發(fā)現(xiàn)男性和女性數(shù)據(jù)的分類準確率分別為70%和75%。李金鳴等[22]基于一種新的網(wǎng)絡(luò)模型框架,利用上下文情感信息的多尺度音頻差分歸一化特征構(gòu)建了抑郁回歸預測網(wǎng)絡(luò),結(jié)果發(fā)現(xiàn)語音特征的變化與貝克抑郁量表分數(shù)顯著相關(guān),提高了模型預測貝克抑郁量表分數(shù)的準確度。
綜上,隨著研究領(lǐng)域不斷擴大,數(shù)據(jù)量以及方法不斷增多,研究一致性地發(fā)現(xiàn)了語音特征和抑郁癥狀的嚴重程度相關(guān);語音特征可以作為區(qū)分抑郁癥患者和健康人群的客觀生物學指標;選取具有抑郁癥代表性的語音特征和不同的分類方法,能夠提高抑郁癥的識別準確率。不一致的地方在于:不同的研究中心發(fā)現(xiàn)的有效語音特征不同;通過不同方式收集到的抑郁癥患者語音信息,其預測結(jié)果的準確性存在差異;基于不同的語音特征,采用不同的機器學習或深度學習方法對于抑郁癥識別具有不同的效果。語音特征能否作為客觀有效的生理指標用于抑郁癥的輔助識別有待于進一步研究證實。
4.1 抑郁癥語音數(shù)據(jù)集的適用性 抑郁癥語音數(shù)據(jù)庫的質(zhì)量決定了由它訓練得到的分類模型的準確率。目前語音識別技術(shù)可以用到的語音公開數(shù)據(jù)庫較少,國內(nèi)現(xiàn)階段還沒有已經(jīng)公開的、統(tǒng)一的、具有代表性的抑郁癥患者漢語語音數(shù)據(jù)庫。
4.2 語音特征選取的有效性 不同個體在聲音的音量、音調(diào)、語速等方面具有各自不同的特征,不同語音數(shù)據(jù)集上最為有效的可以區(qū)分是否抑郁的語音特征也有所不同。在建立分類模型前,關(guān)鍵在于能夠選取有顯著差異的有效語音特征,然而現(xiàn)有研究尚未一致性地找到這一語音特征應用于臨床。
4.3 抑郁癥識別結(jié)果的準確性 目前語音數(shù)據(jù)采集的方法不統(tǒng)一,如麥克風特性及安置、語音種類、言語方式以及評估的類別等都會影響結(jié)果的一致性。
抑郁癥是一類復雜精神疾病,從語音特征中提取與患者情緒狀態(tài)相關(guān)的信息,判斷說話人是否患有抑郁癥以及癥狀的嚴重程度,是近些年來醫(yī)工交叉學科研究的熱點;然而單一的語音信息不足以反映疾病的全部特征。在今后研究中,采用統(tǒng)一標準化的語音數(shù)據(jù)采集過程,結(jié)合語義特征、面部表情特征、腦影像特征以及可穿戴設(shè)備采集到的生理指標,對多元化數(shù)據(jù)引入和挖掘,將有利于提高人工智能模型識別抑郁癥的準確率,最終為抑郁癥的輔助識別提供客觀指標和依據(jù)。