季 薇 王傳瑜 李 云 鄭慧芬
(1.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇南京 210003;2.南京郵電大學(xué)計(jì)算機(jī)學(xué)院,江蘇南京 210023;3.南京醫(yī)科大學(xué)附屬老年醫(yī)院,江蘇南京 210024)
帕金森?。≒arkinson’s Disease,PD)是一種中腦黑質(zhì)多巴胺能神經(jīng)元變性死亡引發(fā)的慢性進(jìn)展性疾病[1]。由于大腦中多巴胺能神經(jīng)元的進(jìn)行性損失,帕金森病患者將無(wú)法穩(wěn)定控制發(fā)聲器官,常伴有無(wú)法穩(wěn)定發(fā)音,口腔、聲帶、喉嚨等發(fā)聲器官的靈活協(xié)調(diào)能力下降等癥狀[2]。為分析受試者的言語(yǔ)能力,領(lǐng)域內(nèi)的專(zhuān)家基于上述生理現(xiàn)象設(shè)計(jì)了包括持續(xù)元音發(fā)音(如/a/、/i/、/u/等)、重復(fù)音節(jié)(/pakala/)、情景對(duì)話等在內(nèi)的多類(lèi)型語(yǔ)料[3-4]。其中,持續(xù)元音發(fā)音涉及到聲帶和聲道中各種肌肉的組合,能夠很好地評(píng)估受試者的發(fā)音能力[5-6];重復(fù)音節(jié)發(fā)音,能夠很好地分析受試者移動(dòng)齒齦、下頜和舌頭等發(fā)音器官的協(xié)調(diào)能力[7-8];情景對(duì)話朗讀能夠判斷受試者能否正確的發(fā)出語(yǔ)料所暗含的語(yǔ)氣與語(yǔ)調(diào)[9-10]。受試者在醫(yī)學(xué)專(zhuān)家的指導(dǎo)下,根據(jù)不同類(lèi)型的語(yǔ)料進(jìn)行發(fā)音,生成用于受試者言語(yǔ)能力分析的原始語(yǔ)音數(shù)據(jù)。
近年來(lái),基于帕金森病患者的言語(yǔ)能力分析開(kāi)展帕金森病檢測(cè)成為一種有效的輔助診療手段。文獻(xiàn)[11-13]基于持續(xù)元音語(yǔ)音數(shù)據(jù)提取了頻率微擾、振幅微擾、諧波噪聲比等發(fā)音類(lèi)特征,并利用帕金森病患者和健康人在這些聲學(xué)特征上存在的差異,結(jié)合傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)模型(隨機(jī)森林(Random forest,RF)、支持向量機(jī)(Support vector machine,SVM)等)實(shí)現(xiàn)了帕金森病的檢測(cè),準(zhǔn)確率最高可達(dá)89%。文獻(xiàn)[14-15]基于重復(fù)音節(jié)語(yǔ)音數(shù)據(jù)提取了梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)、巴克帶能量等發(fā)聲類(lèi)特征,結(jié)合機(jī)器學(xué)習(xí)分類(lèi)模型(SVM、卷積神經(jīng)網(wǎng)絡(luò)等)進(jìn)行帕金森病的檢測(cè),準(zhǔn)確率最高可達(dá)90%。文獻(xiàn)[16]基于情景對(duì)話提取了與韻律相關(guān)的特征,結(jié)合機(jī)器學(xué)習(xí)模型(K近鄰、SVM等),實(shí)現(xiàn)了帕金森病的檢測(cè),準(zhǔn)確率最高可達(dá)85%。然而,單類(lèi)型語(yǔ)料數(shù)據(jù)無(wú)法全面地表征受試者的構(gòu)音能力,且易受噪聲、采集環(huán)境等因素的影響導(dǎo)致語(yǔ)音質(zhì)量下降。為實(shí)現(xiàn)多角度分析受試者構(gòu)音能力,去除非病理性因素的影響,有學(xué)者嘗試探索基于多類(lèi)型語(yǔ)料獲得的多源語(yǔ)音數(shù)據(jù)。如Bocklet等人[17]將多個(gè)單源語(yǔ)音數(shù)據(jù)中提取的特征進(jìn)行簡(jiǎn)單的拼接實(shí)現(xiàn)融合,再送入分類(lèi)模型進(jìn)行帕金森病的分類(lèi)檢測(cè)。實(shí)驗(yàn)結(jié)果顯示,結(jié)合多源語(yǔ)音數(shù)據(jù)的檢測(cè)性能反而不如單源語(yǔ)音數(shù)據(jù)與分類(lèi)模型相結(jié)合的情況。其原因在于文獻(xiàn)[17]所述的多源信息融合方式不足以充分利用多源語(yǔ)音數(shù)據(jù)帶來(lái)的信息優(yōu)勢(shì),反而造成了無(wú)關(guān)信息的累積,強(qiáng)化了無(wú)關(guān)信息對(duì)模型的影響,從而造成性能的下降。
由于多源語(yǔ)音數(shù)據(jù)來(lái)源不一致(朗讀的語(yǔ)料不同),且每種語(yǔ)音的發(fā)聲機(jī)理不一致,反映的言語(yǔ)能力不同,可將它們作為多模態(tài)數(shù)據(jù)來(lái)看待[18]。因此可借助多模態(tài)信息融合技術(shù),解決上述信息融合問(wèn)題。當(dāng)前多模態(tài)信息融合技術(shù)根據(jù)融合的時(shí)機(jī)可大致分為早期融合、后期融合、混合融合[18]。早期融合的方式,通常為每個(gè)模態(tài)設(shè)計(jì)預(yù)處理網(wǎng)絡(luò)提取單模態(tài)的高級(jí)特征,然后通過(guò)加權(quán)求和、直接拼接等操作實(shí)現(xiàn)多模態(tài)數(shù)據(jù)在特征層融合。文獻(xiàn)[19]提出一種基于自編碼器改進(jìn)的多模自編碼器,通過(guò)多個(gè)子網(wǎng)絡(luò)完成單模態(tài)信息提取,然后在特征層拼接作為多模態(tài)融合信息。文獻(xiàn)[20]提出一種基于多核學(xué)習(xí)的信息融合方式,通過(guò)將多模態(tài)數(shù)據(jù)經(jīng)過(guò)不同的核處理,再進(jìn)行核函數(shù)的加權(quán)組合實(shí)現(xiàn)信息融合。后期融合也稱(chēng)決策層融合,其通過(guò)多個(gè)獨(dú)立的推斷模型處理不同的單模態(tài)數(shù)據(jù),然后整合推斷結(jié)果實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融合。文獻(xiàn)[21]使用了一層神經(jīng)網(wǎng)絡(luò)對(duì)來(lái)自不同模態(tài)的輸出進(jìn)行整合,輸出最終的決策結(jié)果。前述兩種融合方式均存在多模態(tài)信息交互不足的情況,因此研究人員提出了混合融合方式,旨在通過(guò)在多層級(jí)(特征層、決策層)的模態(tài)交互,充分實(shí)現(xiàn)信息的融合。例如許多基于多頭自注意力機(jī)制的多模態(tài)融合模型,在圖文結(jié)合[22]、情感語(yǔ)義識(shí)別[23]、機(jī)器翻譯[24]等領(lǐng)域表現(xiàn)出了優(yōu)異的性能,成為多模態(tài)信息融合領(lǐng)域內(nèi)的一個(gè)主流方向。然而,這些基于多頭自注意力機(jī)制技術(shù)的模型都聚焦于多模態(tài)數(shù)據(jù)間共有信息的學(xué)習(xí),對(duì)單模態(tài)特有信息的學(xué)習(xí)缺少關(guān)注。
本文關(guān)注的基于語(yǔ)音的帕金森病檢測(cè)這一特定任務(wù)有如下特點(diǎn):一方面,帕金森病患者的語(yǔ)音數(shù)據(jù)不易采集,數(shù)據(jù)集規(guī)模相對(duì)較?。?5];另一方面,基于語(yǔ)音數(shù)據(jù)提取的聲學(xué)特征維數(shù)較高并且存在信息冗余問(wèn)題。這些特點(diǎn)導(dǎo)致已有的多模態(tài)信息融合模型在面對(duì)高維小樣本數(shù)據(jù)時(shí)易出現(xiàn)過(guò)擬合現(xiàn)象,且大量冗余特征的存在會(huì)給模型帶來(lái)更多的無(wú)效信息,干擾模型的決策,增加計(jì)算開(kāi)支[26-27]。此外,前述的多模態(tài)融合模型,缺乏對(duì)單模態(tài)特有信息的關(guān)注。因此,前述各種的多模態(tài)信息融合模型無(wú)法直接應(yīng)用于多源語(yǔ)音數(shù)據(jù)的帕金森病檢測(cè)。
基于此,本文提出一種多源語(yǔ)音信息融合模型(Multisource Data Fusion Autoencoder,MSFAE),旨在對(duì)多源語(yǔ)音數(shù)據(jù)攜帶的病理信息進(jìn)行全面整合,過(guò)濾由多個(gè)數(shù)據(jù)源融合帶來(lái)的無(wú)效信息,實(shí)現(xiàn)病理信息的準(zhǔn)確表達(dá)。考慮到基于情景對(duì)話語(yǔ)料的帕金森病語(yǔ)音數(shù)據(jù),容易受到受試者的文化水平、地域性口音等無(wú)關(guān)因素的影響,而引入更多的無(wú)效信息,增強(qiáng)過(guò)擬合風(fēng)險(xiǎn)。所以,本文在選擇多源語(yǔ)音數(shù)據(jù)時(shí),著重考慮持續(xù)元音發(fā)音(/a/)以及重復(fù)音節(jié)(/pakala/)這兩種語(yǔ)音數(shù)據(jù)。該模型包含如下幾個(gè)模塊:(1)編碼器模塊。該模塊由多個(gè)并行支路(即3 個(gè)子編碼器)組成,其中兩條支路分別提取兩個(gè)單源語(yǔ)音數(shù)據(jù)的特有信息(對(duì)應(yīng)于特有信息表征學(xué)習(xí)子模塊);一條支路作為多源信息融合子模塊實(shí)現(xiàn)多源數(shù)據(jù)共有信息的提取。(2)解碼器模塊。解碼器模塊幫助編碼器模塊實(shí)現(xiàn)信息壓縮去冗余;(3)分類(lèi)器模塊。分類(lèi)器模塊根據(jù)編碼器輸出完成帕金森病檢測(cè),并輔助編碼器模塊學(xué)習(xí)緊湊的病理信息表示。本文在自采數(shù)據(jù)集上進(jìn)行了多個(gè)對(duì)比實(shí)驗(yàn)進(jìn)行方法有效性驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,所提模型在帕金森病檢測(cè)的準(zhǔn)確率、敏感度和F1分?jǐn)?shù)等各項(xiàng)性能指標(biāo)上相較于基于單源語(yǔ)音數(shù)據(jù)的模型分別提高了6%、3%、6%。同時(shí)所提模型相較于其他信息融合模型在準(zhǔn)確率指標(biāo)上提高了2.8%以上。
本文所提方法的主要貢獻(xiàn)在于:(1)利用了多源語(yǔ)音數(shù)據(jù)帶來(lái)的信息優(yōu)勢(shì);(2)引入基于自注意力機(jī)制的Transformer 編碼塊用于多源語(yǔ)音數(shù)據(jù)的共有信息提取,并與兩個(gè)單源語(yǔ)音數(shù)據(jù)表征學(xué)習(xí)塊一起共同完成多源語(yǔ)音數(shù)據(jù)的表征學(xué)習(xí);(3)采用多步信息融合方式,實(shí)現(xiàn)多源數(shù)據(jù)更細(xì)粒度的特征交互;(4)聯(lián)合訓(xùn)練病理表征學(xué)習(xí)模塊(包含編碼器模塊和解碼器模塊)和病情檢測(cè)模塊,實(shí)現(xiàn)端到端的信息融合與決策。
自注意力機(jī)制(Self attention,SA)可用于對(duì)序列數(shù)據(jù)的建模[28],將每個(gè)實(shí)例的原始輸入特征表示為一串特征向量序列x=[x1,x2,…,xl,…,xL],其中xl∈Rd,d為每個(gè)特征向量的維度,L為序列長(zhǎng)度。將特征向量xl分別與3個(gè)隨機(jī)初始化的投影矩陣相乘,得到對(duì)應(yīng)的queryl、keyl、valuel向量。根據(jù)不同xl間queryl和keyl向量的相關(guān)性,得到權(quán)重系數(shù)bl,r,根據(jù)權(quán)重系數(shù)更新每個(gè)特征向量:
最終,獲得的每個(gè)特征向量都是與其他特征向量信息交互后的融合信息。因此,采用自注意力機(jī)制能夠更加充分地學(xué)習(xí)特征向量間的交互。
多模態(tài)數(shù)據(jù)是對(duì)同一對(duì)象的多角度描述,每個(gè)模態(tài)間可能存在互補(bǔ)關(guān)系。多模態(tài)信息融合技術(shù)旨在通過(guò)對(duì)來(lái)自多個(gè)模態(tài)的信息進(jìn)行關(guān)聯(lián)整合,獲取目標(biāo)對(duì)象更完備的特征表示。
隨著多模態(tài)信息融合技術(shù)的快速發(fā)展,基于多種模態(tài)的融合方式早已變得靈活多變,涌現(xiàn)出許多簡(jiǎn)單高效的融合模型。具有代表性的工作有:基于多模變分自編碼器的多模態(tài)融合模型(multimodal variant auto-encoder,MVAE)[29]使用多子網(wǎng)絡(luò)學(xué)習(xí)單模態(tài)特征,并基于變分思想學(xué)習(xí)多模態(tài)特征的潛在分布,實(shí)現(xiàn)對(duì)圖片和文本數(shù)據(jù)的多模態(tài)完備信息提??;基于Transformer 模型提出的多模態(tài)融合模型ViLT(vision and language transformer)[22]借助多頭注意力機(jī)制實(shí)現(xiàn)視覺(jué)特征和文本特征的信息交互,完成了多模態(tài)信息深度交互融合;基于張量外積的信息融合方式[30]通過(guò)多模態(tài)數(shù)據(jù)的張量外積,實(shí)現(xiàn)情感語(yǔ)義識(shí)別領(lǐng)域信息的交互融合;生成式模型CPM-NET(Cross partial multi-view networks)[31]通過(guò)在假設(shè)空間隨機(jī)搜索的方式,尋找匹配多模態(tài)數(shù)據(jù)的完備表征,從模態(tài)生成的角度為多模態(tài)信息融合提供了新的思路。
本文針對(duì)帕金森病檢測(cè)任務(wù)和帕金森病患者的多源語(yǔ)音數(shù)據(jù),提出了一種多源語(yǔ)音信息融合模型(MSFAE)。該模型包含編碼器、解碼器以及帕金森病檢測(cè)3 個(gè)模塊,整體框架如圖1 所示。其中,編碼器模塊由多個(gè)并行支路組成,一條支路通過(guò)引入自注意力機(jī)制的Transformer 編碼塊[28]實(shí)現(xiàn)多源語(yǔ)音數(shù)據(jù)共有信息的提取,還有兩條支路通過(guò)多層前饋神經(jīng)網(wǎng)絡(luò)提取單源語(yǔ)音數(shù)據(jù)的特有信息,多條支路共同完成對(duì)來(lái)自多個(gè)語(yǔ)音數(shù)據(jù)源中所含病理信息的全面提取。編碼器多條支路的輸出將以3種不同方式進(jìn)行特征拼接,以獲得3個(gè)不同的隱層表征。其中,2個(gè)隱層表征將作為多支路解碼器的輸入,負(fù)責(zé)完成多個(gè)單源數(shù)據(jù)的重構(gòu);另外1 個(gè)隱層表征則將作為分類(lèi)器模塊的輸入實(shí)現(xiàn)高效的帕金森病檢測(cè)。后續(xù)各小節(jié)將詳細(xì)描述各模塊功能。
圖1 系統(tǒng)框圖Fig.1 The system block diagram
3.2.1 聲學(xué)特征提取
針對(duì)每一個(gè)受試者,我們分別采集了持續(xù)元音的語(yǔ)音樣本和重復(fù)音節(jié)的語(yǔ)音樣本。其中,持續(xù)元音數(shù)據(jù)提取了如頻率微擾、振幅微擾、諧波噪聲比等發(fā)音類(lèi)特征[11-14];重復(fù)音節(jié)數(shù)據(jù)提取了梅爾倒譜系數(shù)、巴克帶能量等發(fā)聲類(lèi)特征[13-15]。
3.2.2 特征分組
文獻(xiàn)[32-33]發(fā)現(xiàn),從單源語(yǔ)音數(shù)據(jù)中提取的聲學(xué)特征往往存在較大的特征冗余。為了更細(xì)粒度地分析數(shù)據(jù)的特征,我們?cè)谔卣鲗用鎸?duì)提取的特征進(jìn)行了相關(guān)性分析,使用均分K-means 方法[34]對(duì)從單源語(yǔ)音數(shù)據(jù)中提取的特征集進(jìn)行了相關(guān)聚類(lèi)分析,并依據(jù)組內(nèi)特征的相關(guān)性盡可能大、組間特征的相關(guān)性相對(duì)較弱的原則對(duì)特征進(jìn)行分組,且每個(gè)組的特征數(shù)一致。
分組后,第i個(gè)受試者的第m個(gè)單源語(yǔ)音樣本上提取的特征表示為:
其中,d代表每個(gè)子組的特征維數(shù),p代表特征的分組標(biāo)識(shí)。m=1時(shí),xi,m是持續(xù)元音特有信息表征學(xué)習(xí)模塊的輸入,對(duì)應(yīng)圖1 中的Feat_vowel;m=2 時(shí),xi,m是重復(fù)音節(jié)特有信息表征學(xué)習(xí)模塊的輸入,對(duì)應(yīng)圖1中的Feat_pakala。
如圖1 所示,本文所提的MSFAE 模型的編碼器模塊由3 個(gè)并行支路(即編碼器-1、編碼器-2、編碼器-3)組成,其中兩條支路分別提取兩個(gè)單源語(yǔ)音數(shù)據(jù)的特有信息;一條支路作為多源信息融合子模塊實(shí)現(xiàn)多源數(shù)據(jù)共有信息的提取。
3.3.1 單源語(yǔ)音特有信息表征學(xué)習(xí)子模塊
兩個(gè)單源語(yǔ)音特有信息表征學(xué)習(xí)子模塊是兩個(gè)并行的分支,一個(gè)用于處理從持續(xù)元音中獲取的聲學(xué)特征Feat_vowel,一個(gè)用于處理重復(fù)音節(jié)中獲取的聲學(xué)特征Feat_pakala。
單源語(yǔ)音的特有信息表征學(xué)習(xí)子模塊Encspc_vowel和Encspc_pakala的主要功能在于:從高維的低階語(yǔ)義特征中學(xué)習(xí)具備高級(jí)語(yǔ)義表達(dá)的單源語(yǔ)音特有病理表征。由于Feat_vowel 和Feat_pakala 對(duì)應(yīng)的聲學(xué)特征中已經(jīng)包含了許多豐富的臨床病理信息,單源語(yǔ)音特有信息表征學(xué)習(xí)模塊不需要太過(guò)于復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)即可學(xué)得有意義的單源語(yǔ)音特有病理信息。這里,單源語(yǔ)音的特有信息表征學(xué)習(xí)子模塊設(shè)計(jì)成一個(gè)具有3個(gè)隱藏層的深度神經(jīng)網(wǎng)絡(luò)。每層神經(jīng)網(wǎng)絡(luò)由55 個(gè)神經(jīng)元組成,激活函數(shù)為ReLu;針對(duì)兩種不同的單源語(yǔ)音數(shù)據(jù)中提取的特征,可學(xué)習(xí)的權(quán)重參數(shù)分別為Wvowel和Wpakala。此外,為方便模型后續(xù)的優(yōu)化處理,加速網(wǎng)絡(luò)學(xué)習(xí),網(wǎng)絡(luò)的輸入端還增加一個(gè)批歸一化操作,對(duì)輸入數(shù)據(jù)作歸一化處理。
該模塊的輸出Vvowel、Vpakala表示為:
3.3.2 多源語(yǔ)音數(shù)據(jù)共有信息融合子模塊
從多源語(yǔ)音數(shù)據(jù)提取的聲學(xué)特征,存在較大的冗余性,且所提特征可能不是處于同一語(yǔ)義層級(jí)。如果采用文獻(xiàn)[17]中的簡(jiǎn)單拼接方式,將會(huì)引入大量的無(wú)效信息,進(jìn)而影響模型的性能。為避免上述問(wèn)題,本文采用多步融合的方式,實(shí)現(xiàn)多源數(shù)據(jù)的冗余信息剔除和跨數(shù)據(jù)源的特征交互融合,具體實(shí)現(xiàn)如圖2所示。
圖2 共有信息融合模塊框圖Fig.2 Block diagram of common information fusion module
在多步融合前,為匹配共有信息提取支路的輸入形式,對(duì)公式(2)所述的xi,m進(jìn)行重新表示:
借助Transformer 編碼塊中蘊(yùn)含的自注意力機(jī)制,模型將會(huì)學(xué)習(xí)到各個(gè)特征子組間的融合交互信息,完成跨特征子組的信息融合,同時(shí)將分類(lèi)信息匯集在上。
Transformer 編碼器模塊[28]由多頭自注意力機(jī)制模塊(Multihead self-attention,MSA)和前饋神經(jīng)網(wǎng)絡(luò)模塊(Feedforward neural network,F(xiàn)NN)交替組成。為了加速網(wǎng)絡(luò)的訓(xùn)練,還在每個(gè)塊的輸入前引入層歸一化(LayerNorm,LN)進(jìn)行數(shù)據(jù)的歸一化處理,在每個(gè)塊的輸出后進(jìn)行殘差連接操作。
信息融合實(shí)現(xiàn)的方式是:
其中,e0代表多頭注意力機(jī)制的初始輸入代表經(jīng)過(guò)j次多頭注意力機(jī)制后的輸出,ej為經(jīng)過(guò)層歸一化后的輸出,J代表編碼器網(wǎng)絡(luò)中MSA 和FNN 的迭代次數(shù)。公式(8)對(duì)應(yīng)的多頭自注意力機(jī)制的具體實(shí)現(xiàn)為:
其中,X為輸入MSA 的特征序列,head1,…,headh為多頭自注意力機(jī)制中的注意機(jī)制塊。公式(10)通過(guò)一個(gè)權(quán)重為Wj的線性映射網(wǎng)絡(luò),可將h個(gè)注意力機(jī)制塊的輸出進(jìn)行信息匯集。headh是信息融合的核心模塊,其由2.1節(jié)所述自注意力機(jī)制網(wǎng)絡(luò)SA 組成,計(jì)算方式如下所示:
其中,Wh,Q、Wh,K、Wh,V為headh的三個(gè)投影矩陣的參數(shù),負(fù)責(zé)將輸入的特征序列映射到query、key、value向量空間。經(jīng)過(guò)前述的多頭自注意力機(jī)制后,共有信息提取支路的最終輸出為:
我們將從編碼器共有信息融合支路模塊獲取的表征Vfusion中取出分類(lèi)表征,將其與來(lái)自?xún)蓚€(gè)單源語(yǔ)音表征學(xué)習(xí)模塊的輸出Vvowel和Vpakala進(jìn)行拼接。拼接的結(jié)果作為融合表征Vcla,以實(shí)現(xiàn)對(duì)多源語(yǔ)音信息的完整表達(dá),將其作為帕金森檢測(cè)模塊的輸入。我們還將獲取多模數(shù)據(jù)共有信息的融合特征分別與相應(yīng)單源語(yǔ)音特有信息表征Vvowel或者Vpakala進(jìn)行拼接。拼接后的特征向量Vrec_vowel和Vrec_pakala分別作為解碼器兩條重構(gòu)單源語(yǔ)音特征支路的輸入。
為進(jìn)一步確保編碼器能夠?qū)Χ嘣凑Z(yǔ)音數(shù)據(jù)中共有信息和特有信息的提取,我們對(duì)編碼器獲得的共有信息表征和兩個(gè)特有信息表征,進(jìn)行正交約束,降低共有信息表征和特有信息表征間的信息冗余。記矩陣H為由多源語(yǔ)音數(shù)據(jù)共有信息的融合特征作為行構(gòu)成的矩陣,矩陣Sm為由第m個(gè)單源語(yǔ)音數(shù)據(jù)中提取的單源語(yǔ)音特有信息表征Vvowel或者Vpakala作為行構(gòu)成的矩陣,通過(guò)正交約束計(jì)算得到特征間的差異損失如下:
融合表征Vcla作為帕金森病檢測(cè)模塊Cla 的輸入,通過(guò)相應(yīng)的分類(lèi)器實(shí)現(xiàn)帕金森病的檢測(cè)。帕金森病檢測(cè)模塊由具有三個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)組成。每一層神經(jīng)元的個(gè)數(shù)分別為32、16 和2,采用ReLu作為激活函數(shù)。樣本真實(shí)標(biāo)簽y∈[0,1],y為0時(shí)表示受試者不患病,y為1 時(shí)代表受試者患有帕金森病。檢測(cè)模塊的分類(lèi)輸出為:
其中,Wcla為模塊參數(shù),分類(lèi)損失的計(jì)算我們將通過(guò)預(yù)測(cè)值與真實(shí)標(biāo)簽值y之間的交叉熵?fù)p失來(lái)定義。
解碼器由兩個(gè)特征重構(gòu)支路組成:持續(xù)元音重構(gòu)模塊Decvowel用于重構(gòu)來(lái)自持續(xù)元音中提取的特征向量,重復(fù)音節(jié)重構(gòu)模塊Decpakala用于重構(gòu)重復(fù)音節(jié)提取的聲學(xué)特征向量。重構(gòu)模塊網(wǎng)絡(luò)由3層前饋神經(jīng)網(wǎng)絡(luò)組成,使用ReLu 激活函數(shù)。輸出為對(duì)該單源語(yǔ)音的原始聲學(xué)特征xi,m的重構(gòu),可表示為:
其中,Wrec_pakala和Wrec_vowel模塊的參數(shù),xrec_pakala和xrec_vowel為重構(gòu)的特征向量,模塊使用Smooth L1-loss損失函數(shù)對(duì)重構(gòu)誤差進(jìn)行計(jì)算,其表達(dá)式為:
其中,x、xrec分別為原始特征和模型重構(gòu)網(wǎng)絡(luò)的輸出。其最終的重構(gòu)損失為:
其中xi、xi,rec分別代表第i個(gè)樣本的特征表示和重構(gòu)網(wǎng)絡(luò)輸出的重構(gòu)特征,N為總的樣本數(shù)。
本文所提的MSFAE模型由多個(gè)子模塊組成,其中帕金森病檢測(cè)模塊將采用交叉熵?fù)p失函數(shù),特征重構(gòu)模塊將采用Smooth L1-loss函數(shù)。為充分利用數(shù)據(jù)集中的標(biāo)簽信息,本文將聯(lián)合訓(xùn)練帕金森病檢測(cè)模塊和用于特征學(xué)習(xí)的編解碼模塊。最終的模型損失為:
其中,Lrec_vowel為重構(gòu)持續(xù)元音語(yǔ)音的損失,Lrec_pakala為重構(gòu)重復(fù)音節(jié)語(yǔ)音的損失,Lcla為帕金森病檢測(cè)模塊的分類(lèi)損失,Ldiff為共有信息表征和特有信息表征間的差異損失。這里,由于單源語(yǔ)音特征重構(gòu)損失明顯比帕金森病檢測(cè)模塊的損失大得多,為避免多個(gè)損失共同優(yōu)化的過(guò)程中出現(xiàn)由于尺度不一致導(dǎo)致模型偏向大損失的方向優(yōu)化,導(dǎo)致其他模塊的性能下降。我們預(yù)設(shè)了4 個(gè)超參數(shù)λv、λp、λc、λdi,通過(guò)對(duì)各個(gè)損失進(jìn)行加權(quán),減小尺度不一致對(duì)模型的影響。
值得說(shuō)明的是,為避免參數(shù)更新時(shí),所提模型專(zhuān)注于優(yōu)化特征重構(gòu)損失而忽略帕金森病檢測(cè)模塊,帕金森病分類(lèi)模塊和解碼器中特征重構(gòu)支路的輸入是有區(qū)別的,如圖1 所示。通過(guò)上述這些設(shè)計(jì)能夠避免優(yōu)化過(guò)程中的權(quán)重不平衡問(wèn)題,也能共同幫助所提模型學(xué)習(xí)到更為緊湊的融合表示。
為開(kāi)展基于多源語(yǔ)音融合的帕金森病檢測(cè)研究,本文研究團(tuán)隊(duì)與南京醫(yī)科大學(xué)附屬老年醫(yī)院的神經(jīng)內(nèi)科展開(kāi)長(zhǎng)期合作。本文所使用的多源語(yǔ)音數(shù)據(jù)集,即由該醫(yī)院帕金森病及運(yùn)動(dòng)障礙專(zhuān)病門(mén)診篩選出的68 名患者和17 名健康人的語(yǔ)音數(shù)據(jù)構(gòu)成。需要說(shuō)明的是,在現(xiàn)有的帕金森病語(yǔ)音公開(kāi)數(shù)據(jù)集中,尚未發(fā)現(xiàn)符合本文研究需求的多源語(yǔ)音數(shù)據(jù)。自采的帕金森病多源語(yǔ)音數(shù)據(jù)集中的受試者信息統(tǒng)計(jì)見(jiàn)表1。其中,男性受試者57 人(含帕金森病患者(PD)49 人,健康人(HC)8 人),年齡從46歲到88歲不等;女性受試者為28人(含帕金森病患者19 人,健康人9 人),年齡從56 歲到84 歲不等。表中提供了患者發(fā)病時(shí)間和病變程度(HY(Hoeh &Yahr)分期)數(shù)據(jù),其中,HY 分期3 期以前屬于輕中度,3期以后癥狀越來(lái)越嚴(yán)重。
表1 自采帕金森病多源語(yǔ)音數(shù)據(jù)集信息統(tǒng)計(jì)Tab.1 Self-collected Parkinson’s disease multi-source speech dataset information statistics
受試者在安靜環(huán)境下接受語(yǔ)音采集(環(huán)境噪聲低于20 dB)。采集時(shí),受試者的唇部位于距拾音麥克風(fēng)十厘米以?xún)?nèi)的范圍,在聽(tīng)到專(zhuān)業(yè)人員的指令后,開(kāi)始發(fā)聲??紤]到不同母語(yǔ)的發(fā)音習(xí)慣帶來(lái)的差異,避免由語(yǔ)種帶來(lái)的混淆因素,讓研究成果更好地服務(wù)于國(guó)內(nèi)外研究人員,我們僅考慮以下兩種方式采集受試者的語(yǔ)音:(1)以穩(wěn)定的聲音進(jìn)行持續(xù)元音/a/發(fā)音;(2)以盡可能快的速度進(jìn)行重復(fù)音節(jié)發(fā)音,即發(fā)出/pakala/。每個(gè)患者的語(yǔ)音記錄經(jīng)剪輯后共計(jì)340 個(gè)樣本,以48 kHz 采樣率和.wav 格式存儲(chǔ)。語(yǔ)音采集完成后,由在場(chǎng)的醫(yī)務(wù)人員對(duì)受試者的患病與否及嚴(yán)重程度進(jìn)行標(biāo)注。
本文實(shí)驗(yàn)使用python 語(yǔ)言實(shí)現(xiàn),通過(guò)多組對(duì)比實(shí)驗(yàn)從多個(gè)角度驗(yàn)證模型的性能。所有的實(shí)驗(yàn)均在4.1 節(jié)所述的自采數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)結(jié)果采用了十折交叉驗(yàn)證,使用準(zhǔn)確率(ACC)、敏感度(SEN)和F1分?jǐn)?shù)作為實(shí)驗(yàn)結(jié)果的評(píng)估準(zhǔn)則。
準(zhǔn)確率表示準(zhǔn)確區(qū)分帕金森病患者和健康人的概率,敏感度代表正確檢測(cè)出帕金森病患者的概率,F(xiàn)1 分?jǐn)?shù)衡量模型的總體預(yù)測(cè)性能,其計(jì)算公式分別如下所示:
其中,TP 表示分類(lèi)正確的帕金森病樣本數(shù),TN 表示分類(lèi)正確的健康人樣本數(shù),F(xiàn)P表示將健康人樣本誤分類(lèi)成帕金森病樣本的數(shù)量,F(xiàn)N表示將帕金森病樣本誤分類(lèi)成健康人樣本的數(shù)量。
模型的參數(shù)設(shè)置如表2所示。
表2 MSFAE模型參數(shù)設(shè)置Tab.2 MSFAE Model parameters setting
為論證多源語(yǔ)音數(shù)據(jù)融合的優(yōu)勢(shì),本節(jié)將所提模型與基于單源語(yǔ)音數(shù)據(jù)的基線模型進(jìn)行了性能比較。參與比較的單源語(yǔ)音基線模型有:隨機(jī)森林(RF),支持向量機(jī)(SVM)以及深度學(xué)習(xí)模型孿生網(wǎng)絡(luò)(Siamese-net)[35]。實(shí)驗(yàn)結(jié)果如表3所示。
表3 與單源語(yǔ)音模型的性能比較Tab.3 Performance comparison with single source speech model
從實(shí)驗(yàn)結(jié)果中可以看到,基于多源語(yǔ)音的MSFAE 模型能夠比單源語(yǔ)音數(shù)據(jù)在各個(gè)指標(biāo)上有較大的提升。實(shí)驗(yàn)結(jié)果驗(yàn)證了,多源語(yǔ)音數(shù)據(jù)在結(jié)合多個(gè)數(shù)據(jù)源數(shù)據(jù)的信息之后,能夠?qū)崿F(xiàn)更高的檢測(cè)準(zhǔn)確率。
本節(jié)對(duì)MSFAE 模型以及其他前文所提及的信息融合模型進(jìn)行了性能比較。參與比較的模型有:TFN[30],CPM-NET[31],Vilt[22],MKL[20]。實(shí)驗(yàn)結(jié)果如表4所示。
表4 與其他信息融合模型的性能比較Tab.4 Performance comparison with other information fusion models
從實(shí)驗(yàn)結(jié)果中可知,我們的模型在與多個(gè)多模態(tài)信息融合模型相比較,在準(zhǔn)確率上分別有2.82%、3.33%、4.03%、5.76%的提升,在敏感度指標(biāo)上與最優(yōu)的TFN 模型相近,高于其他比較模型,同時(shí)F1 分?jǐn)?shù)相較其他比較模型也有提升。其原因在于,我們通過(guò)同時(shí)結(jié)合了多源數(shù)據(jù)的共有信息和特有信息,實(shí)現(xiàn)了更加全面的信息提取。同時(shí)在共有信息抽取時(shí),通過(guò)多步融合方式,避免直接對(duì)提取的聲學(xué)特征拼接帶來(lái)的語(yǔ)義鴻溝以及噪聲冗余。
為進(jìn)一步探究所提模型的性能,本節(jié)通過(guò)消融實(shí)驗(yàn)來(lái)檢測(cè)子模塊的性能,重點(diǎn)考察特征分組線性映射模塊,以及基于注意力機(jī)制融合的信息融合模塊對(duì)模型的貢獻(xiàn)。實(shí)驗(yàn)的詳細(xì)結(jié)果如表5所示。
表5 消融實(shí)驗(yàn)Tab.5 Ablation experiments
由實(shí)驗(yàn)結(jié)果可知,模型在沒(méi)有使用多源語(yǔ)音數(shù)據(jù)信息融合模塊時(shí)(MSFAE(without fusion)),性能受到較大的影響,模型此時(shí)缺乏對(duì)多源語(yǔ)音的低階語(yǔ)義信息融合,僅在單源語(yǔ)音經(jīng)過(guò)表征學(xué)習(xí)塊提取高階語(yǔ)義信息后進(jìn)行了拼接,無(wú)法實(shí)現(xiàn)多源語(yǔ)音數(shù)據(jù)的互補(bǔ)互增益。模型在缺失特征分組時(shí)(MSFAE(without feat_group)),由于缺失對(duì)原始輸入數(shù)據(jù)的更細(xì)粒度的信息冗余去除,為模型引入更多的噪聲信息,從而使得模型性能少許下降。模型在缺失單源語(yǔ)音數(shù)據(jù)特有信息表征學(xué)習(xí)模塊時(shí)(MSFAE(without spec_feat)),性能也出現(xiàn)了較大的性能下降,其原因是特征融合模塊的主要作用是同時(shí)最大化多源語(yǔ)音數(shù)據(jù)的共有信息,單源語(yǔ)音數(shù)據(jù)特有信息表征模塊的加入,能夠彌補(bǔ)對(duì)單源語(yǔ)音數(shù)據(jù)特有信息的關(guān)注。
本文提出一種多源語(yǔ)音信息融合模型,解決了單源語(yǔ)音數(shù)據(jù)無(wú)法全面表征受試者構(gòu)音能力的問(wèn)題。其中,采用多步信息融合方式,并引入多頭自注意力技術(shù)實(shí)現(xiàn)多源數(shù)據(jù)更細(xì)粒度的特征交互,有效解決了信息冗余問(wèn)題,避免多源數(shù)據(jù)融合過(guò)程中的噪聲累積。通過(guò)多分支網(wǎng)絡(luò),提取多源數(shù)據(jù)的特有信息和共有信息,并引入正交約束,有效實(shí)現(xiàn)多源數(shù)據(jù)中病理信息的提取。實(shí)驗(yàn)結(jié)果顯示,本文所提的MSFAE模型與單源語(yǔ)音數(shù)據(jù)基線模型比較,在各個(gè)指標(biāo)上均有較大程度的性能提升。與其他信息融合模型相比,所提模型在帕金森病檢測(cè)任務(wù)上有獨(dú)特的優(yōu)勢(shì)。在此基礎(chǔ)上,我們將進(jìn)一步研究多源語(yǔ)音數(shù)據(jù)在受損情況下的帕金森病檢測(cè)方案。