国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

帕金森語(yǔ)音障礙的Mel變換域局部梯度統(tǒng)計(jì)分析

2022-10-16 05:51:08張濤林麗琴張亞娟牛曉霞
計(jì)算機(jī)與生活 2022年10期
關(guān)鍵詞:帕金森病分類器梯度

張濤,林麗琴,張亞娟,牛曉霞

1.燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島066004

2.燕山大學(xué) 河北省信息傳輸與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島066004

帕金森?。≒arkinson’s disease,PD)是一種中老年常見(jiàn)的神經(jīng)退行性疾病,其患病人數(shù)僅次于阿爾茲海默癥。到目前為止,針對(duì)帕金森病的治療都是控制病情發(fā)展而無(wú)法從根本上治愈。因此,對(duì)帕金森病的早期診斷研究成為了該領(lǐng)域的研究熱點(diǎn)?;诒阌谑褂谩⒖蛇h(yuǎn)程傳輸?shù)膬?yōu)勢(shì),基于語(yǔ)言障礙的帕金森病早期診斷自2007 年由牛津大學(xué)的Little 提出以來(lái)便廣受關(guān)注,使得帕金森病的語(yǔ)言障礙分析成為了研究熱點(diǎn)。

2009 年,Little 等人利用傳統(tǒng)聲學(xué)特征,如Jitter、Shimmer、諧波噪聲比(harmonics to noise ratio,HNR)等提取語(yǔ)音信號(hào)中的時(shí)域特性和頻域特性,用于分辨受試者是否患有帕金森病,為本領(lǐng)域研究奠定了數(shù)據(jù)基礎(chǔ);2011 年,張濤等人通過(guò)引入多元音分析豐富了語(yǔ)音采樣方法;2013 年,Sakar 等人利用增加了持續(xù)元音不同的音高特征以及周期特征和無(wú)聲中斷的特征。此后,不少學(xué)者在帕金森語(yǔ)音特征提取方向進(jìn)行了深入而有效的研究,Benba 等人利用人因子倒譜系數(shù)(human factor cepstral coefficients,HFCC)進(jìn)行聲紋特征參數(shù)的提取,這種方法相比傳統(tǒng)的倒譜分析方法獲得了更加可靠的性能;Karan 等人利用變分模式分解(variational mode decomposition,VMD)將語(yǔ)音信號(hào)分解為模式或子信號(hào)以提取語(yǔ)音信號(hào)的相關(guān)信息;張小恒等人提出了雙邊式混合語(yǔ)音特征選擇的優(yōu)選算法,挖掘語(yǔ)音段和特征的協(xié)同效應(yīng);此外還提出分包融合集成算法,該算法通過(guò)設(shè)計(jì)類心距離比值來(lái)衡量樣本的混疊程度,有效增加了帕金森語(yǔ)音樣本的利用率。與此同時(shí),隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)、HR-DCGAN-VGG16 模型與深度置信網(wǎng)絡(luò)等方法也相繼被用于帕金森病語(yǔ)音障礙的數(shù)據(jù)表示。與此同時(shí),以Mel域?yàn)榇淼淖儞Q域特征提取方法在帕金森病語(yǔ)音障礙分析中取得了令人矚目的成果:Khan 等人引入倒譜分離干擾(cepstral separation disturbs,CSD)和Mel 倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC)來(lái)監(jiān)測(cè)帕金森病患者的言語(yǔ)癥狀,利用Mel倒譜系數(shù)表示語(yǔ)音特征的細(xì)節(jié),并在3 級(jí)UPDRS 量表和2 級(jí)UPDRS 量表都具有良好的準(zhǔn)確率;Orozco-Arroyave 等人利用Mel倒譜系數(shù)提取清音的能量含量并將其應(yīng)用于三種不同的語(yǔ)言檢測(cè)帕金森病患者;Naranjo 等人提出了一種兩階段的變量選擇和分類方法,增加了不同階數(shù)的MFCC,使結(jié)果的可解釋性得到了改善。與此同時(shí),在變換域中進(jìn)行結(jié)構(gòu)特征提取的研究方法在帕金森語(yǔ)音障礙分析中展現(xiàn)出優(yōu)勢(shì)。文獻(xiàn)[17]提出通過(guò)統(tǒng)計(jì)時(shí)頻混合域中能量數(shù)據(jù)的差分值計(jì)算其梯度統(tǒng)計(jì)特征,以此表示不同時(shí)頻域能量值的突變情況,其分類結(jié)果明顯優(yōu)于傳統(tǒng)特征。文獻(xiàn)[18]提出一種基于經(jīng)驗(yàn)?zāi)J椒纸獾哪芰糠较蛱卣?,?qiáng)調(diào)了語(yǔ)音信號(hào)的高頻成分,提供了更多信息,在帕金森病診斷中具有良好的穩(wěn)定性與分類性能。由此可見(jiàn),在對(duì)帕金森語(yǔ)音障礙分析的研究中,結(jié)構(gòu)特征通過(guò)對(duì)梯度值的統(tǒng)計(jì)能綜合提取語(yǔ)音信號(hào)時(shí)頻域的變化情況,并且通過(guò)對(duì)各個(gè)方向能量變化值的統(tǒng)計(jì),在一定程度上抑制噪聲,因此相較于傳統(tǒng)特征而言,結(jié)構(gòu)特征在對(duì)帕金森語(yǔ)音障礙的分析中具有更加有效的表現(xiàn)效果。同時(shí)由于Mel 變換域?qū)τ谂两鹕Z(yǔ)音障礙分析的有效性,近年來(lái)相關(guān)研究正朝著高階特征提取的方向發(fā)展。這提示在Mel 變換域中提取結(jié)構(gòu)特征可能會(huì)在帕金森檢測(cè)問(wèn)題中獲得新的突破,但對(duì)Mel變換域進(jìn)行結(jié)構(gòu)提取的研究方法尚未見(jiàn)報(bào)道。

基于當(dāng)前研究,本文以語(yǔ)音信號(hào)的Mel變換域?yàn)榛A(chǔ),從結(jié)構(gòu)角度提取局部梯度特征,并通過(guò)統(tǒng)計(jì)方法形成Mel頻率譜的局部梯度統(tǒng)計(jì)特征(statistical feature of local gradient,SFLG)。該方法從結(jié)構(gòu)角度詳細(xì)描述了語(yǔ)音信號(hào)在Mel變換域的時(shí)頻結(jié)合特性,并通過(guò)統(tǒng)計(jì)方式克服局部噪聲帶來(lái)的不穩(wěn)定性。最后,將該帕金森病語(yǔ)音障礙分析方法與分類器相結(jié)合,實(shí)現(xiàn)對(duì)基于語(yǔ)音障礙的帕金森病診斷,提高診斷結(jié)果的準(zhǔn)確性。

1 方法

1.1 Mel變換域

Mel 頻率系統(tǒng)由多個(gè)濾波器組成,Mel 域變換流程如圖1 所示。首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重,對(duì)高頻部分進(jìn)行補(bǔ)償;其次對(duì)預(yù)加重后的語(yǔ)音信號(hào)進(jìn)行分幀加窗,然后通過(guò)短時(shí)傅里葉變換(short time Fourier transform,STFT)得到頻譜,最后通過(guò)Mel 濾波器組對(duì)能量譜頻域進(jìn)行濾波得到Mel 頻譜。對(duì)Mel 頻譜進(jìn)行歸一化,歸一化后的Mel 頻譜能量即為Mel 變換域能量。經(jīng)變換后得到的Mel域能量如式(1)所示。

圖1 Mel頻率域的變換流程圖Fig.1 Flowchart of Mel frequency domain transformation

(,)=Mel(())(1)其中,(,)表示語(yǔ)音信號(hào)從時(shí)域變換到Mel 域后所得到的Mel 變換域能量數(shù)據(jù);()表示時(shí)刻語(yǔ)音信號(hào)的強(qiáng)度;Mel 表示對(duì)()進(jìn)行時(shí)域到Mel 域的一系列變換。

本文通過(guò)Mel 頻率提取方法將語(yǔ)音的時(shí)域信息和頻域信息同時(shí)轉(zhuǎn)換到Mel變換域,從而獲得符合人類聽(tīng)覺(jué)特性的信號(hào)表示,突出相似語(yǔ)音中的聽(tīng)覺(jué)差異部分,為進(jìn)一步特征分析奠定基礎(chǔ)。健康人和帕金森病患者的Mel變換域能量歸一化后的結(jié)果如圖2所示。由圖2 可知,在Mel 變換域中,健康人語(yǔ)音的能量分布更加均勻,更具有規(guī)律性,而患者的能量分布范圍更加集中,Mel 變換域能量譜圖更為清晰直觀地表現(xiàn)出了健康人和帕金森病患者的能量分布情況。因此相對(duì)于傳統(tǒng)的頻譜圖,通過(guò)分析Mel變換域局部能量變化更能明顯地展現(xiàn)出健康人和帕金森病患者在語(yǔ)音信號(hào)中的差異。

圖2 健康人與PD 患者語(yǔ)音時(shí)域、頻域及Mel域?qū)Ρ菷ig.2 Comparison of speech in time domain,frequency domain and Mel transform domain between healthy people and patients with PD

1.2 SFLG 特征提取

在Mel變換域中,局部能量的方向和幅度差值均存在差異,而梯度可將Mel 變換域的時(shí)域幅度差值、頻域幅度差值、時(shí)頻混合域的幅度差值相結(jié)合;梯度變化的角度可展現(xiàn)三維立體空間中的每一個(gè)方向。因此Mel 域局部能量變化梯度與角度相結(jié)合更能明顯展現(xiàn)Mel 域能量的幅度與方向差異。為了詳細(xì)刻畫語(yǔ)音信號(hào)在Mel變換域能量譜圖上的特征,本文提出局部梯度統(tǒng)計(jì)特征提取方法,通過(guò)描述Mel變換域局部能量變化梯度和方向之間的關(guān)系完成對(duì)帕金森病語(yǔ)音障礙的分析。該方法首先通過(guò)檢測(cè)窗口選擇Mel 變換域局部能量數(shù)據(jù),然后計(jì)算窗口內(nèi)每個(gè)能量點(diǎn)的變化角度與梯度值,接著根據(jù)能量變化角度統(tǒng)計(jì)窗口內(nèi)能量點(diǎn)的梯度值,最后通過(guò)對(duì)統(tǒng)計(jì)的梯度值進(jìn)行歸一化得到Mel 變換域全局的SFLG。SFLG的具體提取流程如圖3 所示。

圖3 SFLG 特征提取流程圖Fig.3 Flowchart for SFLG feature extraction

為了將Mel 變換域能量數(shù)據(jù)劃分為不同的局部能量數(shù)據(jù),首先在Mel域中通過(guò)檢測(cè)窗口檢測(cè)出局部能量數(shù)據(jù),變換域的時(shí)間范圍[0,],頻率范圍為[0,],變換域檢測(cè)窗口內(nèi)能量提取公式如式(2)所示。其中J(,)表示時(shí)域第個(gè)、頻域第個(gè)檢測(cè)窗口的局部能量數(shù)據(jù),t表示檢測(cè)窗口時(shí)間長(zhǎng)度,0 <t<,t∈,f表示檢測(cè)窗口頻率長(zhǎng)度,0 <f<,f∈。

圖4 變換域時(shí)頻角度方向示意圖Fig.4 Schematic diagram of timefrequency angle direction in transform domain

則根據(jù)每個(gè)能量點(diǎn)的時(shí)域變化量Δ、頻域變化量Δ,將偏移角度表示為式(4)。

在局部滑動(dòng)窗口內(nèi),對(duì)于檢測(cè)能量點(diǎn)(,),(,)∈(,),對(duì)待檢測(cè)點(diǎn)不同能量變化方向進(jìn)行求導(dǎo),得到能量變化隨不同方向的變化速率。檢測(cè)點(diǎn)的能量隨不同方向的變化率計(jì)算式如式(5)所示。在變換域中時(shí)間變化 |Δ|≥1,頻率變化| Δ|≥1。

在檢測(cè)點(diǎn)的能量變化中,計(jì)算待檢測(cè)點(diǎn)不同方向的導(dǎo)數(shù)。最大的導(dǎo)數(shù)即為該點(diǎn)的梯度值,梯度值對(duì)應(yīng)的角度為該檢測(cè)點(diǎn)的能量變化角度。則檢測(cè)點(diǎn)的梯度值計(jì)算公式如式(9)所示,能量變化角度如式(10)所示。

對(duì)于局部窗口內(nèi)的能量數(shù)據(jù)(,),根據(jù)上述方法計(jì)算每個(gè)局部能量點(diǎn)的梯度值與角度。為了反映局部檢測(cè)點(diǎn)能量梯度變化的整體情況,本文采用局部統(tǒng)計(jì)的方法統(tǒng)計(jì)局部梯度的整體變化情況,根據(jù)角度統(tǒng)計(jì)變換域局部能量變化的梯度值,構(gòu)建包含時(shí)頻信息的SFLG。為了便于統(tǒng)計(jì),本文將能量變化角度進(jìn)行量化,量化公式如式(11)所示。并根據(jù)能量變化角度的量化級(jí)別統(tǒng)計(jì)檢測(cè)窗口內(nèi)局部能量梯度值,局部梯度統(tǒng)計(jì)公式如式(12)所示。

在式(11)、式(12)中,b表示角度量化的單位,表示角度量化的級(jí)別,()表示不同量化級(jí)別的梯度統(tǒng)計(jì)特征。為了避免梯度特征的數(shù)值大小對(duì)分類的影響,對(duì)梯度統(tǒng)計(jì)特征進(jìn)行歸一化,歸一化方法如式(13)所示。為一個(gè)極小且不為0 的常數(shù),||·||表示1 范數(shù)。

() 即為一個(gè)滑動(dòng)窗口內(nèi)歸一化后的SFLG。SFLG 包含了不同角度的梯度統(tǒng)計(jì)值,SFLG 的可視化提取過(guò)程如圖5 所示。

圖5 SFLG 提取可視化示意圖Fig.5 SFLG extraction visualization diagram

為了全面反映變換域局部梯度變化情況,本文對(duì)所有檢測(cè)窗口的SFLG 進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)后的結(jié)果即為變換域全局的SFLG。變換域全局的SFLG 如式(14)所示,其中H()表示第個(gè)檢測(cè)窗口的SFLG。

以一個(gè)可視化窗口為例,設(shè)與待測(cè)點(diǎn)相鄰的能量如圖6 所示,則可移動(dòng)的位置如圖6(a)所示。式(15)對(duì)應(yīng)的可移動(dòng)方向的角度如式(16)所示。

圖6 待檢測(cè)點(diǎn)方向能量分布示意圖Fig.6 Schematic diagram of energy distribution in direction of point to be detected

圖6(b)中待檢測(cè)點(diǎn)對(duì)應(yīng)的方向?qū)?shù)如式(17)所示。將圖6(b)示例計(jì)算方向?qū)?shù),結(jié)果如式(18)所示。

求該檢測(cè)點(diǎn)的能量變化角度與梯度。式(19)為待檢測(cè)點(diǎn)的梯度,式(20)為該點(diǎn)的角度。

對(duì)于窗口內(nèi)的能量數(shù)據(jù)(,),設(shè)窗口內(nèi)能量數(shù)據(jù)對(duì)應(yīng)的梯度如式(21)所示,對(duì)應(yīng)的能量變化角度如式(22)所示。

對(duì)上述窗口內(nèi)的能量變化梯度和角度進(jìn)行統(tǒng)計(jì),設(shè)量化單位長(zhǎng)度b=20°,求得量化級(jí)別和統(tǒng)計(jì)結(jié)果,統(tǒng)計(jì)結(jié)果如式(23)和式(24)所示。

2 實(shí)驗(yàn)與分析

2.1 材料和方法

本文特征提取方法需要在原始語(yǔ)音上進(jìn)行,使用的數(shù)據(jù)集為2013 年Sakar 等人公布的帕金森病原始語(yǔ)音數(shù)據(jù)集(Sakar’s Parkinson detection dataset,SPDD)以及由本課題組采集、整理的漢語(yǔ)發(fā)音帕金森病語(yǔ)音數(shù)據(jù)集(Chinese pronunciation Parkinson detection dataset,CPPDD)。

SPDD 數(shù)據(jù)集為UCI 公開(kāi)數(shù)據(jù)集之一,該數(shù)據(jù)集公開(kāi)了帕金森病語(yǔ)音數(shù)據(jù)的原始語(yǔ)音以及語(yǔ)音特征集,其中包括訓(xùn)練集和測(cè)試集兩個(gè)數(shù)據(jù)集。訓(xùn)練集包括伊斯坦布爾大學(xué)Cerrhpasa 醫(yī)學(xué)院神經(jīng)病學(xué)系的20 名帕金森病患者(6 名女性、14 名男性)和20 名健康受試者(10 名男性、10 名女性),每個(gè)受試者采集26個(gè)語(yǔ)音樣本片段,每條語(yǔ)音的發(fā)音內(nèi)容包括元音字母發(fā)音(a、o、u)、數(shù)字發(fā)音(1~10)、單詞發(fā)音(指定單詞9 個(gè))和短語(yǔ)句發(fā)音(指定短語(yǔ)句4 個(gè))。測(cè)試集中含有28 例帕金森病患者受試者,每個(gè)受試者含有6 條語(yǔ)音片段(a、o 的發(fā)音各3 遍)。帕金森病患者的個(gè)體年齡在43 歲到77 歲之間(平均值64.86 歲,方差80.46);健康受試者的個(gè)體年齡在45 歲到83 歲之間(平均值62.55 歲,方差116.42)。本文使用的是該數(shù)據(jù)集中的元音語(yǔ)音。

CPPDD 是由本課題組與開(kāi)灤精神衛(wèi)生中心以及唐山市人民醫(yī)院合作采集的,該CPPDD 數(shù)據(jù)集中包含36 名帕金森病患者(19 名男性、17 名女性)和32 名健康受試者(16 名男性、16 名女性),帕金森病患者個(gè)體年齡在45 歲到80 歲之間(平均值68.59 歲,方差151.29);健康受試者的個(gè)體年齡在44 歲到79 歲之間(平均值68.59 歲,方差151.29)。其中帕金森病患者已被神經(jīng)學(xué)專家確診。數(shù)據(jù)集臨床采集以元音方法為主,針對(duì)6 個(gè)漢語(yǔ)單元音a、o、e、i、u、ü分別錄制語(yǔ)音樣本,每個(gè)受試者每個(gè)音節(jié)發(fā)音3 次,每次持續(xù)發(fā)音2 s。

為了確保語(yǔ)音數(shù)據(jù)的平穩(wěn)性和完整統(tǒng)一性,本文對(duì)SPDD 和CPPDD 的語(yǔ)音數(shù)據(jù)進(jìn)行了預(yù)處理,預(yù)處理包括去除語(yǔ)音信號(hào)的靜音部分和統(tǒng)一每條語(yǔ)音樣本的時(shí)間長(zhǎng)度,最終得到Sakar 語(yǔ)音數(shù)據(jù)集中的樣本數(shù)為534 條,包含282 條患病語(yǔ)音樣本,252 條健康語(yǔ)音樣本。CPPDD 語(yǔ)音樣本數(shù)918 條,包括患者語(yǔ)音樣本495 條,健康受試者語(yǔ)音樣本數(shù)423條。

如表1 所示,對(duì)比SPDD 和CPPDD 兩個(gè)數(shù)據(jù)集,兩個(gè)數(shù)據(jù)集的采集方式和采樣頻率均相同。相比之下,CPPDD 數(shù)據(jù)集的樣本量多于SPDD 數(shù)據(jù)集。本文將對(duì)SPDD和CPPDD兩個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。

表1 SPDD 和CPPDD 數(shù)據(jù)集對(duì)比Table 1 Comparison of SPDD and CPPDD datasets

本文使用準(zhǔn)確率、靈敏性、特異性三個(gè)指標(biāo)對(duì)分類器的分類性能進(jìn)行評(píng)估。準(zhǔn)確率(accuracy,)的值越高表示分類性能越優(yōu)異,其計(jì)算公式如式(25)所示。

式中,表示真陽(yáng)性的數(shù)量,表示真陰性的數(shù)量,表示假陽(yáng)性的數(shù)量,表示假陰性的數(shù)量。正確分類的陽(yáng)性和陰性的統(tǒng)計(jì)測(cè)量值用靈敏性(sensitivity,)和特異性(specificity,)表示,同樣地,靈敏性和特異性的值越高表示分類性能越優(yōu)異,其計(jì)算公式如式(26)、式(27)所示。

在實(shí)驗(yàn)方法上,本文采用折交叉驗(yàn)證與留一樣本法交叉驗(yàn)證相結(jié)合的方法進(jìn)行測(cè)試。其中本文采用留一樣本法而不是留一對(duì)象法的原因是復(fù)雜的預(yù)測(cè)因子可以在身份和診斷狀態(tài)之間找到混淆的關(guān)系,從而產(chǎn)生不真實(shí)的高預(yù)測(cè)準(zhǔn)確率,而留一對(duì)象法無(wú)法正確避免這種情況。在實(shí)驗(yàn)過(guò)程中,首先根據(jù)1.2 節(jié)的介紹提取SFLG 特征,實(shí)驗(yàn)中參數(shù)的選取如下:滑動(dòng)窗口的大小為8×8,即t=8,f=8,幀移與窗口大小相同為8。在此基礎(chǔ)上對(duì)SPDD 和CPPDD 數(shù)據(jù)集進(jìn)行最優(yōu)參數(shù)的選擇,選擇最優(yōu)參數(shù)的實(shí)驗(yàn)通過(guò)5 折交叉驗(yàn)證(=5)的方法進(jìn)行。

確定最優(yōu)參數(shù)后,為了說(shuō)明不同數(shù)據(jù)集在相同模型中的差異性,驗(yàn)證不同語(yǔ)言對(duì)相同模型的敏感性,本文采用數(shù)據(jù)集間交叉驗(yàn)證的方法對(duì)模型進(jìn)行評(píng)估,該驗(yàn)證方法將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集。在本文的兩個(gè)數(shù)據(jù)集中,以一個(gè)數(shù)據(jù)集做訓(xùn)練集,另一個(gè)數(shù)據(jù)集做測(cè)試集的方式進(jìn)行數(shù)據(jù)集間的交叉驗(yàn)證。由于在數(shù)據(jù)集的采集過(guò)程中,對(duì)每個(gè)受試者的語(yǔ)音記錄有多條。為了避免不同樣本之間帶來(lái)的誤差,同時(shí)增加測(cè)試結(jié)果的可信性,本文在SPDD、CPPDD 數(shù)據(jù)集內(nèi)分別采用5 折交叉(=5)、10 折交叉(=10)和留一樣本法進(jìn)行交叉驗(yàn)證。由于實(shí)驗(yàn)結(jié)果會(huì)因數(shù)據(jù)集的劃分不同而不同,本文采用多次實(shí)驗(yàn)求平均值的方法記錄實(shí)驗(yàn)結(jié)果,以確保結(jié)果的可信度。

為了說(shuō)明本文方法的有效性和先進(jìn)性,本文將現(xiàn)有技術(shù)與本文方法進(jìn)行了簡(jiǎn)要對(duì)比。本文的對(duì)比實(shí)驗(yàn)從兩個(gè)角度進(jìn)行,首先將本文提出的SFLG 與經(jīng)典的倒譜特征Mel 倒譜系數(shù)(MFCC)、人類因子倒譜系數(shù)(HFCC)以及本征模函數(shù)倒譜系數(shù)(intrinsic modal function cepstral coefficient,IMFCC)的最優(yōu)結(jié)果進(jìn)行比較。其中HFCC 與MFCC 相似,這兩種倒譜方法在語(yǔ)音識(shí)別和說(shuō)話人識(shí)別等語(yǔ)音處理任務(wù)中具有廣泛應(yīng)用;而IMFCC 可以同時(shí)提供說(shuō)話人聲道以及聲帶振動(dòng)的信息并且有效捕捉語(yǔ)音的非線性特征。此外,近年來(lái)深度學(xué)習(xí)方法也是語(yǔ)音障礙分析的研究熱點(diǎn)之一,因此本文選擇卷積神經(jīng)網(wǎng)絡(luò)和VGG16 模型與本文所提出的SFLG 方法進(jìn)行對(duì)比。

2.2 實(shí)驗(yàn)結(jié)果與分析

由于本文SFLG 提取方法提取的變換域特征維度較大,可能造成過(guò)擬合,在進(jìn)行分類之前,本文采用降維的方法對(duì)提取的全局SFLG 進(jìn)行進(jìn)一步的轉(zhuǎn)換。降維的方式有很多種,其中主成分分析算法(principal component analysis,PCA)是丟失原始數(shù)據(jù)信息最少的一種線性降維方式,因此為了盡可能地減少信息損失,使得降維之后能夠最大化地保留原數(shù)據(jù)的內(nèi)在信息,本文選擇PCA 對(duì)提取的SFLG 進(jìn)行降維。

降維之后對(duì)提取的SFLG 進(jìn)行分類。在分類階段,根據(jù)分類器在帕金森病語(yǔ)音障礙中的性能表現(xiàn),支持向量機(jī)(support vector machine,SVM)的分類性能最佳且在帕金森病的語(yǔ)音診斷中廣泛應(yīng)用;此外與其他機(jī)器學(xué)習(xí)分類器相比,KNN(K-nearest neighbor)分類器思想簡(jiǎn)單、理論成熟且應(yīng)用較為廣泛。因此本文最終采用SVM 和KNN 兩個(gè)分類器實(shí)現(xiàn)對(duì)本文提取局部統(tǒng)計(jì)特征的分類。

為了測(cè)試降維后不同維度的特征性能,本文對(duì)不同維度的降維后SFLG 進(jìn)行分類。同時(shí)為了測(cè)試分類器的參數(shù)對(duì)分類準(zhǔn)確率的影響,本文設(shè)置了不同的分類器參數(shù)。對(duì)選擇的SVM 和KNN 兩個(gè)分類器,本文設(shè)置Gaussian、RBF(radial basis function)、linear、ploynomial 四個(gè)核函數(shù);在KNN 分類器中,本文使用歐式距離進(jìn)行度量,將值分別設(shè)置為1、3、5、7、15、31、61。在本次實(shí)驗(yàn)中選擇的最大特征維度為100維。將不同數(shù)據(jù)集、不同分類器參數(shù)、不同降維后特征維度相互組合進(jìn)行多組實(shí)驗(yàn)。不同變量下的分類準(zhǔn)確率結(jié)果如圖7、圖8 所示。

圖8 KNN 不同K 值、不同特征維度分類準(zhǔn)確率對(duì)比Fig.8 Comparison of accuracy of KNN with different K values and feature dimensions

根據(jù)圖7 分析SVM 分類器在不同核函數(shù)與不同數(shù)據(jù)集的準(zhǔn)確率變化趨勢(shì)。在SVM 分類器中,隨著特征維度的增加,整體上呈現(xiàn)先上升后趨于平穩(wěn)的趨勢(shì)。從SVM 不同的核函數(shù)角度觀察,圖7(a)中四個(gè)核函數(shù)的分類性能相當(dāng),圖7(b)中Gaussian、RBF、polynomial 三個(gè)核函數(shù)性能相當(dāng),且略高于linear 核函數(shù)。圖7 對(duì)應(yīng)的最優(yōu)參數(shù)如表2 所示。

表2 SVM 分類器SFLG 最優(yōu)參數(shù)Table 2 SFLG optimal parameters of SVM classifier

圖7 SVM 不同核函數(shù)、不同特征維度分類準(zhǔn)確率對(duì)比Fig.7 Comparison of accuracy of SVM with different kernel functions and feature dimensions

KNN 分類器中的分類準(zhǔn)確率如圖8 所示。在KNN 分類中,分類準(zhǔn)確率大體上呈現(xiàn)先上升后下降的趨勢(shì)。分析圖中不同值與分類準(zhǔn)確率之間的關(guān)系,Mel變換域中,圖8(a)中當(dāng)特征維度較小時(shí),值的變化對(duì)結(jié)果的影響較??;當(dāng)維度較大時(shí),隨著的增加分類準(zhǔn)確率下降;圖8(b)中值對(duì)分類準(zhǔn)確率的影響較小。根據(jù)上述分析選擇參數(shù),圖8 對(duì)應(yīng)的最優(yōu)參數(shù)選擇如表3 所示。

表3 KNN 分類器SFLG 最優(yōu)參數(shù)Table 3 SFLG optimal parameters of KNN classifier

為了說(shuō)明不同數(shù)據(jù)集、不同分類器對(duì)分類性能的影響,本文通過(guò)SPDD 和CPPDD 兩個(gè)數(shù)據(jù)集、KNN和SVM 兩個(gè)分類器兩組變量相結(jié)合的方法進(jìn)行多組對(duì)比實(shí)驗(yàn)。同組變量進(jìn)行多組實(shí)驗(yàn)并記錄平均值,實(shí)驗(yàn)結(jié)果如表4 所示。

表4 SPDD、CPPDD 數(shù)據(jù)集分類準(zhǔn)確率Table 4 Accuracy for SPDD and CPPDD datasets 單位:%

根據(jù)表4 所述結(jié)果,在數(shù)據(jù)集、分類器相同條件下,對(duì)比訓(xùn)練集與測(cè)試集的準(zhǔn)確率,二者準(zhǔn)確率相當(dāng),說(shuō)明了本文提取特征的有效性,也說(shuō)明降維在一定程度上避免了過(guò)擬合風(fēng)險(xiǎn)。從不同數(shù)據(jù)集的角度分析,在提取的SFLG 中,SPDD 數(shù)據(jù)集中的分類準(zhǔn)確率要高于CPPDD,這是由于漢語(yǔ)發(fā)音采用的是口腔前部發(fā)音體系,該體系對(duì)肌肉的控制力要求比較強(qiáng),從而導(dǎo)致漢語(yǔ)發(fā)音帕金森病患者的SFLG 變化隨機(jī)性更強(qiáng),因此SPDD 數(shù)據(jù)集的分類準(zhǔn)確率要高于CPPDD 數(shù)據(jù)集。

為了進(jìn)一步評(píng)估模型的性能,說(shuō)明不同語(yǔ)言對(duì)模型的差異性,本文通過(guò)將兩個(gè)數(shù)據(jù)集間交叉驗(yàn)證的方法進(jìn)行評(píng)估。本文的數(shù)據(jù)集間交叉驗(yàn)證分為兩組:一組SPDD 為訓(xùn)練集,CPPDD 為測(cè)試集;另一組CPPDD 為訓(xùn)練集,SPDD 為測(cè)試集,并進(jìn)行多組實(shí)驗(yàn)記錄平均結(jié)果。數(shù)據(jù)集間交叉驗(yàn)證的分類準(zhǔn)確率平均結(jié)果如表5 所示。

表5 數(shù)據(jù)集間交叉驗(yàn)證分類準(zhǔn)確率結(jié)果Table 5 Cross validation classification accuracy between datasets 單位:%

表5 中SPDD 和CPPDD 兩個(gè)數(shù)據(jù)集間做交叉驗(yàn)證,其測(cè)試集的準(zhǔn)確率均遠(yuǎn)遠(yuǎn)小于訓(xùn)練集,該結(jié)果與文獻(xiàn)[22]中用Sakar 數(shù)據(jù)集與西班牙語(yǔ)數(shù)據(jù)集進(jìn)行數(shù)據(jù)集間交叉驗(yàn)證顯示的訓(xùn)練集的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于測(cè)試集的實(shí)驗(yàn)結(jié)果相似。該實(shí)驗(yàn)結(jié)果表明不同記錄條件和不同語(yǔ)言條件下的數(shù)據(jù)集對(duì)于模型具有一定的敏感性而導(dǎo)致模型的分類性能不同。為了進(jìn)一步驗(yàn)證模型的可靠性,本文通過(guò)同一數(shù)據(jù)集內(nèi)交叉驗(yàn)證的方法對(duì)模型進(jìn)行評(píng)估,分別采用5 折、10 折交叉驗(yàn)證法以及留一樣本法對(duì)模型做進(jìn)一步評(píng)估。多次實(shí)驗(yàn)后的平均結(jié)果如表6 所示。

表6 SPDD 和CPPDD 數(shù)據(jù)集內(nèi)交叉驗(yàn)證的分類準(zhǔn)確率Table 6 Classification accuracy of cross validation in SPDD and CPPDD datasets 單位:%

在同一數(shù)據(jù)集上進(jìn)行交叉驗(yàn)證,分類準(zhǔn)確率最小值為90.69%。5 折交叉驗(yàn)證分類結(jié)果和10 折交叉驗(yàn)證分類結(jié)果相比,10 折交叉驗(yàn)證指標(biāo)略高于5 折交叉驗(yàn)證,但二者評(píng)價(jià)指標(biāo)變化較??;對(duì)于留一樣本驗(yàn)證方法,分類準(zhǔn)確率與同組最優(yōu)結(jié)果相比最大相差1.35 個(gè)百分點(diǎn)。數(shù)據(jù)集內(nèi)部的交叉驗(yàn)證進(jìn)一步驗(yàn)證了基于SFLG 的帕金森病語(yǔ)音障礙診斷的可行性。

綜上所述,在SPDD 和CPPDD 兩個(gè)數(shù)據(jù)集間的交叉驗(yàn)證實(shí)驗(yàn)結(jié)果顯示,不同的語(yǔ)言對(duì)于相同的模型具有一定的敏感性,這一結(jié)果說(shuō)明對(duì)于不同記錄條件或不同語(yǔ)言條件下的數(shù)據(jù)集應(yīng)考慮模型的差異性,采用不同的模型以便在不同環(huán)境下充分發(fā)揮模型的性能。而在SPDD 和CPPDD 數(shù)據(jù)集內(nèi)部分別進(jìn)行的交叉驗(yàn)證結(jié)果表明,本文提出的SFLG 方法可有效避免過(guò)學(xué)習(xí)現(xiàn)象,具有較高的可行性。

在與其他文獻(xiàn)對(duì)比中,為了說(shuō)明本文提取特征的有效性,首先將本文提出的SFLG 與傳統(tǒng)倒譜特征MFCC、HFCC、IMFCC進(jìn)行對(duì)比,分別選取其最優(yōu)結(jié)果進(jìn)行比較。以上三種特征均為在帕金森語(yǔ)音障礙分析的研究中常用的經(jīng)典倒譜特征,與本文方法均是在變換域的基礎(chǔ)上進(jìn)行特征提取,以上三種倒譜特征將語(yǔ)音信號(hào)映射到不同的變換域后提取其倒譜系數(shù),本文所提方法從結(jié)構(gòu)角度出發(fā)提取語(yǔ)音信號(hào)在Mel變換域中的局部梯度統(tǒng)計(jì)特征,并且文獻(xiàn)中利用相應(yīng)特征實(shí)現(xiàn)帕金森病診斷所用的分類器與本文相同,因此更加具有對(duì)比性。同時(shí)為了說(shuō)明本文方法的先進(jìn)性,將本文提取的SFLG 與近年來(lái)新的研究思路深度學(xué)習(xí)特征進(jìn)行對(duì)比,其中文獻(xiàn)[10]采用卷積神經(jīng)網(wǎng)絡(luò)的方法實(shí)現(xiàn)帕金森病的診斷。該方法將語(yǔ)音的時(shí)間序列信號(hào)轉(zhuǎn)換成頻譜圖,利用訓(xùn)練集中的頻譜圖及其標(biāo)簽對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練并利用語(yǔ)音信號(hào)測(cè)試集對(duì)網(wǎng)絡(luò)精度進(jìn)行測(cè)試。文獻(xiàn)[11]采用HR-DC-GAN(high resolution deep convolutional generative adversarial network)網(wǎng)絡(luò)進(jìn)行樣本擴(kuò)充與構(gòu)建VGG16 提取聲紋特征和分類的混合模型(表7中將該模型簡(jiǎn)寫為VGG16 模型),獲得有效的識(shí)別效果。對(duì)于以上方法同樣選取最優(yōu)結(jié)果進(jìn)行比較。本文方法與選擇的不同對(duì)比方法在訓(xùn)練集與測(cè)試集上的選定均一致,對(duì)比結(jié)果如表7 所示。

表7 本文方法與現(xiàn)有技術(shù)的對(duì)比結(jié)果Table 7 Comparison results between method in this paper and existing technology 單位:%

如表7 所示,從特征提取方面分析,在與傳統(tǒng)特征的對(duì)比中,在SPDD 和CPPDD 數(shù)據(jù)集上,本文提取的SFLG 要高于傳統(tǒng)的經(jīng)典特征,該結(jié)果進(jìn)一步說(shuō)明了與傳統(tǒng)特征相比,局部梯度統(tǒng)計(jì)特征區(qū)分帕金森病患者與健康人的性能更優(yōu)。在與深度學(xué)習(xí)方法的對(duì)比中,本文提取的SFLG 高于HR-DCGAN-VGG16混合模型,低于卷積神經(jīng)網(wǎng)絡(luò),由于深度學(xué)習(xí)模型往往需要大量的數(shù)據(jù)樣本,目前帕金森病公開(kāi)數(shù)據(jù)集中語(yǔ)音樣本較少,且與傳統(tǒng)算法相比,深度學(xué)習(xí)模型的可解釋性較差,本文提取的局部特征有效避免了這一問(wèn)題,提升了特征的可解釋性。從數(shù)據(jù)集角度對(duì)比分析,本文方法在SPDD 數(shù)據(jù)集靈敏性上具有最優(yōu)表現(xiàn)結(jié)果,而在CPPDD 數(shù)據(jù)集中三個(gè)指標(biāo)分別具有最優(yōu)結(jié)果,這表明本文提出的SFLG 方法對(duì)CPPDD 數(shù)據(jù)集具有較好的適用性。

本文提取的SFLG 將變換域能量的差值特征與方向特征相結(jié)合,綜合考慮了語(yǔ)音時(shí)域、頻域的突變情況,并通過(guò)梯度值進(jìn)行反映,能更加全面地描述局部能量與周圍能量之間的關(guān)系。因此相比原始的特征提取方法,本文提出的SFLG 提取方法對(duì)于帕金森病患者因其控制發(fā)音的能力弱于正常人而導(dǎo)致的各個(gè)域梯度值變化雜亂的情況具有更加優(yōu)越的表現(xiàn)。

3 結(jié)束語(yǔ)

本文通過(guò)分析語(yǔ)音Mel 變換域局部能量分布特點(diǎn),將Mel 變換域能量差值特征與方向特征相結(jié)合,引出SFLG 提取方法。并進(jìn)一步地介紹了SFLG 提取流程,通過(guò)統(tǒng)計(jì)所有SFLG 描述全局SFLG 特征。接著對(duì)全局SFLG 進(jìn)行降維與分類,通過(guò)多組實(shí)驗(yàn)選擇合適的特征維度與分類器參數(shù)。然后對(duì)CPPDD 和SPDD 兩個(gè)帕金森病語(yǔ)音數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。在模型評(píng)估階段,分別從不同數(shù)據(jù)集、不同驗(yàn)證方法兩個(gè)角度分析了該模型。最后將本文提出的SFLG與其他文獻(xiàn)進(jìn)行對(duì)比,并分析本文提出的SFLG,說(shuō)明了Mel 譜局部梯度統(tǒng)計(jì)特征的有效性與先進(jìn)性。通過(guò)對(duì)Mel譜詳細(xì)的特征描述,為帕金森語(yǔ)音診斷提供了新思路。同時(shí)本文仍然存在不足之處,局部特征提取從每個(gè)能量點(diǎn)的角度出發(fā)進(jìn)行計(jì)算統(tǒng)計(jì),導(dǎo)致本文方法的復(fù)雜度較高,后期將考慮并行計(jì)算的方法提高效率。此外,使用混淆矩陣加強(qiáng)對(duì)識(shí)別率的分析也是下一步的方向。

猜你喜歡
帕金森病分類器梯度
手抖一定是帕金森病嗎
一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
一種自適應(yīng)Dai-Liao共軛梯度法
帕金森病科普十問(wèn)
活力(2019年22期)2019-03-16 12:47:04
一類扭積形式的梯度近Ricci孤立子
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
帕金森病的治療
中西醫(yī)結(jié)合治療帕金森病98例
梓潼县| 吴旗县| 长沙市| 南木林县| 麻栗坡县| 平潭县| 浮山县| 永胜县| 中江县| 辽宁省| 贵德县| 越西县| 屏东县| 陈巴尔虎旗| 宝鸡市| 清原| 沙田区| 建瓯市| 方城县| 巨野县| 缙云县| 清新县| 黑山县| 青浦区| 彰化市| 定西市| 汤阴县| 门头沟区| 谷城县| 金塔县| 平度市| 垣曲县| 乃东县| 浦东新区| 兴国县| 云南省| 天水市| 广饶县| 新乡市| 宜黄县| 阜阳市|