国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的不同病理的鼾聲分類(lèi)

2021-09-23 01:42侯麗敏劉煥成張新鵬
關(guān)鍵詞:中樞性鼾聲正確率

侯麗敏,劉煥成,張新鵬

(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)

睡眠呼吸暫停是一種常見(jiàn)的睡眠障礙疾病,國(guó)際睡眠醫(yī)學(xué)會(huì)在睡眠呼吸暫停定義和相關(guān)評(píng)定規(guī)則的修訂版中指出最常見(jiàn)的兩類(lèi)是阻塞性和中樞性呼吸暫停[1].阻塞性呼吸暫停(Obstructive Sleep Apnea,OSA)是睡眠期間人的上呼吸道被部分或完全阻塞,這種阻塞會(huì)導(dǎo)致人的胸肌更加努力地工作,以打開(kāi)阻塞的氣道并將空氣吸入肺部.中樞性呼吸暫停(Central Sleep Apnea,CSA)是一個(gè)神經(jīng)系統(tǒng)問(wèn)題,大腦中樞暫時(shí)無(wú)法向負(fù)責(zé)控制呼吸的肌肉發(fā)出信號(hào),從而導(dǎo)致呼吸運(yùn)動(dòng)停止[2].臨床PSG(Polysomnogram)多路信號(hào)并行采集完全可以診斷出這兩種不同的呼吸事件,它是以在睡眠期呼吸氣流中斷的同時(shí)是否存在呼吸努力來(lái)區(qū)分的.整夜的PSG監(jiān)測(cè)中,如果OSA事件占多數(shù),則診斷為阻塞性為主的患者.反過(guò)來(lái),如果CSA事件占多數(shù),則診斷為中樞性為主的患者.睡眠障礙疾病中阻塞性患者占絕大多數(shù),中樞性患者的占比不到20%[3].然而,CSA呼吸事件通常與嚴(yán)重疾病有關(guān),尤其是控制呼吸的下腦干有關(guān)的疾病[2-3].對(duì)于大腦發(fā)育不全的新生兒,CSA會(huì)產(chǎn)生長(zhǎng)達(dá)20 s的呼吸暫停[4].研究者指出:CSA事件的發(fā)生與年齡正相關(guān),在741名隨機(jī)抽取的受試者中,老年人中的12%在監(jiān)測(cè)中出現(xiàn)了中樞性呼吸事件,每小時(shí)至少出現(xiàn)2次以上;受試?yán)夏耆酥械?%在監(jiān)測(cè)中出現(xiàn)了更多的中樞性呼吸事件,多達(dá)20次/h[5].因此,篩查不同病理的鼾聲將有助于進(jìn)行早期診斷和及時(shí)的相應(yīng)治療干預(yù).

目前對(duì)OSA鼾聲的信號(hào)處理和分類(lèi)的研究較多,多涉及對(duì)鼾聲信號(hào)的聲學(xué)參數(shù)進(jìn)行分析和分類(lèi)、對(duì)上氣道阻塞部位的確定[6]、對(duì)OSA患者患病嚴(yán)重程度的篩查等[7-8].而涉及CSA鼾聲的研究相對(duì)較少.Hummel等[9]用錄制的鼾聲,首次提出了對(duì)睡眠呼吸暫停進(jìn)行分類(lèi)的方法,他們從25位患者的鼾聲數(shù)據(jù)中切割只包含CSA事件的片段40個(gè)和切割只包含OSA事件的片段45個(gè),每個(gè)片段中包含多個(gè)子鼾聲、呼吸暫停和正常呼吸聲,持續(xù)大約2.5~8.0 min,然后提取過(guò)零率、頻譜質(zhì)心、打鼾比等多個(gè)特征,用支持向量機(jī)(Support Vector Machine,SVM)分類(lèi)器對(duì)85個(gè)音頻片段進(jìn)行分類(lèi),取得了良好的結(jié)果.Hummel等的研究初步說(shuō)明了不同生理過(guò)程導(dǎo)致的OSA和CSA鼾聲有著不同的聲學(xué)性質(zhì).然而,他們的實(shí)驗(yàn)數(shù)據(jù)和參與的患者較少,有待更多的數(shù)據(jù)來(lái)驗(yàn)證此結(jié)論.

本文采集了更多患者的鼾聲錄音,共有90名患者.根據(jù)OSA與CSA產(chǎn)生機(jī)制的差異性,提出了利用同態(tài)信號(hào)處理的方法分離出鼾聲的完整上氣道沖激響應(yīng)(Upper Airway Impulse Response,UAIR),即聯(lián)合了幅度和相位頻譜來(lái)得到的UAIR為完整的UAIR.兩類(lèi)鼾聲的UAIR初步顯示出不同的表現(xiàn),本文據(jù)此提出了完整上氣道沖激響應(yīng)繁衍特征,包括UAIR的振動(dòng)頻數(shù)(Vibration Frequency,VF)、振動(dòng)強(qiáng)度(Vibration Intensity,VI)、折疊因子(Folding Factor,FF)、上升速度(Rise Velocity,RV)和下降速度(Drop Velocity,DV)5個(gè)特征.對(duì)90名患者的OSA和CSA兩類(lèi)鼾聲數(shù)據(jù)做了分析和統(tǒng)計(jì),給出每個(gè)特征下的兩類(lèi)鼾聲的盒圖分布圖.本文進(jìn)一步設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的深度特征加工和分類(lèi)器1D CNN(1 Dimension CNN),以UAIR等5組聲學(xué)特征分別作為系統(tǒng)輸入的1維特征,對(duì)系統(tǒng)分類(lèi)性能做了評(píng)估.使用UAIR特征的網(wǎng)絡(luò)CSA鼾聲正確率為72%,OSA鼾聲正確率為86%的最佳分類(lèi)結(jié)果,且高于其他的經(jīng)典特征.實(shí)驗(yàn)結(jié)果表明1D CNN是一種較為有效的特征深度加工處理器.

1 數(shù)據(jù)和CNN結(jié)構(gòu)的設(shè)計(jì)

本文采集了患者的鼾聲錄音,標(biāo)注了OSA鼾聲和CSA鼾聲數(shù)據(jù),根據(jù)它們產(chǎn)生的機(jī)制提取聲學(xué)特征,設(shè)計(jì)了適合本文分類(lèi)的1D CNN網(wǎng)絡(luò)架構(gòu),從而實(shí)現(xiàn)對(duì)兩類(lèi)不同病理的鼾聲的分類(lèi),也即識(shí)別.

1.1 實(shí)驗(yàn)數(shù)據(jù)

本文中的實(shí)驗(yàn)數(shù)據(jù)均來(lái)自上海市第六人民醫(yī)院耳鼻喉科睡眠監(jiān)測(cè)病房錄制的患者鼾聲信號(hào).患者在其鼾聲信號(hào)被錄音的同時(shí)也進(jìn)行PSG監(jiān)測(cè)[10].本文采集了阻塞性呼吸暫停低通氣綜合征(Obstructive Sleep Apnea Hypopnea Syndrome,OSAHS)、中樞性呼吸暫停低通氣綜合征(Central Sleep Apnea Syndrome,CSAS)和混合性呼吸暫停綜合征(Mixed Sleep Apnea Syndrome,MSAS)患者的整夜錄音,3種類(lèi)型患者共有90人.OSAHS患者是指PSG診斷為阻塞性的患者,這些患者整夜呼吸事件中OSA鼾聲占多數(shù);CSAS患者是指中樞性的患者,這些患者整夜呼吸事件中CSA鼾聲占多數(shù);MSAS患者是指混合性的患者,這些患者整夜呼吸事件中MSA鼾聲占多數(shù)[1].其中混合性呼吸暫停的呼吸事件是指中樞性和阻塞性共存,在一個(gè)呼吸事件過(guò)程中先出現(xiàn)中樞性呼吸暫停,緊接著轉(zhuǎn)換為阻塞性呼吸暫停.90人當(dāng)中3名患者為輕度型,其余均為中度和重度型[10].音頻錄音的采樣頻率包含8 kHz和16 kHz兩種.實(shí)驗(yàn)中將16 kHz的音頻做了下采樣處理,轉(zhuǎn)換為8 kHz.

將整夜錄音與PSG數(shù)據(jù)對(duì)齊,對(duì)照PSG中標(biāo)記的OSA呼吸事件和CSA呼吸事件,做了人工切割并標(biāo)注出OSA鼾聲和CSA鼾聲,得到的鼾聲數(shù)據(jù)如表1所示.90人中包含1名CSAS患者,73名OSAHS患者和16名MSAS患者.表1中的信息包含了患者年齡的均值和標(biāo)準(zhǔn)差,男女人數(shù),患者呼吸紊亂指數(shù)(Apnea Hypopnea Index,AHI)的均值和標(biāo)準(zhǔn)差,以及切割的CSA鼾聲和OSA鼾聲片段的數(shù)量.

表1 實(shí)驗(yàn)數(shù)據(jù)集Tab.1 Experiments data sets

1.2 聲學(xué)特征

圖1 鼾聲完整上氣道沖激響應(yīng)計(jì)算的流程圖Fig.1 Flowchart for calculating the upper airway impulse response of snore sound

對(duì)OSA鼾聲和CSA鼾聲按照?qǐng)D1進(jìn)行計(jì)算得到相應(yīng)的UAIR結(jié)果如圖2所示.圖2(a)和(d)分別是CSA鼾聲和OSA鼾聲的時(shí)域波形,圖2(b)和(e)分別是CSA鼾聲和OSA鼾聲中某一幀的復(fù)倒譜,圖2(c)和(f)是用復(fù)倒譜計(jì)算出的CSA和OSA的UAIR.比較圖2(b)和(e),兩者的復(fù)倒譜規(guī)律類(lèi)似,但OSA的復(fù)倒譜幅值更大一些;比較圖2(c)和(f),CSA鼾聲的UAIR波形光滑一些,OSA鼾聲的UAIR在上升和下降階段毛刺較多,反映出其快速波動(dòng)更多;OSA鼾聲波形上升的幅度也更大,兩者的差異性明顯.由于復(fù)倒譜表現(xiàn)出良好的集中性,如圖2(b)和(e)所示,大值集中在中心部位,其余的值很小,因此這里低倒頻窗的寬度取9個(gè)樣本.圖2中t表示時(shí)間,由于錄音的音頻信號(hào)是歸一化處理的,所以這些幅度沒(méi)有單位.

圖2 鼾聲上氣道沖激響應(yīng)的計(jì)算結(jié)果Fig.2 Results of UAIR for snore

為了進(jìn)一步說(shuō)明完整UAIR體現(xiàn)出CSA和OSA的不同,本文提出了UAIR的量化特征,包括UAIR的VF、VI、FF、RV和DV共5個(gè)特征.VF特征表示UAIR的極值點(diǎn)大于某個(gè)閾值的數(shù)量.VI特征表示UAIR的最大幅值與其后第1個(gè)小于零的極小值之間的距離.FF特征表示大于某閾值持續(xù)時(shí)間內(nèi)的UAIR的幅值差分的絕對(duì)值之和.RV特征表示UAIR最大幅值與上升時(shí)間的比值.UAIR的最大幅值點(diǎn)的時(shí)刻到其后的第1個(gè)過(guò)零點(diǎn)時(shí)刻的持續(xù)時(shí)間的比值為DV特征.對(duì)90名患者的OSA鼾聲和CSA鼾聲的數(shù)據(jù)做了計(jì)算,統(tǒng)計(jì)每個(gè)特征下的兩類(lèi)鼾聲的盒圖分布,如圖3(見(jiàn) 第370頁(yè))所示.OSA鼾聲和CSA鼾聲的分布區(qū)域有較大的差異性,說(shuō)明UAIR能反映兩類(lèi)鼾聲的不同特點(diǎn).

當(dāng)然圖3給出的CSA鼾聲和OSA鼾聲定量特征的統(tǒng)計(jì)分布存在著一些重疊區(qū)域,單純利用這組特征還不能準(zhǔn)確識(shí)別鼾聲.

圖3 從完整上氣道沖激響應(yīng)提取5個(gè)量化特征的盒圖分布Fig.3 Boxplot of five features from UAIR

1.3 基于CNN的鼾聲識(shí)別系統(tǒng)

CNN在語(yǔ)音識(shí)別中已有廣泛的使用[11-12].卷積層和池化層是交替出現(xiàn)的,用來(lái)對(duì)特征進(jìn)行加工和處理.先前的許多研究將音頻信號(hào)作傅里葉變換得到幅度譜,在幅度譜的基礎(chǔ)上得到進(jìn)一步的特征,例如對(duì)數(shù)Mel、Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)等特征,使用2D CNN架構(gòu)做語(yǔ)音識(shí)別和說(shuō)話(huà)人確認(rèn)[13-14].近來(lái)有研究者提出1D CNN架構(gòu),直接輸入1維的原始波形來(lái)學(xué)習(xí),從而完全避免了任何特征提取步驟.1D CNN在音頻事件分類(lèi)[15]和說(shuō)話(huà)人識(shí)別中有良好的分類(lèi)效果[16],它們均以音頻的1維時(shí)序信號(hào)作為1D CNN的輸入特征.

本文設(shè)計(jì)了一個(gè)基于1D CNN的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)CSA鼾聲和OSA鼾聲進(jìn)行分類(lèi),充分利用1D CNN直接從1維信號(hào)中學(xué)習(xí)和加工的特點(diǎn),用完整上氣道響應(yīng)的1維時(shí)序波形和原始音頻波形等1維特征分別作為該網(wǎng)絡(luò)的輸入.多個(gè)卷積和池化交錯(cuò)用于捕獲信號(hào)的深度特征,與3個(gè)全連接層的分類(lèi)任務(wù)結(jié)合共同實(shí)現(xiàn)分類(lèi)的任務(wù).這種方法也可以處理任何長(zhǎng)度的音頻信號(hào).本文以1幀的長(zhǎng)度作為輸入向量的長(zhǎng)度.網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、卷積層和全連接層組成.卷積層包括卷積、批量標(biāo)準(zhǔn)化(Batch Normalization,BN)、激活函數(shù)和池化層,激活函數(shù)使用的是修正線(xiàn)性單元(Rectified Linear Unit,ReLU),池化層使用的是平均池化.隨后3層的全連接每層的特征數(shù)量有所下降,以較少的特征充分體現(xiàn)兩類(lèi)的差異性并防止過(guò)擬合.假設(shè)該結(jié)構(gòu)1D CNN的輸入是1維特征X,即X為(1×N)的數(shù)據(jù),網(wǎng)絡(luò)參數(shù)為Θ,M表示隱藏層的總數(shù).則預(yù)測(cè)值

T=F(X|Θ)=fM(…f2(f1(X|Θ1)|Θ2)…|ΘM).

(1)

第m個(gè)卷積層和全連接層的計(jì)算如式(2)所示:

fm(Xm|Θm)=A(W?Xm+b),Θm=[W,b].fm(Xm|Θm)=A(WXm+b),Θm=[W,b].

(2)

其中:?表示卷積操作;W表示1維的卷積核或加權(quán)系數(shù);Xm為輸入的特征;b為偏置;A( )為激活函數(shù).

圖4 對(duì)CSA鼾聲和OSA鼾聲分類(lèi)的1D CNN結(jié)構(gòu)圖Fig.4 The architecture of 1D CNN for CSA snore and OSA snore classication

圖4是以1維數(shù)據(jù)流作為輸入特征的3層卷積加3層全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,它由輸入層、3個(gè)卷積層、3個(gè)全連接層和輸出層組成.圖4中的輸入特征是幀特征UAIR,長(zhǎng)度為256,卷積層濾波器的數(shù)量和尺寸等設(shè)置在圖中給出,池化采用的是平均池化,步長(zhǎng)均設(shè)為1.第1個(gè)全連接層將特征拉平為1 024個(gè)參數(shù),最后一個(gè)全連接層參數(shù)為512個(gè).使用softmax作為輸出層的激活函數(shù),每個(gè)輸出神經(jīng)元指示每個(gè)類(lèi)別的輸入樣本的隸屬度.在訓(xùn)練過(guò)程中,根據(jù)反向傳播的分類(lèi)誤差調(diào)整網(wǎng)絡(luò)的參數(shù),并以最小化損失函數(shù)優(yōu)化網(wǎng)絡(luò)的參數(shù).

對(duì)各個(gè)卷積層的濾波器核尺寸和池化均選用固定的尺寸,池化均采用平均池化.第1層卷積的信道數(shù)量較小,后續(xù)逐層擴(kuò)大卷積處理的信道數(shù)量.由于用于訓(xùn)練的數(shù)據(jù)量是有限的,因此在沒(méi)有明顯的過(guò)度擬合的情況下網(wǎng)絡(luò)使用更深的架構(gòu)是不可行的.

2 結(jié)果和分析

為了進(jìn)行4折交叉驗(yàn)證,根據(jù)表1將患者的數(shù)據(jù)以按大約0.75∶0.25的比例劃分為訓(xùn)練集和測(cè)試集,共4組,同時(shí)保證訓(xùn)練集的患者與測(cè)試集的患者相互獨(dú)立.在訓(xùn)練階段,1D CNN的輸入特征為每幀提取的聲學(xué)特征,輸出幀正確率(Frame Accuracy,FAC)λFAC作為訓(xùn)練的結(jié)果.統(tǒng)計(jì)兩類(lèi)鼾聲各自分類(lèi)正確的幀數(shù),分別除以各自幀的總數(shù),分別得到CSA鼾聲和OSA鼾聲的幀正確率(每輪的小批量數(shù)據(jù)batch取512,訓(xùn)練在100~200輪左右):

(3)

在測(cè)試階段,測(cè)試集的評(píng)判準(zhǔn)則是鼾聲片段正確率(ePisode Accuracy,PAC)λPAC判別方法,該方法的判別是以每個(gè)鼾聲片段中多數(shù)幀的歸屬結(jié)果為此片段的最終結(jié)果.這種評(píng)判符合實(shí)際情況下對(duì)鼾聲的評(píng)估,單幀的歸屬孤立起來(lái)看沒(méi)有實(shí)際意義.因此統(tǒng)計(jì)兩類(lèi)測(cè)試鼾聲片段各自分類(lèi)正確的數(shù)量,分別除以各自測(cè)試片段的總數(shù),得到CSA鼾聲和OSA鼾聲片段的分類(lèi)正確率,如式(4)所示.最后將CSA鼾聲測(cè)試的正確率和OSA鼾聲測(cè)試的正確率加起來(lái)平均,得到平均正確率.

(4)

對(duì)圖4的結(jié)構(gòu)做了不同的調(diào)整檢驗(yàn):當(dāng)只用1層卷積和池化再做全連接時(shí),訓(xùn)練的結(jié)果停留在80%左右,無(wú)法達(dá)到天花板;當(dāng)用3層卷積和池化再做1層全連接時(shí),訓(xùn)練的結(jié)果在85%左右,也無(wú)法達(dá)到天花板,說(shuō)明網(wǎng)絡(luò)架構(gòu)太小,不能全面揭示分類(lèi)任務(wù)的本質(zhì).只有采用3層卷積和3層全連接時(shí),訓(xùn)練集的結(jié)果可以達(dá)到或接近天花板.當(dāng)卷積層加深到5層時(shí),結(jié)果與3層的相近.其損失函數(shù)也是一直下降最后平緩下來(lái).對(duì)卷積核的尺寸也做了優(yōu)化調(diào)整,尺寸太小或太大結(jié)果不佳,目前使用的(1×5)優(yōu)于(1×3)和(1×7).池化也分別用最大池化和平均池化做了對(duì)比,平均池化時(shí)網(wǎng)絡(luò)效果更佳.

2.1 數(shù)據(jù)擴(kuò)增

切割的CSA鼾聲與OSA鼾聲的數(shù)據(jù)不平衡可能對(duì)分類(lèi)的結(jié)果產(chǎn)生不良影響,因此需要對(duì)CSA鼾聲數(shù)據(jù)進(jìn)行擴(kuò)增(Data augmentation).數(shù)據(jù)擴(kuò)增常用的方法包括時(shí)間拉伸(Time stretching)、改變信噪比(Signal Noise Rate,SNR)、靜音修剪(Silence trimming)、時(shí)移(Time shift)和加背景噪聲(Background noise)等[17-18].

本文用時(shí)間拉伸、改變信噪比和時(shí)移的方法對(duì)訓(xùn)練集數(shù)據(jù)做了擴(kuò)增.時(shí)間拉伸和改變信噪比的方法保證了CSA鼾聲片段和OSA鼾聲片段的數(shù)量接近,時(shí)移保證了CSA鼾聲的幀和OSA鼾聲的幀的數(shù)量接近.時(shí)間拉伸的速率分別為0.9和1.1,加白噪聲的信噪比分別為10 dB和20 dB,時(shí)移對(duì)CSA鼾聲片段的幀移為30樣本點(diǎn),OSA鼾聲片段的幀移為128樣本點(diǎn).對(duì)UAIR特征在原始數(shù)據(jù)得到的結(jié)果與在不同數(shù)據(jù)強(qiáng)化下得到的結(jié)果進(jìn)行對(duì)比,結(jié)果如圖5所示.圖中橫坐標(biāo)的原始表示用原始數(shù)據(jù),組合1表示原始數(shù)據(jù)+時(shí)間拉伸,組合2表示原始數(shù)據(jù)+噪聲,組合3表示原始數(shù)據(jù)+時(shí)移,組合4表示原始數(shù)據(jù)+時(shí)間拉伸+噪聲+時(shí)移.用第1折的數(shù)據(jù)做實(shí)驗(yàn).

圖5 數(shù)據(jù)不平衡與數(shù)據(jù)擴(kuò)增之后的實(shí)驗(yàn)結(jié)果對(duì)比Fig.5 Comparison experimental results of data imbalance and after data augmentation

原始數(shù)據(jù)與不同數(shù)據(jù)擴(kuò)增方法的結(jié)果對(duì)比表明數(shù)據(jù)擴(kuò)增均能提高測(cè)試集CSA鼾聲的片段正確率.用原始不平衡的數(shù)據(jù),CSA鼾聲的λPAC僅有43%,不同的數(shù)據(jù)擴(kuò)增方法提高了CSA鼾聲的片段正確率,其中原始數(shù)據(jù)+時(shí)移數(shù)據(jù)的表現(xiàn)更好,與原始數(shù)據(jù)相比,對(duì)CSA鼾聲的λPAC提升了24.93%,其他方法次之.原因可能是時(shí)間拉伸或者添加不同的信噪比都擴(kuò)增了CSA鼾聲片段的數(shù)量,但是增加的數(shù)據(jù)在一定程度上造成鼾聲頻譜有某種變化,而時(shí)移法對(duì)原始音頻數(shù)據(jù)沒(méi)做任何變形處理,鼾聲的頻譜沒(méi)有任何本質(zhì)的改變.對(duì)OSA鼾聲的識(shí)別幾乎不受數(shù)據(jù)擴(kuò)增的影響,其片段正確率都保持在90%以上.

2.2 實(shí)驗(yàn)結(jié)果

訓(xùn)練和測(cè)試的結(jié)果如表2所示.訓(xùn)練的幀正確率λFAC是以上升平緩階段之后的10輪結(jié)果的均值;測(cè)試的片段正確率λPAC以訓(xùn)練對(duì)應(yīng)的10輪結(jié)果的均值.4折交叉驗(yàn)證之后再做均值和方差.得到表2中的訓(xùn)練集λFAC和測(cè)試集λPAC.表2的最后1列是對(duì)測(cè)試集結(jié)果的平均正確率,將CSA鼾聲測(cè)試的正確率和OSA鼾聲測(cè)試的正確率均值加起來(lái)的平均值.

表2的結(jié)果顯示訓(xùn)練集的結(jié)果均接近天花板,說(shuō)明本文設(shè)計(jì)的1D CNN結(jié)構(gòu)是合理有效的,其中3個(gè)卷積層對(duì)輸入的特征深度加工,經(jīng)3個(gè)全連接層的分類(lèi),能夠較好地訓(xùn)練出CSA和OSA兩類(lèi)鼾聲的深度參數(shù)或模型.測(cè)試集的結(jié)果表明5組特征對(duì)CSA鼾聲分類(lèi)的正確率在55%~72%,其中UAIR特征取得的分類(lèi)正確率最高,為72.27%,而對(duì)數(shù)Mel特征取得的分類(lèi)正確率最低,為55.19%.測(cè)試集的5組特征對(duì)OSA鼾聲分類(lèi)效果較好,正確率分布在86%~94%之間.本文提出的UAIR特征在1D CNN系統(tǒng)上取得了良好的效果,說(shuō)明UAIR特征經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)的加工能夠較有效地提取出CSA鼾聲和OSA鼾聲的區(qū)分特征.

表2 實(shí)驗(yàn)結(jié)果Tab.2 Experiments results

2.3 分析

本文設(shè)計(jì)的1D CNN系統(tǒng)對(duì)CSA鼾聲的識(shí)別效果仍不夠理想,其中UAIR特征做出的正確率均值達(dá)到72.2%,方差6.3%,其他特征在CSA鼾聲識(shí)別上,均值更低,方差更大.方差大說(shuō)明了這些特征的穩(wěn)定性變差,如表2所示.原因可能有以下幾個(gè)方面.如表1的數(shù)據(jù)顯示,CSA的鼾聲片段遠(yuǎn)少于OSA鼾聲的片段,盡管對(duì)數(shù)據(jù)數(shù)量的不平衡做了擴(kuò)增,數(shù)據(jù)內(nèi)部仍有其他方面的不平衡,本文數(shù)據(jù)集的90人僅1人是中樞性患者,89人為阻塞性和混合性患者.對(duì)這阻塞性和混合性的89人來(lái)看,他們的CSA呼吸事件大部分夾雜在OSA呼吸事件或MSA呼吸事件之間,患者已有過(guò)阻塞性的呼吸事件,身體器官尤其是腦部已處于缺氧狀態(tài),過(guò)量的二氧化碳導(dǎo)致中樞運(yùn)動(dòng)控制系統(tǒng)的間歇,這時(shí)發(fā)生了中樞性呼吸事件,但上氣道的狹窄仍有可能存在,使得CSA鼾聲發(fā)生時(shí)可能同時(shí)含有上氣道狹窄的信息.再者,訓(xùn)練集與測(cè)試集的患者是獨(dú)立的,訓(xùn)練正確率高,測(cè)試正確率偏低,反映出CSA鼾聲可能與患者的個(gè)體關(guān)聯(lián)性較強(qiáng).本文設(shè)計(jì)的1D CNN對(duì)CSA鼾聲的本質(zhì)體現(xiàn)不夠充分,有些依賴(lài)患者的數(shù)據(jù).今后在這點(diǎn)上還要繼續(xù)深入研究.另外,ID CNN的輸入是一幀向量,對(duì)時(shí)序上的關(guān)聯(lián)性體現(xiàn)不夠密切,擴(kuò)大輸入的幀向量,或用2D CNN架構(gòu),進(jìn)一步挖掘多方向上的特征幫助區(qū)分CSA鼾聲與OSA鼾聲.

從綜合角度來(lái)看,測(cè)試集的5組特征的識(shí)別結(jié)果中,UAIR特征效果最佳,取得了識(shí)別出七成的CSA鼾聲,識(shí)別出八成多OSA鼾聲的良好結(jié)果;原始音頻時(shí)域波形RAWA次之,且UAIR和RAWA的平均正確率達(dá)到了79%以上.再次證明1D CNN架構(gòu)適合1維的時(shí)序數(shù)據(jù)流作為輸入特征,UAIR和RAWA均為音頻時(shí)序波形.本文從RAWA計(jì)算出其復(fù)倒譜,經(jīng)低倒頻窗只取了復(fù)倒譜集中的9個(gè)值計(jì)算出UAIR,可見(jiàn)UAIR更能突顯出CSA鼾聲與OSA鼾聲產(chǎn)生過(guò)程的不同.復(fù)倒譜CCEP的平均正確率為78.47%.UAIR、RAWA和CCEP特征的共同特點(diǎn)是:CCEP和UAIR聯(lián)合了頻譜的幅度和相位信息,信息量更大一些,RAWA也是完整的時(shí)域波形,對(duì)識(shí)別出兩類(lèi)不同病理的鼾聲是非常有用的.RCEP和對(duì)數(shù)Mel特征的識(shí)別效果比較差,盡管它們?cè)贠SA鼾聲的識(shí)別上正確率更高一些,卻犧牲了CSA鼾聲的識(shí)別,只有近一半的CSA鼾聲被正確識(shí)別出來(lái).RECP和對(duì)數(shù)Mel特征只包含了頻譜的幅度譜,丟棄了相位譜.因此保留信息全面的一些特征如UAIR、CCEP和RAWA,兩類(lèi)不同病理的鼾聲中有著良好的區(qū)分性.

3 結(jié) 語(yǔ)

本文提出了一種用于中樞性和阻塞性鼾聲分類(lèi)的1D CNN網(wǎng)絡(luò).網(wǎng)絡(luò)的體系結(jié)構(gòu)由3個(gè)卷積層和3個(gè)全連接層組成,充分利用了1D CNN可以直接從音頻波形或幀向量中學(xué)習(xí)濾波器的特性,得到對(duì)兩類(lèi)鼾聲的區(qū)分性較強(qiáng)的特征加工,在7 000多個(gè)音頻樣本的數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了評(píng)估.實(shí)驗(yàn)結(jié)果表明,這種直接處理音頻波形的神經(jīng)體系結(jié)構(gòu)對(duì)兩種不同病理的鼾聲具有良好的特征加工和分類(lèi)效果.此外,網(wǎng)絡(luò)對(duì)本文中5組特征的訓(xùn)練也顯示出很好地普適性.本文通過(guò)對(duì)不同病理的鼾聲產(chǎn)生機(jī)制的分析,提出了完整上氣道沖激響應(yīng)(UAIR)特征,1D CNN架構(gòu)能較精確地提取一些重要的區(qū)分特征,取得了良好的效果.與多組特征比較,UAIR特征表現(xiàn)最佳.在今后的工作中,我們將會(huì)探討其他更復(fù)雜的深度學(xué)習(xí)方法,例如殘差網(wǎng)絡(luò)、增加注意力機(jī)制等,試圖捕獲更多的差異特征,進(jìn)一步提高CSA鼾聲和OSA鼾聲的區(qū)分能力.

致謝:感謝上海交通大學(xué)附屬上海第六人民醫(yī)院耳鼻喉科在實(shí)驗(yàn)數(shù)據(jù)采集中的幫助和支持.

猜你喜歡
中樞性鼾聲正確率
針?biāo)幉⒂脤?duì)卒中后中樞性疼痛患者痛覺(jué)和感覺(jué)閾值的影響
個(gè)性化護(hù)理干預(yù)對(duì)提高住院患者留取痰標(biāo)本正確率的影響
課程設(shè)置對(duì)大學(xué)生近視認(rèn)知的影響
促性腺激素釋放激素類(lèi)似物在兒童中樞性性早熟中的應(yīng)用分析
INHB、MKRN3、FGFR2在女童中樞性性早熟中的預(yù)測(cè)價(jià)值分析
爸爸的鼾聲
生意
生意
如雷鼾聲驚醒“名校夢(mèng)”,15歲少年不堪重負(fù)臥軌自殺
爸爸的鼾聲