王 瑤,楊天順,王金海,韋 然,趙曉赟
(1.天津工業(yè)大學(xué) 生命科學(xué)學(xué)院,天津 300387;2.天津大學(xué) 精密儀器與光電子工程學(xué)院,天津 300072;3.天津工業(yè)大學(xué) 電子與信息工程學(xué)院,天津 300387;4.天津市胸科醫(yī)院呼吸與危重癥醫(yī)學(xué)科睡眠中心,天津 300222)
睡眠呼吸暫停是一種常見的睡眠呼吸紊亂癥狀[1]。伴隨著呼吸間歇性地中止,呼吸暫??蓪?dǎo)致人體血氧飽和度降低,增加心血管疾病、阿爾茲海默癥等多種疾病的患病風(fēng)險(xiǎn)[2-3]。目前多導(dǎo)睡眠監(jiān)測是呼吸暫停診斷的標(biāo)準(zhǔn)方法[4]。在多導(dǎo)睡眠監(jiān)測中,需要記錄腦電(electroencephalogram,EEG)、心電、呼吸氣流以及血氧飽和度等多種生理參數(shù),并需要綜合分析這些生理參數(shù)來判定呼吸暫停的發(fā)生,此外,多導(dǎo)睡眠監(jiān)測過程操作復(fù)雜,需要專業(yè)醫(yī)師在睡眠實(shí)驗(yàn)室中進(jìn)行,難以實(shí)現(xiàn)家用普及[5-6]。因此,研究者們嘗試減少生理信號的采集種類[7-8],采用基于人工智能的方法實(shí)現(xiàn)呼吸暫停的自動檢測,從而降低呼吸暫停的檢測難度,為便攜式呼吸暫停檢測提供理論及技術(shù)支撐。
相對于心電、呼吸氣流等其他信號,腦電信號因受內(nèi)源性疾病(如呼吸不規(guī)律、心律不齊等)干擾較小,在呼吸暫停檢測中得到了越來越廣泛的應(yīng)用[9-12]。研究中對呼吸暫?;颊叩哪X電主要采取2 種分析方法:一種是常規(guī)方法,如時(shí)域分析、頻域分析和時(shí)頻域分析;另一種為非線性動力學(xué)的方法,EEG 是由低維混沌神經(jīng)過程產(chǎn)生的,不同的大腦活動狀態(tài)具有不同的非線性動力學(xué)特性,腦電非線性動力學(xué)分析已被成功地應(yīng)用到癲癇診斷以及情緒識別等領(lǐng)域[13-15]。為了更好地表征呼吸暫停期間的腦電特性,越來越多的非線性動力學(xué)方法被用于腦電的特征提取。
Goshvarpour 等[16]對呼吸暫?;颊吣X電信號的最大李雅普諾夫指數(shù)(largest Lyapunov exponent)進(jìn)行分析,發(fā)現(xiàn)呼吸暫停期間,腦電信號的最大李雅普諾夫指數(shù)低于正常時(shí)期。周靜[17]對呼吸暫?;颊吣X電信號的關(guān)聯(lián)維數(shù)(correlation dimension)進(jìn)行分析,研究發(fā)現(xiàn),呼吸暫?;颊吣X電的關(guān)聯(lián)維數(shù)在各個(gè)睡眠階段均低于正常人。然而,不管是關(guān)聯(lián)維數(shù)還是李雅普諾夫指數(shù),其對信號噪聲、采樣率、信號長度等因素都比較敏感[18-19],難以用作評估呼吸暫停腦電狀態(tài)的穩(wěn)定性指標(biāo)。相比之下,基于時(shí)間序列復(fù)雜性的度量能在一定程度上解決上述問題[20],而且該方法所需數(shù)據(jù)量較少,更適合于有限長的腦電信號分析。
熵是一種廣泛應(yīng)用于非穩(wěn)態(tài)腦電信號中的基于時(shí)間序列復(fù)雜性的度量方法,對此,天津工業(yè)大學(xué)團(tuán)隊(duì)[21-22]采用樣本熵和近似熵的特征提取方法,使用機(jī)器學(xué)習(xí)模型對呼吸暫停事件和正常事件分類,取得了約90%的準(zhǔn)確率。然而,樣本熵和近似熵在定義向量相似性時(shí)使用Heaviside 函數(shù),Heaviside 函數(shù)的不連續(xù)邊界問題導(dǎo)致其對小參數(shù)比較敏感。與樣本熵和近似熵不同,模糊熵引入模糊隸屬函數(shù)代替Heaviside 函數(shù)。模糊隸屬函數(shù)具備連續(xù)性和非突變性的特點(diǎn)[23-24],當(dāng)小參數(shù)發(fā)生細(xì)微變化時(shí),在指數(shù)函數(shù)規(guī)則下,對熵值的影響不大,因而有效地解決了熵變異問題,對噪聲具有更好的魯棒性,可以實(shí)現(xiàn)更精確的復(fù)雜性的度量。因此,本研究將模糊熵的算法應(yīng)用到睡眠腦電特征提取中,并建立機(jī)器學(xué)習(xí)自動分類模型,以實(shí)現(xiàn)呼吸暫停事件的快速識別。
本研究所提出方法的技術(shù)路線如圖1 所示。首先,對腦電信號進(jìn)行預(yù)處理,建立用于實(shí)驗(yàn)的樣本庫;然后,使用基于模糊熵的算法對呼吸暫停腦電信號進(jìn)行特征提取;最后,建立機(jī)器學(xué)習(xí)自動分類模型,對特征進(jìn)行分類,從而實(shí)現(xiàn)呼吸暫停事件的自動識別。
圖1 檢測方法技術(shù)路線框圖Fig.1 Block diagram of technical route of detection method
由于腦電信號幅值微弱,隨機(jī)性強(qiáng),極易受到噪聲影響,所以在特征提取前需要對腦電信號去噪。研究證明,巴特沃斯濾波器可以有效地用于處理非平穩(wěn)信號[25],因此,本研究采用了巴特沃斯濾波器對原始腦電信號進(jìn)行濾波。其中,巴特沃思濾波器的階數(shù)設(shè)置為4,通帶頻率設(shè)置為0.2~49 Hz。為了更精確地捕捉呼吸暫停期間腦電信號的變化,本研究按照腦電節(jié)律將腦電信號劃分為delta[0.25~4)、theta[4~8)、alpha[8~12)、sigma[12~16)和beta[16~49)Hz 等5 個(gè)子帶信號[12]。
模糊熵是衡量時(shí)間序列復(fù)雜性和規(guī)律性的一種分析方法[24],表達(dá)了當(dāng)維數(shù)變化時(shí),時(shí)間序列中產(chǎn)生新模式的概率大小,產(chǎn)生新模式的概率越大,序列越復(fù)雜,模糊熵的值也就越大。本研究中腦電模糊熵的定義如下:
對長度為N 的腦電信號{u(i)∶1≤i≤N},設(shè)嵌入維數(shù)為m,根據(jù)序列順序重構(gòu)生成一組m 維向量
式中:1≤i≤N-m+1,u0(i)定義為:
式中:n 和r 分別為模糊函數(shù)邊界的梯度和寬度。
定義函數(shù):
重復(fù)式(1)—式(5),構(gòu)造m+1 維向量
最后得到腦電信號模糊熵為:
本研究中設(shè)置m=2,n=3,r=0.15×std(std 為腦電信號標(biāo)準(zhǔn)差)。這樣,對于每個(gè)呼吸事件對應(yīng)的腦電片段,計(jì)算得到5 個(gè)模糊熵特征。
為避免使用單一分類模型帶來偶然性結(jié)果,本研究使用了k 最近鄰(k-nearest neighbors,KNN)、支持向量機(jī)(support vector machines,SVM)和隨機(jī)森林(random forest,RF)等3 種機(jī)器學(xué)習(xí)分類算法對呼吸事件進(jìn)行分類,所有的分類算法都在MATLAB R2018b 中設(shè)計(jì)完成。
KNN 是一種廣泛使用的機(jī)器學(xué)習(xí)分類算法[26]。它的基本思想是輸出樣本類別取決于該樣本k 個(gè)近鄰樣本的屬性,即在樣本空間中,如果某個(gè)樣本的大多數(shù)相鄰樣本都屬于一個(gè)類別,則該樣本也將被分類為這一類別。在本研究中,k 的值設(shè)置為7。
SVM 是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出的一種機(jī)器學(xué)習(xí)方法,具有嚴(yán)格的理論和數(shù)學(xué)基礎(chǔ),適用于解決小樣本、非線性和高維度的模式識別問題[27]。使用SVM 對目標(biāo)進(jìn)行分類的核心思想是尋求一個(gè)滿足分類要求的最優(yōu)超平面,使訓(xùn)練集中的點(diǎn)離超平面的距離盡可能的遠(yuǎn)。對于線性不可分離的數(shù)據(jù),在SVM 中使用核函數(shù)將低維空間中不可分離的特征向量映射到易于分離的高維特征空間。
RF 是一種基于分類樹的模型,具有良好的抗噪聲和抗過擬合性能[28]。它的基本原理是有放回的在樣本空間中抽取m 個(gè)樣本,構(gòu)建若干個(gè)相互獨(dú)立的決策樹。當(dāng)有新的樣本輸入時(shí),每個(gè)決策樹都會給出一個(gè)該樣本的分類結(jié)果,最終被最多決策樹輸出的類別作為隨機(jī)森林模型的輸出。
按照臨床中各類呼吸暫停事件發(fā)病率的比例,本研究數(shù)據(jù)集中阻塞性、混合性和中樞性呼吸暫停事件的組成比例為6∶3∶1。將構(gòu)建好的數(shù)據(jù)集以3∶1 的比例劃分為訓(xùn)練集和測試集,其中訓(xùn)練集采用10 折交叉驗(yàn)證的方法對機(jī)器學(xué)習(xí)模型進(jìn)行參數(shù)調(diào)優(yōu),測試集用來檢驗(yàn)?zāi)P偷姆诸愋Ч?。在模型的評價(jià)中使用了準(zhǔn)確率(A)、靈敏度(S)和精確度(P)等指標(biāo)。
(1)準(zhǔn)確率表示分類結(jié)果的總體正確率:
式中:TP表示陽性樣本中被模型預(yù)測為陽性的數(shù)量;TN表示陰性樣本中被模型預(yù)測為陰性的數(shù)量;FP表示陰性樣本中被模型預(yù)測為陽性的數(shù)量;FN表示陽性樣本中被模型預(yù)測為陰性的數(shù)量。以下同理。
(2)靈敏度又稱為查全率,表示所有在實(shí)際為陽性的樣本中被預(yù)測為陽性的概率:
(3)精準(zhǔn)度又叫查準(zhǔn)率,表示所有被預(yù)測為陽性的樣本中實(shí)際為陽性的概率:
為驗(yàn)證方法的可靠性,本研究使用了來自2 個(gè)獨(dú)立數(shù)據(jù)庫的腦電信號。其中,臨床數(shù)據(jù)來自于天津市胸科醫(yī)院睡眠監(jiān)測實(shí)驗(yàn)室,共包含了30 名被試(7 名女性和23 名男性)的4 701 段腦電信號片段。受試年齡范圍為37~78 歲;身體質(zhì)量指數(shù)在19.82~39.26 kg/m2范圍內(nèi);呼吸紊亂指數(shù)在8.2~68.9 范圍內(nèi);采樣率為100 Hz。公共數(shù)據(jù)庫數(shù)據(jù)來自柏林圣文森特大學(xué)睡眠障礙監(jiān)測實(shí)驗(yàn)室,共包含了25 名被試(4 名女性和21名男性)的3 200 段腦電信號片段。受試年齡范圍為32~51 歲;身體質(zhì)量指數(shù)在25.1~42.5 kg/m2范圍內(nèi);呼吸紊亂指數(shù)在1.7~90.9 范圍內(nèi);采樣率為128 Hz。2 個(gè)數(shù)據(jù)庫中的腦電采集都使用了C3-A2 和C4-A1 導(dǎo)聯(lián),并且由睡眠專家將腦電信號片段標(biāo)記為呼吸暫停事件和正常呼吸事件。腦電信號片段如圖2 所示。
圖2 腦電信號Fig.2 EEG signals
圖3 和圖4 分別展示了從公共數(shù)據(jù)庫和臨床腦電數(shù)據(jù)中提取的模糊熵特征值。
圖3 模糊熵特征值(公共數(shù)據(jù)庫)Fig.3 Features of fuzzy entropy(public data)
圖4 模糊熵特征值(臨床數(shù)據(jù))Fig.4 Features of fuzzy entropy(clinical data)
由圖3 和圖4 可以看出,對于子帶信號delta、theta 和alpha,呼吸暫停期間的腦電模糊熵低于正常呼吸時(shí)期;對于子帶信號sigma 和beta,呼吸暫停期間的腦電模糊熵高于正常呼吸時(shí)期。由此可見,腦電模糊熵特征能有效地表征呼吸暫停引起的腦電信號的變化。
考慮到腦電信號隨機(jī)性強(qiáng),不同個(gè)體之間差異往往比較大,為此本研究采用了2 個(gè)相互獨(dú)立的數(shù)據(jù)庫對所提出方法進(jìn)行驗(yàn)證,表1 和表2 分別呈現(xiàn)了基于數(shù)據(jù)庫和臨床數(shù)據(jù)的結(jié)果。
表1 公共數(shù)據(jù)庫分類結(jié)果Tab.1 Classification performance for public database
由表1 和表2 可以看出:
(1)基于雙導(dǎo)聯(lián)腦電信號,使用RF 模型在公共數(shù)據(jù)庫和臨床數(shù)據(jù)中取得的最高準(zhǔn)確率分別為93.25%和94.50%;
(2)對比不同導(dǎo)聯(lián)下的結(jié)果可以發(fā)現(xiàn),使用雙導(dǎo)聯(lián)腦電信號的呼吸暫停事件檢測效果要優(yōu)于使用任何一種單導(dǎo)聯(lián)腦電信號;
(3)對比不同分類器的結(jié)果可以看出,使用RF的效果優(yōu)于KNN 和SVM;
(4)采用相同導(dǎo)聯(lián)的腦電信號和分類器,對比基于公共數(shù)據(jù)和臨床數(shù)據(jù)得到的評價(jià)指標(biāo)可以看出,除了基于C4 導(dǎo)聯(lián)腦電信號的評價(jià)指標(biāo)的差距在5%左右,基于另外兩組腦電信號的差距都不超過2%,這表明本研究所提出的方法具有一定的穩(wěn)定性和可靠性。
為了客觀比較基于模糊熵和文獻(xiàn)中其他非線性動力學(xué)方法[17,21,29]的呼吸暫停事件的分類效果,本研究采用相同的模型評價(jià)指標(biāo),基于相同的腦電數(shù)據(jù)集,對本文提出的特征提取方法和文獻(xiàn)中已有的方法進(jìn)行驗(yàn)證,基于雙導(dǎo)聯(lián)腦電信號和RF 分類模型的結(jié)果如圖5 所示。
圖5 不同非線性方法結(jié)果對比Fig.5 Comparison of results of different nonlinear methods
由圖5 可以看出,和基于腦電關(guān)聯(lián)維數(shù)[17]的方法相比,本研究所提出的方法在2 個(gè)數(shù)據(jù)庫中的結(jié)果波動較小,具有更好的算法穩(wěn)定性;和樣本熵以及LZ 復(fù)雜度[29]等方法相比,基于模糊熵的方法在準(zhǔn)確率,精確度和靈敏度3 個(gè)模型評價(jià)指標(biāo)中都有了顯著提升。
本研究提出了一種基于腦電模糊熵的呼吸暫停事件檢測方法。在該方法中,根據(jù)腦電節(jié)律將腦電劃分成不同頻率的子帶信號,在子帶信號中提取模糊熵特征,作為機(jī)器學(xué)習(xí)分類模型的輸入,以區(qū)分睡眠呼吸暫停事件和正常呼吸事件。特征提取結(jié)果顯示,模糊熵可以有效地表征呼吸暫停引起的腦電信號的變化;分類結(jié)果表明,隨機(jī)森林模型在公共數(shù)據(jù)和臨床數(shù)據(jù)中分別取得了93.25%和94.50%的準(zhǔn)確率,并且具有更好的穩(wěn)定性。該研究使用單一腦電信號實(shí)現(xiàn)了呼吸暫停事件的快速檢測,可移植到便攜式呼吸暫停檢測設(shè)備中,以彌補(bǔ)醫(yī)用多導(dǎo)睡眠監(jiān)測無法家用普及的不足。