彭景,鄒憶懷,宿家銘,吳康,宋凡,陳星
1.北京中醫(yī)藥大學(xué)東直門醫(yī)院 a.腦病科;b.腎病內(nèi)分泌科;c.腦功能檢查室,北京 100700;2.北京航空航天大學(xué) 生物與醫(yī)學(xué)工程學(xué)院,北京 100191
頭暈是神經(jīng)內(nèi)科門診最常見的癥狀之一,在門診就診患者中占比5%~10%[1],其病因較復(fù)雜,且多種疾病均可引起頭暈,由于傳統(tǒng)MRI、CT等檢查方式的陽性率較低,且臨床上尚缺乏頭暈診斷的相關(guān)指南,導(dǎo)致頭暈的誤診率較高。經(jīng)顱多普勒超聲(Transcranial Doppler,TCD)檢查能夠?qū)Σ煌愋偷念^暈患者腦血流動(dòng)力學(xué)改變進(jìn)行分析,在實(shí)時(shí)監(jiān)測(cè)血流動(dòng)力學(xué)方面優(yōu)勢(shì)明顯,可作為頭暈患者常用的輔助檢查手段[2]。然而,臨床上TCD檢查顯示的某些腦血管異常情況與頭暈之間的關(guān)系尚不明確,導(dǎo)致研究結(jié)果存在差異,且TCD臨床診斷受醫(yī)生的主觀因素影響較大。因此,探尋一種能從個(gè)體水平預(yù)測(cè)頭暈的腦血流特征,對(duì)頭暈患者臨床診斷及療效判斷具有重要意義。
機(jī)器學(xué)習(xí)算法的提出,為從個(gè)體腦血流特征參數(shù)預(yù)測(cè)頭暈等疾病提供了可能,如周興偉[3]采用BP神經(jīng)網(wǎng)絡(luò)及最小二乘支持向量機(jī)理論實(shí)現(xiàn)了TCD信號(hào)的分類,并達(dá)到較滿意的分類正確率,表明使用機(jī)器學(xué)習(xí)聯(lián)合TCD預(yù)測(cè)腦血管相關(guān)疾病具有可行性。利用機(jī)器學(xué)習(xí)算法,計(jì)算機(jī)可以對(duì)現(xiàn)有知識(shí)進(jìn)行結(jié)構(gòu)劃分,并從繁雜的數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,檢測(cè)出難以識(shí)別的模式,已被廣泛用于關(guān)鍵特征的訓(xùn)練和識(shí)別,以及群體的分類中[4]。
機(jī)器學(xué)習(xí)算法包括支持向量機(jī)、邏輯回歸、多層感知機(jī)等,其中支持向量機(jī)是一種解決非線形和線形問題的機(jī)器學(xué)習(xí)工具[5],其嘗試在高維或無限維空間中構(gòu)造一個(gè)超平面或一組超平面,可用于分類、回歸或其他任務(wù)。在解決非線性問題時(shí),核函數(shù)可以用來向原始數(shù)據(jù)添加額外的維數(shù),從而使其在高維空間中成為線性可分問題。常用的核函數(shù)有多項(xiàng)式核函數(shù)、高斯核函數(shù)等,可以通過使用交叉驗(yàn)證,以嚴(yán)格的統(tǒng)計(jì)方法選擇出最優(yōu)的核函數(shù)[6]。邏輯回歸算法是機(jī)器學(xué)習(xí)中解決二元分類問題的一種常用方法,其使用Sigmoid函數(shù)作為研究中的預(yù)測(cè)函數(shù),通過線性函數(shù)y=wx+b的運(yùn)算來對(duì)輸入變量x和輸出變量y之間的關(guān)系進(jìn)行建模[7],y則通過Sigmoid函數(shù)轉(zhuǎn)換成標(biāo)簽化的結(jié)果,該函數(shù)閾值是一個(gè)可調(diào)節(jié)的參數(shù)。多層感知機(jī)屬于人工神經(jīng)網(wǎng)絡(luò),主要包括輸入層、隱藏層和輸出層[8],它中間可以有多個(gè)隱藏層。其作為一種簡(jiǎn)明有效的網(wǎng)絡(luò),能夠有效地優(yōu)化目標(biāo)函數(shù),提高模型準(zhǔn)確率[9]。
傳統(tǒng)機(jī)器學(xué)習(xí)算法具有模型簡(jiǎn)單、易于提取特征、小樣本結(jié)果穩(wěn)定等優(yōu)點(diǎn),但單一的機(jī)器學(xué)習(xí)模型所能解決的問題有限,需要較為復(fù)雜的特征工程,且泛化能力差。而集成學(xué)習(xí)[10]通過訓(xùn)練若干個(gè)弱學(xué)習(xí)器,經(jīng)過一定的結(jié)合策略最終形成一個(gè)強(qiáng)學(xué)習(xí)器來解決問題,能夠顯著提高學(xué)習(xí)系統(tǒng)的泛化能力[11]。此外,基于L2,1范數(shù)的稀疏特征選擇方法,使用各種不同的稀疏模型,使得被選擇出來的特征盡可能稀疏且具有判別性,從而進(jìn)一步提高機(jī)器學(xué)習(xí)模型識(shí)別精度[12]。
基于此,本研究旨在利用高魯棒性的L2,1范數(shù)有效提煉出預(yù)測(cè)頭暈患者的TCD血流特征參數(shù),并應(yīng)用機(jī)器學(xué)習(xí)模型從個(gè)體水平分類和預(yù)測(cè)頭暈患者,建立診斷模型,以期為頭暈的診斷與防治提供一定的理論依據(jù)。
選取2020年4月至2021年10月在北京中醫(yī)藥大學(xué)東直門醫(yī)院腦病科門診主訴頭暈并經(jīng)TCD檢查的患者41例,并選取同時(shí)期健康體檢者21例作為研究對(duì)象。頭暈診斷標(biāo)準(zhǔn)采用Troost[13]的方法(包括身體不穩(wěn)、虛弱無力等癥狀)。納入標(biāo)準(zhǔn):① 符合上述診斷標(biāo)準(zhǔn)的患者;② 病歷資料完整的患者;③ 已獲得患者或家屬的知情同意。排除標(biāo)準(zhǔn):① 前庭周圍性疾病、腦出血、中樞神經(jīng)系統(tǒng)脫髓鞘疾病、顱內(nèi)腫瘤、神經(jīng)系統(tǒng)病變、全身性疾病所致頭暈的患者;② 對(duì)檢查不配合或不能有效完成檢查的患者。共納入男性27例,女性35例,其中頭暈組年齡(53.98±11.25)歲,體檢組年齡(50.71±7.96)歲,兩組受試者年齡(t=-1.18,P=0.24)、性別(χ2=0.214,P=0.64)比較差異均無統(tǒng)計(jì)學(xué)意義。本研究經(jīng)北京中醫(yī)藥大學(xué)東直門醫(yī)院倫理委員會(huì)審核批準(zhǔn)(倫理號(hào):DZMEC-KY-2019-180)。
TCD檢查:采用美國(guó)Natus公司生產(chǎn)的TCD診斷儀(型號(hào):SONARA/tek),探頭頻率2 MHz。通過顳窗、眼窗和枕窗,分別記錄雙側(cè)大腦中動(dòng)脈、雙側(cè)頸內(nèi)動(dòng)脈終末段、雙側(cè)頸內(nèi)動(dòng)脈虹吸段、雙側(cè)大腦前動(dòng)脈、雙側(cè)大腦后動(dòng)脈、雙側(cè)椎動(dòng)脈、基底動(dòng)脈近遠(yuǎn)端的血流信號(hào),測(cè)量以上14個(gè)血管部位的收縮期峰值流速(Peak Systolic Velocity,Vs)、舒張期末期流速(End Diastolic Velocity,Vd)、平均流速(Mean Velocity,Vm)、搏動(dòng)指數(shù)(Pulsatility Index,PI)、阻力指數(shù)(Resistance Index,RI),并根據(jù)有無頭暈癥狀分別賦值“0”和“1”(頭暈患者賦值“0”,健康體檢者賦值“1”)構(gòu)建數(shù)據(jù)集。圖1為1例典型頭暈患者的TCD血流特征參數(shù)圖。
圖1 1例典型頭暈患者的經(jīng)顱多普勒血流特征參數(shù)圖
1.3.1 數(shù)據(jù)集劃分
按照自然比例,將所有研究對(duì)象隨機(jī)劃分為10份,其中8份作為訓(xùn)練集,2份作為測(cè)試集。為解決正負(fù)樣本不平衡問題,使用SMOTE算法通過構(gòu)造新的小類樣本進(jìn)行訓(xùn)練集的數(shù)據(jù)擴(kuò)增,并進(jìn)行訓(xùn)練集數(shù)據(jù)平衡,使兩類訓(xùn)練集上數(shù)據(jù)變?yōu)?∶1。
1.3.2 特征選擇
1.3.3 模型建立與評(píng)價(jià)
特征選擇完成后,采用3種獨(dú)立機(jī)器學(xué)習(xí)算法及1種集成學(xué)習(xí)算法構(gòu)建頭暈的TCD輔助診斷模型,包括邏輯回歸、支持向量機(jī)和多層感知機(jī),以及將上述3種獨(dú)立分類器進(jìn)行集成學(xué)習(xí)(軟投票方法:即將上述3種單一分類器的投票結(jié)果乘以一個(gè)權(quán)重wi,再將所有乘以權(quán)重后的結(jié)果求和,最終以最大的票數(shù)類別作為集成模型最終的預(yù)測(cè)類別)。對(duì)于模型的超參數(shù),在訓(xùn)練集上進(jìn)行5折交叉驗(yàn)證,通過平均受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under Curve,AUC)值,以及網(wǎng)格搜索法來選擇機(jī)器學(xué)習(xí)模型的超參數(shù);然后基于訓(xùn)練集進(jìn)行模型的構(gòu)建,再基于測(cè)試集對(duì)構(gòu)建的分類器模型分別進(jìn)行預(yù)測(cè)。并使用總體正確率(Accuracy,ACC)、AUC值評(píng)價(jià)模型性能。
SPSS 20.0為統(tǒng)計(jì)學(xué)處理方式,機(jī)器學(xué)習(xí)特征選擇與模型建立均使用Python 3.9進(jìn)行。
使用L2,1范數(shù)方法共提取出29個(gè)特征,圖2展示了權(quán)重由大到小的前10個(gè)特征,依次為:右側(cè)椎動(dòng)脈舒張末期流速(Right Vertebral Artery End Diastolic Flow Velocity,Vd-RVA)、右側(cè)大腦中動(dòng)脈收縮期峰值流速(Right Middle Cerebral Artery Peak Systolic Flow Velocity,Vs-RMCA)、右側(cè)椎動(dòng)脈收縮期峰值流速(Right Vertebral Artery Peak Systolic Flow Velocity,Vs-RVA)、右側(cè)椎動(dòng)脈阻力指數(shù)(Right Vertebral Artery Resistance Index,RI-RVA)、右側(cè)大腦中動(dòng)脈舒張末期流速(Right Middle Cerebral Artery End Diastolic Flow Velocity,Vd-RMCA)、右側(cè)大腦中動(dòng)脈阻力指數(shù)(Right Middle Cerebral Artery Resistance Index,RIRMCA)、左側(cè)大腦后動(dòng)脈搏動(dòng)指數(shù)(Left Posterior Cerebral Artery Pulsatility Index,PI-LPCA)、右側(cè)頸內(nèi)動(dòng)脈終末端阻力指數(shù)(Right Internal Carotid Artery Resistance Index,RIRICA)、右側(cè)大腦后動(dòng)脈阻力指數(shù)(Right Posterior Cerebral Artery Resistance Index,RI-RPCA)、右側(cè)大腦后動(dòng)脈搏動(dòng)指 數(shù)(Right Posterior Cerebral Artery Pulsatility Index,PIRPCA)。
圖2 區(qū)分頭暈患者排名前10的腦血流特征及其權(quán)重情況
本研究基于邏輯回歸、支持向量機(jī)和多層感知機(jī)3種獨(dú)立分類器,以及基于上述3種單一分類器軟投票方法的集成學(xué)習(xí)算法進(jìn)行模型構(gòu)建,其模型評(píng)價(jià)結(jié)果如表1所示。由表1可知,在對(duì)頭暈患者的TCD血流數(shù)據(jù)的預(yù)判上,單一分類器中邏輯回歸的效果最好,其ACC達(dá)到了0.750,與集成學(xué)習(xí)模型的效果相同,其次為支持向量機(jī)和多層感知機(jī),其ACC均為0.667。圖3顯示的是各個(gè)分類器模型在訓(xùn)練集上的ROC曲線。由圖3可知,在訓(xùn)練集上采用5折交叉驗(yàn)證的集成學(xué)習(xí)模型平均AUC值達(dá)到了最高,其次為多層感知機(jī)、邏輯回歸和支持向量機(jī)。圖4顯示的是各個(gè)分類器模型在測(cè)試集中的ROC曲線,由圖4可知,4種機(jī)器學(xué)習(xí)方法AUC值排名依次是集成學(xué)習(xí)為0.906,邏輯回歸為0.875,支持向量機(jī)和多層感知機(jī)均為0.844。
圖3 4種分類器模型在訓(xùn)練集中的ROC曲線
圖4 4種分類器模型在測(cè)試集中的ROC曲線
表1 4種分類器模型的訓(xùn)練集及測(cè)試集ACC和AUC值
TCD檢查在腦血管疾病的診斷中具有簡(jiǎn)單、易行、可重復(fù)、無創(chuàng)、經(jīng)濟(jì)等優(yōu)點(diǎn),對(duì)于可能存在腦血流動(dòng)力學(xué)改變的頭暈患者是較適用的臨床輔助檢查工具[16]。截至目前,TCD血流特征參數(shù)與頭暈的相關(guān)性研究多采用傳統(tǒng)的單變量分析方法,側(cè)重于組水平患者TCD血流信號(hào)與頭暈之間的統(tǒng)計(jì)關(guān)系[17-18]。但是,從個(gè)體水平識(shí)別頭暈患者血流動(dòng)力學(xué)的改變可以提供豐富的隱藏信息。因此,本研究從個(gè)體水平探究了TCD所示的腦血流參數(shù)異常與頭暈之間的關(guān)系,創(chuàng)新性地將L2,1范數(shù)方法運(yùn)用于頭暈患者腦血流參數(shù)的特征選擇,并運(yùn)用邏輯回歸、支持向量機(jī)和多層感知機(jī)3個(gè)獨(dú)立的分類器及軟投票的集成學(xué)習(xí)進(jìn)行模型構(gòu)建。
基于L2,1范數(shù)方法數(shù)據(jù)分析顯示,按權(quán)重大小篩選出的前10個(gè)關(guān)鍵特征變量作為TCD檢查中腦血流改變的關(guān)鍵特征,對(duì)頭暈患者的診斷具有重要指導(dǎo)意義。首先,由圖2可知,頭暈患者腦血流動(dòng)力學(xué)改變以椎基底動(dòng)脈為主,包括權(quán)重比較靠前的Vd-RVA、Vs-RVA和RI-RVA等。椎基底動(dòng)脈系統(tǒng)為小腦、腦干等中樞前庭系統(tǒng)和內(nèi)耳等外周前庭系統(tǒng)的主要供血來源,其發(fā)育不良或動(dòng)脈粥樣硬化等病變導(dǎo)致血管狹窄或閉塞而出現(xiàn)的血流動(dòng)力學(xué)出現(xiàn)異常是頭暈患者腦血流動(dòng)力學(xué)改變的主要形式[19-20]。此外,屬于頸內(nèi)動(dòng)脈系統(tǒng)的大腦中動(dòng)脈、大腦后動(dòng)脈、頸內(nèi)動(dòng)脈終末段血流流速異常也是區(qū)分頭暈患者和健康者的重要特征。頸內(nèi)動(dòng)脈系統(tǒng)提供全腦血供的3/5,當(dāng)頸內(nèi)動(dòng)脈系統(tǒng)出現(xiàn)嚴(yán)重狹窄或閉塞時(shí),顱內(nèi)血液可通過前、后交通動(dòng)脈重新分布,或通過其他側(cè)支開放供應(yīng)前循環(huán),腦干會(huì)顯示出“顱內(nèi)盜血綜合征”[21],同樣可以造成椎基底動(dòng)脈供血不足致頭暈的表現(xiàn)。曹麗芝[22]探究235例頭暈患者腦血流動(dòng)力學(xué)改變,結(jié)果認(rèn)為椎基底動(dòng)脈系統(tǒng)的收縮期峰值流速降低以及大腦中動(dòng)脈、大腦前動(dòng)脈的收縮期峰值流速增快為主要表現(xiàn),且劉菊華[23]對(duì)180例頭暈患者行TCD檢查發(fā)現(xiàn),受累最多的部位是椎基底動(dòng)脈系統(tǒng),其次為頸動(dòng)脈系統(tǒng),與本研究結(jié)果一致。除腦血管流速改變外,頭暈患者異常腦血流特征參數(shù)還包括RI和PI。TCD的RI可反映外周血管對(duì)血流阻力的變化,PI則是評(píng)價(jià)血管阻力及腦血流灌注狀況的指標(biāo),可反映血管的順應(yīng)性。本研究結(jié)果顯示,后循環(huán)RI變化對(duì)于區(qū)分頭暈患者占有更大的權(quán)重。正常情況下,血管在收縮期時(shí),心臟射血導(dǎo)致血管管腔變大,此時(shí)血管阻力變小,若血管阻力出現(xiàn)異常,即RI值異常增大,提示管腔變小,血管很可能發(fā)生了阻塞或狹窄而導(dǎo)致后循環(huán)腦血流灌注不足導(dǎo)致頭暈甚至腦梗死的征兆[24]。
對(duì)于模型的建立,本研究同時(shí)將邏輯回歸、支持向量機(jī)和多層感知機(jī)3種獨(dú)立分類器進(jìn)行集成學(xué)習(xí),達(dá)到了最高的分類ACC及AUC值,提示集成學(xué)習(xí)方法更適合于頭暈患者TCD血流特征的分類和預(yù)測(cè),具有較好的效能。集成學(xué)習(xí)的優(yōu)勢(shì)之一為其可以通過一定的集成策略將多個(gè)弱分類器的結(jié)果整合在一起,其集成過程可以降低過擬合的風(fēng)險(xiǎn),提高數(shù)據(jù)集的泛化水平和分類器的泛化能力,從而達(dá)到更好的集成學(xué)習(xí)精度[25]。目前集成學(xué)習(xí)作為一種可以最大化提升學(xué)習(xí)效果的技術(shù),推動(dòng)了醫(yī)療健康等諸多領(lǐng)域的發(fā)展,廣泛應(yīng)用于疾病輔助診斷系統(tǒng)、人類行為識(shí)別、人臉識(shí)別[26]等領(lǐng)域。此外,表1結(jié)果顯示,邏輯回歸和支持向量機(jī)模型測(cè)試集AUC值高于訓(xùn)練集,推測(cè)原因?yàn)樵谟?xùn)練集和測(cè)試集同分布情況下樣本量有限所致,但綜合分類結(jié)果ACC值,整體上訓(xùn)練集結(jié)果優(yōu)于測(cè)試集。
本研究運(yùn)用L2,1范數(shù)的機(jī)器學(xué)習(xí)法對(duì)頭暈患者TCD血流動(dòng)力學(xué)參數(shù)進(jìn)行識(shí)別,發(fā)現(xiàn)頭暈與椎基底動(dòng)脈、大腦中動(dòng)脈、大腦后動(dòng)脈、頸內(nèi)動(dòng)脈終末段等血流動(dòng)力學(xué)改變密切相關(guān),且利用集成學(xué)習(xí)法能夠結(jié)合多個(gè)模型算法,從而建立較為精確的診斷模型。