国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)算法建立2型糖尿病患者冠心病輔助診斷模型

2022-04-16 01:57:36黃浩東劉小株張祖躍向天雨
關(guān)鍵詞:谷草轉(zhuǎn)氨酶分類(lèi)

黃浩東 劉小株 龔 軍 劉 杰 張祖躍 向天雨

(1重慶醫(yī)科大學(xué)醫(yī)學(xué)數(shù)據(jù)研究院,2醫(yī)學(xué)信息學(xué)院 重慶 400016;3重慶醫(yī)科大學(xué)附屬大學(xué)城醫(yī)院信息中心 重慶 401331)

2型糖尿病是一種胰島素分泌不足、胰島素作用效果差或兩者兼而有之的慢性代謝性疾病。隨著我國(guó)居民生活方式的改變與人口老齡化的加劇,截至2019年我國(guó)糖尿病患者數(shù)量達(dá)到了1.16億[1]。盡管對(duì)于糖尿病是先于冠心病發(fā)生還是在疾病早期并存的問(wèn)題仍有爭(zhēng)議,但糖尿病引起的氧化應(yīng)激、晚期糖基化終末產(chǎn)物和慢性炎癥反應(yīng)對(duì)血管內(nèi)皮功能有害,從而導(dǎo)致心血管疾病的觀(guān)點(diǎn)已被廣泛接受[2],這表明2型糖尿病是發(fā)生微血管和大血管并發(fā)癥的主要危險(xiǎn)因素。糖尿病患者發(fā)生心血管疾病的相對(duì)風(fēng)險(xiǎn)比非糖尿病患者高2~4倍[3-4],冠心病是其中最嚴(yán)重的并發(fā)癥之一,且與非糖尿病的冠心病患者相比,2型糖尿病患者癥狀往往不典型,可能是因?yàn)?型糖尿病患者常伴有嚴(yán)重的自主神經(jīng)功能障礙[5-6],使得機(jī)體痛閾值增高,即使發(fā)生嚴(yán)重心肌缺血,患者心絞痛癥狀也不明顯。冠狀動(dòng)脈造影術(shù)雖是診斷冠心病的金標(biāo)準(zhǔn),但屬于有創(chuàng)性檢查,且價(jià)格昂貴、操作復(fù)雜、易產(chǎn)生不良反應(yīng),加之2型糖尿病患者痛閾值較高、患病早期無(wú)明顯疼痛感,易導(dǎo)致疾病治療延誤。因此,本研究從數(shù)據(jù)驅(qū)動(dòng)的角度,使用機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)相關(guān)理論方法,對(duì)行冠狀動(dòng)脈造影術(shù)的2型糖尿病患者建立分類(lèi)模型,以輔助診斷是否合并冠心病。

資料和方法

數(shù)據(jù)來(lái)源數(shù)據(jù)來(lái)源于重慶醫(yī)科大學(xué)醫(yī)學(xué)大數(shù)據(jù)平臺(tái),該平臺(tái)匯集了重慶7家醫(yī)療中心的電子病歷數(shù)據(jù),所有數(shù)據(jù)均已脫敏。本研究納入2014年1月1日至2019年12月31日入院行冠狀動(dòng)脈造影術(shù)的2型糖尿病患者。納入標(biāo)準(zhǔn):(1)既往史中有明確的2型糖尿病的患病年數(shù)以及控糖史;(2)住院期間行冠狀動(dòng)脈造影手術(shù)且造影記錄保存完整。排除標(biāo)準(zhǔn):(1)糖尿病急性并發(fā)癥、妊娠期糖尿病以及近期(半年以?xún)?nèi))確診2型糖尿??;(2)患風(fēng)濕性心臟病、系統(tǒng)性紅斑狼瘡等自身免疫??;(3)合并癌癥;(4)既往已被診斷為冠心??;(5)嚴(yán)重器官衰竭;(6)全身性感染。共計(jì)納入944例2型糖尿病患者,根據(jù)冠狀動(dòng)脈造影情況分為2型糖尿病合并冠狀動(dòng)脈狹窄<50%(T 2DM組,229例)和2型糖尿病合并冠狀動(dòng)脈狹窄≥50%(T 2DM-CAD組,715例)。T 2DM組中男性94例,女性135例,年齡33~87歲;T 2DM-CAD組中男性422例,女性293例,年齡34~90歲。

指標(biāo)選取根據(jù)冠心病臨床指南和2型糖尿病合并冠心病相關(guān)研究[7-9]收集患者行冠狀動(dòng)脈造影術(shù)前的35項(xiàng)指標(biāo),包括一般資料(如年齡、性別、合并癥等)和患者入院后第一次檢驗(yàn)的實(shí)驗(yàn)室指標(biāo)(如尿常規(guī)、肝腎功能、血脂指標(biāo)等)。

統(tǒng)計(jì)學(xué)處理采用SPSS 25.0和R3.6.1進(jìn)行統(tǒng)計(jì)分析,缺失指標(biāo)使用missForest算法填補(bǔ)。采用Matchit包的鄰近匹配(nearest neighbor matching)方法對(duì)收集的原數(shù)據(jù)按照性別、年齡和是否合并高血壓進(jìn)行傾向評(píng)分匹配(propensity score matching,PSM),卡鉗值設(shè)定為0.02,T 2DM組與T 2DMCAD組按1∶2匹配。采用KS方法檢驗(yàn)計(jì)量資料的正態(tài)性,計(jì)量資料以x±s或M(P25,P75)表示,組間比較采用t檢驗(yàn)或Mann-Whitney U檢驗(yàn);計(jì)數(shù)資料以例(%)表示,組間比較采用χ2檢驗(yàn)。將兩組間有差異的指標(biāo)納入逐步向前Logistic回歸(α入=0.05,α出=0.10)分析2型糖尿病合并冠心病的危險(xiǎn)因素,具體變量名與賦值如表1所示。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。

表1 變量賦值Tab 1 Variables and their assignments

機(jī)器學(xué)習(xí)模型構(gòu)建分類(lèi)模型構(gòu)建采用python 3.8.5版本、anaconda3集成開(kāi)發(fā)環(huán)境。將數(shù)據(jù)按4∶1分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于分類(lèi)模型的構(gòu)建。采用Scikit-learn包分別構(gòu)建Logistic回歸模型、隨機(jī)森林(Random Forest,RF)模型、支持向量(Support Vector Machine,SVM)模型和極限梯度上升(eXtreme Gradient Boosting,XGB)模型。采用 bayes_opt包 中 貝 葉 斯 優(yōu) 化(Bayesian Optimization,BO)算法分別優(yōu)化XGB算法5個(gè)主要超 參 數(shù) n_estimators、subsample、max_depth、learning_rate和min_chid_weight;RF算法3個(gè)主要超 參 數(shù) n_estimators、min_samples_split、max_features;SVM算法2個(gè)主要超參數(shù)C和gamma以及Logistic回歸超參數(shù)C,設(shè)定尋找模型最大AUC對(duì)建立的4種機(jī)器學(xué)習(xí)模型進(jìn)行參數(shù)優(yōu)化。

模型評(píng)估采用5折交叉驗(yàn)證法和驗(yàn)證集評(píng)估模型性能,評(píng)價(jià)指標(biāo)為準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)、ROC曲線(xiàn)下面積(AUC),以F1分?jǐn)?shù)和AUC的最大值判斷模型是否為最優(yōu)模型。

結(jié) 果

匹配前后兩組基線(xiàn)資料比較T 2DM-CAD組匹配前后,冠狀動(dòng)脈單支病變分別為218例(30.49%)和115例(29.56%),冠狀動(dòng)脈兩支病變分別為199例(27.83%)和101例(25.96%),冠狀動(dòng)脈三支病變298例(41.68%)和173例(44.47%)。匹配后T 2DM病程、心率、吸煙史、糖尿病腎病差異有統(tǒng)計(jì)學(xué)意義(P<0.05),其余基線(xiàn)資料差異無(wú)統(tǒng)計(jì)學(xué)意義(表2)。匹配后共篩選出610例患者,其中T 2DM-CAD組389例,T 2DM組221例(表2,圖1)。

表2 匹配前后兩組基線(xiàn)指標(biāo)對(duì)比Tab 2 Comparison of baseline indicators between the two groupsbefore and after matching

圖1 根據(jù)PSM篩選與剔除的患者傾向評(píng)分分布圖Fig 1 Distribution of patient propensity scores screened and excluded according to PSM

單因素分析結(jié)果共納入22項(xiàng)指標(biāo),包括4項(xiàng)基線(xiàn)指標(biāo)和18項(xiàng)檢驗(yàn)指標(biāo)。單因素分析結(jié)果顯示,兩組間T 2DM病程、心率等20項(xiàng)指標(biāo)差異有統(tǒng)計(jì)學(xué)意義(P<0.05),谷氨酰轉(zhuǎn)肽酶和谷丙轉(zhuǎn)氨酶差異無(wú)統(tǒng)計(jì)學(xué)意義(表3)。

表3 T2DM組與T2DM-CAD組相關(guān)指標(biāo)的單因素分析Tab 3 Univariate analysis of related indexes in T2DM group and T2DM-CAD group

Logistic回歸分析結(jié)果將單因素分析有意義的20個(gè)指標(biāo)進(jìn)行逐步向前Logistic回歸分析,其中11個(gè)變量納入最佳回歸方程(表4)。

機(jī)器學(xué)習(xí)模型結(jié)果將表4中的11項(xiàng)指標(biāo)納入4種機(jī)器學(xué)習(xí)分類(lèi)模型,并用BO算法優(yōu)化4種分類(lèi)模型,結(jié)果顯示當(dāng)n_estimators=2、min_samples_split=10、max_features=69時(shí)(表5),無(wú)論是5折交叉驗(yàn)證結(jié)果還是單獨(dú)的驗(yàn)證集,RF算法性能最優(yōu)(表6~7)。圖2為4種分類(lèi)模型的5折交叉驗(yàn)證ROC曲線(xiàn)圖。

圖2 4種分類(lèi)模型5折交叉驗(yàn)證ROC曲線(xiàn)圖Fig 2 5-fold cross-validation ROC of 4 classification models

表4 2型糖尿病合并冠心病差異性指標(biāo)Logistic回歸分析結(jié)果Tab 4 Logistic regression analysis results of difference index of type 2 diabetes mellitus complicated with coronary heart disease

表5 參數(shù)選擇與優(yōu)化Tab 5 Parameter selection and optimization

表6 4種機(jī)器學(xué)習(xí)模型5折交叉驗(yàn)證性能評(píng)價(jià)表Tab 6 Performance evaluation table of 4 machine learning models by 5-fold cross-validation

討 論

本研究對(duì)行冠狀動(dòng)脈造影術(shù)的2型糖尿病患者就診數(shù)據(jù)進(jìn)行回顧性分析。由于存在選擇偏倚,因此采用“PSM+單因素分析+多因素分析”篩選出2型糖尿病合并冠心病的危險(xiǎn)因素,并比較了Logistic回歸、SVM、RF、XGB4種分類(lèi)算法性能,為2型糖尿病在慢病管理中是否發(fā)生合并癥(本文為冠心病)提供了研究思路,有利于及早啟動(dòng)冠心病的二級(jí)預(yù)防,減少致死性心血管事件的發(fā)生。

表7 4種機(jī)器學(xué)習(xí)模型在驗(yàn)證集中的性能評(píng)價(jià)表Tab 7 Performance evaluation table of four machine learning models in validation set

本研究篩選出的2型糖尿病合并冠心病的11項(xiàng)危險(xiǎn)因素,包括心率、吸煙、糖尿病腎病、血肌酐、甘油三酯、脂蛋白a、白蛋白、總膽紅素、谷草轉(zhuǎn)氨酶、糖化血紅蛋白和尿糖。其中血肌酐、糖尿病腎病、尿糖、谷草轉(zhuǎn)氨酶在既往研究中報(bào)道較少。血肌酐在臨床上常用于評(píng)估腎臟功能是否正常,糖尿病腎病是糖尿病最主要的微血管并發(fā)癥之一[10],尿糖可作為檢測(cè)糖尿病患者早期腎損傷的標(biāo)志物。高濃度血肌酐、合并糖尿病腎病、出現(xiàn)尿糖現(xiàn)象都表明患者腎功能下降[11],腎功能降低可增加冠心病風(fēng)險(xiǎn)[12-13]。Salim等[14]對(duì)非糖尿病新加坡華人進(jìn)行了一項(xiàng)病例對(duì)照研究,發(fā)現(xiàn)在傳統(tǒng)危險(xiǎn)因素中添加血肌酐可以更好地預(yù)測(cè)冠心病患病風(fēng)險(xiǎn),這與本研究相符合。谷草轉(zhuǎn)氨酶主要分布于心肌細(xì)胞中,約80%的谷草轉(zhuǎn)氨酶作為一種非特異性的細(xì)胞內(nèi)功能酶存在于心肌細(xì)胞的線(xiàn)粒體中。心肌損傷時(shí),線(xiàn)粒體受損,谷草轉(zhuǎn)氨酶顯著升高[15-16]。因此,谷草轉(zhuǎn)氨酶可以反映心肌細(xì)胞損傷的嚴(yán)重程度。研究表明谷草轉(zhuǎn)氨酶與冠心病及其嚴(yán)重程度呈正相關(guān),可以將該指標(biāo)納入各種冠心病風(fēng)險(xiǎn)預(yù)測(cè)模型[17-19]。而在本研究中谷草轉(zhuǎn)氨酶為2型糖尿病合并冠心病的獨(dú)立危險(xiǎn)因素,說(shuō)明對(duì)于2型糖尿病患者,谷草轉(zhuǎn)氨酶依然可以作為鑒別冠心病的一種生物標(biāo)志物。而其余的7項(xiàng)危險(xiǎn)因素,包括心率、吸煙、甘油三酯、脂蛋白a、白蛋白、總膽紅素、糖化血紅蛋白,在2型糖尿病合并冠心病的研究報(bào)道中多見(jiàn),與本研究的結(jié)論相似[7,20-24]。

雖然利用機(jī)器學(xué)習(xí)模型對(duì)冠心病進(jìn)行疾病診斷已有較多研究[25-27],但都存在以下缺點(diǎn):(1)冠心病起因不同,應(yīng)分人群研究;(2)對(duì)照組與研究組同質(zhì)性不高;(3)對(duì)照組缺少冠心病風(fēng)險(xiǎn)評(píng)估,而患者做過(guò)冠狀動(dòng)脈造影術(shù)、冠狀動(dòng)脈CT成像等,冠心病評(píng)估準(zhǔn)確性較高。本研究基于冠狀動(dòng)脈造影術(shù)選取糖尿病患者群,根據(jù)造影結(jié)果分為兩組,同質(zhì)性高,在一定程度上解決了以上缺點(diǎn)。本研究也是國(guó)內(nèi)首次從機(jī)器學(xué)習(xí)的角度判斷2型糖尿病患者是否發(fā)生冠心病的綜合性研究。在機(jī)器學(xué)習(xí)參數(shù)調(diào)優(yōu)中,只能看到模型的輸入和輸出,所以很難通過(guò)求導(dǎo)和凸優(yōu)化的方法來(lái)選擇模型最佳超參數(shù)。以往通常是通過(guò)經(jīng)驗(yàn)來(lái)選擇超參數(shù),然而這種方式往往得不到性能最優(yōu)的機(jī)器學(xué)習(xí)模型。BO算法[28]可以很好地解決該問(wèn)題,其思想為使用貝葉斯網(wǎng)格概率模型來(lái)顯式反映變量之間的依賴(lài)關(guān)系及可行解的分布,具體步驟為利用先驗(yàn)知識(shí)逼近未知函數(shù)的后驗(yàn)分布從而調(diào)節(jié)超參數(shù)。XGB算法[29]是以CART回歸樹(shù)模型為基分類(lèi)器的一種提升學(xué)習(xí)算法,是當(dāng)前比較前沿的基于boosting思想的集成學(xué)習(xí)算法。SVM算法[30]的目的是尋找一個(gè)超平面對(duì)樣本數(shù)據(jù)進(jìn)行分割,然后轉(zhuǎn)換為凸二次規(guī)劃問(wèn)題來(lái)求解,并且SVM算法在處理線(xiàn)性和非線(xiàn)性數(shù)據(jù)的小樣本條件下具有良好的學(xué)習(xí)能力。LR算法使用Sigmoid函數(shù)作為預(yù)測(cè)函數(shù)。輸入變量x通過(guò)線(xiàn)性函數(shù)輸出變量y,然后輸出變量y通過(guò)Sigmoid函數(shù)轉(zhuǎn)換為帶標(biāo)簽的結(jié)果,有著計(jì)算速度快、可解釋性好、易于擴(kuò)展和實(shí)現(xiàn)的特點(diǎn)。RF算法由決策樹(shù)作為基分類(lèi)器,是一種結(jié)合了Bagging集成學(xué)習(xí)理論和隨機(jī)子空間方法的集成學(xué)習(xí)算法[31]。以上4種分類(lèi)算法在目前疾病風(fēng)險(xiǎn)預(yù)測(cè)與疾病診斷中運(yùn)用最多。在本研究中,優(yōu)化后的RF模型(5折交叉驗(yàn)證:AUC=0.811,測(cè)試集:AUC=0.810)分類(lèi)性能優(yōu)于優(yōu)化后的Logistic回歸模型(5折交叉驗(yàn)證:AUC=0.763,測(cè)試集:AUC=0.707)、SVM模型(5折交叉驗(yàn)證:AUC=0.789,測(cè)試集:AUC=0.702)與XGB模型(5折交叉驗(yàn) 證:AUC=0.751,測(cè) 試 集:AUC=0.709),而Logistic回歸模型、SVM模型和XGB模型3者分類(lèi)性能相差不大。RF算法具有分類(lèi)精度高、運(yùn)算速度快、魯棒性好等優(yōu)點(diǎn)。在一些樣本量和指標(biāo)數(shù)與本研究相似的研究中,RF算法的分類(lèi)性能表現(xiàn)為最優(yōu)[32-33],與本研究結(jié)果相似。

本研究存在一定的局限性:首先,MissForest算法對(duì)混合型缺失數(shù)據(jù)插補(bǔ)后為優(yōu)良數(shù)據(jù)的缺失極限是缺失值<30%[34],因此本研究未納入缺失值>30%的指標(biāo)(如BMI、血清C肽)。其次,本研究為回顧性臨床研究,且模型缺少外部驗(yàn)證,結(jié)果需要進(jìn)一步驗(yàn)證。最后,本研究建立的模型召回率較低,臨床應(yīng)用有一定的局限性。

綜上,本研究基于2型糖尿病患者就診數(shù)據(jù),篩選出11項(xiàng)冠心病危險(xiǎn)因素,并基于危險(xiǎn)因素建立風(fēng)險(xiǎn)分類(lèi)模型,研究結(jié)果得出貝葉斯優(yōu)化后的RF算法具有較好的分類(lèi)能力??蓪⒈狙芯拷⒌哪P颓度肱R床決策支持系統(tǒng),實(shí)現(xiàn)2型糖尿病患者在內(nèi)分泌科就診時(shí)收到冠心病風(fēng)險(xiǎn)提示以減少漏診。

作者貢獻(xiàn)聲明黃浩東 研究設(shè)計(jì)和實(shí)施,論文構(gòu)思和撰寫(xiě)。劉小株,龔軍 研究實(shí)施,數(shù)據(jù)采集和整理。劉杰,張祖躍 研究設(shè)計(jì),論文修訂。向天雨 研究選題和設(shè)計(jì),論文終審。

利益沖突聲明所有作者均聲明不存在利益沖突。

猜你喜歡
谷草轉(zhuǎn)氨酶分類(lèi)
獻(xiàn)血體檢時(shí)的“轉(zhuǎn)氨酶”究竟是啥?
人人健康(2022年17期)2022-11-26 09:18:36
草樹(shù)(散文)
作品(2022年10期)2022-10-28 07:51:34
復(fù)合菌劑對(duì)干谷草發(fā)酵品質(zhì)及營(yíng)養(yǎng)價(jià)值的影響
分類(lèi)算一算
飲食因素對(duì)谷丙轉(zhuǎn)氨酶測(cè)值的影響
肝博士(2020年5期)2021-01-18 02:50:22
無(wú)償獻(xiàn)血采血點(diǎn)初篩丙氨酸轉(zhuǎn)氨酶升高的預(yù)防及糾正措施研究
分類(lèi)討論求坐標(biāo)
微生物厭氧發(fā)酵處理對(duì)張雜谷谷草分子結(jié)構(gòu)特征和營(yíng)養(yǎng)成分的影響
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
米脂县| 丹江口市| 托克托县| 南丹县| 治县。| 昌邑市| 太湖县| 定日县| 耒阳市| 青龙| 康定县| 江山市| 道孚县| 锦州市| 垦利县| 康乐县| 明水县| 绥棱县| 乌鲁木齐县| 津市市| 来宾市| 长顺县| 伽师县| 定州市| 沁源县| 北京市| 五家渠市| 马边| 金沙县| 桓台县| 平凉市| 西昌市| 胶州市| 麻阳| 武冈市| 西和县| 尚志市| 商水县| 会宁县| 环江| 二连浩特市|