加權(quán)隨機(jī)森林和代價(jià)敏感支持向量機(jī)與心衰患者死亡風(fēng)險(xiǎn)評(píng)估*

2022-09-14 09:28孟冰霞羅艷虹韓清華張巖波

中國衛(wèi)生統(tǒng)計(jì) 2022年3期

楊弘田晶孟冰霞張瑜羅艷虹王可鄭楚韓清華△ 張巖波，3△

【提要】目的探討加權(quán)隨機(jī)森林和代價(jià)敏感支持向量機(jī)模型在慢性心衰死亡風(fēng)險(xiǎn)評(píng)估中的應(yīng)用。方法利用AUC-RF自變量篩選方法選出與心衰死亡的相關(guān)因素，將選出的變量作為輸入變量，預(yù)后有無死亡作為結(jié)局變量構(gòu)建傳統(tǒng)隨機(jī)森林、支持向量機(jī)、logistic回歸、加權(quán)隨機(jī)森林和代價(jià)敏感支持向量機(jī)分類預(yù)測(cè)模型。結(jié)果 AUC-RF篩選出的變量中有中樞系統(tǒng)疾病史、腎功能不全史、心包積液、BMI、中性粒細(xì)胞比值、腎小球?yàn)V過率、N端前腦鈉肽等指標(biāo)重要度較高，提示這些指標(biāo)或有臨床意義。評(píng)價(jià)指標(biāo)有靈敏度、特異度、準(zhǔn)確度、G-means、F-measure和AUC值，logistic模型評(píng)價(jià)指標(biāo)的中位數(shù)分別為：78.46%、63.19%、81.4%、0.6933、0.467和0.7003；加權(quán)隨機(jī)森林評(píng)價(jià)指標(biāo)分別為：78.08%、82.74%、85.96%、0.8086、0.4853和0.8109；代價(jià)敏感支持向量機(jī)評(píng)價(jià)指標(biāo)分別為：75.38%、72.49%、88.8%、0.7402、0.4749和0.7940。結(jié)論加權(quán)隨機(jī)森林模型對(duì)心衰患者預(yù)后死亡預(yù)測(cè)性能較高，該模型有助于臨床醫(yī)生識(shí)別心衰死亡危險(xiǎn)因素，具有較高應(yīng)用價(jià)值。

心力衰竭(heart failure，HF)是各種心血管疾病進(jìn)展的終末階段，其主要原因是心臟無法泵出足夠的血液來維持血液流動(dòng)。HF已經(jīng)成為21世紀(jì)最致命的心血管疾病之一[1]。心衰患者的高死亡率也是全球公共衛(wèi)生的關(guān)注重點(diǎn)[2]，據(jù)估計(jì)，發(fā)達(dá)國家大約有2%的成年人患有心衰，65歲及以上人群心衰的患病率≥6%[3]。2003年的研究調(diào)查顯示，我國35至74歲成人心衰患病率大約是0.9%[4]。醫(yī)療水平的提高使心衰患者壽命延長，導(dǎo)致我國心衰患病率持續(xù)升高，醫(yī)療成本不斷上升[5]。因此，準(zhǔn)確的心衰不良事件預(yù)測(cè)模型可以對(duì)患者和醫(yī)生提供益處，尤其可以預(yù)防不良事件的發(fā)生[6]。

本研究采用心衰住院患者電子病歷資料，探索基于代價(jià)敏感的隨機(jī)森林和支持向量機(jī)模型在心衰患者的預(yù)后死亡評(píng)估中的應(yīng)用價(jià)值，并與傳統(tǒng)logistic回歸、隨機(jī)森林和支持向量機(jī)進(jìn)行比較，識(shí)別危險(xiǎn)因素，反饋臨床，指導(dǎo)高危人群的早期干預(yù)，降低心衰死亡率。

對(duì)象與方法

1.研究對(duì)象

本研究數(shù)據(jù)來源于山西省太原市2所三甲醫(yī)院心內(nèi)科，研究對(duì)象為2014年1月-2018年12月首次診斷為慢性心衰的住院患者，每隔6個(gè)月通過電話隨訪，確定其生命狀態(tài)。研究對(duì)象納入標(biāo)準(zhǔn)為：年齡≥18 歲；有典型的慢性心力衰竭癥狀(如勞力性或陣發(fā)性呼吸困難、乏力、食欲不振)或體征(如雙下肢水腫、肺部濕啰音、肝頸靜脈回流征陽性)；NYHA 心功能分級(jí)Ⅱ-Ⅳ級(jí)；診斷為缺血性心肌病的患者。排除標(biāo)準(zhǔn)為：近兩個(gè)月發(fā)生急性心血管事件的患者；并發(fā)精神疾病的患者；并發(fā)其他危及生命的疾病，預(yù)期生存時(shí)間<1年的患者；拒絕參加本項(xiàng)目的患者。

2.研究方法

(1)資料收集

由培訓(xùn)過的人員查閱醫(yī)院檔案室中的電子病歷，并嚴(yán)格按照課題組制定的CHF電子病歷報(bào)告表(chronic heart failure electronic case reported form，CHF-eCRF)收集患者住院期間的病歷信息。按照CHF-eCRF內(nèi)容，使用EpiData 3.1軟件進(jìn)行雙錄入。經(jīng)過篩選，納入本研究的有效患者1972例，其中在隨訪期間死亡的患者有391(19.8%)例。

(2)AUC-RF自變量篩選

本次研究中原始數(shù)據(jù)庫包含798個(gè)變量，排除與本研究無關(guān)、非結(jié)構(gòu)化數(shù)據(jù)和缺失比例大于30%的變量后還剩121個(gè)變量，對(duì)于缺失數(shù)據(jù)選用“missForest”R包進(jìn)行缺失填補(bǔ)。為提高模型在實(shí)際臨床中的應(yīng)用，考慮本研究數(shù)據(jù)為非均衡數(shù)據(jù)，選用CalleML提出的AUC-RF自變量篩選方法[7]。該方法使用受試者工作特征曲線下面積(the area under the receiver-operating characteristic curve，AUC)作為隨機(jī)森林的性能評(píng)價(jià)指標(biāo)，選擇最高AUC值的一組自變量作為輸入變量，避免預(yù)測(cè)結(jié)果不佳。

(3)加權(quán)隨機(jī)森林模型的建立

加權(quán)隨機(jī)森林(weighted random forest，WRF)是ChaoChen為解決傳統(tǒng)隨機(jī)森林對(duì)非均衡數(shù)據(jù)建模時(shí)以錯(cuò)誤率最小化為目的，無法有效識(shí)別少數(shù)類而提出的基于代價(jià)敏感學(xué)習(xí)的方法[11]。其原理是通過對(duì)數(shù)據(jù)中每一類樣本進(jìn)行權(quán)重設(shè)置，增加少數(shù)類權(quán)重使錯(cuò)誤分類代價(jià)增大。本研究在Rsutdio軟件中，使用“randomForest”包構(gòu)建WRF，經(jīng)試驗(yàn)參數(shù)設(shè)置如下：ntree(森林中樹的樹木)為600；mtry(決策樹分支所需變量個(gè)數(shù))為5；classwt(樣本分類的權(quán)重)為2∶1。

(4)代價(jià)敏感支持向量機(jī)模型的建立

基于代價(jià)敏感的支持向量機(jī)(cost sensitive support vector machine，CS-SVM)由K.Veropoulos[8]于1999年提出，可以提高傳統(tǒng)支持向量機(jī)算法在非均衡數(shù)據(jù)中的分類效果。依據(jù)支持向量機(jī)中懲罰參數(shù)C對(duì)數(shù)據(jù)中不同屬性樣本設(shè)置不同的分類權(quán)重。依據(jù)本課題組既往研究，本研究選擇少數(shù)類與多數(shù)類樣本量之比的倒數(shù)設(shè)置權(quán)重，并在其附近取值構(gòu)建不同模型以選出最優(yōu)參數(shù)。使用“e1071”包構(gòu)建CS-SVM模型，以線性核為核函數(shù)。參數(shù)class.weights為4∶1；懲罰參數(shù)cost為1。

(5)模型構(gòu)建方案

本次研究為準(zhǔn)確評(píng)價(jià)模型預(yù)測(cè)性能，對(duì)數(shù)據(jù)采用分層抽樣。從預(yù)后良好和死亡的病例中分別抽取2/3樣本組成訓(xùn)練集(共1315例，其中預(yù)后好轉(zhuǎn)和死亡分別為1054和261例)，將剩余的1/3樣本組成測(cè)試集(共657例，預(yù)后好轉(zhuǎn)和死亡分別為527和130例)進(jìn)行模型評(píng)價(jià)。使用AUC-RF法篩選出自變量后，將其作為特征變量輸入模型，以心衰患者是否死亡作為結(jié)局變量，分別構(gòu)建logistic回歸、基于代價(jià)敏感的隨機(jī)森林和支持向量機(jī)預(yù)測(cè)模型并找出最優(yōu)參數(shù)。最后采用同一訓(xùn)練集使用以上方法建立預(yù)測(cè)模型，利用測(cè)試集進(jìn)行模型評(píng)價(jià)，并與傳統(tǒng)隨機(jī)森林和支持向量機(jī)進(jìn)行對(duì)比。

(6)模型評(píng)價(jià)指標(biāo)

為全面評(píng)價(jià)構(gòu)建模型的預(yù)測(cè)能力和泛化性能，針對(duì)非均衡數(shù)據(jù)本研究使用多個(gè)指標(biāo)對(duì)模型分類結(jié)果進(jìn)行綜合評(píng)價(jià)。評(píng)價(jià)指標(biāo)有靈敏度(true positive rate，TPR)、特異度(true negative rate，TNR)、準(zhǔn)確率(accuracy，ACC)、G-means、F-measure、AUC[9-11]。

結(jié) 果

1.基于AUC-RF自變量的篩選

以隨訪后有無出現(xiàn)不良結(jié)局(死亡)對(duì)患者進(jìn)行分組，隨后利用“AUCRF”包構(gòu)建隨機(jī)森林預(yù)測(cè)模型，以重要性評(píng)價(jià)指標(biāo)對(duì)變量進(jìn)行降序排列，如圖1所示。

圖1 隨機(jī)森林模型中自變量重要性排序

為保證模型準(zhǔn)確性，對(duì)隨機(jī)森林進(jìn)行五折交叉驗(yàn)證，重復(fù)20次，得到平均AUC值為0.8336，重復(fù)100次AUC-RF后得到自變量入選模型的概率，其中尿素氮等6個(gè)變量入選概率為1，23個(gè)變量入選概率大于90%。本研究選擇入選概率大于80%的26個(gè)自變量進(jìn)行建模，如表1所示。

2.logistic回歸模型

本研究以最大Youden指數(shù)作為分類截?cái)帱c(diǎn)，利用“glm()”函數(shù)建立logistic回歸模型。重復(fù)抽樣100次，構(gòu)建100個(gè)logistic模型，并在測(cè)試集上進(jìn)行驗(yàn)證，獲得每個(gè)模型的評(píng)價(jià)指標(biāo)。

3.WRF模型類權(quán)重選擇

本數(shù)據(jù)為非均衡數(shù)據(jù)，據(jù)以往經(jīng)驗(yàn)首先對(duì)類權(quán)重進(jìn)行模擬設(shè)置。本研究在ntree、mtry默認(rèn)參數(shù)下，設(shè)置類權(quán)重分別為2∶1，3∶1，4∶1，5∶1訓(xùn)練模型，并在測(cè)試集上進(jìn)行性能評(píng)價(jià)。各類權(quán)重下都重復(fù)50次，結(jié)果見表2。

表1 最終建模變量賦值

表2 不同類權(quán)重構(gòu)建的WRF在測(cè)試集上的表現(xiàn)

由表2可知，隨著少數(shù)類與多數(shù)類權(quán)重的增加，指標(biāo)TRR、TNR、ACC、G-means、F-measure和AUC均呈下降趨勢(shì)。對(duì)權(quán)重下模型指標(biāo)進(jìn)行多組件秩和檢驗(yàn)可知其余權(quán)重下模型與類權(quán)重2∶1模型比較，差異有統(tǒng)計(jì)學(xué)意義，且各項(xiàng)指標(biāo)均較高，靈敏度為71.15%，特異度為78.12%，準(zhǔn)確度為78.19%。最終選擇類權(quán)重為2∶1進(jìn)行模型構(gòu)建。

4.CS-SVM模型類權(quán)重選擇

本研究使用“svm()”函數(shù)設(shè)置參數(shù)clss.weights找到最優(yōu)類權(quán)重。據(jù)以往研究經(jīng)驗(yàn)，將少數(shù)類與多數(shù)類之比的倒數(shù)設(shè)置為class.weights值可以使模型對(duì)非均衡數(shù)據(jù)有較好的識(shí)別度。故本研究分別設(shè)置class.weights為2∶1，4∶1，6∶1，8∶1構(gòu)建模型。各類權(quán)重下重復(fù)50次，結(jié)果如表3所示。

表3 不同類權(quán)重構(gòu)建的CS-SVM在測(cè)試集上的表現(xiàn)

如表3所示，隨著少數(shù)類與多數(shù)類權(quán)重之比的增大，TRR呈上升趨勢(shì)，而TNR和ACC呈下降趨勢(shì)。G-means，F(xiàn)-measure和AUC在類權(quán)重為4∶1時(shí)取得最大值，隨后小幅度下降。將不同類權(quán)重設(shè)置模型指標(biāo)進(jìn)行多組件秩和檢驗(yàn)后，差異均有統(tǒng)計(jì)學(xué)意義。因本次研究數(shù)據(jù)類型為非均衡數(shù)據(jù)，因此允許特異度和準(zhǔn)確度有小幅度降低[12]，但有較大的G-means、F-measure和AUC。故最終采取類權(quán)重為4∶1構(gòu)建模型。

5.不同預(yù)測(cè)模型分類性能比較

采用相同訓(xùn)練集和測(cè)試集構(gòu)建并訓(xùn)練logistic、WRF、CS-SVM和傳統(tǒng)隨機(jī)森林，支持向量機(jī)的慢性心衰患者預(yù)后死亡的預(yù)測(cè)模型，比較各模型性能優(yōu)劣，重復(fù)100次，均采用中位數(shù)和上下四分位數(shù)進(jìn)行表示。各指標(biāo)如表4所示。

表4 不同分類模型在測(cè)試集上性能比較

從表4可以看出傳統(tǒng)支持向量機(jī)和隨機(jī)森林靈敏度(TPR)僅為1.54%和12.31%，而特異度(TNR)分別為99.24%和98.1%，模型傾向于識(shí)別預(yù)后死亡的患者，而且G-means，F(xiàn)-measure和AUC均較低。logistic的靈敏度最高為78.46%。對(duì)少數(shù)類進(jìn)行加權(quán)的隨機(jī)森林和支持向量機(jī)靈敏度都在75%以上，說明兩者均可較好的識(shí)別出預(yù)后死亡的心衰患者。但是兩種模型的特異度分別為82.74%和72.49%，較傳統(tǒng)模型偏低，說明在提高對(duì)少數(shù)類識(shí)別率的同時(shí)，對(duì)多數(shù)類識(shí)別能力有所影響。針對(duì)非均衡數(shù)據(jù)的性能評(píng)價(jià)指標(biāo)，加權(quán)后的兩種模型較傳統(tǒng)模型均較高，其中WRF的G-means(0.8086)，F(xiàn)-measure(0.4853)和AUC(0.8255)是所有模型中最高的一組。在準(zhǔn)確率(ACC)上，logistic與WRF和CS-SVM表現(xiàn)相差不大。綜上所述，WRF、CS-SVM和logistic與傳統(tǒng)模型相比，性能相對(duì)穩(wěn)定，尤其針對(duì)非均衡數(shù)據(jù)上對(duì)少數(shù)類識(shí)別表現(xiàn)較好，其中WRF分類性能更為優(yōu)越。

討論

心衰是一種慢性病，其特點(diǎn)是患者生活質(zhì)量差、再住院率高、死亡率高和費(fèi)用負(fù)擔(dān)高等。改善以上不良后果的有效手段是對(duì)心衰進(jìn)行病因預(yù)防，早期診斷，以及對(duì)不良事件的早期預(yù)測(cè)[13]。在這些方向上，機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用做出了巨大貢獻(xiàn)。

國內(nèi)對(duì)心衰患者死亡預(yù)后預(yù)測(cè)的研究較少，多使用Cox風(fēng)險(xiǎn)比例回歸進(jìn)行危險(xiǎn)因素識(shí)別應(yīng)用，未針對(duì)模型性能進(jìn)行評(píng)價(jià)[14-16]。國外此類研究較多，如Shalh等[17]和Fonarrow等[18]分別使用支持向量機(jī)和CART構(gòu)建模型估計(jì)了急性失代償心衰住院患者的死亡率風(fēng)險(xiǎn)。Bohacik等[19]將2032名患者的住院病歷數(shù)據(jù)應(yīng)用于決策樹對(duì)慢性心衰患者進(jìn)行生存分析，靈敏度為37.31%，特異度為91.53%，準(zhǔn)確度為77.66%。與本文WRF模型相比，其靈敏度較低，說明未能有效識(shí)別“死亡”這一少數(shù)類樣本。Panahiazar[19]等在2015年利用Mayo診所電子健康記錄數(shù)據(jù)，對(duì)慢性心衰患者構(gòu)建了logistic回歸和隨機(jī)森林的生存分析模型。分別構(gòu)建了1年、2年和5年后患者死亡率，模型結(jié)果顯示logistic回歸和隨機(jī)森林模型預(yù)測(cè)性能相差不大，AUC平均都在60%以上，最大可達(dá)到80%，與本研究結(jié)果相近。2016年，Panahiazar[20]團(tuán)隊(duì)再次應(yīng)用2015年文章的數(shù)據(jù)構(gòu)建對(duì)比輔助模式邏輯回歸(CPXR(Log))模型，1年、2年和5年后患者死亡預(yù)測(cè)模型準(zhǔn)確率都在80%以上，尤其1年后預(yù)測(cè)準(zhǔn)確率高達(dá)91.40%，表現(xiàn)優(yōu)越。

本研究對(duì)心衰患者構(gòu)建預(yù)后死亡風(fēng)險(xiǎn)預(yù)測(cè)模型，通過回顧性研究方法收集患者的住院病歷資料，并考慮到非均衡結(jié)構(gòu)的數(shù)據(jù)，從中篩選出26個(gè)變量應(yīng)用logistic回歸、加權(quán)隨機(jī)森林和代價(jià)敏感支持向量機(jī)進(jìn)行構(gòu)建模型，以彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)無法有效識(shí)別少數(shù)類的缺陷，提高對(duì)心衰患者預(yù)后死亡的識(shí)別性能。結(jié)果顯示，加權(quán)隨機(jī)森林模型的綜合表現(xiàn)最優(yōu)，可以為臨床工作者提供一定程度參考，具有重要的臨床意義。

綜上所述，本文使用代價(jià)敏感的思想在一定程度上彌補(bǔ)了慢性心衰對(duì)死亡預(yù)測(cè)數(shù)據(jù)的不平衡性，加權(quán)隨機(jī)森林預(yù)測(cè)性能較好。但是，依然存在不足之處，如本文未對(duì)患者中長期死亡風(fēng)險(xiǎn)如1年后，2年后進(jìn)行分別建模；研究對(duì)象局限為山西太原市內(nèi)三甲醫(yī)院患者，樣本來源相對(duì)單一，代表性不足，選擇偏倚不可避免；本次研究僅有住院的電子病歷信息，心衰患者的疾病狀態(tài)具有高度異質(zhì)性[20]，還應(yīng)該補(bǔ)充患者個(gè)體的基因信息，以提高模型預(yù)測(cè)性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡