楊 弘 田 晶 孟冰霞 張 瑜 羅艷虹 王 可 鄭 楚 韓清華△ 張巖波,3△
【提 要】 目的 探討加權(quán)隨機(jī)森林和代價(jià)敏感支持向量機(jī)模型在慢性心衰死亡風(fēng)險(xiǎn)評(píng)估中的應(yīng)用。方法 利用AUC-RF自變量篩選方法選出與心衰死亡的相關(guān)因素,將選出的變量作為輸入變量,預(yù)后有無死亡作為結(jié)局變量構(gòu)建傳統(tǒng)隨機(jī)森林、支持向量機(jī)、logistic回歸、加權(quán)隨機(jī)森林和代價(jià)敏感支持向量機(jī)分類預(yù)測(cè)模型。 結(jié)果 AUC-RF篩選出的變量中有中樞系統(tǒng)疾病史、腎功能不全史、心包積液、BMI、中性粒細(xì)胞比值、腎小球?yàn)V過率、N端前腦鈉肽等指標(biāo)重要度較高,提示這些指標(biāo)或有臨床意義。評(píng)價(jià)指標(biāo)有靈敏度、特異度、準(zhǔn)確度、G-means、F-measure和AUC值,logistic模型評(píng)價(jià)指標(biāo)的中位數(shù)分別為:78.46%、63.19%、81.4%、0.6933、0.467和0.7003;加權(quán)隨機(jī)森林評(píng)價(jià)指標(biāo)分別為:78.08%、82.74%、85.96%、0.8086、0.4853和0.8109;代價(jià)敏感支持向量機(jī)評(píng)價(jià)指標(biāo)分別為:75.38%、72.49%、88.8%、0.7402、0.4749和0.7940。結(jié)論 加權(quán)隨機(jī)森林模型對(duì)心衰患者預(yù)后死亡預(yù)測(cè)性能較高,該模型有助于臨床醫(yī)生識(shí)別心衰死亡危險(xiǎn)因素,具有較高應(yīng)用價(jià)值。
心力衰竭(heart failure,HF)是各種心血管疾病進(jìn)展的終末階段,其主要原因是心臟無法泵出足夠的血液來維持血液流動(dòng)。HF已經(jīng)成為21世紀(jì)最致命的心血管疾病之一[1]。心衰患者的高死亡率也是全球公共衛(wèi)生的關(guān)注重點(diǎn)[2],據(jù)估計(jì),發(fā)達(dá)國家大約有2%的成年人患有心衰,65歲及以上人群心衰的患病率≥6%[3]。2003年的研究調(diào)查顯示,我國35至74歲成人心衰患病率大約是0.9%[4]。醫(yī)療水平的提高使心衰患者壽命延長,導(dǎo)致我國心衰患病率持續(xù)升高,醫(yī)療成本不斷上升[5]。因此,準(zhǔn)確的心衰不良事件預(yù)測(cè)模型可以對(duì)患者和醫(yī)生提供益處,尤其可以預(yù)防不良事件的發(fā)生[6]。
本研究采用心衰住院患者電子病歷資料,探索基于代價(jià)敏感的隨機(jī)森林和支持向量機(jī)模型在心衰患者的預(yù)后死亡評(píng)估中的應(yīng)用價(jià)值,并與傳統(tǒng)logistic回歸、隨機(jī)森林和支持向量機(jī)進(jìn)行比較,識(shí)別危險(xiǎn)因素,反饋臨床,指導(dǎo)高危人群的早期干預(yù),降低心衰死亡率。
本研究數(shù)據(jù)來源于山西省太原市2所三甲醫(yī)院心內(nèi)科,研究對(duì)象為2014年1月-2018年12月首次診斷為慢性心衰的住院患者,每隔6個(gè)月通過電話隨訪,確定其生命狀態(tài)。研究對(duì)象納入標(biāo)準(zhǔn)為:年齡≥18 歲;有典型的慢性心力衰竭癥狀(如勞力性或陣發(fā)性呼吸困難、乏力、食欲不振)或體征(如雙下肢水腫、肺部濕啰音、肝頸靜脈回流征陽性);NYHA 心功能分級(jí)Ⅱ-Ⅳ級(jí);診斷為缺血性心肌病的患者。排除標(biāo)準(zhǔn)為:近兩個(gè)月發(fā)生急性心血管事件的患者;并發(fā)精神疾病的患者;并發(fā)其他危及生命的疾病,預(yù)期生存時(shí)間<1年的患者;拒絕參加本項(xiàng)目的患者。
(1)資料收集
由培訓(xùn)過的人員查閱醫(yī)院檔案室中的電子病歷,并嚴(yán)格按照課題組制定的CHF電子病歷報(bào)告表(chronic heart failure electronic case reported form,CHF-eCRF)收集患者住院期間的病歷信息。按照CHF-eCRF內(nèi)容,使用EpiData 3.1軟件進(jìn)行雙錄入。經(jīng)過篩選,納入本研究的有效患者1972例,其中在隨訪期間死亡的患者有391(19.8%)例。
(2)AUC-RF自變量篩選
本次研究中原始數(shù)據(jù)庫包含798個(gè)變量,排除與本研究無關(guān)、非結(jié)構(gòu)化數(shù)據(jù)和缺失比例大于30%的變量后還剩121個(gè)變量,對(duì)于缺失數(shù)據(jù)選用“missForest”R包進(jìn)行缺失填補(bǔ)。為提高模型在實(shí)際臨床中的應(yīng)用,考慮本研究數(shù)據(jù)為非均衡數(shù)據(jù),選用CalleML提出的AUC-RF自變量篩選方法[7]。該方法使用受試者工作特征曲線下面積(the area under the receiver-operating characteristic curve,AUC)作為隨機(jī)森林的性能評(píng)價(jià)指標(biāo),選擇最高AUC值的一組自變量作為輸入變量,避免預(yù)測(cè)結(jié)果不佳。
(3)加權(quán)隨機(jī)森林模型的建立
加權(quán)隨機(jī)森林(weighted random forest,WRF)是ChaoChen為解決傳統(tǒng)隨機(jī)森林對(duì)非均衡數(shù)據(jù)建模時(shí)以錯(cuò)誤率最小化為目的,無法有效識(shí)別少數(shù)類而提出的基于代價(jià)敏感學(xué)習(xí)的方法[11]。其原理是通過對(duì)數(shù)據(jù)中每一類樣本進(jìn)行權(quán)重設(shè)置,增加少數(shù)類權(quán)重使錯(cuò)誤分類代價(jià)增大。本研究在Rsutdio軟件中,使用“randomForest”包構(gòu)建WRF,經(jīng)試驗(yàn)參數(shù)設(shè)置如下:ntree(森林中樹的樹木)為600;mtry(決策樹分支所需變量個(gè)數(shù))為5;classwt(樣本分類的權(quán)重)為2∶1。
(4)代價(jià)敏感支持向量機(jī)模型的建立
基于代價(jià)敏感的支持向量機(jī)(cost sensitive support vector machine,CS-SVM)由K.Veropoulos[8]于1999年提出,可以提高傳統(tǒng)支持向量機(jī)算法在非均衡數(shù)據(jù)中的分類效果。依據(jù)支持向量機(jī)中懲罰參數(shù)C對(duì)數(shù)據(jù)中不同屬性樣本設(shè)置不同的分類權(quán)重。依據(jù)本課題組既往研究,本研究選擇少數(shù)類與多數(shù)類樣本量之比的倒數(shù)設(shè)置權(quán)重,并在其附近取值構(gòu)建不同模型以選出最優(yōu)參數(shù)。使用“e1071”包構(gòu)建CS-SVM模型,以線性核為核函數(shù)。參數(shù)class.weights為4∶1;懲罰參數(shù)cost為1。
(5)模型構(gòu)建方案
本次研究為準(zhǔn)確評(píng)價(jià)模型預(yù)測(cè)性能,對(duì)數(shù)據(jù)采用分層抽樣。從預(yù)后良好和死亡的病例中分別抽取2/3樣本組成訓(xùn)練集(共1315例,其中預(yù)后好轉(zhuǎn)和死亡分別為1054和261例),將剩余的1/3樣本組成測(cè)試集(共657例,預(yù)后好轉(zhuǎn)和死亡分別為527和130例)進(jìn)行模型評(píng)價(jià)。使用AUC-RF法篩選出自變量后,將其作為特征變量輸入模型,以心衰患者是否死亡作為結(jié)局變量,分別構(gòu)建logistic回歸、基于代價(jià)敏感的隨機(jī)森林和支持向量機(jī)預(yù)測(cè)模型并找出最優(yōu)參數(shù)。最后采用同一訓(xùn)練集使用以上方法建立預(yù)測(cè)模型,利用測(cè)試集進(jìn)行模型評(píng)價(jià),并與傳統(tǒng)隨機(jī)森林和支持向量機(jī)進(jìn)行對(duì)比。
(6)模型評(píng)價(jià)指標(biāo)
為全面評(píng)價(jià)構(gòu)建模型的預(yù)測(cè)能力和泛化性能,針對(duì)非均衡數(shù)據(jù)本研究使用多個(gè)指標(biāo)對(duì)模型分類結(jié)果進(jìn)行綜合評(píng)價(jià)。評(píng)價(jià)指標(biāo)有靈敏度(true positive rate,TPR)、特異度(true negative rate,TNR)、準(zhǔn)確率(accuracy,ACC)、G-means、F-measure、AUC[9-11]。
以隨訪后有無出現(xiàn)不良結(jié)局(死亡)對(duì)患者進(jìn)行分組,隨后利用“AUCRF”包構(gòu)建隨機(jī)森林預(yù)測(cè)模型,以重要性評(píng)價(jià)指標(biāo)對(duì)變量進(jìn)行降序排列,如圖1所示。
圖1 隨機(jī)森林模型中自變量重要性排序
為保證模型準(zhǔn)確性,對(duì)隨機(jī)森林進(jìn)行五折交叉驗(yàn)證,重復(fù)20次,得到平均AUC值為0.8336,重復(fù)100次AUC-RF后得到自變量入選模型的概率,其中尿素氮等6個(gè)變量入選概率為1,23個(gè)變量入選概率大于90%。本研究選擇入選概率大于80%的26個(gè)自變量進(jìn)行建模,如表1所示。
本研究以最大Youden指數(shù)作為分類截?cái)帱c(diǎn),利用“glm()”函數(shù)建立logistic回歸模型。重復(fù)抽樣100次,構(gòu)建100個(gè)logistic模型,并在測(cè)試集上進(jìn)行驗(yàn)證,獲得每個(gè)模型的評(píng)價(jià)指標(biāo)。
本數(shù)據(jù)為非均衡數(shù)據(jù),據(jù)以往經(jīng)驗(yàn)首先對(duì)類權(quán)重進(jìn)行模擬設(shè)置。本研究在ntree、mtry默認(rèn)參數(shù)下,設(shè)置類權(quán)重分別為2∶1,3∶1,4∶1,5∶1訓(xùn)練模型,并在測(cè)試集上進(jìn)行性能評(píng)價(jià)。各類權(quán)重下都重復(fù)50次,結(jié)果見表2。
表1 最終建模變量賦值
表2 不同類權(quán)重構(gòu)建的WRF在測(cè)試集上的表現(xiàn)
由表2可知,隨著少數(shù)類與多數(shù)類權(quán)重的增加,指標(biāo)TRR、TNR、ACC、G-means、F-measure和AUC均呈下降趨勢(shì)。對(duì)權(quán)重下模型指標(biāo)進(jìn)行多組件秩和檢驗(yàn)可知其余權(quán)重下模型與類權(quán)重2∶1模型比較,差異有統(tǒng)計(jì)學(xué)意義,且各項(xiàng)指標(biāo)均較高,靈敏度為71.15%,特異度為78.12%,準(zhǔn)確度為78.19%。最終選擇類權(quán)重為2∶1進(jìn)行模型構(gòu)建。
本研究使用“svm()”函數(shù)設(shè)置參數(shù)clss.weights找到最優(yōu)類權(quán)重。據(jù)以往研究經(jīng)驗(yàn),將少數(shù)類與多數(shù)類之比的倒數(shù)設(shè)置為class.weights值可以使模型對(duì)非均衡數(shù)據(jù)有較好的識(shí)別度。故本研究分別設(shè)置class.weights為2∶1,4∶1,6∶1,8∶1構(gòu)建模型。各類權(quán)重下重復(fù)50次,結(jié)果如表3所示。
表3 不同類權(quán)重構(gòu)建的CS-SVM在測(cè)試集上的表現(xiàn)
如表3所示,隨著少數(shù)類與多數(shù)類權(quán)重之比的增大,TRR呈上升趨勢(shì),而TNR和ACC呈下降趨勢(shì)。G-means,F(xiàn)-measure和AUC在類權(quán)重為4∶1時(shí)取得最大值,隨后小幅度下降。將不同類權(quán)重設(shè)置模型指標(biāo)進(jìn)行多組件秩和檢驗(yàn)后,差異均有統(tǒng)計(jì)學(xué)意義。因本次研究數(shù)據(jù)類型為非均衡數(shù)據(jù),因此允許特異度和準(zhǔn)確度有小幅度降低[12],但有較大的G-means、F-measure和AUC。故最終采取類權(quán)重為4∶1構(gòu)建模型。
采用相同訓(xùn)練集和測(cè)試集構(gòu)建并訓(xùn)練logistic、WRF、CS-SVM和傳統(tǒng)隨機(jī)森林,支持向量機(jī)的慢性心衰患者預(yù)后死亡的預(yù)測(cè)模型,比較各模型性能優(yōu)劣,重復(fù)100次,均采用中位數(shù)和上下四分位數(shù)進(jìn)行表示。各指標(biāo)如表4所示。
表4 不同分類模型在測(cè)試集上性能比較
從表4可以看出傳統(tǒng)支持向量機(jī)和隨機(jī)森林靈敏度(TPR)僅為1.54%和12.31%,而特異度(TNR)分別為99.24%和98.1%,模型傾向于識(shí)別預(yù)后死亡的患者,而且G-means,F(xiàn)-measure和AUC均較低。logistic的靈敏度最高為78.46%。對(duì)少數(shù)類進(jìn)行加權(quán)的隨機(jī)森林和支持向量機(jī)靈敏度都在75%以上,說明兩者均可較好的識(shí)別出預(yù)后死亡的心衰患者。但是兩種模型的特異度分別為82.74%和72.49%,較傳統(tǒng)模型偏低,說明在提高對(duì)少數(shù)類識(shí)別率的同時(shí),對(duì)多數(shù)類識(shí)別能力有所影響。針對(duì)非均衡數(shù)據(jù)的性能評(píng)價(jià)指標(biāo),加權(quán)后的兩種模型較傳統(tǒng)模型均較高,其中WRF的G-means(0.8086),F(xiàn)-measure(0.4853)和AUC(0.8255)是所有模型中最高的一組。在準(zhǔn)確率(ACC)上,logistic與WRF和CS-SVM表現(xiàn)相差不大。綜上所述,WRF、CS-SVM和logistic與傳統(tǒng)模型相比,性能相對(duì)穩(wěn)定,尤其針對(duì)非均衡數(shù)據(jù)上對(duì)少數(shù)類識(shí)別表現(xiàn)較好,其中WRF分類性能更為優(yōu)越。
心衰是一種慢性病,其特點(diǎn)是患者生活質(zhì)量差、再住院率高、死亡率高和費(fèi)用負(fù)擔(dān)高等。改善以上不良后果的有效手段是對(duì)心衰進(jìn)行病因預(yù)防,早期診斷,以及對(duì)不良事件的早期預(yù)測(cè)[13]。在這些方向上,機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用做出了巨大貢獻(xiàn)。
國內(nèi)對(duì)心衰患者死亡預(yù)后預(yù)測(cè)的研究較少,多使用Cox風(fēng)險(xiǎn)比例回歸進(jìn)行危險(xiǎn)因素識(shí)別應(yīng)用,未針對(duì)模型性能進(jìn)行評(píng)價(jià)[14-16]。國外此類研究較多,如Shalh等[17]和Fonarrow等[18]分別使用支持向量機(jī)和CART構(gòu)建模型估計(jì)了急性失代償心衰住院患者的死亡率風(fēng)險(xiǎn)。Bohacik等[19]將2032名患者的住院病歷數(shù)據(jù)應(yīng)用于決策樹對(duì)慢性心衰患者進(jìn)行生存分析,靈敏度為37.31%,特異度為91.53%,準(zhǔn)確度為77.66%。與本文WRF模型相比,其靈敏度較低,說明未能有效識(shí)別“死亡”這一少數(shù)類樣本。Panahiazar[19]等在2015年利用Mayo診所電子健康記錄數(shù)據(jù),對(duì)慢性心衰患者構(gòu)建了logistic回歸和隨機(jī)森林的生存分析模型。分別構(gòu)建了1年、2年和5年后患者死亡率,模型結(jié)果顯示logistic回歸和隨機(jī)森林模型預(yù)測(cè)性能相差不大,AUC平均都在60%以上,最大可達(dá)到80%,與本研究結(jié)果相近。2016年,Panahiazar[20]團(tuán)隊(duì)再次應(yīng)用2015年文章的數(shù)據(jù)構(gòu)建對(duì)比輔助模式邏輯回歸(CPXR(Log))模型,1年、2年和5年后患者死亡預(yù)測(cè)模型準(zhǔn)確率都在80%以上,尤其1年后預(yù)測(cè)準(zhǔn)確率高達(dá)91.40%,表現(xiàn)優(yōu)越。
本研究對(duì)心衰患者構(gòu)建預(yù)后死亡風(fēng)險(xiǎn)預(yù)測(cè)模型,通過回顧性研究方法收集患者的住院病歷資料,并考慮到非均衡結(jié)構(gòu)的數(shù)據(jù),從中篩選出26個(gè)變量應(yīng)用logistic回歸、加權(quán)隨機(jī)森林和代價(jià)敏感支持向量機(jī)進(jìn)行構(gòu)建模型,以彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)無法有效識(shí)別少數(shù)類的缺陷,提高對(duì)心衰患者預(yù)后死亡的識(shí)別性能。結(jié)果顯示,加權(quán)隨機(jī)森林模型的綜合表現(xiàn)最優(yōu),可以為臨床工作者提供一定程度參考,具有重要的臨床意義。
綜上所述,本文使用代價(jià)敏感的思想在一定程度上彌補(bǔ)了慢性心衰對(duì)死亡預(yù)測(cè)數(shù)據(jù)的不平衡性,加權(quán)隨機(jī)森林預(yù)測(cè)性能較好。但是,依然存在不足之處,如本文未對(duì)患者中長期死亡風(fēng)險(xiǎn)如1年后,2年后進(jìn)行分別建模;研究對(duì)象局限為山西太原市內(nèi)三甲醫(yī)院患者,樣本來源相對(duì)單一,代表性不足,選擇偏倚不可避免;本次研究僅有住院的電子病歷信息,心衰患者的疾病狀態(tài)具有高度異質(zhì)性[20],還應(yīng)該補(bǔ)充患者個(gè)體的基因信息,以提高模型預(yù)測(cè)性能。