国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林模型的大皰性類天皰瘡患者預(yù)后因素分析

2023-05-15 03:52:36趙丹丹
中國麻風(fēng)皮膚病雜志 2023年5期
關(guān)鍵詞:血鈣死亡率準(zhǔn)確率

趙丹丹 甄 莉

1山西醫(yī)科大學(xué),太原,030001;2山西醫(yī)科大學(xué)第一醫(yī)院皮膚科,太原,030001

大皰性類天皰瘡(bullous pemphigoid, BP)是一種發(fā)病率和死亡率都較高的自身免疫性皮膚病,其預(yù)后的影響因素深受國內(nèi)外學(xué)者重視??笲P180抗體陽性是首個(gè)被證實(shí)的增加BP患者死亡率的因素[1]。隨后的研究表明高齡[2-16]、性別[9-11,13-15]、患者的一般狀態(tài)[6,8,9,15,16]、疾病的嚴(yán)重程度[2,5,13,15]、合并神經(jīng)系統(tǒng)疾病[2,3,5,8,11,13,15,16]、合并心臟病[4-13]等可能是影響B(tài)P患者死亡率的危險(xiǎn)因素。這些研究多采用Logistic回歸和COX回歸,目前應(yīng)用隨機(jī)森林算法分析影響B(tài)P患者預(yù)后的因素國內(nèi)外尚未有報(bào)道,隨機(jī)森林算法作為機(jī)器學(xué)習(xí)的經(jīng)典算法之一,在疾病風(fēng)險(xiǎn)預(yù)測(cè)和診斷方面具有較高的準(zhǔn)確性,目前在分子及基因水平等醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用。因此本研究分別應(yīng)用Logistic回歸和隨機(jī)森林算法構(gòu)建BP預(yù)后模型,探討B(tài)P患者預(yù)后不良的相關(guān)因素,并比較兩種模型的預(yù)測(cè)效果,為其病情評(píng)估、早期預(yù)防提供進(jìn)一步依據(jù)。

1 資料與方法

1.1 研究對(duì)象 本研究回顧性分析山西醫(yī)科大學(xué)第一醫(yī)院皮膚科住院部2015年1月1日至2021年4月30日診斷的BP患者,共查詢到122例,根據(jù)納入及排除標(biāo)準(zhǔn),確定研究對(duì)象為93例。本研究收集的患者臨床表現(xiàn)及皮膚組織病理均符合BP,即臨床表現(xiàn)為緊張性水皰,尼氏征陰性,皮膚組織病理為表皮下水皰。排除標(biāo)準(zhǔn):(1)診斷有異議或不確定者;(2)臨床資料缺失的患者;(3)失訪的患者。

1.2 資料收集 收集患者的一般資料、既往史、臨床表現(xiàn)、實(shí)驗(yàn)室指標(biāo)及治療方案,見表1。

表1 變量賦值表

隨訪:通過電話進(jìn)行隨訪,了解患者的預(yù)后,目前治療情況。

1.3 相關(guān)變量定義 身體質(zhì)量指數(shù)(body mass index,BMI):用于評(píng)價(jià)人體的營養(yǎng)狀況、胖瘦程度或身體發(fā)育水平,等于體重(kg)/身高2(m2)。

病變范圍:局限是指分布于一個(gè)解剖區(qū)域的孤立水皰性病變和/或中度濕疹/蕁麻疹病變;廣泛是指兩個(gè)或更多解剖區(qū)域的中度至彌漫性水皰病變和/或中度至彌漫性濕疹/蕁麻疹病變。

入院時(shí)的一般狀態(tài):通過 Karnofsky評(píng)分來評(píng)估,Karnofsky評(píng)分是衡量患者一般狀況和自主性程度的指標(biāo),評(píng)分范圍0~100分,得分越高表示病情越好,自主性越強(qiáng)。本研究的一般狀態(tài)差指Karnofsky評(píng)分≤40分,長期坐輪椅或臥床狀態(tài),自主功能喪失。

診斷延遲:自發(fā)病到確診時(shí)間>30天。

伴有局部皮膚感染:皮損分泌物細(xì)菌和(或)真菌培養(yǎng)結(jié)果陽性。

是否合并其他疾病:神經(jīng)系統(tǒng)疾病包括癡呆、腦卒中、帕金森病、癲癇、多發(fā)性硬化癥等;心臟病包括冠狀動(dòng)脈粥樣硬化性心臟病、心律失常、心力衰竭、先天性心臟病等;泌尿系統(tǒng)疾病包含腎功能不全、腎病綜合征、腎小球腎炎、腎盂腎炎、腎衰竭等;呼吸系統(tǒng)疾病包括慢性阻塞性肺疾病、支氣管哮喘、肺間質(zhì)病變、肺纖維化等;消化系統(tǒng)疾病包括潰瘍性結(jié)腸炎、克羅恩病、肝硬化等;甲狀腺疾病包括甲狀腺功能亢進(jìn)、甲狀腺功能減退、甲狀腺炎等。

BP的1年死亡率作為衡量BP預(yù)后的指標(biāo)。

1.4 數(shù)據(jù)填補(bǔ) 原始數(shù)據(jù)存在缺失值,我們對(duì)原始數(shù)據(jù)的缺失情況進(jìn)行了探索,存在缺失值的變量分別是n20~n32,為彌補(bǔ)數(shù)據(jù)的實(shí)用性,我們利用基于隨機(jī)森林的多重插補(bǔ)方法對(duì)數(shù)據(jù)進(jìn)行插補(bǔ)。

1.5 統(tǒng)計(jì)學(xué)方法 采用R4.1.1對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。利用基于隨機(jī)森林的多重插補(bǔ)方法對(duì)數(shù)據(jù)進(jìn)行缺失值填補(bǔ),得到完整的數(shù)據(jù)集,通過套索算法(least absolute shrinkage and selection operator,LASSO),也稱LASSO算法,進(jìn)行特征選擇。服從正態(tài)分布資料則采用(均數(shù)±標(biāo)準(zhǔn)差)表示,不服從正態(tài)分布資料則采用中位數(shù)(P25,P75)表示,分類變量采用百分比/構(gòu)成比進(jìn)行表示。我們將經(jīng)過特征選擇后的數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集(70%)和測(cè)試集(30%),設(shè)置隨機(jī)種子為123。然后用訓(xùn)練集分別構(gòu)建隨機(jī)森林模型和Logistic回歸模型(逐步回歸),并用測(cè)試集對(duì)模型的性能進(jìn)行評(píng)定,在訓(xùn)練集和測(cè)試集使用了相同的分類閾值。檢驗(yàn)水準(zhǔn)α=0.05。

2 結(jié)果

2.1 一般資料 男63例(67.74%),女30例(32.26%),確診時(shí)患者的年齡為45~94歲,平均(72.55±10.72)歲,年齡中位數(shù)為74歲。93例BP患者,1年內(nèi)死亡21例,1年死亡率為22.58%。

2.2 LASSO結(jié)果 圖1顯示,當(dāng)變量個(gè)數(shù)取9的時(shí)候,模型的均方誤差最小,故我們保留了9個(gè)變量用于后續(xù)的模型構(gòu)建。根據(jù)算法輸出的結(jié)果,他們分別是年齡、是否吸煙、是否累及黏膜、是否伴有局部皮膚感染、入院時(shí)一般狀態(tài)差、中性粒細(xì)胞絕對(duì)值、血清白蛋白、血鈣、是否合并神經(jīng)系統(tǒng)疾病。

圖1 LASSO特征選擇結(jié)果可視化圖

2.3 隨機(jī)森林算法的結(jié)果 將經(jīng)過特征選擇后的9個(gè)變量作為特征輸入隨機(jī)森林模型,利用訓(xùn)練集的數(shù)據(jù)訓(xùn)練模型,在利用訓(xùn)練集訓(xùn)練模型之前,對(duì)隨機(jī)森林的參數(shù)進(jìn)行了調(diào)整,包括ntree參數(shù)初始設(shè)置為500,mtry初始設(shè)置為3(分類工作),并挑選使得模型錯(cuò)分率最小的樹的棵數(shù),再將得到的最佳參數(shù)進(jìn)行建模,以保證模型的靈敏度和特異度最優(yōu),模型預(yù)測(cè)結(jié)果最佳的分界值(閾值)是0.41333。設(shè)置參數(shù)隨機(jī)抽取的變量個(gè)數(shù)mtry=3,ntree=200。用已訓(xùn)練好的模型對(duì)驗(yàn)證集患者的預(yù)后進(jìn)行預(yù)測(cè),準(zhǔn)確率為81.84%。隨機(jī)森林模型對(duì)影響B(tài)P患者預(yù)后的因素進(jìn)行了重要性排序(圖2),排名前五位的分別是年齡、是否累及黏膜、是否合并神經(jīng)系統(tǒng)疾病、血鈣水平、是否伴有局部皮膚感染。

圖2 基于隨機(jī)森林純度的特征重要性排序圖

2.4 Logistic回歸的結(jié)果 以BP患者1年內(nèi)是否死亡為應(yīng)變量,將LASSO算法選出的9個(gè)特征變量作為自變量,基于訓(xùn)練集的數(shù)據(jù)向前逐步進(jìn)行變量篩選,逐步回歸分析結(jié)果(表2)顯示高齡、血鈣水平降低、合并神經(jīng)系統(tǒng)疾病是BP患者預(yù)后不良的危險(xiǎn)因素,病變累及黏膜的患者1年內(nèi)死亡率更低。其中n6的P值為0.056>0.05,考慮到如果擴(kuò)大樣本容量,P值可能降低,故將是否累及黏膜也作為影響B(tài)P患者預(yù)后的一個(gè)因素。模型預(yù)測(cè)結(jié)果最佳的分界值(閾值)是0.4837932。我們通過繪制列線圖進(jìn)一步可視化Logistic回歸模型,如圖3所示。

表2 Logistic逐步回歸的結(jié)果

圖3 可視化Logistic回歸的列線圖

2.5 兩種模型的比較 以BP患者1年內(nèi)是否死亡作為應(yīng)變量,用所構(gòu)建的 Logistic 回歸模型、隨機(jī)森林模型驗(yàn)證集數(shù)據(jù)進(jìn)行預(yù)測(cè),并分別繪制出兩種預(yù)測(cè)模型訓(xùn)練集和測(cè)試集的受試者工作特征曲線(receiver operating characteristic curve,ROC),具體見表3、圖4,并對(duì)隨機(jī)森林模型和Logistic回歸模型預(yù)測(cè)的一致性進(jìn)行分析(表4、5)。隨機(jī)森林模型在訓(xùn)練集中的ROC曲線下面積為1.000,準(zhǔn)確率為1.000,靈敏度為1.000,特異度為1.000,F1值1.00,測(cè)試集中ROC曲線下面積為0.763,準(zhǔn)確率為0.8148,靈敏度為0.6667,特異度為0.8571,F1值0.62,訓(xùn)練集和測(cè)試集差異較大。Logistic回歸模型在訓(xùn)練集中的ROC曲線下面積為0.923,準(zhǔn)確率為0.8788,靈敏度為0.7500,特異度為0.9074,F1值0.69,測(cè)試集中ROC曲線下面積為0.8118,準(zhǔn)確率為0.7778,靈敏度為0.5556,特異度為0.8889,F1值0.63,訓(xùn)練集和測(cè)試集差異與隨機(jī)森林相比較小。隨機(jī)森林模型和Logistic回歸模型取并集后訓(xùn)練集準(zhǔn)確率、靈敏度、特異度均為100%。測(cè)試集準(zhǔn)確率為(18+5)/27×100%=85.2%,靈敏度=5/7×100%=71.42%, 特異度=18/20×100%=90%,均高于兩模型單獨(dú)預(yù)測(cè)。

表3 隨機(jī)森林和Logistic模型在訓(xùn)練集和測(cè)試集的評(píng)價(jià)指標(biāo)

圖4 隨機(jī)森林和Logistic回歸模型在訓(xùn)練集和測(cè)試集的ROC曲線

表4 隨機(jī)森林和Logistic回歸模型在訓(xùn)練集的分類一致性

表5 隨機(jī)森林和Logistic回歸模型在測(cè)試集的分類一致性

3 討論

BP是最常見的自身免疫性大皰性皮膚病,治療首選糖皮質(zhì)激素,長期使用糖皮質(zhì)激素有發(fā)生免疫抑制的風(fēng)險(xiǎn),易引起多種并發(fā)癥和多臟器功能衰竭而導(dǎo)致患者死亡。據(jù)報(bào)道BP的全球平均年發(fā)病率為每百萬人2.5~42.8例,1年死亡率為23.5%[17]。目前國內(nèi)外已有的關(guān)于BP患者預(yù)后影響因素的研究,多采用Logistic回歸和COX回歸,大量的理論和實(shí)證研究都證明隨機(jī)森林與傳統(tǒng)統(tǒng)計(jì)學(xué)模型相比,具有更高的預(yù)測(cè)準(zhǔn)確率,且不容易出現(xiàn)過擬合[18]。因此本研究采用隨機(jī)森林算法研究影響B(tài)P患者預(yù)后的因素,并與傳統(tǒng)Logistic回歸相比較,以期為BP的臨床治療及預(yù)后提供更好的指導(dǎo)。

兩種模型均表明年齡、是否合并神經(jīng)系統(tǒng)疾病是影響B(tài)P患者預(yù)后的重要因素,Logistic回歸顯示年齡每增加1歲,BP患者1年死亡率增加0.127倍,合并神經(jīng)系統(tǒng)疾病的BP患者死亡危險(xiǎn)度是未合并神經(jīng)系統(tǒng)疾病患者的5.45倍,這與大多數(shù)研究結(jié)果一致[2-16,19-23]。隨著年齡的增加,患者免疫功能減退,身體機(jī)能退化,一般狀況差,且易合并多種系統(tǒng)性疾病如神經(jīng)系統(tǒng)疾病等,導(dǎo)致其死亡率較高,所以對(duì)老年BP患者尤其是合并神經(jīng)系統(tǒng)疾病的患者臨床上更應(yīng)謹(jǐn)慎對(duì)待。本研究表明是否累及黏膜影響B(tài)P患者的死亡率,且Logistic回歸結(jié)果顯示回歸系數(shù)為負(fù)數(shù),表明累及黏膜是BP患者預(yù)后的保護(hù)因素,這與我們對(duì)疾病的認(rèn)識(shí)不相符。造成這種結(jié)果的原因可能是若患者病變累及黏膜,臨床上可能會(huì)給予更加積極的治療,以迅速控制患者的病情,從而使得死亡率降低。在本研究中,兩種模型均表明血鈣水平影響B(tài)P患者的預(yù)后,隨著血鈣水平的增高,BP患者的死亡率降低,這在以往的研究中沒有報(bào)道,但有研究表明較高的血清25羥基維生素D濃度與較輕的BP相關(guān)[24],維生素D可以促進(jìn)機(jī)體對(duì)鈣的吸收,血鈣水平可間接反映機(jī)體維生素D的水平。本研究中是否伴有局部皮膚感染進(jìn)入隨機(jī)森林模型,皮膚局部感染不僅影響皮損的愈合,嚴(yán)重時(shí)還可引起菌血癥、膿毒血癥危及患者生命,從而影響B(tài)P患者的死亡率。Phoon等研究表明,感染是BP的常見并發(fā)癥,同時(shí)感染也是BP患者的主要死因[25,26]。入院時(shí)一般狀態(tài)、診斷延遲未能進(jìn)入兩種模型的原因不清楚,可能與樣本含量少有關(guān)。

隨機(jī)森林模型顯示影響B(tài)P患者預(yù)后的因素排名前五位的分別是年齡、是否累及黏膜、是否合并神經(jīng)系統(tǒng)疾病、血鈣水平以及是否伴有局部皮膚感染。逐步回歸分析結(jié)果顯示高齡、血鈣水平降低、合并神經(jīng)系統(tǒng)疾病是BP患者預(yù)后不良的危險(xiǎn)因素,病變累及黏膜的患者1年內(nèi)死亡率更低。兩種模型的結(jié)果基本一致,說明預(yù)測(cè)結(jié)果較可靠。隨機(jī)森林模型AUC值、準(zhǔn)確率、靈敏度、特異度以及F1值訓(xùn)練集和測(cè)試集的差異較大,Logistic回歸模型與之相比差異較小,模型穩(wěn)定性更好,若進(jìn)一步增加樣本含量,隨機(jī)森林模型訓(xùn)練集和測(cè)試集之間的差異可能減小。隨機(jī)森林模型對(duì)變量的數(shù)目沒有限制[27,28],且可以提供模型預(yù)測(cè)中各個(gè)變量的重要性排序,Logistic回歸模型簡(jiǎn)單易實(shí)現(xiàn),可直觀解釋各個(gè)變量的相對(duì)危險(xiǎn)度,兩個(gè)預(yù)測(cè)模型各有優(yōu)缺點(diǎn),臨床上兩個(gè)模型取并集共同預(yù)測(cè)大皰性類天皰瘡患者的預(yù)后更具實(shí)踐意義。

猜你喜歡
血鈣死亡率準(zhǔn)確率
走路可以降低死亡率
中老年保健(2021年4期)2021-08-22 07:07:02
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
春季養(yǎng)雞這樣降低死亡率
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
新冠肺炎的死亡率為何難確定?
血鈣正常 可能也需補(bǔ)鈣
急性爛鰓、套腸、敗血癥…一旦治療不及時(shí),死亡率或高達(dá)90%,叉尾鮰真的值得養(yǎng)嗎?
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
氟斑牙患兒ERα啟動(dòng)子區(qū)甲基化率與血鈣和尿氟的相關(guān)性
阿拉尔市| 宁安市| 太原市| 馆陶县| 武胜县| 遂川县| 依兰县| 剑阁县| 仙居县| 新龙县| 宜兰县| 通河县| 德庆县| 大方县| 南郑县| 嘉黎县| 武胜县| 纳雍县| 龙州县| 平阴县| 建阳市| 乳山市| 苏州市| 宁城县| 黎平县| 浦东新区| 怀仁县| 宣汉县| 乌拉特中旗| 文安县| 孟州市| 墨玉县| 双城市| 永定县| 合川市| 镇雄县| 家居| 临安市| 瓦房店市| 福建省| 兴城市|