莫海娟 賴銀娟 黃志碧 梁冰倩 陸華媛
(廣西醫(yī)科大學公共衛(wèi)生學院,南寧市 530021,電子郵箱:2401061229@qq.com)
近年來我國結核病的發(fā)病率和死亡率呈逐步下降趨勢,但其患病率仍位居世界第二,僅次于印度[1]。脊柱結核占骨和關節(jié)結核的50%,是最常見的肺外結核,常導致不可逆轉的神經(jīng)損傷(包括癱瘓),降低患者的生活質(zhì)量[2],引發(fā)嚴重的社會和經(jīng)濟問題。經(jīng)典的Logistic回歸模型是一種分析疾病影響因素的常用方法,但是對于非線性問題效果不佳[3]。隨機森林法是由美國科學家Breiman將前期Bagging集成學習理論與Ho提出的隨機子空間方法結合的一種新組合分類器 CART決策樹算法。隨機森林法在多種疾病研究中的應用已逐漸成為統(tǒng)計學研究熱點,與傳統(tǒng)的分類算法相比,其具有準確性高等優(yōu)點[4]。本文采用隨機森林算法結合Logistic回歸模型探討用于預測脊柱結核的模型,旨在用盡量少的自變量去預測脊柱結核,同時使模型具有較高的準確度。
1.1 臨床資料 將2017年1月至2018年12月廣西醫(yī)科大學第一附屬醫(yī)院脊柱結核外科收治的250例脊柱結核患者作為研究組。納入標準:(1)CT引導下穿刺活檢病理結果證實為結核;(2)有相應的臨床表現(xiàn)和影像學表現(xiàn),且抗結核治療有效。排除標準:(1)意識不清,無法表達病情者;(2)合并有其他感染性疾病者。研究組中男性149例、女性101例,年齡7~84(47.28±16.93)歲。并根據(jù)隨機數(shù)字表法抽取同一時期來科室檢查的250例非脊柱結核患者作為對照組,包括慢性腰背肌筋膜炎(診斷符合《臨床診療指南骨科分冊》[5])、脊柱腫瘤(手術時取活檢病理證實),排除意識不清者。 對照組中男性145例、女性105例,年齡10~81(44.34±17.34) 歲。兩組患者的性別、年齡差異均無統(tǒng)計學意義(均P>0.05),具有可比性。
1.2 資料收集 回顧性分析研究對象的相關基本信息和臨床表現(xiàn)、實驗室指標。(1)基本信息:性別、年齡。(2)臨床表現(xiàn):疲倦/乏力、體重下降、盜汗、貧血(男性血紅蛋白<120 g/L,女性血紅蛋白<110 g/L)、頸肩腰背痛、椎旁或腰大肌膿腫(X線出現(xiàn)單側或者雙側局限性陰影)、椎間隙狹窄(X線顯示間隙變窄或消失,邊緣不齊、模糊)、骨質(zhì)破壞(CT表現(xiàn)為蟲蝕狀骨質(zhì)破壞,顯示為蜂窩或斑片樣改變)、脊柱生理曲度或椎體形狀改變(表現(xiàn)為頸椎和腰椎變直)、椎前及椎旁軟組織陰影增大腰椎(X線可見腰大肌陰影增大增深)、脊柱后凸(Cobb角>30°)、神經(jīng)功能受損(表現(xiàn)為感覺減退平面,病理征陽性)、活動受限(表現(xiàn)為拾物試驗陽性)。(3)實驗室指標:血沉、白細胞計數(shù)、C反應蛋白、血清白蛋白水平。其中血沉的正常范圍:成年男性為0~15 mm/h,女性為0~20 mm/h;白細胞計數(shù)的正常范圍為(4~10)×109/L;C反應蛋白的正常范圍為0.8~8 mg/L;血清白蛋白的正常范圍為40~55 g/L。
1.3 統(tǒng)計學分析 采用IBM SPSS 25.0軟件分析隨機森林的預測變量的重要程度排序,根據(jù)滑動窗口序貫向前選擇法(sliding windows sequential forward selection,SWSFS)[6]找出合適的變量個數(shù)。運用SPSS 24.0軟件將考慮的變量納入二元Logistic回歸模型中進行分析。
1.3.1 變量重要程度的排序情況:在隨機森林中,要構建的分類樹與回歸樹算法模型數(shù)量為500,為了結果重現(xiàn),隨機數(shù)種子設為111。將臨床常規(guī)診斷的指標納入隨機森林模型并分析各個變量的重要性排序,包括疲倦/乏力、體重下降、盜汗、貧血、頸肩腰背痛、椎旁或腰大肌膿腫、椎間隙狹窄、骨質(zhì)破壞,脊柱生理曲度或椎體形狀改變、椎前及椎旁軟組織陰影增大、脊柱后凸、神經(jīng)功能受損、活動受限以及血沉、白細胞計數(shù)、C反應蛋白、白蛋白水平。
1.3.2 去躁降維:利用SWSFS,按重要程度大小逐步加入變量,每加入1個新變量再次運行隨機森林分析[6-7]。由于每棵樹都是基于Bootstrap抽樣獲得的訓練樣本計算的,約有1/3的數(shù)據(jù)未被抽中,即為袋外數(shù)據(jù)集,最終獲得袋外估算誤差率,用以表示該隨機森林模型進行預測時的誤差。
1.3.3 Logistic回歸:以是否患脊柱結核為因變量,將隨機森林分析得出的結果作自變量,進行二元Logistic回歸分析,運用后退法篩選變量,以α=0.05作為變量納入模型的標準。
1.3.4 模型的評價:以Logistic回歸中的混淆矩陣評價所建立模型的預測效能。
2結 果
2.1 隨機森林變量的重要性排序情況 通過拆分到所有樹中的平均變量數(shù)而減少節(jié)點雜質(zhì)總量(按基尼指標測量),節(jié)點雜質(zhì)減少越多,各個變量的重要性越靠前。重要性位列前5名的指標依次為低白蛋白、脊柱后凸、血沉、椎旁或腰大肌膿腫、貧血,見表1及圖1。
表1 各個變量的節(jié)點雜質(zhì)減少情況及重要性排序
圖1 隨機森林預測變量排序
2.2 去躁降維結果 結合隨機森林排序情況,逐一加入變量,進行SWSFS過程,結果顯示,當自變量達10個時,袋外估算誤差率相對較低且穩(wěn)定,見圖2。
圖2 SWSFS過程的袋外估算誤差率
2.3 多因素Logistic回歸分析 以是否患脊柱結核為因變量,以重要性位列前10的指標(低白蛋白、脊柱后凸、血沉、椎旁或腰大肌膿腫、貧血、骨質(zhì)破壞、C反應蛋白、盜汗、活動受限、體重下降)作為自變量,進行多因素Logistic回歸分析,變量賦值見表2。結果顯示,白蛋白降低、脊柱后凸、血沉升高、椎旁或腰大肌膿腫、貧血、骨質(zhì)破壞、C反應蛋白升高、體重下降均與脊柱結核有關(均P<0.05),見表3。
表2 變量賦值
表3 多因素Logistic回歸分析結果
2.4 基于隨機森林模型的Logistic回歸的模型評價 基于隨機森林模型的Logistic回歸對脊柱結核患者預測的正確率為94.0%(235/250),判斷非脊柱結核患者的正確率為92.8%(232/250),總的準確度是93.4%(467/500),見表4。
表4 混淆矩陣
脊柱結核是一種繼發(fā)于肺結核或淋巴結核的疾病,其受經(jīng)濟落后、結核耐藥菌株不斷出現(xiàn)及世界人口的大范圍流動等因素的影響。脊柱結核患者常有結核病史,同時多有午后低熱、消瘦、貧血、盜汗等伴隨癥狀,從感染到出現(xiàn)相應臨床表現(xiàn)一般需11.2個月[8]。
本研究從17個臨床指標中,采用降維的方式,選擇重要性位于前10的變量納入多因素Logistic回歸模型中進行分析。結果顯示,白蛋白降低、脊柱后凸、血沉升高、椎旁或腰大肌膿腫、貧血、骨質(zhì)破壞、C反應蛋白升高、體重下降均與脊柱結核有關(均P<0.05),具有這些特征的患者患脊柱結核的可能性大。其中,貧血、體重下降均是結核感染的常見典型癥狀。血沉、C反應蛋白均是反映機體炎性活動的最常用指標,脊柱結核由結核桿菌感染引起,故機體血沉、C反應蛋白明顯升高。骨質(zhì)破壞是該病基本病癥之一,結核桿菌感染后,結核的干酪化作用誘發(fā)局限性骨質(zhì)破壞[9]。脊柱后凸亦是結核桿菌侵犯椎體而引起的畸形。此外,結核桿菌侵入椎體后形成的膿液可流到椎旁或椎旁軟組織,如不加干預可累及腰大肌,表現(xiàn)為椎旁或腰大肌膿腫[10]??傊?,如患者存在血沉、C反應蛋白、白蛋白異常,以及脊柱后凸、脊柱破壞、椎旁或腰大肌膿腫,應高度警惕脊柱結核的可能。
本研究運用隨機森林算法找出影響脊柱結核發(fā)病的重要程度前10位的變量,進一步解析。從大多數(shù)變量中挑選影響較大的變量分析并預測,能夠減少診斷的時間,節(jié)省人力。隨機森林算法在脊柱結核預測風險上有理想的結局,但是多因素Logistic回歸能直觀地解釋結果[11]。隨機森林可以克服自變量間高度相關和非線性問題,Logistic回歸可以彌補隨機森林的解釋困難性缺陷,兩個模型結合預測脊柱結核的準確度高達93.4%,說明預測效果較佳。但本文的研究對象來源于醫(yī)院,結果具有一定局限性,若要應用到社區(qū),則需進一步增加樣本含量及采集樣本的途徑。