桑祎瑩 黃仕鑫 易 靜 曾 慶
(1 重慶市衛(wèi)生健康統(tǒng)計(jì)信息中心統(tǒng)計(jì)與政策研究部,重慶市 401120,電子郵箱:1341475734@qq.com;2 重慶市渝北區(qū)人民醫(yī)院,重慶市 401120;3 重慶醫(yī)科大學(xué)公共與衛(wèi)生管理學(xué)院,重慶市 401120)
糖尿病周圍神經(jīng)病變(diabetic peripheral neuropathy,DPN)在糖尿病患者中的發(fā)生率為41%~91%,是糖尿病常見的慢性并發(fā)癥之一,可嚴(yán)重影響糖尿病患者的生活質(zhì)量[1-2]。DPN的發(fā)病機(jī)制十分復(fù)雜,目前主要認(rèn)為氧化應(yīng)激、神經(jīng)炎癥和細(xì)胞凋亡在DPN的發(fā)病機(jī)制中起著關(guān)鍵作用[3]。早期診斷、早期治療是延緩DPN發(fā)展、改善患者預(yù)后的關(guān)鍵[4]。
近年來,數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于零售、金融、保險(xiǎn)、電信、生物信息、醫(yī)療衛(wèi)生等領(lǐng)域中,在醫(yī)療衛(wèi)生領(lǐng)域,隨著醫(yī)學(xué)的進(jìn)步和信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)在疾病的相關(guān)因素分析、預(yù)后預(yù)測、診斷等方面得到了良好的應(yīng)用[5]。在慢性病學(xué)研究中,Logistic回歸模型簡單易用,而隨機(jī)森林模型算法穩(wěn)健,對納入模型的數(shù)據(jù)結(jié)構(gòu)不做要求、不存在共線性與過擬合[6],因此兩者用途非常廣泛。本研究采用Logistic 回歸模型和基于機(jī)器學(xué)習(xí)理論的隨機(jī)森林模型建立DPN診斷模型,并比較這兩種模型診斷DPN的效果,為計(jì)算機(jī)輔助早期診斷DPN提供參考,從而改善患者的預(yù)后。
1.1 臨床資料 納入2016年1~12月在重慶醫(yī)科大學(xué)附屬第二醫(yī)院內(nèi)分泌科確診為DPN的患者(共計(jì)2 199例)為病例組,同時(shí)采用簡單隨機(jī)抽樣法從同期體檢對象中選取2 610例非DPN的體檢人群作為對照組。病例組納入標(biāo)準(zhǔn):(1)均為2型糖尿病患者[7];(2)符合DPN的診斷標(biāo)準(zhǔn)。對照組納入標(biāo)準(zhǔn):(1)無糖尿病及神經(jīng)疾病病史;(2)神經(jīng)系統(tǒng)檢查無陽性體征;(3)本次體檢中未發(fā)現(xiàn)有高血脂、高血壓、高血糖。兩組研究對象排除標(biāo)準(zhǔn):(1)其他病因引起的神經(jīng)病變;(2)嚴(yán)重動(dòng)靜脈血管性病變;(3)化療藥物及其他藥物引起的神經(jīng)損傷;(4)有嚴(yán)重心、肝、腎功能障礙者;(5)臨床檢驗(yàn)指標(biāo)缺失率>40%[8]。
1.2 DPN的診斷標(biāo)準(zhǔn)[7](1)有明確的糖尿病病史。(2)診斷糖尿病時(shí)或之后出現(xiàn)的神經(jīng)病變:有臨床癥狀 (疼痛、麻木、感覺異常等)者,5項(xiàng)檢查(踝反射、針刺痛覺、震動(dòng)覺、壓力覺、溫度覺) 中任意1項(xiàng)異常;無臨床癥狀者,5項(xiàng)檢查(踝反射、針刺痛覺、震動(dòng)覺、壓力覺、溫度覺)中任意2項(xiàng)異常。(3)需排除其他病因引起的神經(jīng)病變、嚴(yán)重動(dòng)靜脈血管性病變、藥物引起的神經(jīng)毒性作用,以及腎功能不全相關(guān)的代謝毒物所致的神經(jīng)損傷。
1.3 數(shù)據(jù)收集 本研究僅納入19個(gè)臨床檢驗(yàn)指標(biāo)進(jìn)行分析,包括超敏C反應(yīng)蛋白、糖化血紅蛋白、LDL、HDL、三酰甘油、總膽固醇、總膽紅素、總蛋白、白蛋白、ALT、AST、堿性磷酸酶(alkaline phosphatase,ALP)、γ-谷氨酰轉(zhuǎn)肽酶、尿素、尿酸、血紅蛋白、鈣、鉀、鈉。病例組的臨床指標(biāo)為住院患者入院時(shí)檢測,由信息科導(dǎo)出病案數(shù)據(jù)。
1.4 統(tǒng)計(jì)學(xué)分析
1.4.1 數(shù)據(jù)預(yù)處理:采用K-means法對19個(gè)臨床檢驗(yàn)指標(biāo)進(jìn)行缺失值填補(bǔ),以改進(jìn)數(shù)據(jù)的質(zhì)量,并提高數(shù)據(jù)分析的可行性和準(zhǔn)確性。應(yīng)用R 3.6.0軟件有放回地重復(fù)隨機(jī)抽取全部樣本的70%作為訓(xùn)練樣本(共3 395例),余下的30%的樣本作為測試樣本(共1 414例)。
1.4.2 Logistic回歸模型的建立:應(yīng)用SPSS 22.0統(tǒng)計(jì)軟件對4 809例觀察對象涉及的19個(gè)臨床檢驗(yàn)指標(biāo)進(jìn)行單因素分析,計(jì)量資料以(x±s)表示,組間比較采用t檢驗(yàn)或t′檢驗(yàn),以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。以單因素分析篩選出的差異有統(tǒng)計(jì)學(xué)意義的臨床檢驗(yàn)指標(biāo)作為Logistic回歸模型的自變量,以是否患有DPN作為二分類Logistic回歸模型的因變量。應(yīng)用SPSS 22.0統(tǒng)計(jì)軟件對訓(xùn)練樣本和測試樣本進(jìn)行逐步Logistic回歸(α入=0.05,α出=0.15)分析,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.4.3 隨機(jī)森林模型的建立:利用訓(xùn)練樣本生成隨機(jī)森林模型,其中需設(shè)置兩個(gè)重要參數(shù),包括以模型誤判率最低的變量個(gè)數(shù)作為隨機(jī)森林模型樹節(jié)點(diǎn)預(yù)選變量個(gè)數(shù),以及以模型誤差趨于穩(wěn)定的決策樹數(shù)量作為隨機(jī)森林模型中樹的數(shù)量。采用逐一增加變量的方法從19個(gè)臨床檢驗(yàn)指標(biāo)變量中選出模型誤判率最低的樹節(jié)點(diǎn)變量個(gè)數(shù),結(jié)果顯示訓(xùn)練樣本生成節(jié)點(diǎn)變量個(gè)數(shù)為4,決策樹數(shù)量為400時(shí)隨機(jī)森林模型誤差趨于穩(wěn)定。因此,本文構(gòu)建了決策樹節(jié)點(diǎn)處變量個(gè)數(shù)為4,決策樹數(shù)量為400的隨機(jī)森林模型,并利用多數(shù)投票的方式對測試樣本的類別做出預(yù)測,判定是否為DPN。同時(shí),隨機(jī)森林模型具有評估變量重要性的功能,變量的重要性評分越高說明該變量對模型判別情況的影響越大。
1.4.4 模型診斷效能的評價(jià):采用R 3.6.0軟件繪制受試者工作特征(receiver operating characteristic,ROC)曲線評價(jià)模型的診斷效能,其中曲線下面積越接近1說明其診斷價(jià)值越高。
2.1 多因素Logistic回歸模型 將19項(xiàng)臨床檢驗(yàn)指標(biāo)進(jìn)行單因素分析,對照組與病例組之間19項(xiàng)指標(biāo)的差異均有統(tǒng)計(jì)學(xué)意義(均P<0.05),見表1。將這19項(xiàng)臨床指標(biāo)作為Logistic回歸模型的自變量(均以連續(xù)型變量納入),以DPN的診斷結(jié)果(DPN=1,非DPN=0)作為因變量進(jìn)行多因素Logistic回歸分析。通過逐步法剔除變量后,最終有14項(xiàng)臨床檢驗(yàn)指標(biāo)納入回歸模型,見表2。經(jīng)測試集樣本驗(yàn)證,模型正確率為81.4%,ROC曲線下面積為0.882,見表3。
表1 單因素分析結(jié)果(x±s)
表2 Logistic回歸分析結(jié)果
2.2 隨機(jī)森林模型 將19項(xiàng)臨床檢驗(yàn)指標(biāo)納入分析,隨機(jī)森林模型中各變量相應(yīng)的重要性評分,見圖1。訓(xùn)練樣本3 395例,節(jié)點(diǎn)處變量個(gè)數(shù)為4,決策樹數(shù)量為400,基于此參數(shù)對測試集樣本(1 414例)的數(shù)據(jù)進(jìn)行分類;經(jīng)測試集樣本驗(yàn)證,模型正確率為96.7%,ROC曲線下面積為0.963,見表3。
表3 Logistic回歸模型與隨機(jī)森林模型的診斷效能評價(jià)結(jié)果(n=1 414)
圖1 隨機(jī)森林模型變量重要性評分
注:僅展示前15個(gè)指標(biāo);Mean Decrease Accuracy代表的是隨機(jī)森林模型預(yù)測準(zhǔn)確性的降低程度,該值越大表示重要性越大;Mean Decrease Gini代表的是通過基尼指數(shù)計(jì)算每個(gè)變量對分類樹每個(gè)節(jié)點(diǎn)觀測值的異質(zhì)性的影響。
DPN多起病隱匿,進(jìn)程緩慢,患者開始無自覺癥狀,待其臨床癥狀出現(xiàn)時(shí),周圍神經(jīng)已出現(xiàn)不可逆的病理改變,這給治療帶來較大困難,因此,早期診斷和早期治療顯得尤為重要[9-10]。傳統(tǒng)檢測方法對DPN早期患者的檢出率比較低,診斷存在片面性和延誤診斷等不足[11]。
隨機(jī)森林模型以建立N棵決策樹為基分類器,進(jìn)行集成學(xué)習(xí)后得到一個(gè)組合分類器,結(jié)合了Bootstrap隨機(jī)重采樣技術(shù)和隨機(jī)子空間方法,通過自助法重采樣技術(shù)以有放回的方式抽取多個(gè)不同的訓(xùn)練集樣本,在每一個(gè)樣本數(shù)據(jù)集上訓(xùn)練決策樹分類器,決策樹集成產(chǎn)生之后,采用多數(shù)投票的方式對未知樣本的類別做出預(yù)測。與Logistic回歸模型相比,隨機(jī)森林模型不僅訓(xùn)練速度快而且容易實(shí)現(xiàn),穩(wěn)健性較高,同時(shí)可以自動(dòng)辨別模型的相關(guān)變量,避免了單獨(dú)觀察某一個(gè)指標(biāo)的片面性和主觀性,且不易出現(xiàn)過度擬合的情況[12-14]。張曉林等[15]分析采用隨機(jī)森林算法和Logistic回歸法構(gòu)建的首發(fā)缺血性腦卒中患者出院90 d的復(fù)發(fā)預(yù)測模型的預(yù)測效果,結(jié)果顯示隨機(jī)森林模型的準(zhǔn)確性、靈敏度、約登指數(shù)分別為89.2%、81.3%、0.425,均高于多因素Logistic回歸分析模型;梁冰倩等[16]采用隨機(jī)森林預(yù)測模型和Logistic回歸預(yù)測模型對高尿酸血癥進(jìn)行預(yù)測,結(jié)果顯示隨機(jī)森林預(yù)測模型的ROC曲線下面積、靈敏度、特異度、準(zhǔn)確率分別為0.759、97.2%、54.5%、0.920,均優(yōu)于Logistic回歸分析模型。以上結(jié)果說明隨機(jī)森林模型對疾病的預(yù)測效果較Logistic回歸模型有顯著優(yōu)勢。因此,本研究除采用Logistic回歸模型外,還采用隨機(jī)森林模型建立DPN的診斷模型,并對兩種診斷模型的效能進(jìn)行比較。
本研究中,經(jīng)測試樣本驗(yàn)證,Logistic回歸模型和隨機(jī)森林模型的正確率分別為81.4%、96.7%,靈敏度分別為72.5%、98.3%,特異度分別為89.2%、95.2%,ROC曲線下面積分別為0.882、0.963,提示隨機(jī)森林模型對DPN的早期診斷能力優(yōu)于Logistic回歸模型。因此,基于機(jī)器學(xué)習(xí)理論的隨機(jī)森林模型,或可為計(jì)算機(jī)輔助早期診斷DPN提供一種客觀可靠的方法。同時(shí),隨機(jī)森林模型的分析結(jié)果給出了各個(gè)變量指標(biāo)的重要性評分,從隨機(jī)森林變量指標(biāo)的重要性可以看出,超敏C反應(yīng)蛋白、糖化血紅蛋白、尿酸、白蛋白等變量的重要性更靠前。其他學(xué)者也發(fā)現(xiàn),超敏C反應(yīng)蛋白、糖化血紅蛋白、尿酸、白蛋白等實(shí)驗(yàn)室指標(biāo)對于早期識(shí)別、預(yù)防和治療DPN有積極作用[17-19]。以上重要性靠前的變量或可作為研究DPN風(fēng)險(xiǎn)因素的重點(diǎn)關(guān)注指標(biāo)。
總之,隨機(jī)森林模型對DPN的診斷效能優(yōu)于Logistic回歸模型,同時(shí)隨機(jī)森林模型的分析結(jié)果給出了各個(gè)變量指標(biāo)的重要性評分,可為DPN的早期診斷提供重要的依據(jù)。本研究的不足之處:僅采集了實(shí)驗(yàn)室指標(biāo)作為變量,且實(shí)驗(yàn)室指標(biāo)的采集不全面;同時(shí)由于某些指標(biāo)數(shù)據(jù)的缺失值大于40%,未納入分析,故可能遺漏某些早期診斷DPN的關(guān)鍵特征因素。DPN的影響因素繁多,利用模型進(jìn)行診斷仍存在很大的挑戰(zhàn),因此,下一步將使用更全面的樣本集對本研究中的模型進(jìn)行驗(yàn)證和改進(jìn),從而建立更準(zhǔn)確的診斷模型。