梁冰倩 黃志碧 賴銀娟 莫海娟 陸華媛 陳青云
(1 廣西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院, 南寧市 530021,電子郵箱:289059086@qq.com;2 廣西醫(yī)科大學(xué)第一附屬醫(yī)院體檢中心, 南寧市 530021)
高尿酸血癥是一種常見且具有廣泛危害的代謝性疾病,可引起人體多器官系統(tǒng)的損害,且與多種心腦血管疾病有關(guān)[1]。目前,我國(guó)高尿酸血癥患病率高達(dá)13.0%,男性和女性患病率分別為18.5%和8%,男性患病率高于女性[2]。但是,我國(guó)高尿酸血癥的知曉率、治療率都很低[3],成為嚴(yán)重影響我國(guó)人民身體健康的公共衛(wèi)生問題。因此,預(yù)防和控制高尿酸血癥具有重要意義。
在醫(yī)學(xué)信息化的今天,醫(yī)療大數(shù)據(jù)內(nèi)在信息價(jià)值的挖掘成為服務(wù)臨床的一門技術(shù)。機(jī)器學(xué)習(xí)技術(shù)在醫(yī)療領(lǐng)域應(yīng)用廣泛[4],隨機(jī)森林是一種集成學(xué)習(xí)算法的機(jī)器學(xué)習(xí)之一,具有精度高、抗噪聲、不受共線影響和不存在過擬合等優(yōu)點(diǎn)[5],在數(shù)據(jù)分析和挖掘中具有較高的應(yīng)用價(jià)值,且可以很好地克服線性回歸模型存在的缺陷。本研究將數(shù)據(jù)挖掘技術(shù)引入到高尿酸血癥患病風(fēng)險(xiǎn)預(yù)測(cè)研究中,基于多因素Logistic回歸分析和隨機(jī)森林算法構(gòu)建高尿酸血癥風(fēng)險(xiǎn)預(yù)測(cè)模型,為高尿酸血癥的預(yù)防控制工作提供科學(xué)依據(jù)。
1.1 臨床資料 選擇2016年9月至2017年2月期間在廣西醫(yī)科大學(xué)第一附屬醫(yī)院體檢中心進(jìn)行體檢的2 754例體檢個(gè)體作為研究對(duì)象。納入標(biāo)準(zhǔn):(1)年齡18~85歲,男女不限;(2)同意進(jìn)行問卷調(diào)查并簽署知情同意。排除患有惡性腫瘤、先天性肝腎功能不全、遺傳病、傳染性疾病、藥物性疾病者。其中,男性1 044例(37.9%)、女性1 710例(62.1%);年齡20~84(52.79±11.83)歲,20~<45歲616例(22.4%)、45~<60歲1 177例(42.7%)、≥60歲961例(34.9%)。
1.2 高尿酸血癥診斷標(biāo)準(zhǔn) 根據(jù)血尿酸水平進(jìn)行診斷,男性血尿酸水平>420 μmol/L,女性血尿酸水平>357 μmol/L,即診斷為高尿酸血癥[6]。
1.3 調(diào)查內(nèi)容 收集的數(shù)據(jù)資料包括問卷調(diào)查資料、體格測(cè)量資料、實(shí)驗(yàn)室檢測(cè)指標(biāo)3部分。共27項(xiàng)指標(biāo):性別、年齡、教育水平、糖尿病史、高血壓史、吸煙史、飲酒史、蔬菜食用情況、水果食用情況、肉類食物食用情況、鍛煉情況、腰圍、體質(zhì)指數(shù)、舒張壓、收縮壓、糖化血紅蛋白、白細(xì)胞計(jì)數(shù)、尿素氮、餐后2 h血糖、血紅蛋白、尿酸、空腹血糖、LDL-C、血小板、HDL-C、三酰甘油、血肌酐。其中,依據(jù)《中國(guó)慢性病及其危險(xiǎn)因素監(jiān)測(cè)報(bào)告,2010》[7]對(duì)吸煙、飲酒指標(biāo)進(jìn)行定義:吸煙定義為每天至少吸20支煙且持續(xù)時(shí)間為半年以上;飲酒定義為在一年時(shí)間內(nèi),每天飲用啤酒、白酒、糯米酒等其中一種酒類50 mL及以上。肉類食物食用情況以每天100 g以上為很多、50~100 g為一般、50 g以下為很少;蔬菜食用情況以每天600 g以上為很多、300~600 g為一般、300 g以下為很少;水果食用情況以每天500 g以上為很多、200~500 g為一般、200 g以下為很少;鍛煉情況以每周1~3次為偶爾鍛煉,每周0~1次為不鍛煉,每次正常步行30 min及以上。
1.4 統(tǒng)計(jì)學(xué)分析 采用SPSS 24.0和R 3.6.0軟件進(jìn)行統(tǒng)計(jì)分析。根據(jù)診斷標(biāo)準(zhǔn),將研究對(duì)象分為高尿酸血癥組和非高尿酸血癥組,將兩組對(duì)象進(jìn)行編號(hào),然后采用單純隨機(jī)抽樣的方法,從兩組中分別隨機(jī)抽取80%的樣本量組成訓(xùn)練集樣本用于構(gòu)建模型,其余20%樣本量作為測(cè)試集用于評(píng)價(jià)模型效能。在所有研究對(duì)象中先將27項(xiàng)指標(biāo)采用單因素分析方法進(jìn)行篩選,服從正態(tài)分布的計(jì)量資料以(x±s)表示,比較采用獨(dú)立t檢驗(yàn),不服從正態(tài)分布的資料以中位數(shù)(M)和四分位數(shù)間距(Q)表示,比較采用秩和檢驗(yàn);分類變量以率或構(gòu)成比表示,比較采用χ2檢驗(yàn)。將單因素分析中P<0.05的變量,采用訓(xùn)練集數(shù)據(jù)分別建立Logistic回歸預(yù)測(cè)模型和隨機(jī)森林預(yù)測(cè)模型。最后,根據(jù)測(cè)試集數(shù)據(jù)應(yīng)用兩種預(yù)測(cè)模型對(duì)高尿酸血癥患病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),采用受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under the curve,AUC)比較兩種預(yù)測(cè)模型預(yù)測(cè)效果的差異。
1.4.1 隨機(jī)森林預(yù)測(cè)模型的建立:運(yùn)用R 3.6.0軟件進(jìn)行分析和建模,根據(jù)訓(xùn)練集數(shù)據(jù),調(diào)用Random Forest包進(jìn)行隨機(jī)森林模型的訓(xùn)練,并對(duì)重要參數(shù)ntree和mtry進(jìn)行調(diào)試。經(jīng)測(cè)試集檢驗(yàn),當(dāng)ntree=500、mtry=6時(shí),隨機(jī)森林模型達(dá)到最優(yōu)。
1.4.2 Logistic回歸預(yù)測(cè)模型的建立:在訓(xùn)練集數(shù)據(jù)上,使用R語(yǔ)言中的glm函數(shù)構(gòu)建Logistic模型,并利用step函數(shù)對(duì)構(gòu)建的初始Logistic模型進(jìn)行基于AIC準(zhǔn)則的逐步回歸變量篩選。
1.4.3 驗(yàn)證模型: 采用簡(jiǎn)單交叉驗(yàn)證,根據(jù)擬合出的兩個(gè)預(yù)測(cè)模型,采用測(cè)試集數(shù)據(jù)繪制ROC曲線,根據(jù)ROC曲線及AUC對(duì)模型預(yù)測(cè)的優(yōu)劣進(jìn)行評(píng)價(jià)。
2.1 高尿酸血癥檢出情況及單因素分析結(jié)果 2 754例研究對(duì)象中,共檢出454例高尿酸血癥,陽(yáng)性檢出率為16.49%。其中,男性患者249例,陽(yáng)性檢出率為23.85%(249/1 044),女性患者205例,陽(yáng)性檢出率為11.99%(205/1 710)。單因素分析結(jié)果顯示,在所分析的27個(gè)指標(biāo)中,15個(gè)指標(biāo)差異有統(tǒng)計(jì)學(xué)意義(均P<0.05),見表1。
表1 單因素分析結(jié)果
2.2 隨機(jī)森林預(yù)測(cè)模型分析結(jié)果 訓(xùn)練樣本為2 212例,ntree=500,mtry=6,基于此參數(shù)設(shè)置對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類;經(jīng)測(cè)試集檢驗(yàn),模型預(yù)測(cè)的準(zhǔn)確率為92%。隨機(jī)森林模型袋外錯(cuò)誤率為10.05%,說明模型泛化性較好,不存在過擬合。隨機(jī)森林模型中各變量重要性排序見表2,其中0和1列分別顯示各個(gè)變量對(duì)預(yù)測(cè)為非高尿酸血癥和高尿酸血癥的貢獻(xiàn)大小,平均基尼降低值顯示變量對(duì)最終預(yù)測(cè)的重要程度。
表2 隨機(jī)森林預(yù)測(cè)模型分析結(jié)果
2.3 Logistic回歸模型分析結(jié)果 以是否患高尿酸血癥為因變量,以體質(zhì)指數(shù)、性別、年齡、糖尿病史、高血壓史、飲酒史、吸煙史、腰圍、總膽固醇、尿素氮、空腹血糖、LDL-C、HDL-C、三酰甘油、血肌酐等15個(gè)指標(biāo)為自變量進(jìn)行多因素非條件Logistic回歸分析,采用后退法篩選變量,變量進(jìn)入模型的水準(zhǔn)α=0.05,變量剔出模型的水準(zhǔn)α=0.10,分析的變量及其賦值方法見表3。結(jié)果顯示,男性、腰圍和體質(zhì)指數(shù)增加,以及三酰甘油、血肌酐水平升高均增加高尿酸血癥發(fā)生的危險(xiǎn)性(均P<0.05),見表4。
表3 分析變量及賦值方法
變量賦值方法高尿酸血癥無(wú)=0,有=1性別男=0,女=1年齡20歲~=0,45歲~=1,60歲~=2糖尿病史無(wú)=0,有=1高血壓史無(wú)=0,有=1吸煙史無(wú)=0,有=1飲酒史無(wú)=0,有=1腰圍(cm)連續(xù)型變量體質(zhì)指數(shù)(kg/m2)連續(xù)型變量總膽固醇(mmol/L)連續(xù)型變量尿素氮(mmol/L)連續(xù)型變量空腹血糖(mmol/L)連續(xù)型變量LDL-C(mmol/L)連續(xù)型變量HDL-C(mmol/L)連續(xù)型變量三酰甘油(mmol/L)連續(xù)型變量血肌酐(μmol/L)連續(xù)型變量
表4 影響高尿酸血癥發(fā)生的多因素Logistic回歸分析結(jié)果
2.4 兩種模型的預(yù)測(cè)效果比較 將建立的預(yù)測(cè)模型應(yīng)用于測(cè)試集,比較兩種模型對(duì)高尿酸血癥的預(yù)測(cè)效果。Logistic回歸預(yù)測(cè)模型的AUC為0.658(P<0.001,95%CI:0.647~0.669),隨機(jī)森林預(yù)測(cè)模型的AUC為0.759(P<0.001,95%CI:0.746~0.772)。隨機(jī)森林預(yù)測(cè)模型的AUC大于Logistic回歸預(yù)測(cè)模型的AUC(P=0.002)。選擇正確指數(shù)最高的點(diǎn)作為最佳臨界點(diǎn),此時(shí)Logistic回歸預(yù)測(cè)模型的靈敏度、特異度、準(zhǔn)確率分別為87.7%、43.9%、82.3%,而隨機(jī)森林預(yù)測(cè)模型的靈敏度、特異度、準(zhǔn)確率分別為97.2%、54.5%、92.0%,見圖1。
圖1 兩種模型預(yù)測(cè)高尿酸血癥發(fā)生的ROC曲線
隨著我國(guó)社會(huì)經(jīng)濟(jì)的發(fā)展和城市化進(jìn)程的加快,高尿酸血癥的患病率明顯增加,且發(fā)病呈年輕化的趨勢(shì),預(yù)測(cè)高尿酸血癥患病風(fēng)險(xiǎn)有助于及早發(fā)現(xiàn)和實(shí)施干預(yù)措施,從而提高人群健康水平。
目前,隨機(jī)森林模型應(yīng)用領(lǐng)域非常廣泛,特別在金融學(xué)、醫(yī)學(xué)以及生物學(xué)等領(lǐng)域均獲得不錯(cuò)的評(píng)價(jià)[8],可以用于疾病發(fā)生風(fēng)險(xiǎn)的預(yù)測(cè)。該模型雖結(jié)構(gòu)復(fù)雜但卻容易使用,需要假設(shè)的條件比Logistic回歸模型要少。同時(shí),隨機(jī)森林也不需要檢驗(yàn)變量的非線性作用和交互作用是否顯著[9]。隨機(jī)森林模型通過隨機(jī)選取一個(gè)特征子空間,再選取具有最佳Gini值的特征因子作為分割[10],其不僅具有優(yōu)越的預(yù)測(cè)能力,而且可判別各影響變量的重要性程度。
本研究建立了隨機(jī)森林預(yù)測(cè)模型和Logistic回歸預(yù)測(cè)模型,并比較兩種模型對(duì)高尿酸血癥的預(yù)測(cè)效能,結(jié)果顯示,隨機(jī)森林預(yù)測(cè)模型的AUC為0.759, 提示其對(duì)高尿酸血癥有一定的預(yù)測(cè)效能,且其AUC、靈敏度、特異度、準(zhǔn)確率均優(yōu)于Logistic回歸預(yù)測(cè)模型,表明隨機(jī)森林模型對(duì)高尿酸血癥的預(yù)測(cè)能力優(yōu)于Logistic回歸預(yù)測(cè)模型。隨機(jī)森林預(yù)測(cè)模型最大的優(yōu)勢(shì)是能夠分析復(fù)雜非線性關(guān)系的數(shù)據(jù)以及對(duì)預(yù)測(cè)變量的數(shù)目沒有限制[11],且能在變量個(gè)數(shù)大于樣本個(gè)數(shù)的數(shù)據(jù)中進(jìn)行判別和分類[12];同時(shí),其能提供各個(gè)自變量對(duì)模型預(yù)測(cè)的重要性分析,可以作為高尿酸血癥影響因素的重點(diǎn)觀察指標(biāo)。Logistic回歸模型是常用的概率預(yù)測(cè)模型,使用方法簡(jiǎn)單,預(yù)測(cè)能力較強(qiáng),但是不能給出各個(gè)自變量對(duì)模型預(yù)測(cè)的重要性,Logistic回歸預(yù)測(cè)模型優(yōu)勢(shì)在于可以直觀解釋影響因素的相對(duì)危險(xiǎn)度。
本研究在隨機(jī)森林模型特征變量的重要性分析中,排名前5位的變量依次是血肌酐、三酰甘油、腰圍、體質(zhì)指數(shù)、尿素氮;而Logistic回歸分析顯示,性別、腰圍、體質(zhì)指數(shù)、三酰甘油、血肌酐是高尿酸血癥發(fā)病的重要影響因素。兩種模型的分析結(jié)果相似,說明預(yù)測(cè)結(jié)果穩(wěn)定可靠。結(jié)果提示,男性人群以及血肌酐、三酰甘油、腰圍、體質(zhì)指數(shù)、尿素氮異常者發(fā)生高尿酸血癥的風(fēng)險(xiǎn)增加(P<0.05),需注意監(jiān)測(cè)血尿酸水平,防止高尿酸血癥的發(fā)生。
綜上所述,隨機(jī)森林模型對(duì)高尿酸血癥預(yù)測(cè)效果較好,可以作為L(zhǎng)ogistic回歸預(yù)測(cè)模型的補(bǔ)充,充分發(fā)揮兩種預(yù)測(cè)模型的優(yōu)越性。男性人群以及血肌酐、三酰甘油、腰圍、體質(zhì)指數(shù)、尿素氮異常者,應(yīng)定期進(jìn)行尿酸水平檢測(cè),如發(fā)現(xiàn)這些指標(biāo)異常增高,應(yīng)盡早采取相應(yīng)的干預(yù)措施,以期降低高尿酸血癥發(fā)生的風(fēng)險(xiǎn)。