宋華翠 辛鐵君 戴翔 劉洋春子 張瑩 高莉潔
【摘要】目的:分析某企業(yè)高血壓主要危險(xiǎn)因素,建立發(fā)病預(yù)測模型。方法:利用某企業(yè)2006-2016年體檢的大數(shù)據(jù),采用廣義估計(jì)方程篩選高血壓病的危險(xiǎn)因素,采用BP神經(jīng)網(wǎng)絡(luò)模型建立高血壓發(fā)病預(yù)測模型。結(jié)果:BP神經(jīng)網(wǎng)絡(luò)模型對各自變量對預(yù)測高血壓的重要性依次為體檢年齡、體重指數(shù)、性別、混合型高脂血癥、飲酒習(xí)慣、高甘油三酯血癥、吸煙習(xí)慣、飲食習(xí)慣,經(jīng)過驗(yàn)證對高血壓病有較好的預(yù)測能力。結(jié)論:BP神經(jīng)網(wǎng)絡(luò)模型能夠較好的解決多因子復(fù)雜疾病預(yù)測問題,具有較好的預(yù)測效果。本研究對高血壓病的主要危險(xiǎn)因素的重要性排序,可對該疾病干預(yù)提供依據(jù)。
【關(guān)鍵詞】BP神經(jīng)網(wǎng)絡(luò);高血壓;危險(xiǎn)因素;變量
Abstract Objective: To analyze the main risk factors and incidence prediction of hypertension in an enterprise. Methods: Generalized estimation equations were used to analyze single-factor analysis and multi-factor analysis, and BP neural network model was used to analyze the physical examination data of 180363 hypertensive patients detected by 512,000416 persons. Results: The importance of the main risk factors of chronic diseases was ranked, and the importance of BP neural network model to the prediction of hypertension in each variable was medical examination age, body mass index, gender, mixed hyperlipidemia, drinking habits, and high triglyceride blood. Disease, smoking habits, eating habits. The ability to recognize high blood pressure is better than the ability to high blood pressure. Conclusion: The BP neural network model can better solve the multi-factor complex disease prediction problem, has a better prediction effect and the importance ranking of the main risk factors, and provides a basis for developing disease intervention.
Keywords: BP neural network, hypertension, risk factors, variables
前言
高血壓是心血管疾病的主要危險(xiǎn)因素,近年來我國高血壓患病率呈明顯上升趨勢,高血壓是由多基因遺傳和多種環(huán)境不良因素交互作用而成,其長期發(fā)展可導(dǎo)致動脈粥樣硬化病情的發(fā)展及形成加速,引發(fā)心肌缺血、缺氧及壞死,形成冠心病。多個(gè)危險(xiǎn)因素的聯(lián)合作用導(dǎo)致了高血壓疾病的發(fā)生,影響慢性病發(fā)生的危險(xiǎn)因素它們之間往往存在復(fù)雜的非線性關(guān)系。BP(Back Propagation)網(wǎng)絡(luò)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。人工神經(jīng)網(wǎng)絡(luò)(artifieial neural networks,ANN)可以更好地揭示這些變量間的關(guān)系,通過數(shù)據(jù)挖掘可以分析多個(gè)變量對結(jié)果變量的作用大小,更好地揭示這些變量間的關(guān)系,預(yù)測疾病發(fā)生概率。本研究就是運(yùn)用這種模型預(yù)測高血壓。
1 對象與方法
1.1 研究對象
選取2006年1月-2016年12月,年齡18歲以上某企業(yè)員工在職與退休員工51.2416萬人次的體檢數(shù)據(jù)。
1.2 研究內(nèi)容
本研究從年齡、性別、行為生活方式、體檢監(jiān)測指標(biāo)等方面,進(jìn)行高血壓風(fēng)險(xiǎn)因素相關(guān)性分析,對有統(tǒng)計(jì)學(xué)意義的變量建立預(yù)測模型,并進(jìn)行自變量的重要性分析。
1.3 研究方法
為確定本研究中所使用的變量,分別對各年組高血壓進(jìn)行廣義估計(jì)方程分析單因素分析和多因素分析,對有統(tǒng)計(jì)學(xué)意義的變量建立預(yù)測模型,并進(jìn)行自變量的重要性分析,篩選有意義的變量納入BP神經(jīng)網(wǎng)絡(luò)模型,采用多層感知器方法進(jìn)行高血壓模型構(gòu)建,通過對比ROC曲線下面積驗(yàn)證預(yù)測效果,
1.3.1 廣義估計(jì)方程(generalized estimating equations,GEEs) 是Liang和Zeger (1986)在廣義線性模型的基礎(chǔ)上提出來主要被應(yīng)用于水平數(shù)為兩水平的縱向觀察資料的分析,用于分析存在相關(guān)性數(shù)據(jù)的一種回歸模型。
1.3.2 ?BP 神經(jīng)網(wǎng)絡(luò)模型人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是通過對人腦的基本單元——神經(jīng)元的建模和聯(lián)結(jié),來探索模擬人腦神經(jīng)系統(tǒng)功能的模型,其信息處理是通過信息樣本對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,使其具有人的大腦的記憶、辨識能力,完成各種信息處理功能。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小。BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層(input)、隱層(hide layer)和輸出層(output layer)(如圖1所示)。
2 結(jié)果
2.1 篩選高血壓危險(xiǎn)因素
廣義估計(jì)方程分析服從二項(xiàng)分布,選取聯(lián)接函數(shù)為logit,工作相關(guān)矩陣選擇獨(dú)立,以高血壓作為因變量(表1),進(jìn)行單變量廣義估計(jì)方程分析,結(jié)果如表2。經(jīng)單變量廣義估計(jì)方程分析,在α=0.05的檢驗(yàn)水準(zhǔn)下,高血壓體檢年齡、性別、體重指數(shù)、飲食習(xí)慣、飲酒、吸煙、運(yùn)動習(xí)慣、血糖異常、有高甘油三酯血癥、有高膽固醇血癥、有混合型高脂血癥11個(gè)變量均有統(tǒng)計(jì)學(xué)意義,P<0.05。將高血壓單因素分析有統(tǒng)計(jì)學(xué)意義的高血壓11個(gè)變量,最終進(jìn)入方程模型的變量分別為體檢年齡、性別、體重指數(shù)、飲食習(xí)慣、飲酒、吸煙、運(yùn)動習(xí)慣、有高甘油三酯血癥、有混合型高脂血癥9個(gè)變量進(jìn)一步進(jìn)行多變量廣義估計(jì)方程分析。選取聯(lián)接函數(shù)為二項(xiàng)logit,工作相關(guān)矩陣選擇獨(dú)立,進(jìn)行廣義估計(jì)方程分析,分析結(jié)果見表高血壓表見表3。分析結(jié)果顯示,高血壓體檢年齡、性別、體重指數(shù)、飲食習(xí)慣、飲酒、吸煙、有高甘油三酯血癥、有混合型高脂血癥8個(gè)變量有統(tǒng)計(jì)學(xué)意義,其中體檢年齡、體重指數(shù)、性別、飲酒、有高甘油三酯血癥、有混合型高脂血癥是高血壓的危險(xiǎn)因素,OR值分別為1.076(1.075,1.077)、1.189(1.184,1.194)、1.921(1.847,1.998)、1.625(1.578,1.672)、1.354(1.318,1.391)、1.628(1.566,1.691)。
2.2 構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型
將高血壓危險(xiǎn)因素廣義估計(jì)方程多因素分析有統(tǒng)計(jì)學(xué)意義的8個(gè)變量納入BP神經(jīng)網(wǎng)絡(luò)模型,采用多層感知器方法進(jìn)行模型構(gòu)建,本研究采用自動體系結(jié)構(gòu)建立BP神經(jīng)網(wǎng)絡(luò)模型。
對原始數(shù)據(jù)文件進(jìn)行隨機(jī)化抽樣,將數(shù)據(jù)劃分為"訓(xùn)練樣本(50%)"、"檢驗(yàn)樣本(30%)"、"保持樣本(20%)"3個(gè)區(qū)塊,高血壓如圖1所示。為了隨機(jī)過程可重復(fù),事先指定固定種子一枚,設(shè)置隨機(jī)數(shù)固定種子為91919876。
輸入層包含8個(gè)變量體檢年齡、性別、體重指數(shù)、飲食習(xí)慣、飲酒習(xí)慣、吸煙習(xí)慣、有高甘油三酯血癥、有混合型高脂血癥,共18個(gè)單位數(shù)。輸出層為因變量高血壓,有2個(gè)單位數(shù)。隱藏層數(shù)為1,隱藏單位數(shù)為6,激活函數(shù)為雙曲正切。輸出層為因變量高血壓,有2個(gè)單位數(shù),激活函數(shù)為Softmax,錯(cuò)誤函數(shù)為交叉熵。樣本分類預(yù)測結(jié)果,如圖2所示,本研究構(gòu)建的高血壓神經(jīng)網(wǎng)絡(luò)預(yù)測模型,模型誤差在1個(gè)連續(xù)步驟中未出現(xiàn)優(yōu)化減少現(xiàn)象,模型按預(yù)定中止。模型在3個(gè)分區(qū)中的不正確預(yù)測百分比較接近。模型分類表,軟件默認(rèn)采用0.5作為正確和錯(cuò)誤的概率分界,將3大分區(qū)樣本的正確率進(jìn)行交叉對比,如圖3所示。訓(xùn)練樣本預(yù)測不正確百分比為26.2%,正確的百分比為73.8%;測試樣本不正確的百分比為26.7%,正確的百分比為73.3%;保持樣本的不正確百分比為26.4%,正確的百分比為73.6%。模型的參數(shù)估計(jì)值如圖4所示。從圖5的觀察預(yù)測圖可以看出,按照高血壓患病與否與預(yù)測結(jié)果進(jìn)行分組,縱坐標(biāo)為預(yù)測概率。以0.5為分界時(shí),對不患高血壓的識別能力較好于對患高血壓的識別能力。
2.3繪制ROC曲線
ROC曲線下的面積將本模型預(yù)測結(jié)果繪制ROC曲線,高血壓曲線下的面積為0.802,95%可信區(qū)間為(0.800,0.803),P值<0.001,有統(tǒng)計(jì)學(xué)意義,如圖6,圖7所示。
2.4 對高血壓主要危險(xiǎn)因素重要性排序
BP神經(jīng)網(wǎng)絡(luò)模型對各自變量對預(yù)測高血壓的重要性進(jìn)行分析,各變量標(biāo)準(zhǔn)化的重要性依次為體檢年齡、體重指數(shù)、性別、混合型高脂血癥、飲酒習(xí)慣、高甘油三酯血癥、吸煙習(xí)慣、飲食習(xí)慣。
3 討論
高血壓為多因子疾病,因子本身分布多態(tài),致病因素多,各因素間關(guān)系和作用方式復(fù)雜,預(yù)測因子之間本身也存交互作用、多重共線性,干擾統(tǒng)計(jì)模型的擬合效率,干擾了高血壓預(yù)測和病因研究。傳統(tǒng)的模型處理變量之間的共線性問題,進(jìn)行高血壓等復(fù)雜疾病預(yù)測具有一定的局限性。人工神經(jīng)網(wǎng)絡(luò)是模擬生物神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理的一種數(shù)學(xué)模型,在神經(jīng)網(wǎng)絡(luò)中,對外部環(huán)境提供的模式樣本進(jìn)行學(xué)習(xí)訓(xùn)練,并能存儲這種模式,對外部環(huán)境有適用能力,能自動提取外部環(huán)境變化特征。SPSS神經(jīng)網(wǎng)絡(luò)中,包括多層感知器和徑向基函數(shù)(RBF)兩種方法。多層感知器 (Multi-layer ?Perceptron,MLP)是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),映射一組輸入向量到一組輸出向量,由多個(gè)節(jié)點(diǎn)層組成,每一層全連接到下一層。每個(gè)節(jié)點(diǎn)都是一個(gè)帶有非線性激活函數(shù)的神經(jīng)元,它的過程會根據(jù)預(yù)測變量的值來生成一個(gè)或多個(gè)因變量的預(yù)測模型。人工神經(jīng)網(wǎng)絡(luò)可以更好地揭示這些變量間的關(guān)系,通過數(shù)據(jù)挖掘可以分析多個(gè)變量對結(jié)果變量的作用大小,更好地揭示這些變量間的關(guān)系,預(yù)測疾病發(fā)生概率。驗(yàn)證證明該模型具有較好的預(yù)測效果。
通過廣義估計(jì)方程篩選出體檢年齡、性別、體重指數(shù)、飲食習(xí)慣、飲酒、吸煙、有高甘油三酯血癥、有混合型高脂血癥8個(gè)變量有統(tǒng)計(jì)學(xué)意義,與文獻(xiàn)報(bào)道的高血壓危險(xiǎn)因素基本相一致。BP神經(jīng)網(wǎng)絡(luò)模型對各自變量對預(yù)測高血壓的重要性進(jìn)行分析,各變量標(biāo)準(zhǔn)化的重要性依次為體檢年齡、體重指數(shù)、性別、混合型高脂血癥、飲酒習(xí)慣、高甘油三酯血癥、吸煙習(xí)慣、飲食習(xí)慣。運(yùn)用多層感知器進(jìn)行模型構(gòu)建,發(fā)現(xiàn)訓(xùn)練樣本預(yù)測不正確百分比為26.2%,正確的百分比為73.8%;測試樣本不正確的百分比為26.7%,正確的百分比為73.3%;保持樣本的不正確百分比為26.4%,正確的百分比為73.6%,模型的參數(shù)估計(jì)值如圖7所示。從圖8的觀察預(yù)測圖可以看出,按照高血壓患病與否與預(yù)測結(jié)果進(jìn)行分組,縱坐標(biāo)為預(yù)測概率。以0.5為分界時(shí),對不患高血壓的識別能力較好于對患高血壓的識別能力。
本文由于調(diào)查的危險(xiǎn)因素基于體檢報(bào)告系統(tǒng),報(bào)告系統(tǒng)危險(xiǎn)因素較少,不夠全面,缺少生活習(xí)慣,家族史等信息,存在一定的局限性。
參考文獻(xiàn):
[1]Lee DS,Massaro JM, WangTJ, et aL. Antecedent blood pressure,body mass index,and the risk of incident heart failure in later life[J]. Hypertension, 2007, 50:869-87621.
[2]Lim SS,Vos T,F(xiàn)laxman AD,et a1.A comparative risk assessment of burden of disease and injury attributable to 67 risk factors and risk factor clusters in 21 regions, 1990- 2010: a systematic analysis for the Global Burden of Disease Study 2010[J].Lancet,2012,380 (9859):2224-2260.
[3]王隴德.中國居民營養(yǎng)與健康狀況調(diào)查報(bào)告[M].北京:人民衛(wèi)生出版社,2005.53-57.
[4]孫蓉,顧建建,孫峰等江蘇省自然人群高血壓患病率及相關(guān)因素分析[J]. 江蘇臨床醫(yī)學(xué)雜志。2002 ,6(6):534-536
[5] 曾坪,羅森林,吳曦. 社區(qū)人群主要行為因素與高血壓的相關(guān)性分析[J ]. 臨床合理用藥雜志,2009,2(9):28-30.
[6]王麗娜,曹麗,張敬一,等河北省成年居民高血壓病狀況及相關(guān)因素分析[J ].中國慢性病預(yù)防與控制,2008,16(2):1148-1152.
[7]毛浩丹,吳建方,周義紅,等常州市農(nóng)村地區(qū)人群高血壓流行病學(xué)調(diào)查[J ].疾病控制雜志,2005,9(5):406-408.
[8]張良均,曹晶,蔣世忠.神經(jīng)網(wǎng)絡(luò)實(shí)用教程[M].北京:機(jī)械工業(yè)出版社,2008:31-36.
[9]Taghadomisaberi S,Omid M,Emamdjomeh Z,et al.Determinationof cherry color parameters during ripening by artificial neuralnetwork assisted image processing technique[J].J Agr SciTechnol,2015,17(3):589-600.
[10]Türkyilmazi,Ka?an K.License plate recognition system usingartificial neural networks[J].ETRI J,2017,39(2):163-172.
[11]JovanovicL, Gondos B,Type 2 diaberes;the epidemic of the new millennium .Ann Clin Lab Sci,1999,29:33--42
[12]高飛,高焱莎.我國高血壓流行病學(xué)現(xiàn)狀[J].中日友好醫(yī)院學(xué)報(bào),2012,26(5):307-309.
[13]種冠峰,相有章.中國高血壓病流行病學(xué)及影響因素研究進(jìn)展[J].中國公共衛(wèi)生,2010,26(3):301-302.
[14]高飛,高炎莎.我國高血壓流行病學(xué)現(xiàn)狀[J].中日友好醫(yī)院學(xué)報(bào),2012,26(5):307-309.