国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于社區(qū)居民健康大數(shù)據(jù)預(yù)測高血壓的患病風(fēng)險

2020-05-11 11:48:03周陽王妮黃艷群
醫(yī)學(xué)信息 2020年6期
關(guān)鍵詞:機器學(xué)習(xí)高血壓

周陽 王妮 黃艷群

摘要:目的 ?利用居民健康大數(shù)據(jù)預(yù)測高血壓的患病風(fēng)險,并分析高血壓相關(guān)的重要因素。方法 ?基于社區(qū)公共衛(wèi)生系統(tǒng)數(shù)據(jù)集,利用機器學(xué)習(xí)中的Logistic回歸、隨機森林和支持向量機算法建立高血壓患病風(fēng)險預(yù)測模型,并比較三者的預(yù)測性能,另通過隨機森林中的基尼系數(shù)下降法分析高血壓患病的影響因素。結(jié)果 ?支持向量機模型的準(zhǔn)確率(87.00%)、精確率(85.00%)、召回率(88.00%)、F1值(0.88)和ROC曲線下面積(0.932)優(yōu)于隨機森林模型(85.00%、84.00%、87.00%、0.87和0.929)和Logistic回歸模型(83.00%、85.00%、81.00%、0.81和0.920)。Gini系數(shù)分析顯示,冠心病、年齡、糖尿病和教育水平在預(yù)測高血壓患病風(fēng)險中具有重要作用;現(xiàn)教育水平、職業(yè)類型、其他慢病、婚姻情況、體重指數(shù)、父親患有高血壓、母親患有高血壓、飲酒、飲食偏咸、吸煙、鍛煉在預(yù)測高血壓患病風(fēng)險中具有一般作用;性別、飲食偏素、飲食偏甜、飲食偏油、飲食偏辣在預(yù)測高血壓患病風(fēng)險中作用不大。結(jié)論 ?支持向量機預(yù)測模型的預(yù)測高血壓患病風(fēng)險最優(yōu)。文化程度低、合并患有冠心病、糖尿病和其他慢病、有家族史和老年人為高血壓易患人群,針對此類人群應(yīng)重點關(guān)注體重指數(shù)、飲酒和飲食習(xí)慣(偏咸)方面。

關(guān)鍵詞:高血壓;機器學(xué)習(xí);社區(qū)居民健康檔案;基尼系數(shù)下降法

中圖分類號:R544.1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標(biāo)識碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.06.001

文章編號:1006-1959(2020)06-0001-05

Abstract:Objective ?To predict the risk of hypertension by using big data of residents' health and analyze the important factors related to hypertension. Methods ?Based on the data set of community public health system, using Logistic regression, random forest, and support vector machine algorithms in machine learning to establish a prediction model for the risk of hypertension, and compare the prediction performance of the three models; In addition, the influencing factors of hypertension were analyzed by Gini coefficient decline method in random forest. Results ?SVM model's accuracy (87.00%), accuracy (85.00%), recall (88.00%), F1 value (0.88), and area under the ROC curve (0.932) are better than the random forest model (85.00%, 84.00%, 87.00%, 0.87, and 0.929) and Logistic regression models (83.00%, 85.00%, 81.00%, 0.81, and 0.920). Coronary heart disease, age, diabetes, and education level play an important role in predicting the risk of hypertension; current education level, occupation type, other chronic diseases, marital status, body mass index, father with hypertension, mother with hypertension, drinking, eating a salty diet, smoking, and exercising have a general role in predicting the risk of hypertension. Gender, diet, vegan, sweet, oil, and spicy diets have little effect on predicting the risk of hypertension. Conclusion ?The support vector machine prediction model is the best predictor of the risk of hypertension. People with low education level, co-existing coronary heart disease, diabetes and other chronic diseases, family history, and the elderly are susceptible to hypertension. Targeting this group of people should focus on body mass index, drinking, and eating habits (salty).

Key words:Hypertension;Machine learning;Community health records;Gini coefficient decline method

根據(jù)中國高血壓防治指南[1](簡稱指南),我國高血壓患病率呈不斷升高的趨勢,特別是血壓值處于130~139/80~89 mmHg的人群極易進展為高血壓。高血壓主要分為沒有明確發(fā)病原因的繼發(fā)性高血壓和原發(fā)性高血壓,其中后者占發(fā)病人群的95%[1]。流行病學(xué)研究認(rèn)為[2],我國的高血壓發(fā)病主要受高鈉低鉀飲食、超重與肥胖、過度飲酒和長期精神緊張有關(guān),且在更年期前男性發(fā)病率高于女性,更年期后女性發(fā)病率高于男性。本文利用健康大數(shù)據(jù)對以上問題進行分析,采用機器學(xué)習(xí)算法建立高血壓患病風(fēng)險模型,為醫(yī)生診斷和居民保健提供參考依據(jù),并進一步通過特征的重要性分析高血壓的重要影響因素,現(xiàn)報道如下。

1材料與方法

1.1數(shù)據(jù)預(yù)處理 ?通過石景山區(qū)衛(wèi)生信息平臺選取2018年1月~12月約20萬份北京市石景山區(qū)居民健康檔案,提取居民的年齡、性別、身高、體重、血型、患病情況、文化程度、職業(yè)、婚姻狀況、藥物過敏、暴露史、親屬病史、殘疾情況、是否吸煙、是否飲酒、是否鍛煉、睡眠狀況、飲食習(xí)慣等方面的101個特征變量進行描述。所有特征只保留一個重復(fù)變量,排除意義不明變量、出現(xiàn)頻率小于5%的變量。最終保留了20個特征變量:年齡、性別、糖尿病、冠心病、其他慢病、受教育水平(按照受學(xué)歷教育的年限劃分)、職業(yè)類型(分為國家機關(guān)、黨群組織、企業(yè)、事業(yè)單位負責(zé)人,專業(yè)技術(shù)人員,辦事人員和有關(guān)人員,商業(yè)、服務(wù)業(yè)人員,農(nóng)、林、牧、漁、水利業(yè)生產(chǎn)人員,生產(chǎn)、運輸設(shè)備操作人員及有關(guān)人員,軍人,學(xué)生,其他)、婚姻狀況(未婚、已婚、喪偶、離異、未說明的婚姻狀況)、父親是否患有高血壓、母親是否患有高血壓、是否吸煙、是否飲酒、是否鍛煉身體、飲食是否偏甜、飲食是否偏咸、飲食是否偏油、是否素食、飲食是否偏辣、體重指數(shù)(body mass index,BMI)。

1.2預(yù)測模型算法及評價

1.2.1 Logistic回歸模型 ?將21個潛在的影響因素(如年齡、性別等)作為模型的自變量,是否患高血壓作為因變量,模型的輸出即某人患高血壓的概率。以0.5為概率分界點,若模型的輸出概率>0.5,則判為患高血壓。

1.2.2隨機森林 ?利用隨機森林(random forest,RF)預(yù)測高血壓的患病風(fēng)險,另通過增加隨機噪聲,利用平均基尼系數(shù)(Giniindex,GI)下降程度衡量單個輸入變量(特征)對預(yù)測結(jié)局的重要性,GI下降越多說明相應(yīng)變量越重要[3]。將所有樣本的結(jié)局分為兩類,即患高血壓和不患高血壓,特征j在決策樹節(jié)點m中的重要性,即節(jié)點m分枝前后GI的化量,其中節(jié)點m的GIm定義為:

其中pm1和pm2分別為節(jié)點m中第一類和第二類樣本所占比例,特征j在隨機森林中所有決策樹的所有節(jié)點中的重要性之和經(jīng)過歸一化后,即為特征j基于Gini系數(shù)的重要性。

1.2.3支持向量機 ?采用支持向量機(support vector machine,SVM)常用的高斯核函數(shù)進行分析:

k(x,y)=exp(-x-y2/2×σ2)(2)

1.2.4模型性能的評價 ?預(yù)測模型的性能評價指標(biāo)主要有準(zhǔn)確率、精確率、召回率、F1值和ROC曲線下面積。在二分類問題下,一個預(yù)測可能產(chǎn)生4種不同的結(jié)果,即真陽性(true positive,TP)、真陰性(true negative,TN)、假陽性(false positive,F(xiàn)P)和假陰性(false negative,F(xiàn)N)。4種評價指標(biāo)的計算方法如下:準(zhǔn)確率:Acc=(TP+TN)/(TP+TN+FP+FN);精確率:Precision=TP/(TP+FP);召回率:Recall=TP/(TP+FN);F1值:F1=2Precision×Recall/(Precision+Recall)。利用ROC曲線下面積[4]綜合評價預(yù)測模型的性能。

1.3模型實現(xiàn)及流程 ?在獲得預(yù)處理數(shù)據(jù)后,將其按照7∶3的比例隨機劃分為訓(xùn)練集和測試集,將訓(xùn)練集送入上述分類器中進行訓(xùn)練,獲得有效模型后,用測試集檢測模型性能。研究流程見圖1。

2結(jié)果

2.1數(shù)據(jù)基本情況 ?原始數(shù)據(jù)經(jīng)過處理后,樣本量為196554,保留了21個特征變量。高血壓患病情況以及患者其他特征見表1。

數(shù)據(jù)進行疾病預(yù)測研究的價值。隨機森林是一種基于決策樹的集成學(xué)習(xí)算法,它將多棵決策樹組合起來,因此性能通常優(yōu)于單棵決策樹。連巧齡等[9]利用決策樹模型探究社區(qū)老年人高血壓患病狀況及其影響因素,結(jié)果顯示決策樹預(yù)測類別與實際類別的符合率為74.0%,靈敏度為71.8%,特異度為78.3%,ROC曲線下的面積為0.750。本研究中隨機森林的預(yù)測模型的符合率為85.00%,ROC曲線下面積達0.929。支持向量機模型是一種統(tǒng)計學(xué)習(xí)模型,適用于高維特征空間的分類問題。本研究中支持向量機模型的準(zhǔn)確率可達87.00%,ROC曲線下面積達0.932,高于隨機森林和Logistic回歸模型,表現(xiàn)出了優(yōu)異的預(yù)測性能。由此可知,患病風(fēng)險的預(yù)測效果與采用模型有關(guān),特別是針對大規(guī)模醫(yī)療健康數(shù)據(jù),選擇適用于具體預(yù)測任務(wù)的預(yù)測模型至關(guān)重要。

郭明賢等[10]研究發(fā)現(xiàn),農(nóng)村老年原發(fā)性高血壓的發(fā)生與超重、高鹽飲食、慢性病、文化程度等可控制因素密切相關(guān),也與家族遺傳不可控制因素相關(guān)。楊靜等[8]研究發(fā)現(xiàn),老年人群BMI、腰圍、腰高比、內(nèi)臟脂肪指數(shù)和身體圓潤指數(shù)水平增加會提高高血壓發(fā)病風(fēng)險。連巧齡等[9]研究發(fā)現(xiàn),肥胖、腹型肥胖、月收入3000元以上、吸煙、飲酒、不參與鍛煉、嗜咸飲食、A型性格、有高血壓家族史是福州市社區(qū)老年人群高血壓患病的危險因素。本研究利用隨機森林模型中的基尼系數(shù)計算特征的重要性,結(jié)果顯示冠心病、年齡、糖尿病和教育水平在預(yù)測高血壓患病風(fēng)險中具有重要作用;現(xiàn)教育水平、職業(yè)類型、其他慢病、婚姻情況、體重指數(shù)、父親患有高血壓、母親患有高血壓、飲酒、飲食偏咸、吸煙、鍛煉在預(yù)測高血壓患病風(fēng)險中具有一般作用;性別、飲食偏素、飲食偏甜、飲食偏油、飲食偏辣在預(yù)測高血壓患病風(fēng)險中作用不大,可見文化程度低、合并冠心病、糖尿病和其他慢病、有家族史和老年人為高血壓易患人群,應(yīng)提醒患者及家屬和醫(yī)護人員在BMI、飲酒和飲食習(xí)慣(偏咸)方面加以注意和控制。

綜上所述,基于支持向量機的預(yù)測模型的性能最為優(yōu)異,此外文化程度低、合并患有冠心病、糖尿病和其他慢病、有家族史和老年人為高血壓易患人群,針對此類人群應(yīng)重點關(guān)注體重指數(shù)、飲酒和飲食習(xí)慣(偏咸)方面。

參考文獻:

[1]中國高血壓防治指南修訂委員會,高血壓聯(lián)盟(中國),中華醫(yī)學(xué)會心血管病學(xué)分會中國醫(yī)師協(xié)會高血壓專業(yè)委員會, 等.中國高血壓防治指南( 2018年修訂版)[J].中國心血管雜志,2019,24(1):24-56.

[2]王鴻.原發(fā)性高血壓的病因研究進展[J].中國醫(yī)藥指南,2014(21):85-86.

[3]黎成.基于隨機森林和ReliefF的致病SNP識別方法[D].西安電子科技大學(xué),2014.

[4]鄒忠蘭,張愛華,楊敬源,等.肝生化指標(biāo)在燃煤型砷中毒中診斷價值ROC曲線評價[J].中國公共衛(wèi)生,2016,32(6):861-865.

[5]劉陽,孫華東,張艷榮,等.基于支持向量機的糖尿病預(yù)測模型研究[J].哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版),2018,34(1):61-65.

[6]白江梁,張超彥,李偉,等.某醫(yī)院體檢人群糖尿病預(yù)測模型研究[J].實用預(yù)防醫(yī)學(xué),2018,25(1):116-119.

[7]孫濤,徐秀林.基于機器學(xué)習(xí)的醫(yī)療大數(shù)據(jù)分析與臨床應(yīng)用[J].軟件導(dǎo)刊,2019(11):1-5.

[8]楊靜,王飛,韓煦,等.人體測量學(xué)指標(biāo)與老年人群高血壓發(fā)病風(fēng)險的前瞻性隊列研究[J].中華預(yù)防醫(yī)學(xué)雜志,2019,53(3):272-278.

[9]連巧齡.基因與環(huán)境因素對社區(qū)老年人原發(fā)性高血壓患病狀況及控制的影響[D].福建醫(yī)科大學(xué),2015.

[10]郭明賢,周亞東,張桂紅.陜西農(nóng)村老年高血壓病的患病率與危險因素分析[J].心腦血管病防治,2015,15(4):309-311.

收稿日期:2019-12-19;修回日期:2020-01-22

編輯/杜帆

猜你喜歡
機器學(xué)習(xí)高血壓
全國高血壓日
高血壓用藥小知識
中老年保健(2021年5期)2021-08-24 07:07:16
這些高血壓的治療誤區(qū)你知道嗎
如何把高血壓“吃”回去?
高血壓,并非一降了之
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
外汇| 宜兴市| 九龙县| 同心县| 登封市| 上林县| 象州县| 惠州市| 马边| 东方市| 汤原县| 云南省| 芮城县| 望城县| 二手房| 昌图县| 冕宁县| 重庆市| 河曲县| 磴口县| 桐庐县| 通州市| 米脂县| 惠水县| 漯河市| 嘉定区| 凌源市| 隆子县| 江永县| 廊坊市| 小金县| 宁蒗| 克什克腾旗| 元阳县| 芷江| 黑山县| 花垣县| 新宁县| 太和县| 耿马| 镇安县|