孫文橋 石 磊* 何 健
腦卒中又稱“中風(fēng)”、“腦血管意外”,是由于腦部血管突然破裂或因血管阻塞導(dǎo)致血液不能流入大腦而引起的腦組織損傷,包括缺血性和出血性卒中,且患者年齡多在40歲以上,男性多于女性,嚴(yán)重者可引起死亡,是當(dāng)今威脅人民生命健康的主要疾病之一。高血壓是腦卒中諸多危險因素中最重要的因素,糖尿病、吸煙、血脂異常等因素也被許多研究證實與卒中發(fā)生具有直接關(guān)聯(lián)[1-2]。腦卒中病死率與致殘率均相當(dāng)高,已經(jīng)成為我國第一位病死原因,也是我國成年人殘疾的首要原因。目前,對于腦卒中由于一直缺乏有效的治療手段,因此對腦卒中的預(yù)防和預(yù)測尤為重要[3]。為此,本研究通過大規(guī)模腦卒中初篩數(shù)據(jù)分析,對腦卒中發(fā)病的危險因素規(guī)則模式進(jìn)行研究。
研究數(shù)據(jù)來源于國家腦卒中篩查與防控數(shù)據(jù)中心(China Stroke Screening and Prevention Databank Rev:2012.03),數(shù)據(jù)采集于北京、河南、山東等11個省份,共取得862 244份腦卒中風(fēng)險初篩社區(qū)評估表。該評估表為衛(wèi)生部腦卒中防治委員會制定的卒中危險因素初篩表,針對>40歲的人群,依據(jù)危險因素進(jìn)行卒中風(fēng)險評估。
篩選的腦卒中危險因素共9個,其中包括:①既往有短暫性腦缺血發(fā)作(transient ischemic attack,TIA);②高血壓病(血壓≥140/90 mmHg或正在服用降壓藥);③房顫或瓣膜性心臟病;④吸煙;⑤血脂異常;⑥糖尿??;⑦體育鍛煉很少或輕體力勞動者;⑧明顯超重(BMI≥26 kg/m2);⑨腦卒中家族史。根據(jù)每個受調(diào)查者所具有的危險因素,評估工具將調(diào)查者分為高危人群、中危人群和低危人群[4-5]。
危險因素初篩表數(shù)據(jù)來源于北京、河南、山東、山西、四川、陜西等11個省份的86萬份數(shù)據(jù)。其中,男性397 765人,占總?cè)藬?shù)的46.1%;女性464 479人,占總?cè)藬?shù)的53.9%。所有初篩表中,有477 972項來源于城市人群,占55.4%;384 272項來源于農(nóng)村人群,占44.6%。所有受調(diào)查者中,腦卒中患者為16 862人,占總?cè)藬?shù)的2.0%。
(1)通過對86萬份數(shù)據(jù)的分析,統(tǒng)計出各危險因素在人群中所占的比例。同時,使用Pearson相關(guān)系數(shù)檢驗各危險因素與腦卒中發(fā)病的關(guān)聯(lián),結(jié)果發(fā)現(xiàn),TIA和高血壓與腦卒中發(fā)病的相關(guān)系數(shù)分別為0.198和0.163,均>0.1,屬于弱相關(guān);腦卒中家族史的相關(guān)系數(shù)為0.098,可近似認(rèn)為與腦卒中發(fā)病弱相關(guān)。其余各危險因素均不直接相關(guān),見表1,如圖1所示。
表1 腦卒中危險因素數(shù)據(jù)在人群中的分布(條)
圖1 危險因素在人群中分布情況統(tǒng)計圖
(2)每個人所具有的危險因素數(shù)量從0項到9項,隨著個人所具備的危險因素增加,腦卒中患病率有顯著增長,見表2。
表2 具有不同數(shù)量危險因素人員腦卒中發(fā)病情況
2.2.1 單一規(guī)則分析
(1)關(guān)聯(lián)規(guī)則挖掘算法用于發(fā)現(xiàn)數(shù)據(jù)背后事物之間可能存在的關(guān)聯(lián)或聯(lián)系,該算法屬于無監(jiān)督學(xué)習(xí),用以學(xué)習(xí)一個事物中,各事件同時出現(xiàn)的規(guī)律和知識模式[6]。在分析腦卒中各危險因素與腦卒中發(fā)病的規(guī)律和模式的問題中,9個危險因素和腦卒中發(fā)病共10個事件被視為“項目集合(項集)”,即項集I={TIA,高血壓,房顫或瓣膜性心臟病,吸煙,血脂異常,糖尿病,體育鍛煉很少,明顯超重,腦卒中家族史,腦卒中發(fā)病}。本研究針對9個危險因素和腦卒中發(fā)病的10個事件,分析與腦卒中發(fā)病共同出現(xiàn)的危險因素,其規(guī)則是形如X->Y的蘊(yùn)含表達(dá)式,其中X和Y是不相交的項集。X是前9項危險因素的任意組合,也可稱為規(guī)則先導(dǎo);Y={腦卒中發(fā)病},也可稱之為后繼。如患有TIA且腦卒中發(fā)病的規(guī)則可表示為{TIA}->{腦卒中發(fā)病}。
(2)本研究通過關(guān)聯(lián)規(guī)則挖掘中3個重要的參數(shù)來判斷規(guī)則的有效性。針對規(guī)則X->Y,支持度(Support)定義為Support(X->Y)=P(X∪Y),置信度(Confidence)定義為Confidence(X->Y)=P(Y|X),提升度(Lift)定義為Lift(X->Y)=P(Y|X)/P(Y)。支持度(Support)描述該規(guī)則的重要程度,可信度(Confidence)描述規(guī)則的準(zhǔn)確程度,提升度(Lift)是一種相關(guān)性度量,反映該危險因素出現(xiàn)對腦卒中發(fā)病發(fā)生了多大的變化。提升度等于1(Lift=1)時,表示該危險因素與腦卒中發(fā)生是獨(dú)立且不相關(guān);提升度>1(Lift>1)時,表示該危險因素與腦卒中發(fā)病正相關(guān)。在數(shù)據(jù)挖掘中,當(dāng)提升度>3時才認(rèn)為挖掘出的關(guān)聯(lián)規(guī)則有價值。
(3)分析單個危險因素對腦卒中發(fā)病的支持度,置信度,提升度,其結(jié)果見表3。
表3 單個危險因素與腦卒中發(fā)病的關(guān)聯(lián)規(guī)則
表3顯示,TIA、高血壓、糖尿病和腦卒中家族史提升度>3,與腦卒中發(fā)病明顯相關(guān),所有危險因素提升度均>1,也即與腦卒中發(fā)病有一定程度的相關(guān)性。
(4)年齡在某種意義上也屬于腦卒中發(fā)病的危險因素[7]。隨著年齡增長,機(jī)體的功能和活力都有不同程度的下降與損傷,同時,年齡增長也會伴隨著以上探討的數(shù)個危險因素的出現(xiàn)。本研究統(tǒng)計不同年齡段人群的腦卒中發(fā)病情況,同時也使用關(guān)聯(lián)規(guī)則算法計算了年齡對腦卒中發(fā)病的支持度與置信度,其結(jié)果見表4。
表4顯示,發(fā)病率情況與置信度相同。從提升度數(shù)據(jù)可知,60歲以上對腦卒中發(fā)病有影響,結(jié)合重要性(支持度)和準(zhǔn)確性(置信度)數(shù)據(jù)發(fā)現(xiàn),年齡作為腦卒中發(fā)病的危險因素,影響力大于吸煙、血脂異常、體育鍛煉很少或輕體力勞動以及明顯超重這4個傳統(tǒng)危險因素。
2.2.2 多規(guī)則分析
(1)本研究使用Apriori算法分析腦卒中發(fā)病的多因素關(guān)聯(lián)規(guī)則挖掘,由于9個危險因素的所有組合數(shù)量候選集數(shù)量較大,Apriori算法可以使用頻繁項集的先驗知識,逐層搜索迭代,最終在所有頻繁集中找出強(qiáng)規(guī)則。算法的閾值選擇中,由于所有受調(diào)查者中腦卒中發(fā)病率為2%,因此最小支持度必須<2%。本研究選擇最小支持度為0.1%,最小置信度為10%,其結(jié)果見表5。
表5 腦卒中發(fā)病模式規(guī)則
(2)對于計算出的規(guī)則模式,以最后一條規(guī)則(高血壓,明顯超重,腦卒中家族史)為例,如果受調(diào)查者同時具有以上3條危險因素,其患有腦卒中的概率為12.52%,這條規(guī)則與腦卒中發(fā)病關(guān)聯(lián)性較強(qiáng)。從發(fā)現(xiàn)的腦卒中發(fā)病規(guī)則模式中,本研究發(fā)現(xiàn)高血壓和TIA出現(xiàn)在了所有有價值的規(guī)則當(dāng)中。9個初篩危險因素中,吸煙和房顫或瓣膜性心臟病這2個因素分別只出現(xiàn)了1次和2次,其重要性低于腦卒中家族史、血脂異常、明顯超重等因素。在所有挖掘出的腦卒中發(fā)病規(guī)則中,越接近右上角、顏色越深圓圈大小越大的規(guī)則越重要(如圖2所示)。
表4 不同年齡段腦卒中發(fā)病的情況
圖2 腦卒中發(fā)病危險因素規(guī)則圖
腦卒中發(fā)病與多個危險因素相關(guān),除了危險因素初篩表中所列舉的9個因素以外,血液病[8]、感染、同型半胱氨酸、頸動脈病變等因素都與腦卒中發(fā)病相關(guān)[9-12]。同時,本研究發(fā)現(xiàn),當(dāng)年齡>60歲時年齡成為影響腦卒中發(fā)病的重要危險因素。根據(jù)關(guān)聯(lián)規(guī)則挖掘算法分析,TIA、高血壓、糖尿病和腦卒中家族史和年齡是影響腦卒中發(fā)病的最主要的危險因素,各危險因素對腦卒中發(fā)病的影響為TIA>房顫或瓣膜性心臟?。灸X卒中家族史>高血壓>糖尿病>年齡60歲以上>明顯超重>血脂異常>體育鍛煉很少或輕體力勞動者>吸煙。
本研究發(fā)現(xiàn),21個與腦卒中發(fā)病有較強(qiáng)關(guān)聯(lián)的發(fā)病規(guī)則模式,傳統(tǒng)的高位規(guī)則中,吸煙和房顫或瓣膜性心臟病這2個因素在發(fā)現(xiàn)的21個規(guī)則中重要性不高,而腦卒中家族史、血脂異常、明顯超重等因素在發(fā)現(xiàn)的規(guī)則中頻繁出現(xiàn)。但另一方面,各危險因素與腦卒中關(guān)聯(lián)并未完全清楚,各危險因素之間的相互關(guān)聯(lián)也需要進(jìn)一步研究。根據(jù)本研究發(fā)現(xiàn)的新規(guī)則,加強(qiáng)對具有相關(guān)危險因素人員的篩查與監(jiān)測,能夠一定程度降低腦卒中的發(fā)病率,并且能夠早發(fā)現(xiàn)早治療,提升腦卒中高危人群的生活質(zhì)量與治療效果。
[1]Mosley WJ,Greenland P,Garside DB,et al.Predictive utility of pulse pressure and other blood pressure measures for cardiovascular outcomes[J].Hypertension,2007,49(6):1256-1264.
[2]Zhang XF.Prevalence and Magnitude of Classical Risk Factors for Stroke in a Cohort of 5092 Chinese Steelworkers Over 13.5 Years of Follow-up[J].Stroke,2004,35(5):1052-1056.
[3]Zhao D,Liu J,WANG W,et al.Epidemiological Transition of Stroke in China:twenty-oneyear observational study from the Sino-MONICA-Beijing Project[J].Stroke,2008,39(6):1668-1674.
[4]Go AS,Mozaffarian D,Roger VL,et al.Executive summary:Heart Disease and Stroke Statistics-2014 Update:a report from the American Heart Association[J].Circulation,2014,129(3):399-410.
[5]Wolf PA,D'Agostino RB,Belanger AJ,et al.Probability of stroke:a risk profile from the Framingham Study[J].Stroke,1999,22(3):312-318.
[6]Agrawal R,Imielinski T,Swami A,et al.Mining association rules between sets of items in large databases[J].Int Conf Manag Data,1993,22(2):207-216.
[7]Lewington S,Clarke R,Qizilbash N,et al.Agespecific relevance of usual blood pressure to vascular mortality:a meta-analysis of individual data for one million adults in 61 prospective studies[J].Lancet,2002,360(9349):1903-1913.
[8]王維治,矯毓娟.血液病與缺血性卒中[J].中國神經(jīng)免疫學(xué)和神經(jīng)病學(xué)雜志,2001,8(1):40-43.
[9]孟昭遠(yuǎn).腦卒中危險因素研究進(jìn)展[J].中國慢性病預(yù)防與控制,2008,16(5):549-551.
[10]Wiberg B,Sundstrom J,Arnlov J,et al.Metabolic Risk Factors for Stroke and Transient Ischemic Attacks in Middle-Aged Men A Community-Based Study With Long-Term Follow-Up[J].Stroke,2006,37(12):2898-2903.
[11]李丹波.腦卒中患者危險因素的相關(guān)性分析[J].中國醫(yī)藥導(dǎo)報,2010,7(1):162-163.
[12]Jenkins AJ,Rowley KG,Lyons TJ,et al.Lipoproteins and diabetic microvascular complications[J].Curr Pharm Des,2004,10(27):3395-3418.