降惠 尹振?!∥潲惥辍〈抻烂贰∥簳x
摘 要: 探討長治市手足口病(HFMD)與氣象因素的關聯(lián)關系。 利用Apriori關聯(lián)規(guī)則算法挖掘不同氣象因素組合引發(fā)手足口病的頻繁程度。長治市手足口病的周高發(fā)、中等發(fā)病率與前一周的平均水汽壓、氣溫具有顯著相關性。而周低發(fā)病率與前一周的氣溫(最低、平均)、降水量存在顯著相關性。長治市手足口病周發(fā)病率與氣象因素存在一定的關聯(lián)性,應根據氣象條件進行流行風險評估,及時采取相應的防控措施。
關鍵詞: 手足口病; 氣象因素; 關聯(lián)規(guī)則分析
文章編號: 2095-2163(2021)07-0124-05中圖分類號:TP399文獻標志碼: A
Application of Apriori algorithm in the analysis of
the relationship between hand-foot-mouth disease and meteorological factors
JIANG Hui1, YIN Zhenbao2, WU Lijuan1, CUI Yongmei3, WEI Jin1
(1 Department of Computer Teaching, Changzhi Medical College, Changzhi Shanxi 046000, China;
2? Changzhi Meteorological Bureau, Changzhi? Shanxi 046000, China;
3 Changzhi City Center for Disease Control and Prevention, Changzhi Shanxi 046000, China)
【Abstract】To investigate the correlation between HFMD and meteorological factors in Changzhi city, the Apriori association rule algorithm is used to mine the frequency of HFMD caused by different meteorological factors. The high and moderate incidence of HFMD is significantly correlated with the mean vapor pressure and temperature in the previous week.But the low weekly incidence is correlated with temperature (lowest,mean) and the rainfall in the previous week. There is a certain correlation between the weekly incidence of HFMD and meteorological factors in Changzhi City. Epidemic risk assessment should be carried out according to meteorological conditions, and corresponding prevention and control measures should be taken in time.
【Key words】hand-foot-mouth disease(HFMD); meteorological factor; association rule analysis
0 引 言
在全球氣候變化的背景下,氣象因素導致的健康效應備受關注[1]。許多傳染病的流行都與氣象因素有關[2]。手足口?。╤and,foot and mouth disease,HFMD)是由腸道病毒感染引起的一種常見傳染病[3]。國內外大量研究表明,氣象因素會影響手足口病流行[4-5]。近年來,許多流行病學、統(tǒng)計學專家學者致力于研究手足口病與氣象因素的關系,但傳統(tǒng)統(tǒng)計分析只能揭示手足口病對氣象因素的依賴程度,而關聯(lián)規(guī)則分析作為數(shù)據挖掘中的一項重要技術,可以通過檢驗各種氣象因素組合引發(fā)手足口病的頻繁程度[6],得到定量表達手足口病隨氣象因素變化的情況,有效簡化數(shù)據處理過程。因此,本文嘗試采用關聯(lián)規(guī)則分析法探索氣象因素對手足口病的流行影響,為預防手足口病提供借鑒和參考。
1 數(shù)據來源與預處理
1.1 研究區(qū)域概況
長治市位于山西省東南部,轄4區(qū)8縣(包括潞州區(qū)、屯留區(qū)、潞城區(qū)、上黨區(qū)、長子縣、壺關縣、平順縣、黎城縣、沁縣、武鄉(xiāng)縣、襄垣縣、沁源縣),人口347.8萬人,屬暖溫帶半濕潤大陸性季風氣候區(qū)。
1.2 數(shù)據來源
本研究以12個縣區(qū)的周數(shù)據作為研究單元,時間跨度為2009~2018年。研究中涉及手足口病數(shù)據、氣象數(shù)據和人口數(shù)據三類數(shù)據。手足口病數(shù)據來自于“國家疾病監(jiān)測信息管理系統(tǒng)”。因2018年長治市行政區(qū)劃調整,將2009~2017城區(qū)與郊區(qū)手足口病周發(fā)病數(shù)合并為潞州區(qū)發(fā)病數(shù)。氣象數(shù)據來源于長治市氣象臺(11個國家級地面氣象觀測站),共采集到十年來11個縣區(qū)9種氣象因素(定時風速、相對濕度、降水量、最高氣溫、平均氣溫、最低氣溫、日照時數(shù)、平均氣壓與平均水汽壓)的周數(shù)據。潞州區(qū)因無國家級氣象觀測站,氣象數(shù)據根據屯留區(qū)、潞城區(qū)、上黨區(qū)數(shù)據取均值進行統(tǒng)計分析。人口數(shù)據來自于2010~2019年山西統(tǒng)計年鑒。
1.3 數(shù)據預處理
研究中,考慮到手足口病潛伏期為2~10天,因此選取周發(fā)病率與前一周的9項氣象因素建立二維關系表。其中,含有的缺失值和異常值采用行刪除法或替換法處理[7]。對于有較大缺失值的觀測樣本采用減少樣本量,即行刪除法處理。因研究中涉及的數(shù)據均為數(shù)值型,所以對于樣本中存在的個別缺失值和異常值,使用前后一周數(shù)據的均值進行替換。經過清洗,最終確定用于研究的數(shù)據為63 300個。
2 關聯(lián)規(guī)則分析
2.1 關聯(lián)規(guī)則與Apriori算法
關聯(lián)規(guī)則反映一個事物(或屬性)的出現(xiàn)對其他事物(或屬性)的出現(xiàn)有多大的影響。關聯(lián)規(guī)則分析是從大型關系數(shù)據庫或事務數(shù)據庫的海量數(shù)據中發(fā)現(xiàn)并提取頻繁出現(xiàn)的或人們感興趣的知識,是一種無監(jiān)督學習的數(shù)據挖掘方法[8]。
在關聯(lián)規(guī)則分析中,一條樣本記錄稱為一個事務。樣本的屬性稱為項,多個屬性組成的集合稱為項集,k個屬性組成的集合稱為k-項集。對于事務數(shù)據庫中的一條記錄,如果同時具有互不相交的2個子項集A和B,則項集A和B是關聯(lián)的,即A->B。A稱為前項,B稱為后項。關聯(lián)規(guī)則分析可以從大量數(shù)據項集中發(fā)現(xiàn)頻繁出現(xiàn)的模式和關聯(lián)性。但得出的關聯(lián)規(guī)則并不能直接使用,還需要根據置信度、支持度和提升度指標進行評估,從而得出具有一定參考價值的關聯(lián)規(guī)則[9]。支持度是指項集A、B同時出現(xiàn)的頻率,主要體現(xiàn)關聯(lián)規(guī)則的重要性,置信度是項集A發(fā)生前提下B發(fā)生的頻率,主要體現(xiàn)關聯(lián)規(guī)則的準確性[10]。提升度是項集A發(fā)生前提下B發(fā)生的概率與B總體發(fā)生的概率之比。在關聯(lián)規(guī)則分析中,最小支持度表示挖掘出的關聯(lián)規(guī)則必須滿足數(shù)據項頻度的最小支持閾值,其取值影響著生成頻繁項集的數(shù)量[11]。最小置信度體現(xiàn)關聯(lián)規(guī)則的最低可靠性,其取值影響著生成強關聯(lián)規(guī)則的數(shù)量[12]。
目前,常用的關聯(lián)規(guī)則算法有Apriori、FP-Tree、Eclat和灰色關聯(lián)算法。其中,Apriori是最經典、也是最常用的挖掘頻繁項集的算法。Apriori算法采用逐次迭代的方法,通過反復掃描事務數(shù)據庫,連接產生所有的頻繁項集,然后根據預先設定的支持度、置信度和提升度參數(shù),利用剪枝的方法得到感興趣的強關聯(lián)規(guī)則。本研究擬采用Rstudio軟件,借助arules和arulesViz程序包中的相關函數(shù)實現(xiàn)Apriori關聯(lián)規(guī)則分析。
2.2 數(shù)據離散化
在構建關聯(lián)規(guī)則模型時,為縮小數(shù)據的覆蓋范圍,使數(shù)據更適應模型,匹配Apriori關聯(lián)規(guī)則建模的格式要求,分析中首先對各數(shù)據項進行離散化分組。為保證每組中樣本量的一致性,本研究利用arules包中的discretize()函數(shù),將每個屬性值分組數(shù)預設為7[13],按照等深分組的方法,識別出相應的閾值區(qū)間,各數(shù)據項具體分組情況見表1。數(shù)據離散化后,將其導入到Rstudio中,并將其轉換為“transcations”格式,建立事務數(shù)據庫。
2.3 不同程度手足口病周發(fā)病率與氣象因素的關聯(lián)規(guī)則分析
在事務數(shù)據庫中,每個樣本記錄包含10個屬性,即:手足口病發(fā)病率與9種氣象因素值。為了分析不同程度手足口病周發(fā)病率與氣象因素的關聯(lián)關系,分析中將前一周9種氣象因素值作為9-項集A,手足口病周發(fā)病率作為項集B。對于任意一條記錄,如果同時具有項集A和B,則項集A和B是關聯(lián)的,即A->B。
2.3.1 手足口病高發(fā)病率與氣象因素的關聯(lián)規(guī)則分析
本研究中將最小支持度和置信度分別設定為0.011、0.55,共生成關聯(lián)規(guī)則7 385條。為了求出頻繁項集中手足口病高發(fā)病率與氣象因素之間的關聯(lián)關系,研究中將氣象因素設置為前件,將手足口病高發(fā)病率HFMD5設置為后件。高發(fā)病率與氣象因素的強關聯(lián)規(guī)則見表2。當提升度(lift)>=3.5時,共得到3條強關聯(lián)規(guī)則。
表2結果顯示,手足口病的高發(fā)病率主要有2種氣象特征:
(1)前一周平均水汽壓為VapPres5,最低氣溫為LTemp6,特別是平均氣溫為MTemp6時。
(2)前一周平均水汽壓為VapPres5,最高氣溫為HTemp7。
高發(fā)病率與氣象因素的強關聯(lián)規(guī)則如圖1所示。由表2與圖1可以看出,手足口病的高發(fā)與平均水汽壓、氣溫具有顯著的相關性,結果與國內相關報道一致[4]。
2.3.2 手足口病中等發(fā)病率與氣象因素的關聯(lián)規(guī)則分析
為了探討手足口病中等發(fā)病率與氣象因素的關聯(lián)關系,將中高發(fā)病率HFMD4、中發(fā)病率HFMD3、中低發(fā)病率HFMD2作為后件,將氣象因素作為前件,將最小支持度、置信度分別設置為0.02和0.2,共生成關聯(lián)規(guī)則3 404條。中等發(fā)病率與氣象因素的強關聯(lián)規(guī)則見表3。當提升度(lift)>=2時,生成5條強關聯(lián)規(guī)則。在生成的強關聯(lián)規(guī)則中,后件均為HFMD4,說明中高發(fā)病率與氣象因素的關聯(lián)性更強。
中等發(fā)病率與氣象因素的強關聯(lián)規(guī)則如圖2所示。由表3和圖2可以看出,HFMD中等程度的發(fā)病率與前一周平均水汽壓、氣溫(最高、最低、平均)均具有顯著的相關性,當前一周平均水汽壓、氣溫(最高、最低、平均)位于最高區(qū)間時,會造成手足口病中等程度的流行。
2.3.3 手足口病低發(fā)病率與氣象因素的關聯(lián)規(guī)則分析
為了探討手足口病低發(fā)病率時的氣象特征,研究中將氣象因素設置為前件,將HFMD1設置為后件,最小支持度和置信度分別設定為0.1、0.8,共生成關聯(lián)規(guī)則25條。低發(fā)病率與氣象因素的強關聯(lián)規(guī)則見表4。當提升度(lift)>=1.9時,得到3條強關聯(lián)規(guī)則。
低發(fā)病率與氣象因素的強關聯(lián)規(guī)則如圖3所示。由表4與圖3可以看出,手足口病的低發(fā)與最低氣溫、平均氣溫、降水量存在顯著的相關關系,當最低氣溫、平均氣溫、降水量位于最低區(qū)間時,手足口病的發(fā)病率較低。
3 結束語
目前,關聯(lián)規(guī)則分析在醫(yī)學領域的應用主要集中于中醫(yī)用藥規(guī)律分析、慢性病患病因素分析、上呼吸道疾病與氣象因素相關性分析等。本研究采用Apriori關聯(lián)算法分析了長治市2009~2018年各縣(區(qū))手足口病與氣象因素的關聯(lián)性。
研究結果顯示,不同程度的手足口病發(fā)病率與各氣象因素的關系存在一定的差異。手足口病的高發(fā)、中等發(fā)病率與前一周平均水汽壓、氣溫(最高、最低、平均)存在顯著的相關性。高發(fā)病率有2種氣象特征:
(1)平均水汽壓為中等([9.08 hpa,12.65 hpa)),最低、平均氣溫為次高([13.08 ℃-16.73 ℃)、[18.65 ℃-21.87 ℃))。
(2)平均水汽壓為中等([9.08hpa,12.65hpa)),最高氣溫為最高(高于28.15 ℃)。
這可能有2方面的原因:一是濕熱的氣象環(huán)境,適合腸道病毒的繁殖與快速傳播,二是適宜的氣象環(huán)境下,易感人群室外活動頻率增加,感染幾率增大。當平均水汽壓、氣溫滿足這2個條件時,HFMD下周暴發(fā)的可能性最大,在這個時期應加大防控知識宣傳力度;提醒家長少帶孩子到擁擠的公共場所,不喝生水,不吃不衛(wèi)生食品;加強食品和衛(wèi)生監(jiān)測;增加幼兒園、學校、青少年活動中心、文體中心等聚集場所的衛(wèi)生清潔與消毒頻次。
手足口病的低發(fā)與氣溫(最低、平均)、降水量存在相關性。當降水量最少、平均氣溫最低時,環(huán)境干燥寒冷,大部分病毒干冷而死,發(fā)病率低。
綜上所述,本研究利用Apriori關聯(lián)規(guī)則算法,通過反復掃描2009~2018年長治市手足口病周發(fā)病率與前一周9種氣象因素建立的事務數(shù)據庫,得出了頻繁出現(xiàn)的項集,最后根據提前設置的最小置信度等參數(shù)得出強關聯(lián)規(guī)則。研究結果與國內外文獻報道一致[4,14-15]。但研究中以周作為時間尺度,可能不能精準地反映氣象因素對手足口病的流行效應。今后,有待選擇日作為研究單元,分析氣象因素對不同滯后天數(shù)手足口病的流行影響,研究結果可能會更準確。此外,手足口病的發(fā)病可能受人口密度、經濟條件等多種因素的影響,下一步應綜合考慮這些因素,為手足口病的預防控制提供更為準確的參考依據。
參考文獻
[1]吳衍嘉,孫楊青,陸芳芳,等. 日光照射時間對2015-2018年深圳寶安區(qū)兒童手足口病的影響[J]. 現(xiàn)代預防醫(yī)學,2021,48(6):1029-1033,1049.
[2]闞海東,姜宜萱,陳仁杰. 氣象因素與人群健康研究的前沿進展[J]. 山東大學學報(醫(yī)學版),2018,56(8):7-13.
[3]國家衛(wèi)生健康委員會. 手足口病診療指南(2018年版)[J].中國病毒病雜志,2018,8(5) :347 -352.
[4]DUAN Chunxiao, ZHANG Xuefeng, JIN Hui,et al.Meteorlogical factors and its association with hand,foot and mouth disease in Southeast and East Asia area:a meta-analysis[J].Epidemiology and Infection,2018,147(50):1-18.
[5]NGUYEN H X, CHU G, NGUYEN H L T, et al.Temporal and spatial analysis of hand,foot,and mouth disease in relation to climate factors:A study in the Mekong Delta region,Vietnam[J]. Science of the Total Environment,2017,581/582:766-772.
[6]王哲,李琳,王凱,等. 基于關聯(lián)規(guī)則分析的慢阻肺就診人數(shù)與氣象空氣條件關系研究[J]. 中國數(shù)字醫(yī)學,2018,13(4):2-4,47.
[7]張良均,云偉標,王路,等. R語言數(shù)據分析與挖掘實戰(zhàn)[M]. 北京:機械工業(yè)出版社,2021.
[8]張良均,謝佳標,楊坦,等. R語言與數(shù)據挖掘[M]. 北京:機械工業(yè)出版社,2017.
[9]郭慧敏. 基于關聯(lián)分析的中老年體檢數(shù)據的挖掘[J]. 軟件工程,2021,24(5):7-9.
[10]陳夢蝶. 數(shù)據驅動的慢性疾病風險因素關聯(lián)分析及再入院預測研究[D]. 成都:電子科技大學,2020.
[11]李宇斐. 基于關聯(lián)規(guī)則的電子病歷數(shù)據挖掘應用研究-以糖尿病及其并發(fā)癥為例[D]. 武漢:華中科技大學,2017.
[12]李毛琳. 空氣質量與慢病關聯(lián)模型研究[D]. 荊州:長江大學,2018.
[13]翟廣宇,王式功,董繼元,等. 蘭州市上呼吸道疾病與氣象條件和空氣質量的關聯(lián)規(guī)則分析[J]. 蘭州大學學報(自然科學版),2014,50(1):66-70.
[14]楊雅斯,盧雅陵,方蒞媛,等. 氣象因素對四川省手足口病發(fā)病率的影響及預測模型構建[J].? 四川大學學報(醫(yī)學版),2021,51(5):685-690.
[15]張翠平,張勇,劉輝,等. 安陽地區(qū)2008-2019年手足口病發(fā)病與氣象因素的相關性分析[J]. 醫(yī)學理論與實踐,2021,34(8):1415-1417.
基金項目: 山西省高等學??萍紕?chuàng)新項目(2019L0682)。
作者簡介: 降 惠(1983-),女,碩士,副教授,主要研究方向:醫(yī)學數(shù)據挖掘。
收稿日期: 2021-04-18