陳業(yè)濱+李衛(wèi)紅+黃玉興+梁雪梅
摘要:為了克服經(jīng)典統(tǒng)計(jì)學(xué)模型在定量研究各風(fēng)險(xiǎn)因子對(duì)登革熱影響程度時(shí)存在的無法顧及非線性的風(fēng)險(xiǎn)因子、不能解釋因子之間所具有的復(fù)雜相互作用關(guān)系等缺陷,研究基于時(shí)空數(shù)據(jù)挖掘理論,綜合選取了與登革熱有關(guān)的4類共25個(gè)潛在風(fēng)險(xiǎn)因子,采用Pearson相關(guān)性分析對(duì)風(fēng)險(xiǎn)因子進(jìn)行初步篩選;利用隨機(jī)森林算法對(duì)登革熱及其潛在風(fēng)險(xiǎn)因子進(jìn)行訓(xùn)練,挖掘影響登革熱發(fā)生、擴(kuò)散的風(fēng)險(xiǎn)因子,確定風(fēng)險(xiǎn)因子的等級(jí)排名體系。結(jié)果表明,采用隨機(jī)森林比傳統(tǒng)的線性模型具備更優(yōu)秀的數(shù)據(jù)挖掘能力;登革熱風(fēng)險(xiǎn)因子的風(fēng)險(xiǎn)等級(jí)排名由高到低分別為第一等級(jí)(人口密度、居民地、左鄰域、右鄰域);第二等級(jí)(下鄰域、上鄰域);第三等級(jí)(道路、左下鄰域、右上鄰域、右下鄰域、左上鄰域、降雨量、O3、PM2.5、PM10、CO、NO2、池塘);第四等級(jí)(溫度、農(nóng)用地、林地)。隨機(jī)森林模型可很好地挖掘并量化影響登革熱的各類風(fēng)險(xiǎn)因子,解釋各風(fēng)險(xiǎn)因子間的相互關(guān)系。
關(guān)鍵詞:登革熱;風(fēng)險(xiǎn)因子;隨機(jī)森林;時(shí)空擴(kuò)散;數(shù)據(jù)挖掘
中圖分類號(hào):R512.8 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0439-8114(2017)07-1250-07
DOI:10.14088/j.cnki.issn0439-8114.2017.07.013
Rating System Development of Spatio-temporal Diffusion Risk Factors on Dengue Fever Based on Random Forests
CHEN Ye-bin1,LI Wei-hong1,HUANG Yu-xing1,LIANG Xue-mei2
(1.School of Geographical Sciences, South China Normal University, Guangzhou 510631,China;
2.School of Geographical Sciences, Xinjiang University, Urumqi 830046,China)
Abstract: Previous researches on dengue fever(DF) mostly adopted the classical quantitative statistical model,but it is hard to consider nonlinear presence of risk factors and to explain their complex interaction relationship. To solve these problems,25 potential risk factors of DF were chosen and screened preliminarily by Pearson correlation method,and potential risk factors that lead to occurrence and diffusion of DF were found out by random forest(RF),and their quantitative evaluation system was also determined. The results showed that data mining ability of RF was better than classical linear model. The risk factors of DF were divided into 4 grades according to its risk to DF from big to small, the first grade included population density,residential distribution,left neighborhood and right neighborhood; the second grade included lower neighborhood and higher neighborhood;the third grade included road,left lower neighborhood, right higher neighborhood, right lower neighborhood,left higher neighborhood,rainfall,O3,PM2.5,PM10,CO,NO2 and pond; the fourth grade included temperature, agricultural land and woodland. In conclusion,RF model could effectively explore and quantify the impacts of various risk factors of DF,and explain the relationship among the various risk factors.
Key words: dengue fever; risk factors; random forest; spatio-temporal diffusion; data mining
登革熱(Dengue fever,DF)是一種由登革1、2、3和4型病毒引起的危害性極大的急性蚊媒傳染病,主要通過伊蚊進(jìn)行傳播,廣泛流行于全球熱帶和亞熱帶的100多個(gè)國(guó)家和地區(qū)[1-4]。近年來,登革熱傳播速度及破壞力呈現(xiàn)明顯上升趨勢(shì)。據(jù)統(tǒng)計(jì),登革熱在全球范圍內(nèi)年發(fā)病數(shù)量已高達(dá)千萬例,年均死亡人數(shù)超過2萬人。
登革熱的傳播主要受社會(huì)人文、周邊鄰域、氣象、環(huán)境以及用地類型分布等風(fēng)險(xiǎn)因子的影響[5-15]。研究登革熱疫情的發(fā)生、擴(kuò)散的風(fēng)險(xiǎn)因素是控制疫情的有效方法,也是目前登革熱疫情控制研究的重點(diǎn)和熱點(diǎn)[5]。近年來已有不少學(xué)者對(duì)登革熱風(fēng)險(xiǎn)因子進(jìn)行分析與挖掘,探究影響登革熱發(fā)生、擴(kuò)散的影響因素。國(guó)外方面,Méndez-Lázaro等[10]、Cheong等[11]、Sheela等[12]采用邏輯回歸方法分析濕地類型、氣候因子與登革熱的風(fēng)險(xiǎn)關(guān)系;Hsueh等[13]利用地理加權(quán)回歸模型識(shí)別人口密度、交通網(wǎng)絡(luò)、水體對(duì)登革熱的風(fēng)險(xiǎn)影響;?魡str?觟m等[14]利用半?yún)?shù)廣義加權(quán)模型和邏輯連接函數(shù)對(duì)登革熱潛在風(fēng)險(xiǎn)因子進(jìn)行了研究,確定經(jīng)濟(jì)發(fā)達(dá)地區(qū)具備高致災(zāi)風(fēng)險(xiǎn)性;國(guó)內(nèi)方面,王成崗[9]利用零膨脹Poisson回歸模型挖掘登革熱風(fēng)險(xiǎn)因子,發(fā)現(xiàn)溫度、降雨因素對(duì)登革熱存在重要影響;李森等[16]通過廣義線性模型探究登革熱風(fēng)險(xiǎn)因子,發(fā)現(xiàn)以濕地為主的草場(chǎng)是登革熱病例存在的重要因子;易彬樘等[17]通過調(diào)查分析方法研究靜態(tài)水體對(duì)登革熱的風(fēng)險(xiǎn)影響。
現(xiàn)有研究在風(fēng)險(xiǎn)因子的探究方面尚未見將社會(huì)人文、周邊鄰域、氣象、環(huán)境、用地類型等因素進(jìn)行綜合考慮,探究登革熱與各風(fēng)險(xiǎn)因子之間的依存關(guān)系,并對(duì)諸多風(fēng)險(xiǎn)因子進(jìn)行風(fēng)險(xiǎn)等級(jí)判別;在模型選擇上主要采用傳統(tǒng)的統(tǒng)計(jì)學(xué)模型,模型變量過度依賴依存因子的定量精度,無法顧及一些非線性的依存因子以及解釋變量之間所具有的復(fù)雜相互作用關(guān)系。隨機(jī)森林(Random forests,RF)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的組合分類智能算法[18],它采用Bootstrap重抽樣方法進(jìn)行樣本選取,構(gòu)建分類樹,進(jìn)而對(duì)所有分類樹的預(yù)測(cè)結(jié)果進(jìn)行組合投票得出最終結(jié)果。這種方法能夠克服變量之間所存在的多重共線性,確定計(jì)算變量的非線性作用。RF具備指標(biāo)重要性評(píng)估方式,能夠通過特征重要性度量,實(shí)現(xiàn)重要特征選取,最終確定各風(fēng)險(xiǎn)指標(biāo)對(duì)登革熱的風(fēng)險(xiǎn)貢獻(xiàn)度。正確識(shí)別登革熱風(fēng)險(xiǎn)因子,確定風(fēng)險(xiǎn)因子等級(jí)排名體系,有助于公眾及政府機(jī)關(guān)全面認(rèn)識(shí)登革熱流行的風(fēng)險(xiǎn)因素,有利于合理配置防控資源,提高登革熱防控措施的及時(shí)性與有效性。
本研究以廣州市中心區(qū)為例,主要采用隨機(jī)森林算法剖析社會(huì)人文因素、鄰域因素、氣象因素、環(huán)境因素以及用地類型分布等潛在風(fēng)險(xiǎn)因子對(duì)登革熱的影響,進(jìn)行影響重要性對(duì)比分析,制定風(fēng)險(xiǎn)因子等級(jí)排名體系。
1 數(shù)據(jù)與方法
1.1 研究區(qū)域
研究區(qū)位于23°1′52″-23°26′6″ N,113°8′42″-113°35′50″ E,包含越秀、荔灣、海珠、天河、白云、黃埔、蘿崗共7個(gè)區(qū)縣(以下簡(jiǎn)稱主城區(qū),圖1),屬亞熱帶季風(fēng)氣候,年平均日照時(shí)間1 370~1 490 h,年平均溫度20~22 ℃,年降雨時(shí)間150 d左右,年平均降雨量在1 800 mm以上。研究區(qū)總面積1 471.55 km2,包含116個(gè)街道,總?cè)丝跀?shù)量超過800萬人。2014年,廣東省暴發(fā)了感染登革熱病例的疫情,此次疫情廣州市受災(zāi)最為嚴(yán)重。截至2014年11月,廣州市累計(jì)報(bào)告登革熱病例達(dá)36 934例,其中研究區(qū)內(nèi)累計(jì)報(bào)告病例31 981例,占全廣州市的86.6%。
1.2 數(shù)據(jù)
1.2.1 登革熱數(shù)據(jù) 數(shù)據(jù)采用廣東省疾病預(yù)防控制中心提供的2014年廣州市主城區(qū)登革熱感染者數(shù)據(jù),共計(jì)31 981例,時(shí)間1-11月。基于格網(wǎng)單元的發(fā)病率圖具備信息表達(dá)充分的特點(diǎn),因此本研究采用格網(wǎng)單元對(duì)登革熱病例數(shù)據(jù)進(jìn)行空間化處理,將登革熱病例數(shù)據(jù)分配到1 km×1 km的格網(wǎng)單元上,生成登革熱疫情分布情況(圖2)。
1.2.2 氣象數(shù)據(jù) 獲取分布于主城區(qū)的20個(gè)雨量監(jiān)測(cè)站的降雨監(jiān)測(cè)數(shù)據(jù)(數(shù)據(jù)來源于廣東省水利廳),站點(diǎn)的空間位置如表1所示;采用反距離加權(quán)法(IDW)將站點(diǎn)數(shù)據(jù)插值為連續(xù)的雨量分布數(shù)據(jù)。
1.2.3 環(huán)境數(shù)據(jù) 獲取分布于主城區(qū)20個(gè)環(huán)境監(jiān)測(cè)站的2014年環(huán)境監(jiān)測(cè)數(shù)據(jù)(數(shù)據(jù)來源于廣州市環(huán)保局),時(shí)間1-12月,時(shí)間步長(zhǎng)為1個(gè)月,每個(gè)站點(diǎn)檢測(cè)的污染物包括SO2、NO2、PM10、PM2.5、CO、O3共6類,采用IDW插值法對(duì)環(huán)境監(jiān)測(cè)數(shù)據(jù)進(jìn)行插值。研究區(qū)環(huán)境監(jiān)測(cè)數(shù)據(jù)插值結(jié)果如圖3所示。
1.2.4 社會(huì)人文數(shù)據(jù) 研究區(qū)包含116個(gè)街道,總?cè)丝跀?shù)為8 101 691人,人口統(tǒng)計(jì)數(shù)據(jù)如表2所示(數(shù)據(jù)來源于廣州市2014年統(tǒng)計(jì)年鑒)。為了避免傳統(tǒng)人口數(shù)據(jù)按區(qū)域采樣的不足,提高分析結(jié)果的準(zhǔn)確性,采用面積分配法,將街道人口數(shù)據(jù)按居民住宅總面積分配到建筑物上,保證人都在居民區(qū)上,如式(1)所示。
Ri=Mi×Li×■ (1)
式中,i為街道建筑物編號(hào),Ri為第i棟建筑的人口數(shù),Mi為第i棟建筑基底面積,Li為第i棟建筑樓層數(shù),R為街道總?cè)丝跀?shù),n為街道范圍內(nèi)建筑數(shù)量。
1.2.5 用地類型數(shù)據(jù) 2014年Spot 2.5 m衛(wèi)星遙感影像圖,研究區(qū)內(nèi)2014年基礎(chǔ)地圖矢量數(shù)據(jù)。按土地利用類型將用地分為8類,分別為林地、農(nóng)用地、草地、公共綠地、河流、池塘、居民地和道路,具體分類見圖4。
1.3 研究方法
1.3.1 空間自相關(guān)分析 登革熱的傳播模式為人-蚊-人[19],登革病毒以蚊媒為載體,將病毒傳播到易感者體內(nèi)。當(dāng)傳播現(xiàn)象發(fā)生時(shí),感染者與易感者的活動(dòng)范圍存在空間重合。這種傳播特征導(dǎo)致登革熱病例存在空間自相關(guān)特征,需要對(duì)其進(jìn)行定量分析。
空間自相關(guān)程度以全局Morans I(Global Moran Index)表示,公式為:
I=■ (2)
式中,n為樣本量,即空間位置的個(gè)數(shù);Xi、Xj表示空間位置i和j的觀察值,X 表示觀察值的均值,Wij表示空間權(quán)重矩陣。對(duì)于Morans I,可以用標(biāo)準(zhǔn)化統(tǒng)計(jì)量Z檢驗(yàn)n個(gè)區(qū)域之間的空間自相關(guān)關(guān)系,公式為:
Z(I)=■ (3)
式中,E(I)表示Morans I值的期望值;Var(I)表示Morans I值的方差。一般當(dāng)|Z|>1.96,拒絕零假設(shè),即在95%的概率下,存在著空間自相關(guān)。
1.3.2 隨機(jī)森林 隨機(jī)森林是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的組合分類智能算法,其基本思想是把多個(gè)具備互補(bǔ)作用的弱分類器集合起來組成一個(gè)強(qiáng)分類器。通過降低單個(gè)分類器錯(cuò)誤的影響,從而提高模型分類準(zhǔn)確率和穩(wěn)定性。
隨機(jī)森林是具備非線性特點(diǎn)的建模工具,具備高預(yù)測(cè)準(zhǔn)確率,分類結(jié)果準(zhǔn)確,穩(wěn)定性強(qiáng),不易過擬合,對(duì)異常值和噪聲具有優(yōu)容忍度等特點(diǎn),對(duì)解決多變量預(yù)測(cè)及分類問題具有很好的效果[20]。在模型構(gòu)建過程中,RF可確定變量重要性特征,決定特征選擇變量。
1)原理及生成步驟。RF是由樹型分類器集合{h(X,?茲k),k=1,…,n}組合而成的分類器,其中參數(shù)?茲k為獨(dú)立同分布的隨機(jī)向量。在分析過程中,每棵樹對(duì)輸入向量X所屬的最受歡迎類進(jìn)行投票,確定模型的最優(yōu)分類結(jié)果。
RF生成步驟如圖5所示。從總訓(xùn)練樣本集中通過Bootstrap抽樣隨機(jī)抽取k個(gè)子訓(xùn)練樣本集,建立決策分類子樹模型;隨機(jī)從分類樹每個(gè)節(jié)點(diǎn)的n個(gè)指標(biāo)中選取m個(gè),按照最優(yōu)分割指標(biāo)進(jìn)行分割;重復(fù)上一步遍歷K棵分類子樹,確定多個(gè)分類結(jié)果;投票表決決定最終分類結(jié)果。
2)風(fēng)險(xiǎn)指標(biāo)重要性計(jì)算。RF采用Bagging算法集成訓(xùn)練集,假設(shè)訓(xùn)練樣本足夠大時(shí),約有36.8%的樣本不會(huì)出現(xiàn)在Bootstrap采樣子集中,這部分?jǐn)?shù)據(jù)稱為OOB(Out-Of-Bag)數(shù)據(jù)。OOB數(shù)據(jù)可對(duì)決策子樹模型進(jìn)行評(píng)估,確定決策子樹的錯(cuò)誤分類率,即OOB誤差。RF模型中的OOB誤差具有無偏性特征,計(jì)算比交叉驗(yàn)證法更為高效。
風(fēng)險(xiǎn)指標(biāo)的重要性計(jì)算方法主要有以下兩種:
①計(jì)算每棵樹的原始OOB誤差(EOOB1)以及對(duì)風(fēng)險(xiǎn)因子i加入噪聲后的OOB誤差(EOOB2),再將兩者的差對(duì)所有決策子樹做平均,采用標(biāo)準(zhǔn)差歸一化,得出風(fēng)險(xiǎn)指標(biāo)i的重要性。在RF中采用IncMSE進(jìn)行量度,公式為:
IncMSE=■■(EOOB2-EOOB1)/EOOB1 (4)
②通過分析森林中所有節(jié)點(diǎn)的風(fēng)險(xiǎn)指標(biāo)i在節(jié)點(diǎn)分割時(shí)的基尼指數(shù)減少值D的總和后對(duì)所有樹取平均,確定風(fēng)險(xiǎn)指標(biāo)i的重要程度,在RF中采用IncNodePurity進(jìn)行量度,公式為:
IncNodePurityk=■×100% (5)
式中,m、n、t分別是總指標(biāo)個(gè)數(shù)、分類樹棵數(shù)和單棵樹的節(jié)點(diǎn)數(shù),Dkij是第k個(gè)指標(biāo)在第i棵樹的第j個(gè)節(jié)點(diǎn)的Gini指數(shù)減小值,IncNodePurityk為指標(biāo)在所有指標(biāo)中的重要程度。
本研究選取第二種方法作為登革熱風(fēng)險(xiǎn)因子的重要性評(píng)價(jià)的評(píng)判標(biāo)準(zhǔn)。
決策子樹與預(yù)選變量數(shù)量的不同會(huì)影響隨機(jī)森林的強(qiáng)度及相關(guān)性,影響結(jié)果精度。因此在風(fēng)險(xiǎn)因子篩選時(shí),需要對(duì)比不同決策子樹及預(yù)選變量數(shù)下的測(cè)試結(jié)果,從而確定最優(yōu)決策子樹及預(yù)選變量數(shù)目。圖6分別顯示了在不同預(yù)選變量及決策子樹個(gè)數(shù)情況下的誤差情況,最終選取預(yù)選變量數(shù)5和決策子樹數(shù)量600作為隨機(jī)森林的2個(gè)參數(shù)。
2 結(jié)果與分析
2.1 空間自相關(guān)分析
一般認(rèn)為當(dāng)P小于0.05,|Z|值大于1.96時(shí),則拒絕零假設(shè),表示在95%的概率水平下,存在空間自相關(guān)特征。結(jié)果表明,登革熱具有強(qiáng)空間相關(guān)性,其全局Morans I值為0.649 2,P為0.000(小于0.01),Z為51.994 2。因此在進(jìn)行風(fēng)險(xiǎn)因子分析時(shí),需充分考慮鄰域因子之間的相互作用性,將鄰居格網(wǎng)的登革熱病例納入分析的范疇。
2.2 空間相關(guān)性分析
登革熱的傳播與擴(kuò)散在空間上受到多種因素的綜合影響,如用地類別因素、環(huán)境因素、氣象因素、人口密度、鄰域因素等。采用空間相關(guān)性分析,可初步得出登革熱傳播擴(kuò)散的風(fēng)險(xiǎn)因子。
從表3可以看出,人口因素與登革熱存在強(qiáng)烈的正相關(guān)關(guān)系,相關(guān)系數(shù)為0.765;其次是道路、居民地、鄰域因子(共8個(gè)),溫度、降雨、NO2、PM10、PM2.5與登革熱有較強(qiáng)的正相關(guān)性,農(nóng)用地、林地、CO、O3與登革熱具有負(fù)相關(guān)性,而草地、公共綠地、河流、SO2與登革熱的相關(guān)關(guān)系不明顯。
2.3 隨機(jī)森林
結(jié)果顯示,當(dāng)預(yù)選變量數(shù)為5,決策子樹數(shù)量為600時(shí),RF模型對(duì)登革熱分析結(jié)果的均方根誤差(RMSE)僅為0.055 678(數(shù)據(jù)已做標(biāo)準(zhǔn)化),風(fēng)險(xiǎn)因子對(duì)登革熱具備72.25%的解釋能力。相較于傳統(tǒng)的前向逐步回歸模型(解釋能力為66.20%,RMSE為0.061 255),RF模型具有更強(qiáng)的解釋能力,對(duì)于登革熱發(fā)生與擴(kuò)散的解釋效果更為優(yōu)秀。
RF模型分析得出各個(gè)風(fēng)險(xiǎn)指標(biāo)的重要性程度,以重要性程度1%、5%、10%為節(jié)點(diǎn)對(duì)指標(biāo)等級(jí)進(jìn)行劃分,共得出4個(gè)風(fēng)險(xiǎn)因子等級(jí)。從表4可以看出,人口、居民地分布、右鄰域、左鄰域是影響登革熱傳播的第一級(jí)別風(fēng)險(xiǎn)因素;下鄰域、上鄰域是影響登革熱傳播的第二級(jí)別風(fēng)險(xiǎn)因素;道路、右上鄰域、左下鄰域、右下鄰域、左上鄰域、降雨、O3、PM10、PM2.5、CO、池塘、NO2為第三級(jí)別風(fēng)險(xiǎn)因素;溫度、農(nóng)用地、林地為第四級(jí)別風(fēng)險(xiǎn)因素。第一與第二風(fēng)險(xiǎn)等級(jí)的總貢獻(xiàn)率達(dá)71.49%。其中人口因素貢獻(xiàn)程度最大,重要程度達(dá)19.08%,居民地分布次之,重要程度為11.41%。
3 討論
本研究基于前人的研究成果,綜合考慮了社會(huì)人文因素、周邊鄰域因素,氣象因素、環(huán)境因素、以及用地類型等共25個(gè)潛在風(fēng)險(xiǎn)因子。將隨機(jī)森林模型引入登革熱風(fēng)險(xiǎn)因子評(píng)價(jià)中,構(gòu)建登革熱風(fēng)險(xiǎn)因子等級(jí)排名體系。
3.1 隨機(jī)森林與風(fēng)險(xiǎn)因子評(píng)估
研究表明,隨機(jī)森林具備登革熱指標(biāo)重要性分析功能,能夠挖掘出登革熱風(fēng)險(xiǎn)因子,確定風(fēng)險(xiǎn)因子等級(jí)排名體系。從模型效果上看,隨機(jī)森林比傳統(tǒng)的線性回歸模型的數(shù)據(jù)挖掘能力更強(qiáng),結(jié)果更為準(zhǔn)確。
3.2 社會(huì)人文因子對(duì)登革熱的影響
人口因素是登革熱發(fā)生與擴(kuò)散過程中最為重要的風(fēng)險(xiǎn)因子之一,重要性占所有因子比重的19.08%,明顯高于其他因子,這與?魡str?觟m等[14]強(qiáng)調(diào)的登革熱主要風(fēng)險(xiǎn)因子為社會(huì)經(jīng)濟(jì)因子的結(jié)論相一致。經(jīng)濟(jì)發(fā)達(dá)地區(qū),人口密度高,登革熱易感人群越多,病毒的攜帶者與傳播者也容易增多,導(dǎo)致登革熱發(fā)病率迅速升高。因此在登革熱防控過程中應(yīng)該重點(diǎn)監(jiān)控人口密度高、社會(huì)活動(dòng)頻繁、經(jīng)濟(jì)發(fā)達(dá)的地區(qū)。
3.3 周邊鄰域因子與盛行風(fēng)向?qū)Φ歉餆岬挠绊?/p>
地理學(xué)第一定律表明,地理空間對(duì)象間普遍存在自相似性特征,距離越近的物體,相似程度越高。本研究將格網(wǎng)周邊8個(gè)鄰域作為風(fēng)險(xiǎn)因子,共同探究周邊區(qū)域?qū)Φ歉餆醾鞑U(kuò)散的影響。研究結(jié)果表明,鄰域因子是登革熱發(fā)生與傳播的另一個(gè)重要風(fēng)險(xiǎn)因子,其中與區(qū)域有直接邊界接觸的格網(wǎng)(上、下、左、右4個(gè)鄰域)對(duì)登革熱的影響程度最高,重要程度分別為9.37%、9.50%、10.86%、11.27%,其次是周邊4個(gè)角點(diǎn)的格網(wǎng)(左上、左下、右上、右下4個(gè)格網(wǎng)),重要程度分別為2.44%、3.33%、3.33%、2.85%。這表明登革熱的流行與暴發(fā)存在著區(qū)域效應(yīng),登革熱疫情會(huì)受到周邊區(qū)域的影響,所以在加強(qiáng)對(duì)登革熱的防控時(shí),應(yīng)該隨時(shí)監(jiān)控周邊區(qū)域登革熱的傳播擴(kuò)散態(tài)勢(shì)。
另一方面,格網(wǎng)的周邊鄰域?qū)^(qū)域的影響不一,對(duì)區(qū)域登革熱有顯著影響的鄰域?yàn)橛亦徲?、左鄰域、下鄰域、上鄰域、左下鄰域、右上鄰域?個(gè)鄰域,而左上鄰域及右下鄰域?qū)^(qū)域的影響則相對(duì)較弱,該現(xiàn)象與廣州的夏季盛行風(fēng)向(東南風(fēng))相吻合,在盛行風(fēng)向上的鄰域?qū)^(qū)域的影響程度顯著弱于其他鄰域。此現(xiàn)象表明,風(fēng)向及風(fēng)力大小對(duì)登革熱疫情的傳播擴(kuò)散存在著不可忽視的影響。
3.4 用地因子對(duì)登革熱的影響
登革熱的流行與居民地、交通道路分布存在顯著的正相關(guān)性,池塘的分布對(duì)登革熱產(chǎn)生具有一定作用,林地與農(nóng)用地的分布對(duì)登革熱的影響不明顯。這與Hsueh等[13]的研究結(jié)論一致,居民地、交通、水體對(duì)登革熱的發(fā)生及擴(kuò)散具有重要驅(qū)動(dòng)作用。進(jìn)一步證明登革熱的防控應(yīng)該重點(diǎn)圍繞經(jīng)濟(jì)發(fā)達(dá)、人口密度高、交通便捷地區(qū)。另一方面池塘作為靜止水源地,容易受到人為污染,為媒介蚊蟲提供理想的孳生環(huán)境,因此在登革熱防控過程中,應(yīng)該注意池塘等靜止水體的清潔衛(wèi)生,防止蚊蟲孳生。
3.5 環(huán)境因子對(duì)登革熱的影響
環(huán)境因子方面,O3與CO對(duì)登革熱存在抑制作用,NO2、PM10、PM2.5對(duì)登革熱存在激勵(lì)作用,總體而言氣候因子對(duì)登革熱的影響大小排序?yàn)镺3>PM2.5=PM10>CO>NO2。登革熱病毒主要由伊蚊作為媒介進(jìn)行傳播,而O3、CO濃度的升高對(duì)伊蚊的繁殖具有一定的抑制作用;另一方面NO2、PM10、PM2.5等污染物的升高,表明城市的環(huán)境衛(wèi)生條件惡化,容易促使流行區(qū)發(fā)病率的增加。
3.6 氣象因子對(duì)登革熱的影響
氣象因子方面,降水因素對(duì)登革熱的影響高于環(huán)境因子。在夏秋季節(jié)降水量多時(shí),也是登革熱高發(fā)期。因此在降水量高的夏秋兩季,應(yīng)對(duì)登革熱進(jìn)行重點(diǎn)防護(hù)。另一方面,由于溫度與降雨等氣象因子對(duì)蚊蟲孳生的影響存在滯后性,因此本研究得出溫度因子對(duì)登革熱的傳播僅具有較弱的影響效力。
3.7 登革熱風(fēng)險(xiǎn)因子等級(jí)排名體系
登革熱的風(fēng)險(xiǎn)因子等級(jí)排名如下:第一等級(jí)(人口>居民地>右鄰域>左鄰域);第二等級(jí)(下鄰域>上鄰域);第三等級(jí)(道路>右上鄰域=左下鄰域>右下鄰域>左上鄰域>降雨>O3>PM10=PM2.5>CO>池塘=NO2);第四等級(jí)(溫度>農(nóng)用地>林地)。
登革熱的發(fā)生與擴(kuò)散主要受到人口分布及周圍鄰域的影響,這是登革熱產(chǎn)生及流行的重要風(fēng)險(xiǎn)驅(qū)動(dòng)因子。交通因素作為城市化水平的基本指標(biāo)之一,在促進(jìn)所在區(qū)域經(jīng)濟(jì)發(fā)展的同時(shí),大大加快了人與人之間的活動(dòng)交流,容易導(dǎo)致登革熱在人口密度高的地區(qū)迅速擴(kuò)散蔓延。環(huán)境因子在登革熱產(chǎn)生與傳播過程中起到了較為重要的作用,O3、CO對(duì)登革熱存在顯著的抑制作用,而NO2、PM10、PM2.5對(duì)登革熱的擴(kuò)散具有明顯的激勵(lì)作用。氣象因子對(duì)登革熱的擴(kuò)散存在一定的影響,其中降雨量的多少對(duì)登革熱的影響較為明顯,就小區(qū)域范圍而言,降雨量對(duì)登革熱的激勵(lì)作用顯著高于溫度。在用地類型因素中,池塘的分布與登革熱的產(chǎn)生存在弱相關(guān)性,激勵(lì)作用略弱,而農(nóng)用地、林地等的分布則對(duì)登革熱的影響不明顯。
登革熱作為一種通過“人-蚊-人”進(jìn)行傳播的傳染性疾病,其主要風(fēng)險(xiǎn)因子在于人口密度,周邊鄰域的登革熱發(fā)展情況以及交通。在全球化背景下,城市地區(qū)人口密度迅速增加,城市居民的日?;顒?dòng)交流日趨頻繁,因此更加需要密切關(guān)注登革熱病例的產(chǎn)生,一旦發(fā)現(xiàn)登革熱病例,應(yīng)當(dāng)盡早將患者進(jìn)行隔離治療,防止登革熱的進(jìn)一步擴(kuò)散傳播。
3.8 結(jié)論
隨機(jī)森林模型可很好地挖掘影響登革熱的各類風(fēng)險(xiǎn)因子,量化各風(fēng)險(xiǎn)因子對(duì)登革熱的影響程度,解釋各風(fēng)險(xiǎn)因子間的相互關(guān)系;人口密度、周邊鄰域登革熱狀況對(duì)登革熱影響最大。登革熱作為一種強(qiáng)傳播性疾病,在人口密集的城市地區(qū),應(yīng)及時(shí)收治感染人員進(jìn)行隔離治療,防止登革熱的進(jìn)一步擴(kuò)展蔓延。研究結(jié)果可為疾病控制部門預(yù)防登革熱提供參考,控制登革熱爆發(fā)。隨機(jī)森林模型同樣適用于其他傳染性疾病的時(shí)空擴(kuò)散挖掘研究。
參考文獻(xiàn):
[1] 張海林,張?jiān)浦?,馮 云,等.云南省2005年登革熱監(jiān)測(cè)分析[J].中國(guó)熱帶醫(yī)學(xué),2006,6(7):1162-1163.
[2] 樊景春,林華亮,吳海霞,等.廣東省2006-2011年登革熱時(shí)空分布特征[J].中國(guó)媒介生物學(xué)及控制雜志,2013,24(5):389-391.
[3] IPCC. Climate change 2007:The Physical Science Basis.Contribution of Working Group I to the Fourth Assessment Report of the Intergovernmental Panel on Climate Change[M].Cambridge, UK:Cambridge University Press,2007.
[4] 毛祥華,張?jiān)倥d.中國(guó)登革熱的流行現(xiàn)狀[J].中國(guó)病原生物學(xué)雜志,2007,2(5):385-388.
[5] 李衛(wèi)紅,陳業(yè)濱,聞 磊.基于GA-BP神經(jīng)網(wǎng)絡(luò)模型的登革熱時(shí)空擴(kuò)散模擬[J].中國(guó)圖像圖形學(xué)報(bào),2015,20(7):981-991.
[6] 封 靜,潘安定.廣州氣溫變化特征及其與城市化進(jìn)程的關(guān)系[J].廣州大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,10(6):89-94.
[7] 何隆華,周明浩,褚宏亮,等.遙感技術(shù)在蚊媒傳染病研究中的應(yīng)用進(jìn)展[J].中國(guó)媒介生物學(xué)及控制雜志,2014,25(2):184-188.
[8] HALSETEAD S B. Dengue haemorrhagic fever-A public health problem and a field for research[J].Bull World Health Organ,1980,58(1):1-22.
[9] 王成崗.廣東省登革流行特征及氣象因素對(duì)廣州市登革的影響研究[D].濟(jì)南:山東大學(xué),2014.
[10] M?魪NDEZ-L?魣ZARO P,MULLER-KARGER F E,OTIS D,et al. Assessing climate variability effects on dengue incidence in San Juan,Puerto-Rico[J].International Journal of Environmental Research and Public Health,2014,21:9409-9428.
[11] CHEONG Y L,BURKART K,LEIT?魨O P J,et al. Assessing weather effects on dengue disease in Malaysia[J].International Journal of Environmental Research and Public Health,2013, 10:6319-6334.
[12] SHEELA A M,SARUN S,JUSTUS J,et al. Assessment of changes of vector borne diseases with wetland characteristics using multivariate analysis[J].Environ Geochem Health,2015, 37:391-410.
[13] HSUEH Y,LEE J,BELTZ L. Spatio-temporal patterns of dengue fever cases in Kaoshiung City,Taiwan,2003-2008[J].Applied Geography,2012,34:587-594.
[14] ?魡STR?魻M C,ROCKL?魻V J,HALES S,et al. Potential distribution of dengue fever under scenarios of climate change and economic development[J].EcoHealth,2012,9(4):448-454.
[15] SARFRAZ M S,TRIPATHI N K,TIPDECHO T,et al. Analyzing the spatio-temporal relationship between dengue vector larval density and land-use using factor analysis and spatial ring mapping[J].BMC Public Health,2012,12:853.
[16] 李 森,陶海燕,秦 雁,等.基于遙感與地理信息技術(shù)的登革熱環(huán)境風(fēng)險(xiǎn)因子標(biāo)識(shí)[J].中華疾病控制雜志,2010,14(9):869-873.
[17] 易彬樘,張治英.中國(guó)登革熱流行及控制概況[J].中國(guó)公共衛(wèi)生,2002,18(9):1128-1130.
[18] BREIMAN L. Random forests[J].Machine Learning,2001, 45(1):5-32.
[19] 張海林,自登云,龔自達(dá).云南省登革熱流行病學(xué)調(diào)查分析[J].地方病通報(bào),1999,14(3):50-54.
[20] 趙銅鐵鋼,楊大文,蔡喜明,等.基于隨機(jī)森林模型的長(zhǎng)江上游枯水期徑流預(yù)報(bào)研究[J].水力發(fā)電學(xué)報(bào),2012,31(3):18-24,38.