◆劉 穎
基于氣候因素的全球登革熱分布的空間模型
◆劉 穎
登革熱是由蚊子作為傳播媒介的傳染病,致使全球每年2.3億人收到感染,其中有25000人死亡。本文研究目的是構(gòu)建全球登革熱的空間分布模型,找出影響登革熱爆發(fā)流行的重要因素。通過以氣候因素及人口密度為預(yù)測(cè)變量,以隨機(jī)抽樣,隨機(jī)結(jié)合系統(tǒng)抽樣的方式選擇未爆發(fā)的地區(qū),與已知的爆發(fā)地區(qū)組成因變量,使用機(jī)械學(xué)習(xí)中的回歸樹模型,找出對(duì)該疾病流行影響最大的因素。結(jié)果表明,對(duì)登革熱的爆發(fā)影響最大的因素是水汽壓和人口密度。
登革熱;BRT模型;氣候因素
登革熱是由蚊子作為傳播媒介的傳染病,主要是通過白紋伊蚊和埃及伊蚊進(jìn)行傳播,多爆發(fā)于熱帶和亞熱帶地區(qū)[1],致使全球每年2.3億人受到感染,其中25000人死亡。全球發(fā)病率近幾十年來迅速增長,約有36億人,即全球一半以上的人口現(xiàn)在處于危險(xiǎn)之中。登革熱主要流行在熱帶和亞熱帶地區(qū)的中心城市,但迅速蔓延到溫帶地區(qū)。基于氣候變化情形, 這一增長預(yù)計(jì)將持續(xù)到本世紀(jì)末, 特別是在北半球,包括歐洲和中國。在近代歐洲登革熱第一次爆發(fā)發(fā)生在2012年馬德拉 - 葡萄牙語群島。中國已經(jīng)有登革熱疫情的7個(gè)地區(qū), 分別是:福建,廣東,浙江,臺(tái)灣,香港,海南,澳門。根據(jù)美國疾病預(yù)防控制中心報(bào)告顯示,隨著最近幾年人口和社會(huì)的變化的增強(qiáng),特別是城市化,全球化,以及迅速增長的國際航空旅游,是登革熱發(fā)病率上升和地域擴(kuò)張的主要原因。到目前為止,針對(duì)登革熱這種流行疾病,既沒有抗病毒治療也沒有治療疫苗,該疾病的主要控制策略是消除傳播媒介和個(gè)人防護(hù)行為。因此,監(jiān)控,驗(yàn)證和預(yù)測(cè)人口密度以及登革熱病例隨著時(shí)間的推移在全球范圍內(nèi)的發(fā)展是很重要的,尤其是在建模預(yù)測(cè)未來登革熱爆發(fā)的概率方面,可以起到指導(dǎo),控制和提前制定策略的作用。目前,已經(jīng)有很多研究在關(guān)注全球登革熱的空間分布[2][3][4][5][6]。
1.利用BRT模型構(gòu)建登革熱的全球空間分布,并找到對(duì)登革熱流行影響最大的氣候因素。
2.通過比較估計(jì)的回歸模型的預(yù)測(cè)變量貢獻(xiàn)解釋力,研究不同的選擇未爆發(fā)地區(qū)觀測(cè)值的方法對(duì)模型估計(jì)值所帶來的偏差。
我們用來建立回歸樹模型的數(shù)據(jù)包括自變量(或預(yù)測(cè)變量)數(shù)據(jù)和因變量數(shù)據(jù)2個(gè)部分。自變量數(shù)據(jù)中有30個(gè)氣候變量和1個(gè)人口密度變量,對(duì)于這31個(gè)自變量的具體描述見表1。
表1. 氣候和人口密度變量描述
Wet1 最小的潮濕天的頻率 hPa pop 人口密度 人
因變量數(shù)據(jù),即登革熱數(shù)據(jù),是登革熱是否爆發(fā)的地點(diǎn)觀測(cè)值。每個(gè)觀測(cè)值都是在以0.5x0.5弧度(arc degree)為基本單位的全球經(jīng)緯度地理網(wǎng)格上取得的,每個(gè)觀測(cè)值都帶有經(jīng)度和緯度坐標(biāo)數(shù)值[7]。因變量數(shù)據(jù)共有67420個(gè)觀測(cè)值,其中全球登革熱已爆發(fā)地區(qū)的觀測(cè)值有1537個(gè),其他地區(qū)均為未爆發(fā)地區(qū)。該數(shù)據(jù)是由歐洲疾病控制和預(yù)防中心European Centre of Disease Control and Prevention (ECDC)提供的。因變量是二項(xiàng)分布,當(dāng)y=1時(shí)表示該地區(qū)爆發(fā)了登革熱,y=0時(shí)表示該被觀測(cè)地區(qū)沒有爆發(fā)登革熱。
由于全球登革熱確定爆發(fā)的地區(qū)數(shù)量很少,而未確定爆發(fā)的地區(qū)的數(shù)量卻非常龐大,所以在對(duì)其空間分布進(jìn)行分析時(shí),通常需要在未爆發(fā)地區(qū)中隨機(jī)地抽取與爆發(fā)地區(qū)數(shù)量相同的觀測(cè)值,同爆發(fā)地區(qū)一起組成新的數(shù)據(jù)集,使用回歸樹模型來對(duì)該數(shù)據(jù)集進(jìn)行研究分析,從而探究影響登革熱爆發(fā)的重要因素。
如何在龐大的數(shù)據(jù)中抽取未爆發(fā)地區(qū)有多種方法,例如,隨機(jī)抽樣和系統(tǒng)抽樣[8]。在本文中展示了3種不同的抽取方式,組成了3個(gè)樣本數(shù)據(jù)集,見表2。第一種方式:采用隨機(jī)的抽樣方式在全部未爆發(fā)地區(qū)中抽取1537個(gè)觀測(cè)值; 第二種抽樣方式是隨機(jī)抽樣和系統(tǒng)抽樣相結(jié)合,先在全部未爆發(fā)地區(qū)中抽取距離爆發(fā)地區(qū)小于10 arc degree的觀測(cè)值, 然后在這些中選的觀測(cè)值中再進(jìn)行隨機(jī)抽?。坏谌N抽樣方式也是隨機(jī)抽樣和系統(tǒng)抽樣相結(jié)合,但是此次系統(tǒng)抽取的距離縮小到5 arc degree:先在全部未爆發(fā)地區(qū)中抽取距離爆發(fā)地區(qū)小于5 arc degree的觀測(cè)值, 然后在這些中選的觀測(cè)值中再進(jìn)行隨機(jī)抽取。
表2. 樣本數(shù)據(jù)集的描述
1.回歸樹(Boosted regression trees)
回歸樹模型是機(jī)械學(xué)習(xí)(machine-learning)中的一種,越來越多的空間分布研究開始使用這種分析方法,因?yàn)橄噍^于傳統(tǒng)的回歸模型,回歸樹模型的預(yù)測(cè)能力較好,且能夠處理非線性問題[9]。如果數(shù)據(jù)是不易建模的非線性關(guān)系,它可以將數(shù)據(jù)切分成很多個(gè)容易構(gòu)建模型的數(shù)據(jù)集,然后再利用線性回歸技術(shù)來對(duì)每個(gè)切分的數(shù)據(jù)集建模。如果首次切分之后仍然難以構(gòu)建線性模型,那就繼續(xù)切分,直到最后切分的數(shù)據(jù)集可以建模為止[10]。該模型擬合了每個(gè)預(yù)測(cè)變量對(duì)因變量的貢獻(xiàn)占全部解釋力的百分比,全部預(yù)測(cè)變量的貢獻(xiàn)解釋力總和是100%。預(yù)測(cè)變量的貢獻(xiàn)解釋力越大,說明它對(duì)因變量的影響力越大。
2. Area under the receiver operating characteristic curve(AUC)
AUC是一個(gè)評(píng)價(jià)模型優(yōu)劣的指標(biāo)。它是指ROC曲線下方的面積,是一個(gè)判斷二分類預(yù)測(cè)模型優(yōu)劣的標(biāo)準(zhǔn)[9]。它的取值范圍是[0,1],當(dāng)0.9≤AUC≤1時(shí)表示預(yù)測(cè)模型良好;當(dāng)0.7≤AUC<0.9時(shí)表示預(yù)測(cè)模型合理;當(dāng)0.5≤AUC<0.7時(shí)表示預(yù)測(cè)模型不是很好[10]。
使用R統(tǒng)計(jì)軟件中的GBM包對(duì)3種不同的數(shù)據(jù)集進(jìn)行了BRT回歸模型分析,并找出了哪些變量對(duì)登革熱的爆發(fā)影響最大;用AUC指標(biāo)來判斷預(yù)測(cè)模型的擬合優(yōu)度。通過對(duì)不同估計(jì)模型的比較,可以發(fā)現(xiàn)預(yù)測(cè)變量的貢獻(xiàn)解釋力取值是如何根據(jù)不同的未爆發(fā)地區(qū)數(shù)據(jù)選擇方法而變化的。
表3. 構(gòu)建的3個(gè)模型的結(jié)果展示
Model 1
當(dāng)使用Random 數(shù)據(jù)去建立BRT模型時(shí),分析結(jié)果顯示,影響登革熱流行的最主要3個(gè)因素是水汽壓,它的貢獻(xiàn)解釋力占比是41.7%;其次是最小的水汽壓,占比是20.3%;再次是人口密度,占比是17.2%。該回歸樹模型的AUC=0.99,表示這個(gè)模型的預(yù)測(cè)性能非常好。
Model 2
當(dāng)使用Random10數(shù)據(jù)去構(gòu)建BRT模型時(shí),影響登革熱流行的最重要的前3個(gè)因素分別是人口密度,它的貢獻(xiàn)解釋力占比是46.3%;其次是最小的水汽壓,占比是14.7%;再次是最小的月平均日最高氣溫,占比是6.3%。該回歸樹模型的 AUC=0.97,表示這個(gè)模型的預(yù)測(cè)性能也非常好。
Model 3
當(dāng)使用Random5 數(shù)據(jù)去建立BRT模型時(shí),影響登革熱爆發(fā)流行的最主要的3個(gè)因素是人口密度,它的貢獻(xiàn)解釋力占比是44.8%;然后是最小的水汽壓,占10.6%;最后是占比5.5%的潮濕天的頻率。AUC=0.96,表示這個(gè)模型的預(yù)測(cè)性能也很好。
通過建立回歸樹模型來分析影響登革熱爆發(fā)流行的因素,擬合出了對(duì)于該流行病爆發(fā)產(chǎn)生重大影響的氣候等因素。本研究發(fā)現(xiàn)最重要的影響因素是水汽壓和人口密度,其次,溫度和濕度也是引起登革熱爆發(fā)流行的重要原因。所以,當(dāng)這些因素發(fā)生變化的時(shí)候,各有關(guān)部門要密切關(guān)注。因?yàn)楫?dāng)氣候因素達(dá)到了一定條件,例如水汽壓大幅變化或溫度,濕度適合或上升時(shí),如果人口的流動(dòng)變化增強(qiáng),就很有可能會(huì)在全球某些地區(qū)引起登革熱爆發(fā),或?qū)е虏∏榱餍蟹秶臄U(kuò)大。因此,政府和醫(yī)院的相關(guān)單位或部門應(yīng)該及時(shí)有效地監(jiān)控和預(yù)測(cè)這些重要的因素,指導(dǎo),控制和提前指定策略的作用,以防止登革熱的爆發(fā),保障人民生命和財(cái)產(chǎn)的安全。
隨機(jī)抽樣和系統(tǒng)抽樣是在抽取未爆發(fā)地區(qū)觀測(cè)值時(shí)常見的研究方法。本研究選擇了3種不同的方法,同過比較3組不同的數(shù)據(jù)集擬合出來的模型估計(jì)值,發(fā)現(xiàn)不同的未爆發(fā)地區(qū)抽樣方法確實(shí)對(duì)模型的估計(jì)值產(chǎn)生顯著的影響,并且造成預(yù)測(cè)性能上的差異。這表示,不同的選擇未爆發(fā)地區(qū)數(shù)據(jù)的方法會(huì)影響預(yù)測(cè)變量的貢獻(xiàn)解釋力占比值和預(yù)測(cè)模型的擬合優(yōu)度。當(dāng)使用隨機(jī)方法在全球范圍內(nèi)抽取未爆發(fā)地區(qū)數(shù)據(jù)時(shí),預(yù)測(cè)模型的擬合度最好;其次是在距離爆發(fā)地區(qū)小于10 arc degree的觀測(cè)值中隨機(jī)地抽取數(shù)據(jù);當(dāng)未爆發(fā)地區(qū)距離爆發(fā)地區(qū)越近時(shí),即距離從10 arc degree 縮小到5 arc degree時(shí),擬合優(yōu)度稍微降低。因此,在抽取選擇未爆發(fā)地區(qū)數(shù)據(jù)時(shí),要注意采取的抽樣方法,因?yàn)椴煌某闃臃椒〞?huì)帶來不同的模型擬合結(jié)果和預(yù)測(cè)性能上的差異。
[1]張海林,自登云。蟲媒病毒與蟲媒病毒病[M]。昆明:云南科學(xué)技術(shù)出版社 1995.164-174.
[2]Samir Bhatt et al. (2013) The global distribution and burden of dengue. Nature 2013. Doi:10.1038.
[3]Simmons CP, Farrar JJ, Nguyen v V, Wills B. Dengue. NEngl J Med. 2012;366(15):1423-32. Epub 2012/04/13
[4]Astrom C, Rocklov J, Hales S, Beguin A, Louis V, Sauerborn R.Potential Distribution of Dengue Fever Under Scenarios of Climate Change and Economic Development. EcoHealth.
[5]Oliver J. Brady et al. (2012). Refining the global spatial limits of dengue virus transmission by evidence-based consensus. Plos Negl Trop Dis 6(8): e1760. Doi:10.1371/journal.pntd.0001760
[6]Hales S, de Wet N, Maindonald J, Woodward A. Potential effect of population and climate changes on global distribution of denguefever: an empirical model. Lancet. 2002;360(9336):830-4.
[7]http://www.pik-potsdam.de/research/climate-impacts-andvulnerabilitiesch/rd-cross-cutting-activities/isi-mip.
[8]Mary S Wise and Antoine Gusian(2009). Do pseudo-absence selection strategies influence species distribution models and their predictions?BMC Ecology 2009, 9:8 doi: 0. 86/472-6785-9-8
[9]J. Elith et al. A working guide to boosted regression trees.Journal of Animal Ecology 2008, 77, 802-813.
[10]Trevor H, Robert T, Jerome F. The elements of statistical learning.ISBN: 978-0-387-4857-0
[11]J.M. McPherson er al. (2006). Ecologivcal Modelling 192 499-522.
作者畢業(yè)于瑞典斯德哥爾摩大學(xué),數(shù)理統(tǒng)計(jì)系碩士學(xué)位。曾在瑞典于默奧大學(xué)公共衛(wèi)生系從事研究助理的工作;現(xiàn)就職于廈門大學(xué)嘉庚學(xué)院,講授統(tǒng)計(jì)學(xué)原理。