鄭甲煒,王式功,尹 立,吳千鵬,張祥健,楊 燕,黃開龍
(1.成都信息工程大學(xué)大氣科學(xué)學(xué)院/環(huán)境氣象與健康研究院,四川 成都 610225;2.中國氣象局蘭州干旱氣象研究所,甘肅 蘭州 730020;3.中國氣象局—成都信息工程大學(xué)氣象環(huán)境與健康聯(lián)合實驗室,四川 成都 610225;4.攀枝花市中心醫(yī)院氣象醫(yī)學(xué)研究中心,四川 攀枝花 617000;5.汕頭市氣象局,廣東 汕頭 515000)
全球氣候變暖及其對人類健康的影響是當今社會的熱點之一。政府間氣候變化專門委員會(Intergovernmental Panel on Climate Change,IPCC)的第五次評估報告(Assessment Report 5,AR5)明確指出:全球氣候變暖已成為不爭的事實,并且正在影響和改變每個人的生活。據(jù)報道,氣候變暖每年可在全球范圍內(nèi)導(dǎo)致超過10 萬人死亡。若依然不能有效改善全球氣候變暖,到2030 年這個數(shù)字將變成30萬[1]。因此,將氣象學(xué)和醫(yī)學(xué)結(jié)合,探索氣象條件對人體健康的直接影響,進而對相關(guān)疾病的發(fā)病風(fēng)險進行預(yù)測,助力疾病防控能力提升,具有重要的科學(xué)價值和現(xiàn)實意義。
以往諸多研究表明,多種疾病的誘發(fā)因素和傳播過程都和氣象條件有著密切的聯(lián)系。氣溫的變化直接影響到上呼吸道感染疾病的發(fā)病、傳播以及心血管疾病的發(fā)作[2-4]。溫度和濕度呈現(xiàn)典型的季節(jié)性變化特征,而一些慢性病,譬如消化系統(tǒng)疾病、泌尿生殖系統(tǒng)疾病等,它們的發(fā)病也呈現(xiàn)季節(jié)性變化特征[5-6]。一項針對接受住院治療和醫(yī)院看護的老人群體身體健康情況的研究表明,晝夜溫差變化會直接影響到這些老人的心血管、呼吸系統(tǒng)、消化系統(tǒng)以及泌尿生殖系統(tǒng)的健康狀況,甚至有可能導(dǎo)致老人在夜間死亡[7]。一項針對高溫對人體消化系統(tǒng)疾病影響的研究表明,高溫會直接影響人體消化系統(tǒng),高溫情況下,尤其是當氣溫>25 ℃時,人體罹患消化系統(tǒng)疾病的風(fēng)險驟增[8]。而濕度變化對人體健康的影響則更為直接和迅速[9]。無論是在高溫高濕還是低溫干燥的氣象條件下,人體都會感到不舒適。因此,氣象條件和人體健康必然存在著或多或少的聯(lián)系,這種聯(lián)系可用氣候舒適度表征[10]。
以往研究氣象條件對人體健康的影響,尤其是對上呼吸道感染疾病(以下簡稱“上感”)的影響主要以我國北方城市為典例,這些城市上感發(fā)病的峰值往往出現(xiàn)在冬季和春季。本研究選取南部沿海深圳市和西南地區(qū)攀枝花市,在地理位置和氣候特征上都與北方城市有較大區(qū)別。因此,選取這兩座城市進行研究與比較,可以部分地彌補我國以往同類研究的不足。
此外,現(xiàn)有研究中分析不同氣象要素與某種疾病的關(guān)系多采用逐步回歸和最優(yōu)子集回歸[11]。考慮到氣象要素變化和人體疾病發(fā)病存在著一定的滯后響應(yīng)效應(yīng),過去常采用廣義相加模型和分布滯后非線性模型[11-12]。這類模型的顯著優(yōu)點是便于考慮滯后性,能夠很好地體現(xiàn)氣象要素和患病人數(shù)變化的時間序列關(guān)系,有利于結(jié)果的分析和檢驗。但缺點是預(yù)報能力不足,并且依賴數(shù)據(jù)間的回歸關(guān)系。近年來,機器學(xué)習(xí)模型憑借其強大的計算機科學(xué)方法的支撐,能有效地利用大數(shù)據(jù)建立可靠模型[13-14]。同時,機器學(xué)習(xí)模型尤其是深度學(xué)習(xí)模型不需要數(shù)據(jù)間有強回歸關(guān)系,模型便可通過學(xué)習(xí)搭建數(shù)據(jù)間的聯(lián)系,在數(shù)據(jù)間回歸關(guān)系不明顯時依然能夠給出較準確的預(yù)報。目前,機器學(xué)習(xí)模型在氣象學(xué)領(lǐng)域內(nèi)主要被應(yīng)用在對雷暴大風(fēng)、短時強降雨和暴雪等極端天氣現(xiàn)象的短臨預(yù)報中[16-17],在大氣污染物濃度預(yù)報和大氣主要污染物類型預(yù)報等相關(guān)方向也有應(yīng)用[15]。深度學(xué)習(xí)則被應(yīng)用于對閃電的預(yù)報和對雷達回波圖的處理等更具挑戰(zhàn)性的領(lǐng)域[18-19]。但其在氣象醫(yī)學(xué)這一新興交叉學(xué)科領(lǐng)域應(yīng)用的甚少。因此,本文擬在探明上呼吸道感染發(fā)病與氣象條件關(guān)系的基礎(chǔ)上,重點選取兩種機器學(xué)習(xí)模型(經(jīng)典隨機森林模型和RNN 深度學(xué)習(xí)模型),利用兩地疾病數(shù)據(jù)和氣象數(shù)據(jù)進行訓(xùn)練,并考慮了氣象數(shù)據(jù)所反映的天氣過程及其周期性特征以及與醫(yī)院就診人數(shù)的滯后響應(yīng)關(guān)系。基于對試預(yù)報結(jié)果的分析和檢驗,又對兩種機器學(xué)習(xí)模型進行優(yōu)選,旨在好中選優(yōu)、最大限度提高預(yù)測效果、提升預(yù)測能力。
資料選取深圳市某三甲醫(yī)院2014 年8 月20日—2017 年8 月16 日的到院上呼吸道感染(ICD編碼J39.900)掛號就診的病例數(shù)據(jù),共計1 093 組238 607 例。選取四川省攀枝花市某三甲醫(yī)院2015年1 月1 日—2019 年12 月31 日到院上呼吸道感染掛號就診的病例數(shù)據(jù),共計1 825 組629 605 例。病例數(shù)據(jù)來自國家人口與健康科學(xué)數(shù)據(jù)共享平臺(http://www.bmicc.cn/web/share/home)。在質(zhì)量控制過程中已去除錄入錯誤、重復(fù)和復(fù)診。
氣象資料選取深圳市與疾病數(shù)據(jù)同期的2014年8 月20 日—2017 年8 月16 日的常規(guī)地面氣象觀測資料。選取攀枝花市與疾病數(shù)據(jù)同期的2015 年1 月1 日—2019 年12 月31 日的常規(guī)地面氣象觀測資料。數(shù)據(jù)來源于中國氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)。包括日平均(最高、最低)氣溫、日平均(最高、最低)氣壓、日平均相對濕度、日降水量、日平均風(fēng)速、日照時數(shù)等氣象要素。
借鑒前人關(guān)于氣象要素和呼吸系統(tǒng)疾病關(guān)系的研究,本文主要選取當?shù)氐臍鉁?、濕度和風(fēng)速3 種與呼吸系統(tǒng)疾病發(fā)病密切相關(guān)的氣象要素作為分析和預(yù)報因子。
1.2.1 線性相關(guān)性分析
不同氣象要素和當?shù)蒯t(yī)院的上呼吸道感染發(fā)病的就診人數(shù)通常有可通過檢驗的明確的線性相關(guān)性,可用Pearson 相關(guān)系數(shù)來衡量。根據(jù)它們的Pearson 相關(guān)系數(shù)可以直觀快速地確定不同氣象要素與當?shù)蒯t(yī)院就診人數(shù)的相關(guān)程度。
Pearson 相關(guān)系數(shù)計算公式:
式中:r 表示相關(guān)系數(shù),Xi表示氣象要素,Yi表示當?shù)蒯t(yī)院就診人數(shù),n 表示樣本容量分別表示Xi、Yi的平均值。
1.2.2 平滑處理
一般天氣過程通常持續(xù)3~5 d,往往伴隨大風(fēng)、降溫或降雨等天氣現(xiàn)象,各種氣象要素會有較大幅度的變化。為了更好地反映整個天氣過程對上感發(fā)病可能產(chǎn)生的影響,需對原始數(shù)據(jù)進行必要的平滑處理。平滑處理可以在濾除原始數(shù)據(jù)中小擾動的同時反映數(shù)據(jù)中天氣過程的整體效應(yīng),在一定程度上會提高數(shù)據(jù)的有效性。本研究選取了3 和5 d 兩種情況作為時間步長計算滑動平均。
1.2.3 隨機森林(Random Forest)模型
隨機森林(Random Forest,以下簡稱“RF”)模型是一種基于決策樹的經(jīng)典機器學(xué)習(xí)模型(圖1)。一個完整的隨機森林模型通常包含了大量的決策樹,這些決策樹會形成一個整體,對輸入數(shù)據(jù)進行訓(xùn)練和學(xué)習(xí)并生成輸出數(shù)據(jù)[20]。在一次完整的隨機森林學(xué)習(xí)過程中,模型首先會對輸入數(shù)據(jù)進行套袋,即將完整的數(shù)據(jù)按照一定的方式(隨機或按序列)進行分裝。數(shù)據(jù)完成套袋后統(tǒng)一進行分配,在每個決策樹中進行訓(xùn)練[21]。這樣的分配方式可以保證每個決策樹都盡量得到相同數(shù)量的訓(xùn)練數(shù)據(jù)。每個決策樹單獨完成訓(xùn)練之后,所有訓(xùn)練結(jié)果被匯總并統(tǒng)計,隨后給出一個預(yù)測結(jié)果。該預(yù)測結(jié)果可用于和實際數(shù)據(jù)進行比較,來檢驗?zāi)P偷念A(yù)報能力。隨機森林模型的優(yōu)勢在于可以調(diào)整模型的訓(xùn)練細節(jié),通過對決策樹的適當限定和修正來防止模型過擬合[22-24]。
圖1 隨機森林模型訓(xùn)練和測試過程
1.2.4 RNN(Recurrent neural network)模型
遞歸神經(jīng)網(wǎng)絡(luò)模型(RNN 模型)源自前饋神經(jīng)網(wǎng)絡(luò)模型。RNN 模型可以使用其內(nèi)部狀態(tài)(內(nèi)存)來處理可變長度的輸入序列[25]。RNN 模型能夠利用輸入數(shù)據(jù)對模型本身完成多次重復(fù)性的訓(xùn)練,最終的訓(xùn)練結(jié)果取決于所有先前的計算和輸入。選取一個恰當?shù)挠?xùn)練次數(shù),可以防止模型過擬合。RNN 模型在執(zhí)行具有時間序列性的預(yù)測任務(wù)時能夠展示出強大的計算和預(yù)報能力。
圖2 為基本RNN 模型的結(jié)構(gòu)。xt,st和ot分別是時間t 的輸入、隱藏狀態(tài)和輸出。U、V、W 是所有步驟/時刻共享的網(wǎng)絡(luò)參數(shù),用于計算隱藏狀態(tài)和輸出。作為網(wǎng)絡(luò)的存儲單元,st是通過上一步的隱藏狀態(tài)和當前步驟的輸入獲得:
圖2 基本RNN 模型結(jié)構(gòu)展示
激活函數(shù)f 通常是非線性的;初始的隱藏狀態(tài)通常會用全零初始化,作為時間t 的輸出。
為避免出現(xiàn)過度擬合現(xiàn)象,本次研究中在常規(guī)訓(xùn)練誤差中加入了Validation 誤差(檢驗誤差)來決定何時終止重復(fù)訓(xùn)練,以保證恰當有效的預(yù)報結(jié)果。
1.2.5 數(shù)據(jù)樣本劃分
為保證模型獲取足夠的樣本進行訓(xùn)練,同時留恰當?shù)臉颖緦δP徒o出的試預(yù)報結(jié)果進行檢驗比較,本文在綜合考慮并試驗了幾種不同的數(shù)據(jù)樣本劃分方法后,優(yōu)選了將數(shù)據(jù)樣本序列按8∶2 的比例進行劃分。即按時間順序選取前80%的數(shù)據(jù)樣本對模型進行訓(xùn)練,保留后20%的數(shù)據(jù)樣本對模型進行試預(yù)報檢驗。劃分后的數(shù)據(jù)樣本集即可直接用于RNN 模型的訓(xùn)練,但是,基于隨機森林模型的特殊訓(xùn)練方式,還需將劃分后用于訓(xùn)練的數(shù)據(jù)再次進行劃分。依據(jù)對深圳市和攀枝花市上呼吸道感染發(fā)病年際變化特征的分析,本文對深圳市的氣象要素和患病人數(shù)數(shù)據(jù)分別按9 月—次年2 月、3—8 月進行劃分。將9 月—次年2 月的數(shù)據(jù)樣本集稱為深圳市就診人數(shù)下降趨勢數(shù)據(jù)樣本集;將3—8 月的數(shù)據(jù)樣本集稱為深圳市就診人數(shù)上升趨勢數(shù)據(jù)樣本集。同理,對攀枝花市的氣象條件和患病人數(shù)數(shù)據(jù)分別按照1—6 月、7—12 月進行劃分。將1—6 月的數(shù)據(jù)樣本集稱為攀枝花市就診人數(shù)下降趨勢數(shù)據(jù)樣本集;將7—12 月的數(shù)據(jù)樣本集稱為攀枝花市就診人數(shù)上升趨勢數(shù)據(jù)樣本集。
2014 年8 月—2017 年8 月深圳市上感就診人數(shù)共計239 293 人次。如圖3 所示,深圳市上感的逐月就診人數(shù)呈明顯的年變化特征。2 月出現(xiàn)一個谷值,這可能與中國傳統(tǒng)節(jié)日春節(jié)有密切關(guān)系。此時有大量外地務(wù)工人員回家探親。之后,就診人數(shù)出現(xiàn)了大幅反彈,3—7 月上感就診人數(shù)增幅較大,并在7月達到峰值,反映出深圳市居民受熱不舒適度氣候條件的影響較大。
圖3 2014—2017 年深圳市上呼吸道感染月發(fā)病就診人數(shù)變化特征
2015 年1 月—2019 年12 月攀枝花市上感就診人數(shù)共計629 605 人次。如圖4 所示,攀枝花市上感的逐月就診人數(shù)同樣呈明顯的年變化特征。上半年(1—6 月)上感就診人數(shù)呈波動式下降,6 月降到谷值;從7 月開始上感就診人數(shù)又呈波動式增加,次年1 月達到最大峰值。另外,2018 年12 月當?shù)厣细芯驮\人數(shù)達到峰值(接近2 000 例)。
圖4 2015 年1 月—2019 年12 月攀枝花市上呼吸道感染逐月發(fā)病人數(shù)的變化特征
借鑒以往的研究,直接使用氣象數(shù)據(jù)與上感就診人數(shù)數(shù)據(jù)間的線性關(guān)系進行分析的效果并不理想,但對數(shù)據(jù)間的線性關(guān)系進行分析依然能夠?qū)x取恰當?shù)臄?shù)據(jù)輸入后續(xù)模型提供必要的參考。采用線性關(guān)系更強的數(shù)據(jù)對機器學(xué)習(xí)模型進行訓(xùn)練可以減少訓(xùn)練時間,提高訓(xùn)練結(jié)果。因此,本研究首先評估了深圳市和攀枝花市1~6 d 的滯后時段,分別計算了3 和5 d 滑動平均日平均氣溫、日平均相對濕度和日平均風(fēng)速與上感就診人數(shù)的Pearson 相關(guān)系數(shù)(表1~4)。
表1 深圳市3 d 滑動平均氣象要素在不同滯后時間與上呼吸道感染發(fā)病就診人數(shù)的Pearson 相關(guān)系數(shù)
表2 深圳市5 d 滑動平均氣象要素在不同滯后時間與上呼吸道感染發(fā)病就診人數(shù)的Pearson 相關(guān)系數(shù)
表3 攀枝花市3 d 滑動平均氣象要素在不同滯后時間與上呼吸道感染發(fā)病就診人數(shù)的Pearson 相關(guān)系數(shù)
表4 攀枝花市5 d 滑動平均氣象要素在不同滯后時間與上呼吸道感染發(fā)病就診人數(shù)的Pearson 相關(guān)系數(shù)
深圳市溫度和相對濕度與上感發(fā)病人數(shù)的相關(guān)系數(shù)絕對值均<0.4,但顯著性檢驗結(jié)果表明兩者均與上感發(fā)病存在強相關(guān);攀枝花市溫度和風(fēng)速與上感發(fā)病人數(shù)的相關(guān)系數(shù)絕對值均<0.43,但顯著性檢驗結(jié)果表明兩者均與上感發(fā)病存在強相關(guān)。深圳市風(fēng)速均與上感發(fā)病只存在弱相關(guān)或不存在相關(guān);攀枝花市則是濕度與上感發(fā)病的相關(guān)性會隨著滯后時段的增加而減弱,在當天和滯后1 d 時存在強相關(guān),在滯后2 和3 d 時存在弱相關(guān),在滯后超過3 d時則不存在相關(guān)。以表中相關(guān)系數(shù)的強弱和顯著性檢驗結(jié)果為依據(jù),綜合考慮三者體現(xiàn)出的不同滯后響應(yīng)關(guān)系,本研究最終選取滯后時間為1 的3 d 滑動平均數(shù)據(jù)作為深圳市典型數(shù)據(jù)用于機器學(xué)習(xí)模型的訓(xùn)練和試預(yù)報;選取滯后時間為當天的5 d 滑動平均數(shù)據(jù)作為攀枝花市典型數(shù)據(jù)用于機器學(xué)習(xí)模型的訓(xùn)練和試預(yù)報。
對深圳市和攀枝花市按上述數(shù)據(jù)劃分方法劃分后,采用隨機森林模型進行訓(xùn)練和檢驗,其結(jié)果見圖5,訓(xùn)練誤差和檢驗結(jié)果見表5 和表6。
表5 基于隨機森林模型使用分類數(shù)據(jù)對深圳市上呼吸道感染發(fā)病風(fēng)險試預(yù)報檢驗結(jié)果
表6 基于隨機森林模型使用分類數(shù)據(jù)對攀枝花市上呼吸道感染發(fā)病風(fēng)險試預(yù)報檢驗結(jié)果
圖5 基于隨機森林模型使用分類數(shù)據(jù)對上呼吸道感染發(fā)病風(fēng)險試預(yù)報檢驗結(jié)果(a、b 為深圳市,c、d 為攀枝花市)
結(jié)果顯示,基于分類數(shù)據(jù)構(gòu)建的隨機森林模型能較好地預(yù)報大部分情況下兩地的就診人數(shù)變化情況。同時,隨機森林模型能夠較為準確地識別就診人數(shù)的變化趨勢,但針對極值的試預(yù)報存在極大值預(yù)報結(jié)果偏低、極小值預(yù)報結(jié)果偏高的情況,呈現(xiàn)出較大的預(yù)報誤差。但從整體結(jié)果上來看,隨機森林模型能夠提供具有一定指導(dǎo)意義的試預(yù)報結(jié)果,但預(yù)報結(jié)果的準確率還有待進一步提高。
將深圳市和攀枝花市典型數(shù)據(jù)按數(shù)據(jù)劃分方法劃分后,利用RNN 模型進行訓(xùn)練和檢驗,訓(xùn)練次數(shù)分別設(shè)置為50 次(圖6a、6c)和300 次(圖6b、6d),并對試預(yù)報結(jié)果進行檢驗。訓(xùn)練誤差和檢驗結(jié)果見表7~8。
表7 基于RNN 模型訓(xùn)練50 次時對上呼吸道感染發(fā)病風(fēng)險試預(yù)報檢驗結(jié)果
表8 基于RNN 模型訓(xùn)練300 次時對上呼吸道感染發(fā)病風(fēng)險試預(yù)報檢驗結(jié)果
圖6 基于RNN 模型對上呼吸道感染發(fā)病風(fēng)險試預(yù)報檢驗結(jié)果(a、b 為深圳市,c、d 為攀枝花市)
深圳市、攀枝花市上感發(fā)病風(fēng)險RNN 模型試預(yù)報檢驗結(jié)果顯示,與隨機森林模型試預(yù)報結(jié)果相比,該模型對上感就診人數(shù)有很好的預(yù)報效果,試預(yù)報就診人數(shù)和實際就診人數(shù)契合度高,在峰值預(yù)報上有較明顯的改進。通過比對訓(xùn)練誤差和Validation誤差(檢驗誤差),發(fā)現(xiàn)兩者相差不大,說明RNN 模型沒有出現(xiàn)過擬合的現(xiàn)象,模型有效。試預(yù)報誤差主要分布在上感就診人數(shù)的峰值和谷值。同時比較50和300 次訓(xùn)練所得試預(yù)報結(jié)果發(fā)現(xiàn),提高RNN 模型訓(xùn)練次數(shù)可以有效提高模型的預(yù)報。
通過對比隨機森林模型和RNN 模型(表5~8)的具體訓(xùn)練誤差和檢驗誤差可知,RNN 模型的試預(yù)報能力明顯好于隨機森林模型,大部分情況下RNN模型給出的試預(yù)報結(jié)果與實際就診人數(shù)基本吻合。但是,對于RNN 模型在上感就診人數(shù)的峰值和谷值的試預(yù)報上仍然存在有誤差,且該誤差無法通過增加訓(xùn)練次數(shù)來完全消除,有待后續(xù)工作中增加樣本、改進方法等多措并舉來進一步改進與提高。
本文對華南地區(qū)深圳市、西南地區(qū)攀枝花市2個不同氣候區(qū)上呼吸道感染發(fā)病特征及其與氣象條件關(guān)系分析的基礎(chǔ)上,進而對其發(fā)病風(fēng)險預(yù)測進行了探究,主要得出以下結(jié)論:
(1)2014 年8 月—2017 年8 月深圳市上感發(fā)病集中在3—7 月,8—12 月發(fā)病人數(shù)相對較少,谷值出現(xiàn)在2 月(可能與深圳市外來人口多,大批人員返鄉(xiāng)過春節(jié)有關(guān)),以熱不舒適效應(yīng)為主導(dǎo)。2015 年1 月—2019 年12 月攀枝花市上感發(fā)病集中在11月—次年1 月,夏半年(4—9 月)發(fā)病人數(shù)相對較少,谷值出現(xiàn)在6 月,以冷不舒適效應(yīng)為主導(dǎo)。
(2)日平均氣溫的變化對兩地上呼吸道感染發(fā)病的影響最明顯,當日平均氣溫>25 ℃或者<10 ℃時,兩地上呼吸道感染發(fā)病風(fēng)險明顯上升;影響次之的是日平均風(fēng)速,風(fēng)速的大小可側(cè)面反映當?shù)氐拇髿鈹U散條件和舒適感,進而對上呼吸道感染發(fā)病產(chǎn)生影響;日平均相對濕度和日平均氣溫的協(xié)同作用對人體舒適度產(chǎn)生影響,同樣也會影響人群上呼吸道感染發(fā)病情況。
(3)運用隨機森林機器模型和RNN 深度學(xué)習(xí)模型對深圳市和攀枝花市兩地上呼吸道感染發(fā)病風(fēng)險進行預(yù)測研究。結(jié)果表明,兩種方法均能通過所構(gòu)建的預(yù)測模型,有效地運用相關(guān)氣象資料預(yù)報上感發(fā)病人數(shù)的變化情況。使用隨機森林模型時需要根據(jù)當?shù)貧夂蛱攸c和上感發(fā)病特征對數(shù)據(jù)進行分類,預(yù)報結(jié)果雖然存在誤差,但也能夠反映上感發(fā)病變化趨勢。使用RNN 模型時無需對數(shù)據(jù)進行分類,且能給出更為準確的患病人數(shù)試預(yù)報結(jié)果,只在峰值和谷值處存在部分誤差。與隨機森林模型相比,RNN模型在運用氣象資料預(yù)報上呼吸道患病人數(shù)方面精度更高,表明其在健康氣象領(lǐng)域內(nèi)將有更好的應(yīng)用潛力。
與國內(nèi)外同類研究所表現(xiàn)出的不足之處有相似性,即隨機森林和RNN 兩種方法所構(gòu)建的預(yù)測模型,對峰值和谷值的預(yù)測有缺陷,即預(yù)測的峰值偏低、而谷值則往往偏高;相比之下RNN 方法比隨機森林方法對峰值和谷值的預(yù)報誤差要小得多,但仍需通過多種方法進一步改進提高。