国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CIST-GCN的流行病數(shù)據(jù)分析與預(yù)測

2022-10-15 13:17何宇浩鄭賢偉
現(xiàn)代信息科技 2022年14期
關(guān)鍵詞:卷積節(jié)點病例

何宇浩,鄭賢偉

(佛山科學(xué)技術(shù)學(xué)院 數(shù)學(xué)與大數(shù)據(jù)學(xué)院,廣東 佛山 528225)

0 引 言

自2019年12月以來,武漢爆發(fā)的COVID-19 疫情由于春節(jié)人口流動快速蔓延,對疫情進行風(fēng)險分析,評估防控策略的有效性和時效性等具有非常重要的現(xiàn)實意義。

在疫情的預(yù)測工作上,國內(nèi)外早有許多學(xué)者做出大量工作。在傳統(tǒng)數(shù)學(xué)建模方向上,蘭州大學(xué)的黃建平等人(2020)利用其團隊30年來在統(tǒng)計-動力氣候預(yù)測的先進技術(shù),將流行病學(xué)模型與實時更新的疫情、氣象和環(huán)境數(shù)據(jù)相結(jié)合,構(gòu)建了世界上第一個全球疫情預(yù)測系統(tǒng),較好地預(yù)測世界各個國家每日新增確診病例數(shù)的主要特征和長期趨勢。王旭艷等(2020)采用平滑指數(shù)模型對累計確診病例數(shù),累計治愈出院病例數(shù),累計死亡病例數(shù),重癥病例數(shù)及危重癥病例數(shù)進行擬合和預(yù)測,采用該方法的擬合值與實際值的趨勢基本吻合。董章功等(2022)基于傳統(tǒng)的傳染病動力模型SEIR 和差分整合移動平均自回歸模型ARIMA 構(gòu)建的SEIR-ARIMA 混合模型,對不同時間段,不同地點的新冠肺炎疫情做出預(yù)測和分析,通過與SEIR-Logistic 混合模型和SEIR-LSTM 混合模型的對比分析得出SEIR-ARIMA 混合模型對新冠肺炎的發(fā)展趨勢的分析相對可靠,有利于國家面對疫情的科學(xué)決策,對我國未來預(yù)防其他類型的傳染病具有很好的應(yīng)用價值。在機器學(xué)習(xí)或深度學(xué)習(xí)方向上,Nikhil等(2021)提出了一個基于多項式的線性回歸模型,使用過去幾個月的數(shù)據(jù)根據(jù)當(dāng)前情況預(yù)測未來的數(shù)據(jù),該模型對2021年1月的病例進行了預(yù)測,經(jīng)Wordometer.com 上的實際數(shù)據(jù)驗證,準(zhǔn)確率為99.29%。楊麗等(2021)提出了一種基于注意力機制的LSTM 網(wǎng)絡(luò),即A-LSTM,在大西洋支持的COVID 追蹤項目提供的歷史數(shù)據(jù)驅(qū)動下,A-LSTM模型進行預(yù)測,其RMSE、MAPE、MAE 和R-squared 的評價指標(biāo)分別為285.89、0.048 2%、230.74 和0.995 4,分別優(yōu)于其參考的 BPNN 模型。Aarathi S 等(2021)通過使用cox回歸選擇合適的協(xié)變量并將其數(shù)據(jù)輸入 LSTM 模型來預(yù)測印度21 天的新COVID-19 病例數(shù),與其他研究相比,當(dāng)新病例數(shù)很高或?qū)ζ溥M行長時間預(yù)測時,MAPE 較低。Anthony Li等(2021)提出了一種基于LSTM 的新型架構(gòu),開發(fā)并訓(xùn)練了人類物流數(shù)據(jù),包括旅行模式、商業(yè)地產(chǎn)的訪問,以及歷史案例、人口統(tǒng)計和氣候數(shù)據(jù),為今后利用類似的時間和靜態(tài)數(shù)據(jù)預(yù)測COVID-19 和其他類似疾病暴發(fā)提供了基礎(chǔ)。

綜上所述,在對新冠肺炎疫情預(yù)測的工作中,傳統(tǒng)的數(shù)學(xué)建模方法與機器學(xué)習(xí)或深度學(xué)習(xí)方法更多的是對序列數(shù)據(jù)本身建模,或者融合其他傳染病的傳播模型對COVID-19 的傳播進行仿真實驗,從而對新冠肺炎疫情的未來發(fā)展進行擬合或模擬預(yù)測,這些方法某種程度上忽略了肺炎病毒的流動性,不能充分考慮各城市之間人員流動對病毒傳播造成的影響。為此,本文在YU Zehua 等(2021)的工作基礎(chǔ)上,提出了相關(guān)度交互圖卷積網(wǎng)絡(luò)(Correlation-Interactive Spatio-Temporal Graph Convolutional Networks,CIST-GCN)根據(jù)各城市之間的物理距離進行城市網(wǎng)絡(luò)拓?fù)錁?gòu)建,并且利用各城市的日感染人數(shù)變化計算新冠肺炎病毒在不同城市間的傳播相似度,并對拓?fù)鋱D進行加權(quán)處理,最后利用時空圖卷積網(wǎng)絡(luò)(ST-GCN)處理城市網(wǎng)絡(luò)的空間特征,并對城市的疫情發(fā)展?fàn)顩r進行預(yù)測。

1 研究方法

實驗中以各個城市作為節(jié)點,首先根據(jù)各節(jié)點之間的物理距離構(gòu)建拓?fù)鋱D,再根據(jù)每個節(jié)點的日增感染人數(shù)計算每個城市之間的病毒傳播相似系數(shù),對拓?fù)鋱D進行加權(quán)處理,最后利用時空圖卷積網(wǎng)絡(luò)(ST-GCN)處理城市網(wǎng)絡(luò)的空間特征,并對城市的疫情發(fā)展?fàn)顩r進行預(yù)測。在計算過程中,為了統(tǒng)一計算量綱,會對原始數(shù)據(jù)進行歸一化處理,所以最后需要對預(yù)測數(shù)據(jù)進行數(shù)據(jù)還原處理,具體流程圖如圖1所示。

圖1 實驗流程圖

1.1 圖卷積

傳統(tǒng)的信號處理方法與卷積神經(jīng)網(wǎng)絡(luò)并不能很好地處理圖結(jié)構(gòu)信息,圖結(jié)構(gòu)的卷積網(wǎng)絡(luò)從卷積方式上可以分為兩種:(1)譜卷積;(2)空間域卷積。參考于Thomas Kpif與YU Zehua 等的工作,本文采用的是譜卷積的方式。將圖的譜卷積定義為信號∈R與圖核的乘積,將*定義為圖的卷積算子:

其中圖傅里葉基∈R是歸一化圖拉普拉斯矩陣的特征向量組成的矩陣,圖拉普拉斯矩陣表示為:

在傳統(tǒng)GNN 網(wǎng)絡(luò)中,節(jié)點之間的Dijkstra 矩陣(鄰接矩陣)W被如下定義:

其中d是節(jié)點和節(jié)點的物理距離,到此可以看出,傳統(tǒng)的圖卷積操作只考慮了節(jié)點之間的幾何關(guān)系,即物理距離,而沒有考慮其他的交互關(guān)系。在Zehua Yu 等的工作中,利用每個節(jié)點的疫情發(fā)展?fàn)顩r對其進行ARMA 參數(shù)求解,利用所得結(jié)果替代距離矩陣W,最終效果優(yōu)于傳統(tǒng)的ST-GCN 模型。本實驗將在該方向上進一步研究優(yōu)化。

1.2 時間序列預(yù)測

將疫情發(fā)展?fàn)顩r預(yù)測看作時間序列下的數(shù)據(jù)流預(yù)測,則其主要問題為:

即求得在已知-+1 到時間點內(nèi)的疫情發(fā)展?fàn)顩r,求+1 到+時間點的疫情發(fā)展?fàn)顩r。特別的,在本實驗中,v為33 個城市在時間的累積確診人數(shù),而W為融合各城市間物理距離與病毒傳播相似度的混合矩陣。

1.3 CIST-GCN

1.3.1 數(shù)據(jù)預(yù)處理

其中為地球半徑,利用勾股定理與正弦定理則可求出AB 兩點間的物理直線距離d。計算出33 個城市相互之間的物理距離后,則可以進一步計算出每個節(jié)點的鄰接矩陣,CIST-GCN 中鄰接矩陣W的計算方式如下:

在本實驗中,和是控制矩陣W的分布和稀疏性的閾值,根據(jù)前人實驗的經(jīng)驗,分別設(shè)置為10 和0.5。

1.3.2 Person 相關(guān)系數(shù)

由于病毒具有極高的傳染性,假設(shè)某人從城市A 到城市B 的途中確診為新冠肺炎陽性患者,則不論是城市A 還是城市B,與該患者密切接觸的人群都有極高的概率感染新冠肺炎病毒,所以城市A 與城市B 的確診人數(shù)會同步上升,意味著這兩個城市的感染人數(shù)變化呈正相關(guān)且相關(guān)系數(shù)較高。鑒于此,為了充分考慮各城市之間的數(shù)據(jù)流動性,本實驗在構(gòu)建城市空間網(wǎng)絡(luò)時,融合由各城市確診人數(shù)變化計算而來的Person 相關(guān)系數(shù)矩陣,作為帶權(quán)無向圖的權(quán)重考慮因子之一。

計算出每個城市之間新冠肺炎病毒的傳播相關(guān)度矩陣后,與1.3.1 求出的鄰接矩陣W進行加權(quán)融合,所得矩陣作為各城市之間的權(quán)重構(gòu)建帶權(quán)無向圖,將該帶權(quán)無向圖作為ST-GCN 的輸入,即為本文所提出的相關(guān)度交互圖卷積網(wǎng)絡(luò)(CIST-GCN)。

1.3.3 預(yù)測

在ST-GCN中,每個時空圖卷積塊形成一個類似“三明治”的結(jié)構(gòu),包括兩個門控序列卷積層和一個空間圖卷積層。

1.3.4 數(shù)據(jù)還原

將每個節(jié)點的預(yù)測結(jié)果與其標(biāo)準(zhǔn)差相乘,再加上均值,即可將數(shù)據(jù)還原為原量綱。

本文所提出的CIST-GCN 的主要特征總結(jié)如下:

(1)將時間序列數(shù)據(jù)根據(jù)節(jié)點的空間結(jié)構(gòu)建模為拓?fù)鋱D,并預(yù)測圖的序列數(shù)據(jù),CIST-GCN 在沒有固定空間關(guān)系的情況下通常是有效的;

(2)CIST-GCN 充分考慮了城市的空間結(jié)構(gòu)與各城市之間的數(shù)據(jù)流動性。

2 數(shù)據(jù)說明

交通數(shù)據(jù)和Covid-19 報告數(shù)據(jù)都是經(jīng)過處理的具有多交互拓?fù)浣Y(jié)構(gòu)的序列數(shù)據(jù),本實驗在對疫情數(shù)據(jù)進行預(yù)測前,先用加州交通部收集的公認(rèn)交通數(shù)據(jù)集PeMS-Bay(加州海灣區(qū))和PeMSD7(洛杉磯)對模型進行檢驗。

PeMS:該數(shù)據(jù)通過300 多個(PeMS-Bay)和39 000 個(PeMSD7)傳感器站從Caltrans 性能測量系統(tǒng)(PeMS)實時收集,這些傳感器每五分鐘記錄一次平均交通速度。對于PeMSD7,本實驗隨機選擇了228 個站作為模型的訓(xùn)練目標(biāo)。

Covid-19 報告:來自約翰霍普金斯大學(xué)系統(tǒng)科學(xué)與工程中心(CSSE)整合的病例報告展示了所有受影響國家的Covid-19 確診病例,死亡和康復(fù)人數(shù)以及各城市的經(jīng)緯度位置。本實驗提取了這些病例報告中的我國34 個省級行政區(qū)2020年1月22日—2022年3月9日的病例數(shù)據(jù)及其省會的經(jīng)緯度坐標(biāo),但在數(shù)據(jù)處理的過程中,發(fā)現(xiàn)有一個城市的數(shù)據(jù)有缺失,所以本實驗刪除了該城市,僅對其他33 個城市的數(shù)據(jù)進行分析。

3 實驗結(jié)果

本文所有實驗均由Python 編譯器在Windows10 環(huán)境(CPU:Intel(R) i5-9300 GPU:NVIDIA GeForce GTX 1650)上進行。

對于PeMS 交通流數(shù)據(jù),選取前34 天作為訓(xùn)練數(shù)據(jù),其余作為驗證和測試集,遵循ST-GCN中的設(shè)置作為訓(xùn)練參數(shù),使用12 個觀察點來預(yù)測未來15、30 和45 分鐘(=3,6,9)的交通狀況。以傳統(tǒng)的ST-GCN 作為基線,并且在與PeMSD7 數(shù)據(jù)集上與IT-GCN進行性能對比,實驗結(jié)果如表1所示。

表1 數(shù)據(jù)集PeMSD7 和PeMS-Bay 在不同方法上的性能比較

表中CIST-GCN(*)即為本文提出的方法。ACSTGCN,為僅考慮相關(guān)度的方法,即僅用不同城市間的數(shù)據(jù)流變化相關(guān)度作為城市網(wǎng)絡(luò)的權(quán)重,而不考慮城市間的物理距離,ST-GCN 則只考慮城市間的物理距離,而不考慮城市間數(shù)據(jù)流變化的相關(guān)度。

可以看出,在相同的資源消耗下,CIST-GCN 的性能明顯優(yōu)于ACST-GCN 與基線ST-GCN,而在PeMSD7 數(shù)據(jù)集上,CIST-GCN 僅比IT-GCN多訓(xùn)練了10 輪,性能就有了大幅提升。結(jié)果表明,本文提出的用相關(guān)度交互拓?fù)涮鎿Q物理距離的方法是有效且合理的,為疫情的預(yù)測提供了有效的參考。

4 國內(nèi)疫情預(yù)測

接下來,將CIST-GCN 方法用于國內(nèi)的Covid-19 報告數(shù)據(jù)中,分析該方法對疫情的預(yù)測效果。

本實驗利用12 天的日累計感染病例歷史數(shù)據(jù)預(yù)測后9天的日累計感染病例數(shù)據(jù)。圖2展示了ST-GCN、ACSTGCN 和CIST-GCN 于24 天內(nèi)在33 個城市中預(yù)測結(jié)果的平均MAPE。CIST-GCN 的平均MAPE 為20.12%,遠優(yōu)于傳統(tǒng)ST-GCN 的121.99%。由圖2可以發(fā)現(xiàn),中國臺北的平均MAPE 遠超于其他城市,觀察數(shù)據(jù)后發(fā)現(xiàn),中國臺北的病例均為0 和1,原因可能如下:(1)在研究的時間段內(nèi)中國臺北始終沒有新增病例;(2)對中國臺北的數(shù)據(jù)進行收集時出現(xiàn)了錯誤或者沒有對中國臺北的病例數(shù)據(jù)進行收集。同時可以發(fā)現(xiàn),ST-GCN 容易受離群數(shù)據(jù)的影響,而本文提出的CIST-GCN 方法則可以很好地避免這種數(shù)據(jù)帶來的影響。接下來將討論這些方法對北京、上海、廣東、香港和湖北的疫情預(yù)測效果。

圖2 中國33 個城市每日確診感染病例預(yù)測的MAPE

由圖3可以觀察預(yù)測數(shù)據(jù)與真實數(shù)據(jù)的趨勢是否契合,可以看出,三種方法中,本文提出的CIST-GCN 與真實數(shù)據(jù)的趨勢最契合。特別地,對于“突增”的案例數(shù)據(jù),CISTGCN 相對于其他方法更能判斷出“突增點”。另外,在香港數(shù)據(jù)的末段,日新增病例數(shù)量突增,與2022年初香港的疫情大爆發(fā)基本吻合,同時本文提出的CIST-GCN 方法預(yù)測的疫情趨勢也呈現(xiàn)出明顯的上升趨勢,可見該方法對新冠肺炎疫情的預(yù)測以及疫情突發(fā)狀況的預(yù)警起到了一定的參考作用。

圖3 各種方法在中國個別城市的預(yù)測效果

5 結(jié) 論

本文在YU Zehua 等(2021)的工作基礎(chǔ)上,提出了相關(guān)度交互圖卷積網(wǎng)絡(luò)(CIST-GCN)根據(jù)各城市之間的物理距離進行城市網(wǎng)絡(luò)拓?fù)錁?gòu)建,并且利用各城市的日感染人數(shù)變化計算病毒在不同城市間的傳播相似度,以此對拓?fù)鋱D進行加權(quán)處理,最后利用時空圖卷積網(wǎng)絡(luò)(ST-GCN)處理城市網(wǎng)絡(luò)的空間特征,并對城市的疫情發(fā)展?fàn)顩r進行預(yù)測。實驗結(jié)果表明,本文提出的CIST-GCN 性能優(yōu)于傳統(tǒng)的STGCN 以及YU Zehua 等提出的基于時間交互的IT-GCN,并且對于疫情發(fā)展的“突增點”比較敏感,對新冠肺炎疫情的預(yù)測以及疫情突發(fā)狀況的預(yù)警起到了一定的參考作用。

猜你喜歡
卷積節(jié)點病例
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
“病例”和“病歷”
基于移動匯聚節(jié)點和分簇的改進節(jié)能路由算法
本土現(xiàn)有確診病例降至10例以下
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計數(shù)
CAE軟件操作小百科(48)
基于點權(quán)的混合K-shell關(guān)鍵節(jié)點識別方法
卷積神經(jīng)網(wǎng)絡(luò)概述
妊娠期甲亢合并胎兒甲狀腺腫大一例報告