摘? 要:新冠疫情的發(fā)展,給全球多個國家都造成了重大的影響。非洲人口雖然只占全球人口的0.76%,但感染人數(shù)卻占到了全球確診人數(shù)的4.00%。文章提出了結(jié)合倒數(shù)歐氏距離,綜合相似性分析度量方法來進行多維度時間序列相似性分析的方法,并用全球最新的疫情數(shù)據(jù)進行了驗證。通過實驗,文章找到了和南非疫情發(fā)展相似的兩個大國:中國和英國,這兩個國家的疫情治理經(jīng)驗可以供南非參考。
關(guān)鍵詞:新型冠狀病毒;傳染病預(yù)測;相似性度量;時間序列
中圖分類號:TP311.13? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)17-0009-04
Abstract:The development of COVID-19 has had a major impact on countries around the world. Although the population of Africa accounts for only 0.76 percent of the global population,its total confirmed cases accounts for 4.00 percent of the worlds confirmed cases. In this paper,for the research of multi-dimensional time series,a similarity analysis method combining reverse Euclidean distance and integrated similarity analysis measurement is proposed,which is verified by the latest global epidemic data. Through experiments,this paper identifies two large countries,China and the United Kingdom,with similar development of the epidemic in South Africa. The prevention strategies of these two countries can be a reference for South Africa.
Keywords:COVID-19;infectious disease prediction;similarity measure;time series
0? 引? 言
新型冠狀病毒肺炎是一種新型疾病,可以影響肺部和呼吸道。這種新型病毒叫做2019-nCoV[1],持續(xù)到現(xiàn)在,它引發(fā)了全球性的感染,根據(jù)Worldometer組織提供的數(shù)據(jù),全球一共有235個國家及地區(qū),截至2020年7月27日,其中187個國家及地區(qū)出現(xiàn)感染新冠病毒的肺炎患者。根據(jù)Worldometer組織提供的數(shù)據(jù),非洲人口雖然只占全球人口的0.76%,但感染人數(shù)卻占到了全球確診人數(shù)的4.00%。2020年7月27日WHO六個地區(qū)累計確診總數(shù)如圖1所示。
用現(xiàn)有的傳染病模型(如SIRS、SEIR模型)做拐點預(yù)測,但是無法找出和目標(biāo)國家疫情發(fā)展相似的其他國家,從而難以為某個國家提供其他疫情相似國家的治理經(jīng)驗。所以,本文提出一種新的多維度時間序列相似性分析算法,并用于分析南非的疫情數(shù)據(jù)。
1? 南非新冠疫情及相似性分析綜述
1.1? 南非疫情綜述
有關(guān)南非疫情的研究文獻(xiàn)較少,所以本文參考由南非共和國衛(wèi)生部創(chuàng)建的COVID-19南非在線門戶網(wǎng)站(sacoronavirus. co.za)進行研究,并得出如下結(jié)論。
當(dāng)?shù)貢r間2020年3月23日,南非總統(tǒng)拉馬福薩首次宣布從2020年3月26日至4月16日,為期三周的全國性封鎖。南非政府將會對人們的出行進行嚴(yán)格的限制,不允許聚會、家庭探訪和其他社交活動。南非政府也關(guān)閉了海關(guān),減少從海外流入的病例,并且入境者會被強制隔離。
這些措施不僅減緩了感染率上升并防止了衛(wèi)生公共設(shè)施不堪重負(fù),還給政府留了更多的準(zhǔn)備時間以建立廣泛的公共衛(wèi)生應(yīng)對措施。所以南非政府從2020年6月1日起,將防疫級別從四級下降到三級。南非民眾可以在任何時間獨自外出運動,并且購買商品和享受各種服務(wù),聚集性活動依然不被允許,除了葬禮和工作場合可以進行少于50人的聚集性活動。并且民眾在公共場所或者乘坐公共交通時,要使用口罩去遮蓋住鼻子和嘴巴,以及要保持1.5米的社交距離。
2020年7月12日,由于一些南非民眾無視規(guī)矩,舉辦了超過1 000參與人數(shù)的葬禮和其他聚集性活動,疫情日趨嚴(yán)重,多地醫(yī)院已不堪重負(fù),所以南非重新開啟宵禁。南非總統(tǒng)拉馬福薩表示,南非目前正處于疫情激增期,全國災(zāi)難狀態(tài)延長至8月15日,實行不提升防疫級別的加強版三級防疫措施,會加強民眾佩戴口罩的規(guī)定,雇主、商店老板和經(jīng)理、公共交通運營商和任何其他公共建筑的經(jīng)理和業(yè)主現(xiàn)在都有法律義務(wù)確保任何人進入他們的場所或車輛必須戴口罩,宵禁將于2020年7月13日9點開始實施。
1.2? 疫情相似性分析綜述
在傳染病預(yù)測上,各種數(shù)學(xué)模型被提出。經(jīng)典的基于復(fù)雜網(wǎng)絡(luò)的傳染病傳播模型有SIR模型、SI模型、SEIR模型、SIS模型[2];基于機器學(xué)習(xí)算法的模型有貝葉斯方法[3,4]、支持向量機算法[5,6]。有的研究應(yīng)用基于分割K-最近鄰算法對上海市疾病預(yù)防控制中心的腹瀉數(shù)據(jù)進行預(yù)測[7],只考慮了同地區(qū)不同年份相同月份的數(shù)據(jù)相似性,導(dǎo)致預(yù)測需要一個地區(qū)大量的過去數(shù)據(jù)作為基礎(chǔ)。這些方法存在以下不足:
(1)無法通過現(xiàn)有的傳染病模型做疫情傳播共性的研究。
(2)現(xiàn)有傳染病模型需要設(shè)置/調(diào)節(jié)的參數(shù)很多,而很多參數(shù)往往是難以測量的,導(dǎo)致模型精度和現(xiàn)實情況有差距。
(3)現(xiàn)有的傳染病模型需要在疫情發(fā)展一段時間后監(jiān)測到大量數(shù)據(jù)才能建模,耗費的監(jiān)測時間比較長,無法在疫情發(fā)展初期或數(shù)據(jù)不足的情況下就開始建模分析。
針對以上不足,本文提出基于全球多維度疫情數(shù)據(jù)結(jié)合倒數(shù)歐氏距離、塔尼莫特系數(shù)和余弦系數(shù)的相似性判斷分析方法。
2? 相似性分析流程
2.1? 數(shù)據(jù)來源
數(shù)據(jù)來源于Worldometer組織提供的數(shù)據(jù),Worldometer是由一個由開發(fā)人員、研究人員和志愿者組成的國際團隊運行,沒有與任何的政府、政治體制和公司有任何聯(lián)系的組織。該組織從官方報告和政府傳播渠道直接收集數(shù)據(jù)和通過當(dāng)?shù)孛襟w間接收集數(shù)據(jù)。Worldometer能夠及時更新來自5 000多個來源的不斷更新的數(shù)據(jù),再通過程序清理和保存數(shù)據(jù)。
該組織提供了很多與COIVD-19有關(guān)的數(shù)據(jù),在本論文中的我們使用了其中的“Country wise day to day cases dataset”數(shù)據(jù)集。本數(shù)據(jù)的格式是CSV,大小為3.15 MB,數(shù)據(jù)每天更新,截至投稿日期,本文使用的數(shù)據(jù)范圍是2020年1月22日到2020年7月27日。數(shù)據(jù)來自187個國家或者地區(qū),它們被分為6個WHO地區(qū)分部,而南非與其他47個國家屬于WHO地區(qū)分部之一的非洲地區(qū)。南非的疫情數(shù)據(jù)更新起始于2020年1月22日,終止于2020年7月27日;一共有188條記錄。疫情數(shù)據(jù)包括國家、經(jīng)緯度、所屬WHO地區(qū)、累積確診人數(shù)、現(xiàn)存確診人數(shù)、死亡人數(shù)和治愈人數(shù)。
2.2? 相似性分析過程
本文提出的相似性分析過程如圖2所示。
圖中各個步驟分別完成了如下任務(wù):
(1)獲取數(shù)據(jù):從Worldometers獲取原始數(shù)據(jù),并用Python解析數(shù)據(jù)。
(2)預(yù)處理:獲取大國數(shù)據(jù),省市數(shù)據(jù)合并,剔除無記錄日期數(shù)據(jù)。由于疫情各國發(fā)展情況(開始時間,數(shù)據(jù)記錄起始點)不同,所以將各個國家的數(shù)據(jù)的起始值的時間平移對齊后,再對各國進行相似性分析。
(3)增長率序列:本文提出使用增長率序列來進行疫情趨勢分析,剔除了數(shù)據(jù)單位本身的影響,更能找到數(shù)據(jù)背后的發(fā)展趨勢。
(4)綜合相似度分析:綜合多個數(shù)據(jù)維度,以及多個相似度測量指標(biāo),進行數(shù)據(jù)分析。
3? 相似性分析算法
3.1? 增長率序列
為了讓南非借鑒其他大國的疫情治理經(jīng)驗,應(yīng)該按照疫情發(fā)展趨勢的相似度來做相似性評價,所以本文將每日疫情數(shù)據(jù)序列轉(zhuǎn)換為疫情增長率序列。
每日疫情數(shù)據(jù)序列為離散時間序列為:
其中S表示時間序列;ai,i∈(1,2,3,…,n)表示每日的疫情數(shù)據(jù)。本文一共使用了四個時間序列,分別為累計確診、累計死亡、累計治愈、現(xiàn)存確診。
疫情增長率序列定義:
其中R表示增長率序列;bi表示每日比昨日的疫情數(shù)據(jù)的增長率。
3.2? 相似性指標(biāo)
本文使用三個相似性指標(biāo),分別為倒數(shù)歐氏距離、余弦系數(shù)、塔尼莫特系數(shù)。
倒數(shù)歐式距離公式如下,X和Y是兩個增長率序列,歐式距離是i維空間中兩個點之間的真實距離,而倒數(shù)歐式距離便是歐氏距離的倒數(shù)。當(dāng)?shù)箶?shù)歐式距離越接近于1,則表明這兩個序列越相似。
余弦系數(shù)的計算公式如下,cos(θ)通過計算兩個向量夾角的余弦值,來衡量它們的相似性,它的取值范圍是[0,1],當(dāng)它越接近1,則表明這兩個向量越相似。
塔尼莫特系數(shù)的計算結(jié)果取值范圍是[0,1],其越接近1,說明兩個序列越相似。
3.3? 綜合相似性評價
每個國家有四個不同的增長率序列,為了求兩個國家之間的相似度,本文計算出兩個國家對應(yīng)的增長率序列的倒數(shù)歐氏距離、余弦系數(shù)和塔尼莫特系數(shù),并求出四個不同的增長率序列的這些值的平均值。由于三個系數(shù)的取值范圍都是[0,1],且都是取值越接近1說明兩個序列越相似,所以本文使用的最后的相似性是這三個系數(shù)平均值的平均值。
如表1所示,Sac1、Sac2、Sac3和Sac4是國家1的四個維度的不同的增長率序列,Scn1、Scn2、Scn3和Scn4是國家2的四個維度的不同的增長率序列。
表1? 實驗中使用的數(shù)據(jù)集的例子
具體計算過程分為以下4個步驟:
(1)計算兩個國家的四個不同增長率序列的余弦系數(shù)的平均數(shù)。
(2)計算兩個國家的四個不同增長率序列的倒數(shù)歐氏距離的平均值。
(3)計算兩個國家的四個不同增長率序列的塔尼莫特系數(shù)的平均值。
(4)計算以上三個相似性度量平均值的平均值,得到兩個國家的綜合相似性。
4? 實驗
本文分別用南非與中國、美國、加拿大、法國和英國這些國家在不同維度上,使用不同的相似度評價指標(biāo)進行相似度對比。將各個國家的數(shù)據(jù)的起始值的時間平移對齊后,得到的數(shù)據(jù)如圖3所示。
從圖3中可以看出,原始數(shù)據(jù)時間序列曲線圖難以看出各國的增長趨勢與不同國家的相似度。但是通過增長率序列,就更容易看出增長趨勢。
從累計死亡這個維度來看,南非的增長率序列與法國相似度更高;但是從現(xiàn)存確診這個維度來看,南非的增長率序列與中國相似度更高。因此,不能單純根據(jù)一個維度來判斷相似度,所以本文提出綜合相似度評價指標(biāo),它能綜合多個相似性指標(biāo)進行更準(zhǔn)確的相似性度量,根據(jù)計算,中國和南非的相似度最高。
5? 結(jié)? 論
本文提出了基于多維時間序列綜合相似性度量的南非疫情數(shù)據(jù)分析算法,并根據(jù)最新的全球疫情數(shù)據(jù),對南非與全球其他國家的疫情發(fā)展相似性進行了分析。實驗驗證了本文算法的有效性,并找出了與南非疫情發(fā)展趨勢比較相似的一些大國,這些大國的疫情治理經(jīng)驗,可以為南非提供指導(dǎo)。
參考文獻(xiàn):
[1] 靳英輝,蔡林,程真順,等.新型冠狀病毒(2019-nCoV)感染的肺炎診療快速建議指南(標(biāo)準(zhǔn)版) [J].解放軍醫(yī)學(xué)雜志,2020,45(1):1-20.
[2] ANDERSON R M,MAY R M. Infectious Diseases of Humans:Dynamics and Control [M]. Oxford:Oxford University Press,1992.
[3] LEE S D,KIM D. Bayesian Inferences and Forecasting in Spatial Time Series Models [C]//2010 Ninth International Conference on Machine Learning and Applications,Washington,D.C.:IEEE,2010:767-770.
[4] 冀俊忠,劉椿年,沙志強.貝葉斯網(wǎng)模型的學(xué)習(xí)、推理和應(yīng)用 [J].計算機工程與應(yīng)用,2003(5):24-27+47.
[5] GHALWASH M F,RAMLJAK D,OBRADOVI? Z. Early classification of multivariate time series using a hybrid HMM/SVM model [C]// 2012 IEEE International Conference on Bioinformatics and Biomedicine. Philadelphia:IEEE,2012:1-6.
[6] 許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經(jīng)網(wǎng)絡(luò)的心血管疾病中醫(yī)證候分類識別研究 [J].北京中醫(yī)藥大學(xué)學(xué)報,2011,34(8):539-543.
[7] 相曉敏,顧君忠,王永明.一種基于分割K-最近鄰算法的傳染病預(yù)測方法 [J].計算機工程,2016,42(1):163-167.
作者簡介:張卓妮(2001—),女,漢族,湖南臨湘人,本科,研究方向:大數(shù)據(jù)。