林仁華,徐文品,李涵通,徐 卉
(南京審計大學(xué) 金審學(xué)院,江蘇 南京 210023)
2020 年,歐洲和美國的新冠肺炎疫情暴發(fā)。 由于這些國家采取了消極的抗擊疫情政策——自然免疫法,病毒傳播速度極快,導(dǎo)致疫情在這些國家大規(guī)模暴發(fā)。 截至2020 年11 月27 日,美國新冠肺炎累計確診病例超過1 300 萬例,累計死亡264 624 例,是全球累計確診病例數(shù)和累計死亡病例數(shù)最多的國家。 隨著國際新冠病毒感染人數(shù)不斷增加,國內(nèi)防疫壓力不斷增大,并且隨著秋冬季節(jié)的來臨,國內(nèi)不斷有地區(qū)也出現(xiàn)或零星或聚集性病例。 目前查找密接人員的工作主要還是靠大數(shù)據(jù)篩查和各單位登記篩查。
本系統(tǒng)以美國新冠肺炎疫情發(fā)展為研究對象,分析美國各地區(qū)疫情病例發(fā)展現(xiàn)狀,并通過Logistic 模型建模,分析預(yù)測美國新冠肺炎發(fā)展趨勢[1]。
隨著2019 年國內(nèi)疫情暴發(fā)到全球大規(guī)模暴發(fā),國內(nèi)和國外許多學(xué)者都進(jìn)行了預(yù)測分析。 匡征凌、匡遠(yuǎn)鳳等人通過構(gòu)建傳染病動力學(xué)SEIR 模型對日韓新型冠狀病毒肺炎疫情預(yù)測分析出日韓當(dāng)前疫情發(fā)展情況和拐點(diǎn)日期。 陳茜茜等[2]用試驗(yàn)試件鈉膜厚度與試驗(yàn)試件表面粘鈉量、350℃鈉密度、試驗(yàn)試件粘鈉表面積對意大利新型冠狀病毒肺炎疫情進(jìn)行多次擬合預(yù)測分析。 王志心等[3]采用數(shù)學(xué)建模,通過機(jī)器學(xué)習(xí),對國內(nèi)各省預(yù)測分析,能夠準(zhǔn)確預(yù)計各省最終確診人數(shù)所占比例。 丁中興等[4]考慮隔離措施之后構(gòu)建SEIAQR 模型動力學(xué)模型對湖北省武漢市的發(fā)病人數(shù)及死亡人數(shù)進(jìn)行預(yù)測分析,能夠準(zhǔn)確地預(yù)測疫情趨勢。
本系統(tǒng)所用數(shù)據(jù)來源于中國軟件杯a10 賽題提供的測試數(shù)據(jù),將其經(jīng)過一定規(guī)則的大數(shù)據(jù)清洗后存入數(shù)據(jù)庫中以供調(diào)用。
Logistic 函數(shù)是一種常見的S 型曲線函數(shù)式。
本系統(tǒng)利用Logistic 函數(shù)建立美國新冠病毒感染人群的發(fā)展趨勢模型[5]。 如公式(1):t 表示時間;P0表示初始確診人數(shù);K 表示疫情峰值,即疫情最高峰累計確診人數(shù);r 表示增長率。 在傳統(tǒng)Logistic 函數(shù)曲線中,r 值可以衡量曲線變化的快慢,針對新冠疫情,該函數(shù)曲線中的r 值表示疫情到達(dá)峰值的速度。 如果r 值較大,疫情將很快到達(dá)峰值,表示一個國家在疫情期間采取強(qiáng)力有效的措施,比如醫(yī)院收治迅速、集中隔離等;反之,疫情到達(dá)峰值的時間較長。 因此,r 值的大小可以衡量一個國家面對疫情采取措施的效率,社會面對疫情的整體能力,群眾面對疫情的態(tài)度。 通過分析一段給定時間的美國某地疫情數(shù)據(jù),得到一系列日期所對應(yīng)的感染人數(shù),以Logistic 模型為基準(zhǔn)擬合出一條曲線,通過sklearn 的誤差計算,調(diào)整參數(shù)來使擬合度提至最高,即得到一條最符合預(yù)測預(yù)期的疫情發(fā)展曲線。在曲線上通過Numpy 包計算出增長率開始降低的唯一點(diǎn),確定其為拐點(diǎn)并提取拐點(diǎn)相關(guān)數(shù)據(jù)。
2.3.1 系統(tǒng)具體設(shè)計
系統(tǒng)流程如圖1 所示。 本網(wǎng)頁搭建主要基于Python 語言的Django 框架,Django 是一個開放源代碼的Web 應(yīng)用框架,由Python 寫成。 采用了MTV 的框架模式,即模型M,視圖V 和模板T。 其最初是用于管理勞倫斯出版集團(tuán)旗下一些以新聞內(nèi)容為主的網(wǎng)站,即CMS(內(nèi)容管理系統(tǒng))軟件。 系統(tǒng)主頁面如圖2所示。
圖1 系統(tǒng)流程
圖2 系統(tǒng)主頁面
2.3.2 大數(shù)據(jù)清洗
本文所使用的大數(shù)據(jù)清洗技術(shù)為Pandas。 Pandas是一個開放源碼,BSD 許可的庫,提供高性能、易于使用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。 Pandas 名字衍生自術(shù)語“panel data”(面板數(shù)據(jù))和“Python data analysis”(Python 數(shù)據(jù)分析)。 一個強(qiáng)大的分析結(jié)構(gòu)化數(shù)據(jù)的工具集,基礎(chǔ)是Numpy(提供高性能的矩陣運(yùn)算)。 可以從CSV,JSON,SQL,Microsoft Excel 等各種文件格式導(dǎo)入數(shù)據(jù);可以對各種數(shù)據(jù)進(jìn)行運(yùn)算操作,比如歸并、再成形、選擇等,還有數(shù)據(jù)清洗和數(shù)據(jù)加工特征。
詳細(xì)清洗規(guī)則如圖3 所示:(1)用戶選擇具體日期,系統(tǒng)反饋出該日美國的整體疫情信息數(shù)據(jù)以及數(shù)據(jù)分析。 (2)用戶選擇地圖類型,系統(tǒng)反饋出其所選的美國疫情地圖信息。 (3)用戶選擇美國具體城市,系統(tǒng)反饋出該地點(diǎn)的疫情信息及預(yù)測疫情走向。
圖3 清洗規(guī)則
查詢結(jié)果如圖4 所示,根據(jù)預(yù)測結(jié)果可以看出,對紐約疫情的確診人數(shù)數(shù)據(jù)預(yù)測大致與實(shí)際相同。 確診人數(shù)大致呈上升趨勢,自2020 年3 月1 日至5 月18 日紐約疫情確診人數(shù)在4 月11 日達(dá)到拐點(diǎn),并在此日之后上升曲線開始趨于平緩,但還是在不斷上升。 在疫情暴發(fā)的25 天后,預(yù)測曲線逐漸與現(xiàn)有確診人數(shù)重合,說明Logistic 回歸函數(shù)適合對于該疫情的合理預(yù)測,而在5 月18 日紐約疫情達(dá)到峰值,有將近2.1 萬人確診新冠病毒。
圖4 查詢結(jié)果
本預(yù)測系統(tǒng)在疫情暴發(fā)初期能有很好的預(yù)測分析能力,通過擬合累計確診病例和累計死亡人數(shù),能夠得到較好的擬合結(jié)果。 為了方便觀察美國各地疫情信息,本系統(tǒng)將各個地區(qū)的人數(shù)疫情信息和預(yù)測數(shù)據(jù)分別展現(xiàn)出來。 實(shí)際工作過程中,因部分感染者不能被及時發(fā)現(xiàn)、上報等各種因素會導(dǎo)致預(yù)測誤差,所以預(yù)測結(jié)果會呈現(xiàn)“先高后低”的現(xiàn)象。 這也反映出美國政府措施不夠落實(shí)到位,美國人民對待疫情的不夠重視。為了預(yù)防疫情的進(jìn)一步暴發(fā),我們應(yīng)該提前做好防疫措施,正視疫情。