閆 旭, 張曉瑞,2, 朱明豪
(1.合肥工業(yè)大學 建筑與藝術學院, 安徽 230009; 2.合肥工業(yè)大學 數(shù)字人居環(huán)境研究實驗室, 安徽 230009)
疫情預警的定義,是指在缺乏確定的反應關系前提下,通過收集、整理分析傳染病資料,綜合研判疫情信息,充分論證后調整行動預案,在下一次疫情爆發(fā)前或早期發(fā)出警報,促使相關部門及時做出反應,從而最大程度降低對高危地區(qū)群體的危害[1-3]。目前國際與國內普遍建立了完備的疫情實時監(jiān)測報告系統(tǒng),使政府及衛(wèi)健部門能夠及時預警可能存在的聚集性疫情爆發(fā)[4],以往常用的幾種時間、空間掃描模型一定程度上解釋了一些流行病在某些時段上的聚集性,但單純以時間或空間維度分析探測傳染病的聚集僅能模擬單一維度內疫情爆發(fā)的可能,并不能從時空多維角度解釋某種疫情的傳播特征,存在一定的局限[5]。有學者提出的前瞻性時空重排掃描統(tǒng)計量法及其模型[6-7],對疫情會在何時、何地爆發(fā)以及爆發(fā)的強度等做出類似多次成功的預警模擬,該模型的用途已不僅限于對急性流行病的傳播模式研究,在生物入侵預警[8]、犯罪行為調查[9-10]、輿情檢測[11]等領域亦有廣泛運用的實例研究。
地理信息技術及流行病動力學模型在分析疫情分布和傳播特征方面都起到了顯著作用,眾多的地理分析方法及早期預警模型已經(jīng)廣泛應用于公共衛(wèi)生及傳染病防治相關事業(yè)[12],約翰斯·霍普金斯大學所做的全球疫情實時大數(shù)據(jù)地圖以及國內丁香園疫情地圖等眾多平臺推出的軟件,再次體現(xiàn)了強大信息技術支撐下的疫情防控體系的力量[13-14]。疫情傳播數(shù)理模型是區(qū)別于社會流調的一種純理性的傳染病傳播模擬法,利用疫情發(fā)生的時間及軌跡等大數(shù)據(jù)信息對疫情的爆發(fā)特征和傳播規(guī)律進行探究。目前尚無學者利用前瞻性時空重排掃描統(tǒng)計量法探測新冠肺炎疫情聚集性爆發(fā)預警的相關案例,若此法具有較強可操作性,則推廣應用至其他區(qū)域進行早期的疫情預警就具備一定應用價值。
德國新冠肺炎疫情爆發(fā)和傳播特征在國際社會特別是歐洲地區(qū)疫情形勢中具有普遍代表性,具備一定研究價值。本次研究以德國2020年初爆發(fā)的新冠肺炎疫情逐日數(shù)據(jù)為基礎,數(shù)據(jù)來源于德國聯(lián)邦衛(wèi)生部及各州政府衛(wèi)生和護理部網(wǎng)站公開的經(jīng)主管當局確認屬實的疫情和病例信息。包括確診時間、確診縣區(qū)以及經(jīng)緯度信息。在研究時段范圍內,德國全國累計報告1 616例新冠肺炎疫情病例,經(jīng)過對數(shù)據(jù)清洗,剔除無法確定詳細信息的2例病例數(shù)據(jù)后,將剩余1 614例脫敏后的有效病例數(shù)據(jù)導入ArcGIS 10.8,經(jīng)緯度信息精確到小數(shù)點后6位。相關數(shù)據(jù)經(jīng)過矢量化及可視化處理后如圖1所示,聚集區(qū)出現(xiàn)的時間及傳播特征有待進一步探測。
根據(jù)DIVA-GIS提供的德國電子行政地圖,即最新Shapefile數(shù)據(jù)為基準,在ArcGIS 10.8軟件中進行矢量化圖斑的校準與重繪處理得到研究區(qū)最新矢量地圖;市域衛(wèi)星影像圖底采用Arc GIS在線地圖圖層以及谷歌影像TIFF文件;研究地理位置精確到區(qū)縣級別,對疫情涉及的德國16個聯(lián)邦州,40個行政專區(qū)及225個縣區(qū)的地理分布情況進行逐日模擬及統(tǒng)計分析。為把控疫情宏觀形勢變化,結論在州及行政區(qū)級的尺度上進行趨勢研判。研究區(qū)范圍為47.269 859 N~55.056 526 N,5.871 619 E~15.038 113 E,面積357 545.22 km2,常住人口約為8 253萬人,疫情整體發(fā)病率約為0.20。
眾多學者對于傳染病預警模型做過大量研究[15],例如ARIMA模型、指數(shù)加權移動平均模型、控制圖法等[16-17],以及用于傳染病時空分析常用的時空掃描統(tǒng)計量、貝葉斯網(wǎng)絡、PANDA、WSARE等模型[18],新冠肺炎患者在德國全域范圍內均有分布,但整體離散程度較高,采用傳統(tǒng)GIS數(shù)圖分析手段對病例的數(shù)量、空間及時間分布特征進行可視化呈現(xiàn)為目前較為普遍的方式,但此類形式呈現(xiàn)疫情數(shù)據(jù)是一個地理層面的多系統(tǒng)聚合過程,所采用的各種聚類方法(如熱點分析、異常值分析及多元聚類等)、圖像展現(xiàn)形式(如核密度圖、方格漁網(wǎng)圖等)及讀者的主觀解讀都會使圖像具有許多感受上的偏差,需要引入新的時空分析模型。
傳統(tǒng)的空間自相關分析只在空間層面分析,因不能考慮時間這一變量而有一定的局限性。本研究采用CDSTA等提出的前瞻性時空重排掃描統(tǒng)計量法,屬于聚類研究中的熱點探測類方法,可用于疾病爆發(fā)的早期預測。其優(yōu)點是只利用病例數(shù)及時間位置信息,而無須地區(qū)高危人群數(shù)據(jù),該模型是一種基于動態(tài)大小的圓形(若為投影坐標系也可能是橢圓形)移動窗口的時空掃描統(tǒng)計法(圖1)。掃描基于每個空間單元,每次對周圍掃描時都使用不同半徑的圓,以掃描窗口為底隨著單位時間的推移疊加高度形成圓柱體,計算全過程掃描窗口內覆蓋的統(tǒng)計量,直到統(tǒng)計量停止發(fā)生改變。掃描統(tǒng)計量的定義為掃描窗口的廣義似然函數(shù)比(Generalized Likelihood Ratio, GLR),GLR值越大,差異越具有統(tǒng)計學意義,則表示該窗口越具有異常的聚集傾向。在所有窗口中選擇統(tǒng)計量最大的窗口定義為疫情聚集度最高的窗口,以此來判別窗口內的發(fā)病數(shù)是否存在異常情況。使用蒙特卡羅假設性檢驗法(Monte Carlo Hypothesis Testing)檢驗聚集區(qū)內部要素分布的非隨機性置信度,在所掃描到的最大及最小聚集區(qū)中進行該假設性檢驗,從而錨定最高聚集性區(qū)域的空間為最高可能聚集區(qū)(Most Likely Cluster, MLC),聚集性排名第二則是第二可能的聚集區(qū),依此類推。由于研究基于無效假設,即計算隨機數(shù)據(jù)集和真實數(shù)據(jù)集似然數(shù)之比獲取P值,無須考慮極其復雜的概率分布問題。
圖1 時空掃描模型簡圖Fig.1 The diagrams of space-time scan model
設某單位區(qū)域范圍p在d天中的病例總數(shù)為Cp,d,則所有區(qū)域及所有時間范圍內的總病例數(shù)C為:
(1)
單位區(qū)域范圍內每天預期發(fā)生的病例數(shù)μp,d為:
(2)
則每個柱形掃描窗口A(下文簡稱“窗口A”)的預期發(fā)病數(shù)μA為:
(3)
式中:μp,d為區(qū)域p中的整個研究時間范圍內的發(fā)病數(shù)。
設在窗口A范圍內實際觀測到的發(fā)病數(shù)為CA,不考慮時間變化和空間的交互,則CA符合超幾何分布模型:
(4)
(5)
式中:μA為無效假設下在窗口A內協(xié)變量調整后的預期病例數(shù)。C-μA為窗口A外的預期病例數(shù)。
GLR反映了窗口聚集的可能性,所以GLR值最大的窗口一定不是隨機出現(xiàn)的,其非隨機性是能夠置信的,但為了驗證其非隨機性,還需要進行置信度分析,其無效假設為:事件在時空發(fā)生的概率完全隨機。獲得窗口A的掃描統(tǒng)計量概率分布十分困難,可使用蒙特卡羅假設性檢驗法計算P值,對可能異常的聚集區(qū)進行隨機化檢測,根據(jù)總數(shù)生成N個隨機分布的數(shù)據(jù)集,將這些數(shù)據(jù)集的GLR和真實數(shù)據(jù)集窗口的GLR比對,將隨機生成的N個數(shù)據(jù)集的GLR升序排列,真實的GLR排在S位,則P值為S/(N+1),排名越前,P值越小,該窗口隨機性程度越小。例如SaTScan 9.7軟件中設置蒙特卡羅假設性檢驗法生成1 999個隨機的數(shù)據(jù)集,則P值精確到小數(shù)點后三位,若GLR排在第5位,則P值為0.003,窗口為隨機的可能性為0.25%,其置信度為99.75%,若GLR排在第50位,則P值位0.025,窗口為隨機的可能性為2.50%,置信度97.50%,依此類推。
掃描高頻率聚集區(qū)屬于較為常見的掃描統(tǒng)計類法,時間趨勢掃描統(tǒng)計的空間變化不是尋找高低趨勢的聚集區(qū),而是尋找趨勢高于或低于聚集區(qū)外趨勢的“集群”。與其他類型掃描一樣,可以只查找具有高趨勢的聚集區(qū),也可以只查找具有低趨勢的聚集區(qū),或者同時查找這2種類型的聚集區(qū)。聚集區(qū)的高趨勢可能表現(xiàn)為增長率大于簇外,或是下降率小于簇外。同樣地,一個聚集區(qū)的低趨勢,可能因為它的增長率小于聚集區(qū)外部,或下降率大于聚集區(qū)外部[19]。
研究采用前瞻性時空重排掃描統(tǒng)計量法,每次掃描當日前(含當日)的數(shù)據(jù),對于最大掃描半徑參數(shù),可按照風險人口的比例或者地理空間半徑來設置。本研究按多數(shù)傳染病研究進行相關參數(shù)的設置,即設置風險人口群體的50%為窗口最大半徑,最大窗口時長為14 d,最小窗口時長為1 d,時間步長為1 d,聚集窗口最低病例數(shù)為2例,蒙特卡羅假設性檢驗法的檢驗次數(shù)設置為1 999次。從2020-03-08至2020-03-11進行逐日時空重排掃描的前瞻性分析預警,研究德國全域出現(xiàn)的聚集區(qū),得出探測結果(表1)。
研究區(qū)域范圍為國家級,地理范圍及病例樣本總量都較大,則設定P≤0.001代表置信度達到標準。將SaTScan 9.7軟件輸出的Shapefile文件導入至ArcGIS 10.8軟件中,軟件計算時間為1 s,調用16個處理器核心參與運算。結合軟件生成的可視化Html文件,可得出前瞻性時空重排掃描的高趨勢以及低趨勢可視化圖片,經(jīng)過處理后得到研究區(qū)全域的高低趨勢分布圖(按覆蓋面積的50%為臨界值區(qū)分),在1 999次重復計算后,蒙特卡羅序列停止。
表1 研究區(qū)全域前瞻性時空重排掃描檢測聚集區(qū)Tab.1 Detection results of epidemic clusters in study area
結果顯示,預警強度最高的第1聚集區(qū)主要覆蓋德國東部與波蘭、捷克接壤的薩克森州與部分圖林根州范圍,掃描統(tǒng)計量為40.80,半徑約100 km涵蓋33個區(qū)縣,預期病例數(shù)小于1例,但實際產生了14例病例,預警時間為1 d,研究結果表示下一階段德國疫情可能有向薩克森州及西部與圖林根州兩地交界處發(fā)展。第2聚集區(qū)為低聚集區(qū),主要覆蓋威斯特法倫州的科隆市,掃描統(tǒng)計量為35.38,半徑31.77 km,預期病例約為190例,但實際僅有91例,預警時間為4 d,按照預警信息顯示此區(qū)域本應出現(xiàn)疫情聚集爆發(fā)事件,但實際病例數(shù)卻少于預期,窗口病例下降趨勢快于窗口外或增長率小于窗口外。第3聚集區(qū)覆蓋面積最大,涵蓋研究區(qū)北部13個州的83個縣區(qū),預警時間為2 d。結合第1聚集區(qū)預警時間及范圍推斷,近期時段內研究區(qū)整體的疫情態(tài)勢可能為自東部邊境向西北部地區(qū)發(fā)展。根據(jù)德國衛(wèi)生部網(wǎng)站公布的新冠肺炎疫情預警信息與本次研究預警最強的2處區(qū)域結果疊合對比,薩克森州和圖林根州均為研究時段及當前德國疫情排名最嚴重的區(qū)域,均符合預警強度最高的預期。
前瞻性時空重排掃描統(tǒng)計量法是一種較常見的空間研究方法,其作為一種熱點探測與數(shù)據(jù)挖掘方法,有多種概率模型可以參與計算,對于預測短期集中爆發(fā)的疫情具有一定優(yōu)勢[20]?;诔瑤缀畏植嫉那罢靶詴r空重排掃描統(tǒng)計量法對于人口密度高、地域廣泛的案例預警效果較一般方法好,在研究基數(shù)中等、區(qū)域較大的情況下(如本例),亦可以采用本方法。本法分析之初并不對疫情爆發(fā)聚集區(qū)的窗口大小、規(guī)模、位置做出定義,避免了主觀臆斷的影響,可以最大程度擬真,挖掘潛在數(shù)據(jù)信息。將研究范圍擴大至國家的全境,避免了以區(qū)劃單元為界限進行模擬而導致邊界附近的聚集無法被準確探測的劣勢,有效規(guī)避行政邊界的阻隔對于探測的干擾。感染新冠肺炎病毒攜帶者出現(xiàn)陽性反應具有滯后性,有一定時長的潛伏期,而國際普遍采取以疑似病例隔離14 d內檢查有無陽性癥狀作為判斷確診與否的依據(jù)[21],故研究設置最大探測時長為14 d的窗口,具有一定的預防醫(yī)學依據(jù)。
了解新冠肺炎疫情在國家區(qū)域尺度內的時空維度分布和擴散傳播特征具有重要的測繪地理學及預防醫(yī)學雙重意義[22],但前瞻性時空重排掃描統(tǒng)計量法也存在一定局限性:在樣本總量較小時,若能夠取得完整的、可信度高的病例數(shù)據(jù),則誤差較小。若這些病例數(shù)據(jù)部分信息缺失或數(shù)據(jù)不完整、不確切時,例如病人是在家中還是在工作單位感染疾病,以及病人就診后是選擇去醫(yī)院就醫(yī)還是自行居家隔離等差異,都會對研究預期產生影響。該法對數(shù)據(jù)源的要求較高,且需對樣本數(shù)據(jù)清洗,在小尺度地理范圍內預警時探測到的窗口P值往往比經(jīng)驗值大,若按經(jīng)驗值則不能完全否定原隨機性假設。時空重排掃描采用的是圓形或近似圓形的窗口,掃描到的疫情潛在的爆發(fā)窗口邊界也并非和真實的地理邊界重合,例如爆發(fā)于一些寬度窄而狹長的街道或河流沿線,或是轄區(qū)行政邊界范圍附近的區(qū)域。但其他形狀的掃描窗口算法復雜程度遠高于圓形窗口,近年來也有學者采用基于不規(guī)則掃描窗口的可變形空間掃描統(tǒng)計量法(Flexible spatial scan statistic,F(xiàn)leXScan)與本研究所采用的SaTScan軟件提供的前瞻性時空重排掃描統(tǒng)計量法進行對比研究的案例,結合研究結果來判斷模型差異性及適應情景,結果表明圓形窗口會將部分低風險地區(qū)納入進計算區(qū)域從而得出錯誤預警,說明了以動態(tài)圓形作為掃描窗口的局限性,而FleXScan對于邊緣非規(guī)則區(qū)域的檢驗則具有更好的效能。
目前學界將前瞻性時空重排掃描統(tǒng)計量法運用于新冠肺炎疫情的相關研究和可行性分析較少,為探索前瞻性時空重排掃描統(tǒng)計量對于新冠肺炎疫情預警的可行性,本文選用該方法對德國全境新冠肺炎疫情潛在的爆發(fā)區(qū)進行探測,綜合考慮了新冠肺炎疫情發(fā)病和傳播特點,使用符合疫情特征的窗口最大探測時長參數(shù)進行研究,探測可能出現(xiàn)的聚集性爆發(fā)區(qū)并及時預警,在2020-03-08至2020-03-11共探測出6個非隨機性顯著的聚集區(qū),成功預警了薩克森州和圖林根州部分交界區(qū)域以及研究區(qū)西北部的下一階段疫情爆發(fā)趨勢,從地理學及預防醫(yī)學角度對該方法運用于國家級區(qū)域的新冠肺炎疫情早期預警進行了可行性分析。由于研究時段與國內疫情的集中爆發(fā)時段相近,可作為國內在宏觀區(qū)域視角下實施可行的差異化疫情防控措施提供案例參考,為國內防疫決策提供科學合理的依據(jù),有助于合理調配資源,及時采取積極有效的防疫措施。國內外相關文獻證明了前瞻性時空重排掃描統(tǒng)計量法的可行性及易操作性,許多團隊已研究多年,各類數(shù)理模型相對成熟,在我國的疫情防控指揮中可以引入該方法進行輔助決策,促進我國疫情預警通報系統(tǒng)的建設和完善。