張雷雨,劉 杰
(1.連云港職業(yè)技術學院建筑工程學院,江蘇 連云港 222006;2.江蘇海洋大學海洋技術與測繪學院,江蘇 連云港 222005)
2019年12月以來,新型冠狀病毒肺炎(coronavirus disease 2019,COVID-19)疫情在國內(nèi)外蔓延。疫情數(shù)據(jù)具有龐雜特性,傳統(tǒng)數(shù)據(jù)分析方法缺乏對疫情動態(tài)性和時空特征的描述,難以完成對疫情微觀層次的剖析[1]。因此,綜合利用知識圖譜技術和地理學理論以有效地揭示疫情動態(tài)傳播的時空分布規(guī)律。該領域?qū)W者研究了COVID-19相關的病例活動、醫(yī)用物資等知識庫構建。陳曉慧等通過對COVID-19病例活動關鍵節(jié)點回溯,完成了微觀層面上疫情傳播過程的推理和驗證,從模式層、數(shù)據(jù)層與原型驗證系統(tǒng)三方面對COVID-19病例活動知識圖譜進行了多樣化描述[2]。向軍毅等采用自頂向下與自底向上兩種方式完成了COVID-19醫(yī)用物資的半自動化知識圖譜構建[3]。金安楠等研究表明COVID-19傳播過程具有時空特征,經(jīng)典分析手段未能刻畫其時空演化與人地互動的地理過程[4]。陳江平等利用空間自相關方法對H1N1傳播路徑進行分析,認為疫情聚集重心并未伴隨時間轉(zhuǎn)移[5]。余正等利用DBSCAN自適應聚類算法,細粒度地分析溫州市疫情時空演化,發(fā)現(xiàn)疫情在青壯年人群更易傳播,采用一定措施可以有效遏制疫情傳播[6]。
地理知識圖譜通過引用時空關系和語義特征,利用語義網(wǎng)絡對地理概念、實體及其間關系進行形式化的描述,不僅能夠清晰表達數(shù)據(jù)的層次信息,還能體現(xiàn)出實體間的時空關系和語義信息[7-9]。筆者將海量的患者信息整合成結構化的知識,同時從地理學視角開展疫情時空分析、重點城市疫情傳播過程時空回溯等方面的研究,能夠?qū)崿F(xiàn)對COVID-19地理知識圖譜的構建和可視化分析。
本文以江蘇省為研究區(qū)域,研究數(shù)據(jù)來源如下。
(1)空間數(shù)據(jù)來源于國家基礎地理信息中心(http://www.webmap.cn/commres.do?method=result100W),包括江蘇省矢量邊界圖、道路網(wǎng)分布圖。
(2)每日病例確診情況為江蘇省及其13個地級行政區(qū)衛(wèi)生健康委員會(http://wjw.jiangsu.gov.cn/)通報的確診病例,包括每日新增確診、現(xiàn)存確診、疑似、死亡人數(shù)。
(3)確診患者的詳細信息及其時空活動軌跡數(shù)據(jù),筆者利用爬蟲技術從互聯(lián)網(wǎng)中(周邊疫情、同行查詢等小程序)獲得,包括性別、年齡、所屬地、居住地、與其他病例關系、出行方式、出行時間及軌跡、發(fā)病時間、確診來源、就診醫(yī)院、確診時間,然后通過人工判讀爬取到的確診病例詳細信息,對數(shù)據(jù)進行整合、去重、糾錯處理。本研究采用2020年1月23日至2020年2月19日的江蘇省疫情數(shù)據(jù),其確診患者的空間分布如圖1所示。
圖1 江蘇省確診分布圖
本文采用自頂而下的方法構建確診病患的地理知識圖譜[10-11],包括互聯(lián)網(wǎng)疫情數(shù)據(jù)獲取、病患信息抽取及其本體構建和病患實體融合與入庫三部分。采用爬蟲程序從微信小程序(疫情小區(qū)地圖、周邊疫情、同行程查詢)、江蘇省衛(wèi)生健康委員會官網(wǎng)及各市級衛(wèi)健委官網(wǎng)公布的疫情信息中獲取疫情數(shù)據(jù)及其軌跡信息,將獲取的半結構化和非結構化數(shù)據(jù)進行清洗與整理,通過提取病患實體并對其進行本體構建,完成病患實體間的屬性與及其時空關系的抽取,對眾多實體進行融合,最終實現(xiàn)新冠肺炎疫情病患地理知識圖譜。研究總體技術路線如圖2。
圖2 研究總體技術路線
本文研究數(shù)據(jù)包括OpenKG-COVID-19(http://openkg.cn/group/coronaviru)數(shù)據(jù)庫等結構化數(shù)據(jù),衛(wèi)生健康委員會公示網(wǎng)頁、微博網(wǎng)頁等半結構化數(shù)據(jù)和專業(yè)文獻資料、文本數(shù)據(jù)等非結構化數(shù)據(jù)。針對多種來源的數(shù)據(jù)信息,使用多策略數(shù)據(jù)獲取方法[12-13]。對于結構化數(shù)據(jù)直接提取其相關數(shù)據(jù),利用網(wǎng)頁爬蟲技術提取半結構化數(shù)據(jù),非結構化數(shù)據(jù)則采用人工處理的方式來整合[9]。
由于確診患者數(shù)據(jù)庫中的病患信息來源復雜,病患數(shù)據(jù)質(zhì)量存在良莠不齊、不同數(shù)據(jù)源信息冗余、病患間關聯(lián)關系模糊等問題,需要對病患數(shù)據(jù)進行剔粗取精,增強病患數(shù)據(jù)庫內(nèi)部的邏輯性和表達能力,建立有效的實體關系以填充新冠肺炎疫情病患知識圖譜。江蘇省各地級市確診患者數(shù)據(jù)概況見表1。
表1 江蘇省各地級市確診患者數(shù)據(jù)概況
本文將獲取到的確診患者信息實體關系定義為五元組 圖3 本體鏈接結構化示例 本文采用關系數(shù)據(jù)庫存儲病患數(shù)據(jù)和部分結構化語義信息,同時采用圖數(shù)據(jù)庫存儲語義關系以及提取病患實體空間關系,最后利用Protégé工具進行確診患者信息本體庫構建[13-16]。 本文采用自頂而下的方式構建確診患者地理知識圖譜。首先,從整合后的患者數(shù)據(jù)中抽取患者實體、患者關系及患者時空活動軌跡信息;其次,利用Protégé構建本體模型,并將采集的患者數(shù)據(jù)資源與實體關系進行知識融合;最后,使用圖數(shù)據(jù)庫Neo4j實現(xiàn)江蘇省COVID-19確診患者地理知識圖譜數(shù)據(jù)的存儲與訪問。 圖4為江蘇省部分確診患者地理知識圖譜概覽,通過節(jié)點鏈接網(wǎng)絡圖展示江蘇COVID-19確診患者地理知識圖譜,其中圓圈代表實體,線為病患-病患、病患-地區(qū)、病患-事件、病患-交通工具、地區(qū)-地區(qū)等關系。 圖4 江蘇省部分確診患者地理知識圖譜 國家衛(wèi)健委公布信息《新型冠狀病毒感染的肺炎防控方案(第二版)》表明COVID-19潛伏期最長14天,多為3~7天。本文以7天為一個時間段,將江蘇省確診患者數(shù)據(jù)劃分為4個時間序列,各時間段內(nèi)所有地級市的確診患者變化如圖5和圖6所示。在疫情暴發(fā)初期,江蘇省出現(xiàn)的確診患者大多為從武漢返鄉(xiāng)人員,集中在交通便利的蘇南地區(qū),如南京、蘇州、無錫。在蘇北地區(qū),徐州作為重要交通樞紐,人口多且流動頻繁,感染風險較大,確診人數(shù)位列江蘇省第三。雖然蘇中地區(qū)相比蘇南地區(qū)交通通達度低,但由于在2月1日至2月19日期間淮安暴發(fā)酒店公眾性聚集案例,最終確診人數(shù)高于蘇中地區(qū)其他城市。此后,在江蘇及地方政府及時采取相關防控措施后,疫情傳播得到了有效控制。 圖5 江蘇省病患時序分布 圖6 江蘇省城市病患時序 南京既是江蘇省省會,同時也是全國重要的交通樞紐,是江蘇省常住人口較多、省內(nèi)人口流動較大的城市,導致確診患者人數(shù)居全省首位。春節(jié)后大量返城人員回南京,增加了南京地區(qū)的疫情傳播風險,因此,本文對南京市的疫情傳播過程進行回溯。從圖7可以看出南京市病患分布情況,多集中在疫情傳播風險較高的江寧、鼓樓、建鄴、棲霞、浦口、玄武、六合、雨花臺、江北新區(qū)、秦淮等地區(qū),有病例在不同區(qū)縣流動導致跨區(qū)域傳染,其中南京市交通樞紐中心江寧區(qū)患者人數(shù)較多,由于高淳區(qū)與溧水區(qū)人口密度稀疏且人口流動不頻繁,因此疫情傳播風險較低。從性別、年齡、確診來源、分布地區(qū)四個角度追溯南京市病患信息,由圖8(a)得出病患年齡分布跨度較大,30~40歲之間人數(shù)最多,占總人數(shù)24%;病患性別特征如圖8(b)展示,總體分布趨近平衡;南京市病患多為密切接觸型,如圖8(c);由圖8(d)可知在南京市所有區(qū)縣中,江寧區(qū)病患最多,高達19例。 圖7 南京市病患分布 圖8 南京市病患屬性 通過知識圖譜構建完成病患確診前活動軌跡回溯,圖9(a)為病患27確診前活動軌跡圖譜,圖9(b)為該病患在南京市內(nèi)軌跡回溯圖。病例27為一名居住在江寧區(qū)的33歲男性,常住武漢。1月20日乘坐高鐵(武漢-南京南站),然后乘車回江寧岳父家中,中午12時,病例27乘坐私家車從家中到達軟件大道站,12時22分乘坐地鐵1號線前往鼓樓站,騎共享單車到達中信銀行,17時病例27乘公交到達荔枝廣場,18時30分乘地鐵1號線(鼓樓站-軟件大道站),然后步行回到家中。1月21日8時病例27開車到達朝明生鮮超市,門口逗留30分鐘后乘車回家。1月22日8時病例27開車到達華潤蘇果購物廣場,購物約2小時后開車回家后未外出,2月11日被確診為新型冠狀病毒肺炎。 圖9 病例27軌跡回溯 COVID-19疫情呈現(xiàn)時空快速擴散規(guī)律,綜合運用時空理論與知識圖譜構建方法,能夠有效挖掘疫情傳播過程地理知識和傳染擴散規(guī)律。本文選取江蘇省為研究區(qū)域,基于官方衛(wèi)生健康委員會發(fā)布的確診病例數(shù)據(jù),結合相關的時空活動或事件數(shù)據(jù),整合病例之間的時空關系,構建了新冠肺炎疫情地理知識圖譜。在COVID-19地理知識圖譜的可視化分析方面,分別進行了疫情時空分析、重點城市疫情傳播時空溯源。對確診患者的時空分布與疫情的傳播過程進行知識回溯,以便從宏觀和微觀兩個角度把握疫情狀況,推動全國疫情阻擊戰(zhàn)走向勝利。本文構建的新冠肺炎疫情地理知識圖譜不僅限于COVID-19方面,未來還可在其他傳染病方面提供一種可行分析手段。3 結果分析
3.1 COVID-19地理知識圖譜綜覽
3.2 COVID-19疫情時空分析
3.3 重點城市疫情傳播時空知識溯源
4 討論