王秀友 韋斯羽 代雅婷 彭亮 高統朋
摘 要:本文以大數據技術為基礎,對COVID-19疫情期間除湖北外其他地區(qū)的疫情數據進行采集、預處理、可視化和分析。結果顯示在疫情中,接觸性傳播為主要傳播方式,疫情的主要癥狀為發(fā)熱,為疫情防控提供科學的理論依據和重要輔助服務。
關鍵詞:COVID-19;疫情;大數據;數據爬取;數據分析
中圖分類號:TP393? 文獻標識碼:A? 文章編號:1673-260X(2021)01-0029-04
0 引言
隨著大數據技術的飛速發(fā)展,其在各個領域得到廣泛應用。特別在醫(yī)學領域,由于醫(yī)學領域的問題往往數據量巨大且數據來源廣泛,對數據實時性和實用性要求較高,大數據處理技術的發(fā)展為醫(yī)學領域特別是傳染病預測帶來了巨大改變[1,2]。2020年發(fā)生的COVID-19疫情爆發(fā)后,快速在大范圍內傳染開來,感染了大量人群。大數據技術可以為疫情提供必要的技術處理手段。疫情中,眾多專家學者對武漢和湖北省的數據樣本進行分析,對湖北省外的其他省市病例樣本信息分析較少[3]。本文利用大數據相關技術,通過爬取疫情爆發(fā)初期至2020年4月5日湖北省外的其他省市確診病例的詳細資料,針對具體的病例描述數據,將紛亂無序的數據匯集到一起,進行全面的數據處理和數據分析,以直觀形式展示疫情相關數據分析[4],預測疫情發(fā)展的動態(tài)及走勢,為疫情防控的高效決策、快速決策乃至智能決策提供了有力的基礎。
2 方案設計
本文利用爬蟲技術爬取今日頭條抗擊肺炎專題中的實時病例數據,利用大數據處理技術進行數據預處理,針對處理后的數據提供數據可視化分析。
2.1 數據爬取
本文對湖北省外全國人員的病例詳情進行數據爬取,病例樣本如圖1所示。
對數據源進行爬取時,主要流程是對請求的數據進行分析,然后對數據進行異步請求,抓取相關數據包后對抓取到的數據進行存儲,具體描述如下。
(1)數據分析:找到數據的url_base和對應的json文件url_json。對病例人員信息的url進行分析,發(fā)現url中id參數決定了爬取的城市。以安徽省合肥市某一url地址為例https://xxx.html?local_id=340100其中url中的id=340100表示合肥。
(2)請求數據:利用工具fiddler抓包確定請求類型,進行異步請求,實現一次性自動化爬取省級內各個城市數據。通過抓包獲取涉及全國疫情信息的js接口和城市id。
(3)解析網頁:利用request庫實現全國省市的封裝解析。部分地區(qū)僅有市的數據,沒有內部區(qū)的統計,導致不能實現全國一次性自動爬取。本文將爬取封裝成兩個過程,一是輸入id爬取市級數據;二是輸入省級名稱爬取全省數據。
(4)數據存儲:將對應的數據存入文本文檔中,實現自動存儲生成文本文檔。
2.2 數據預處理
由數據分析對預處理的需求,將數據需求分為三種,一是提取癥狀、性別、年齡、武漢居住史字段的相關數據;二是密切接觸人數、聚餐情況;三是發(fā)病日期、確診日期。
在數據預處理過程中,分為兩類進行處理。一是提取日期類的數據,采用時間序列技術,進行時間序列的預處理;去除無關特殊符號及字符,進行日期時間序列類的數據提取和集成規(guī)約。二是處理文本類特征字段,采用NLP處理方式;對特征字段采用Jieba分詞統計、清洗,利用N-gram語言模型進行特征提取,數據預處理流程如圖2所示。
對需求一采用表達式自動搜索特征字段,對需求二遍歷數據文本,以正則表達式中的split()模塊進行按照標點符號分割。對需求三數據的預處理則分為以下幾步。
2.2.1 數據格式預處理
將文件格式進行轉換并篩選日期,用列表推導式進行關鍵字段提取,得到每一行中存在癥狀的關鍵字段,結果如圖3所示。
2.2.2 數據錯誤修正
對預處理的數據重新排序并統計滿足需求的數據,將數據轉成csv格式。由于每行的字段數不確定,在上一個文件中設置表頭最大化,從而使數據可用pandas讀取,然后進行重新排序,缺失的值用空值填充,結果如圖4所示。
2.2.3 數據內容預處理
使用正則表達式提取癥狀或者發(fā)病、確診時間。使用split()將字段切分,定義函數提取純日期,利用map函數多次執(zhí)行,結果如圖5所示。
2.2.4 數據標準化
對預處理后的數據,刪除每行空數據以及癥狀時間,使每行數據只剩下發(fā)病時間和確診時間。按行遍歷數據,通過split()和strip()函數以空格分割,再以英文逗號進行連接保存,去除多余逗號,結果如圖6所示。
在對數據進行分析時,較少的樣本量對結果分析容易產生較大誤差。本文對樣本量較少的數據進行了剔除,保留處理除湖北省數據量前十的省市數據。源病例數據量為5665條,預處理200條,實用病例5465條,具體數據如表1所示。
2.3 可視化分析
對于處理后的病例數據,本文用直觀的表格和圖片輔助數據分析,分為三個方面。
2.3.1 針對癥狀、年齡、性別、武漢居住史字段進行分析
根據不同癥狀占比情況的統計表(表2)可以看出,發(fā)熱為主要癥狀之一,占源數據的45.61%,將近一半,因此發(fā)熱可以作為判斷是否為疑似病例的一個依據。其次,患者病例中有癥狀者占比98.50%,無癥狀者占比1.50%。
根據不同年齡段占比情況的表3可以看出,年齡段在41歲至51歲的患者人數最多,占源數據的33.83%,占比率最高。
本研究針對5465例病例進行性別比例分析,發(fā)現其中男性患者的人數為2900,占比53.06%,女性患者的人數為2565,占比46.94%,說明COVID-19傳染與性別無關。
針對每個省的病例中含有長期居住、有居住史、在武漢工作、生活于武漢、路徑有武漢等含有武漢居住史的字段進行分析得出,共有2984名患者具有武漢旅居史。從中可以看出,由武漢傳播出來的病例人數普遍居多,占各省病例人數居高。
2.3.2 針對密切接觸與聚餐情況進行分析
對每個省的病例中含有與確診或高度疑似病例有直接居住生活在一起分析得出,共有2399名患者與確診或高度疑似病例有直接居住生活在一起的成員進行密切接觸行為,占總病例人數的43.89%,說明人傳人現象較為明顯。
對聚餐情況分析時,本次提取聚餐字段的關鍵詞有聚會、聚餐、有共餐史、相聚就餐等。從表6可以看出聚餐導致的病例數占各自地區(qū)總病例的比例。從圖8聚餐人數日期可以看出,疫情發(fā)生前期至1月26日聚餐情況較多,聚會、聚餐是造成COVID-19疫情傳播的重要因素。
2.3.3 疫情波動分析
本文以確診病例中患者發(fā)病日期與確診日期作為綜合評判依據,選取前十個省的疫情新增數據進行抽樣預測分析。選取全國疫情新增數據進行整體研究分析,研究真實的監(jiān)測數據。
圖8是除湖北省外前十個省市新增發(fā)病人數與確診人數的折線圖,反映了疫情確診人數數據與發(fā)病人數數據隨時間的波動情況。爆發(fā)前期至2月5日是波動幅度較小的持續(xù)性增加,2月5日確診人數達到了最高333例,2月5日至2月25日是波動幅度較小持續(xù)性減少,2月25日以后是趨于平穩(wěn);發(fā)病人數的波動情況是,爆發(fā)前期至1月29日持續(xù)性增加,1月29日至2月7日是波動幅度較小的趨于平穩(wěn),但仍持續(xù)爆發(fā),人數最高為259例,2月7日至2月25日是持續(xù)性減少,2月25日以后是趨于平穩(wěn)。
圖9中的全國新增發(fā)病人數和確診人數反映了同個時間內發(fā)病人數與確診人數之間的比較情況。可見全國疫情的波動基本一致。圖中新增確診數據來自國家衛(wèi)健委,新增發(fā)病數據來自今日頭條的全國病例。
2.4 可視化部署實現
基于echarts的網頁可視化展示,利用jQuery中的echarts網頁模板,將本次研究方向的圖形進行統一展示。網頁圖形主要展示了數據分析的三個方向,一是各個省市武漢居住史的病例情況和患者癥狀分析情況;二是各個省受聚餐影響占比;三是新增發(fā)病和新增確診人數雙折線圖。
3 結語
本文研究疫情爆發(fā)期間各項數據的具體情況,預測疫情高峰和持續(xù)時間,通過可視化展示疫情的動態(tài)數據及結果。隨著數據處理技術日新月異的發(fā)展,大數據在醫(yī)療方面的應用必將帶來巨大變革,利用大數據技術對重大公共衛(wèi)生突發(fā)事件進行群防群控,是未來疫情防控的關鍵手段和重要支撐。
——————————
參考文獻:
〔1〕王延玲,溫明鋒,李迎新.大數據時代對醫(yī)療系統信息化發(fā)展的研究[J].當代醫(yī)學,2020,26(10):114-11.
〔2〕王秋蓉,吳亞楠,肖瀟,杜娟.人工智能:發(fā)揮抗擊疫情科技支撐的骨干作用[J].可持續(xù)發(fā)展經濟導刊,2020,38(04):18-20.
〔3〕閆雨蒙,李博,李澤宇,連博,蘇祥飛,王天園,李萍,王強,程金蓮,楊忠奇.新型冠狀病毒肺炎臨床研究和專家意見數據分析的思考與建議[J].中國中藥雜志,2020,45(07):1526-1530.
〔4〕鄔賀銓.大數據助力疫情防控[J].大數據時代,2020,36(03):26-33.