国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新冠肺炎疫情大數據可視化平臺的設計與實現(xiàn)

2021-10-28 14:10:18阮燦華梁煒彬林曉宇
鄂州大學學報 2021年5期
關鍵詞:折線圖字段統(tǒng)計圖

阮燦華,梁煒彬,林曉宇

(福建農林大學 計算機與信息學院,福建福州350002)

目前國內疫情得到基本控制,現(xiàn)如今國內社會情況相對穩(wěn)定,而世界范圍內疫情卻始終未能得到有效控制,人們對疫情情況還是非常關注。大數據背景下,網絡時刻產生海量疫情方面數據,這些數據只有被合理解讀與展示,民眾才能更好了解其中奧秘[1-2]。借助網絡爬蟲技術和echarts 技術,在通過爬蟲從網上獲取到每日疫情的各項權威數據后,清洗、轉化和挖掘后通過echarts 整理成各種可視化統(tǒng)計圖[3-4],這些可視化統(tǒng)計圖包括至今國內的疫情圖,世界疫情圖,國內各項疫情數據情況統(tǒng)計圖,世界各項疫情數據情況統(tǒng)計圖,以及每日熱點熱搜圖等以多種多樣的可視化形式呈現(xiàn)在人們面前,通過疫情可視化頁面,使人們能快速直觀的了解現(xiàn)在的疫情發(fā)展情況以及每日疫情感染人數的增長和治愈及死亡情況。全球防疫形勢依然非常嚴峻,對疫情預防和控制仍然是當今全球共同使命。通過可視化系統(tǒng)及時準確評估疫情傳播、根據每日疫情情況了解疫情過去的情況,分析疫情發(fā)展趨勢對于政府制定防控措施有著重要意義。

1 疫情及熱搜數據抓取

1.1 中國疫情數據及國外疫情數據抓取

疫情可視化系統(tǒng)要主動抓取疫情數據[5],包括國內疫情數據和海外疫情數據,每天丁香園、騰訊疫情、UC 疫情、新浪疫情等這些平臺都會轉載國家和各地衛(wèi)健委每日發(fā)布的疫情數據。借助chrome 瀏覽器的開發(fā)者工具,從騰訊疫情的requests 模塊中,獲取騰訊提供的疫情實時數據。進入騰訊疫情實時追蹤網站之后,利用抓包工具找到以json 格式保存疫情數據的url,再使用python 的request 請求得到需要的國內疫情和全球疫情各項相關數據接口[6]。

在本次疫情數據爬取中,系統(tǒng)調用了以下四個數據接口,并封裝入變量,供方法調用,分別是:中國疫情數據、中國城市疫情數據、外國疫情數據、全球疫情數據。通過以上url 數據接口[7],獲得所有疫情可視化系統(tǒng)所需要的數據,并存入數據庫中,爬取全球疫情累計數據及全球實時疫情數據,并存入global_history_url 中,通過request 請求獲得response 數據后進行分組便可得到全球疫情累計數據和全球實時疫情數據,在遍歷每組數據并進行處理后,就可以得到一條符合數據庫表結構數據,最后一并存入數據庫中[8]。

1.2 今日熱搜數據抓取

疫情是當前國內乃至全社會的最大熱點,而作為熱點,自然常常占據著熱搜榜。百度提供全網熱度前五十搜索的今日熱點。系統(tǒng)今日熱搜數據通過爬取百度風云榜今日熱點所獲得。利用Web 自動化測試工具python-selenium 庫模擬用戶操作瀏覽器進入百度熱搜榜地址后,用谷歌開發(fā)者工具的調試找到今日熱搜數據所在的標簽地址以獲取相應的每天熱搜數據及其排名與熱度值。設置好模擬人為使用chrome 瀏覽器的操作配置,包括調用chrome 瀏覽器、設置瀏覽器的User-Agent、添加chrome 瀏覽器參數、配置使用chrome 瀏覽器相對應版本的webdriver 等,配置好后進行數據調試獲取。得到今日熱搜的數據后,經過數據處理在系統(tǒng)前端動態(tài)圖中顯示,根據每條的熱搜的內容,對每條熱搜進行關鍵字提取并根據相應熱度值顯示該條熱搜大小,該熱搜顯示越大,說明該熱點關注度越高,熱度值也越大,并且在數據庫設計中,每條熱搜與其熱度值共同存儲在content 內容字段中,利用python-jieba 模塊對內容字段進行熱搜與熱度值切割。

2 系統(tǒng)設計

2.1 可視化內容設計

本系統(tǒng)是基于網絡爬蟲技術的可視化項目開發(fā)[9]。疫情數據與熱搜數據獲取方面是利用requests模塊獲取騰訊提供的疫情實時數據,包含國內最新、國內歷史、全球最新、全球歷史的各項關于疫情確診、治愈、死亡人數的累計和每日數據,以及利用selenium 模塊獲取最新百度熱搜榜關鍵詞,并將獲取的結構化數據存儲到sqlite3 中。系統(tǒng)可視化展示頁面部分是利用echarts 圖表技術,繪制需要的中國地圖以及世界地圖,以及想要展示的各項統(tǒng)計圖例如柱狀圖、折線圖、熱搜熱度動態(tài)展示圖等。利用js 加入實時北京時間精確至秒的時間模塊,在界面中每秒刷新,使用戶對查看疫情數據是個實時數據,提高用戶體驗感。

2.2 功能設計

系統(tǒng)設置全國疫情與全球疫情兩個地圖。全國疫情圖根據各省疫情確診數量分為五個確診人數范圍顏色,全球疫情根據各國疫情確診數據分為五個確診人數范圍顏色,點擊相應顏色可以進行調節(jié)過濾。

全國疫情數據可視化是通過全國疫情折線圖來實現(xiàn)[10]。分別是關于疫情至今的累計數據統(tǒng)計圖和新增數據統(tǒng)計圖等兩張折線統(tǒng)計圖。累計數據統(tǒng)計圖包括累計確診、現(xiàn)有疑似、累計治愈、累計死亡數據的統(tǒng)計;新增數據統(tǒng)計圖包括新增確診、新增疑似、新增治愈、新增死亡數據的統(tǒng)計。單擊任何數據,都能對其進行過濾,支持多項數據過濾最后只留一項數據,并對其重新制作折線統(tǒng)計圖,從而使想觀察的數據更加清晰,一目了然。

全球疫情數據可視化是全球疫情折線圖來實現(xiàn)。分別是關于疫情至今的全球累計數據的統(tǒng)計圖和全球新增確診的統(tǒng)計圖等兩張折線統(tǒng)計圖。累計數據統(tǒng)計圖包括累計確診、累計治愈、累計死亡。其余特點同中國折線統(tǒng)計圖。

3 系統(tǒng)架構與實現(xiàn)

3.1 關鍵數據庫物理設計

本系統(tǒng)數據庫使用集成型數據庫sqlite3。

china_history 表用來存儲中國至今每日累計的疫情相關數據。Date 字段是存儲每日疫情數據的日期,confrim、overseas_inputs、dead、heal 字段是疫情開始到該日期統(tǒng)計時的累計確診、累計境外輸入、累計死亡、累計治愈的人數,suspect 字段是現(xiàn)存疑似感染新冠肺炎未確診的人數。china_history 表的具體字段及結構如表1 所示。

表1 china_history 表

china_lasted 表用來存儲統(tǒng)計到今日為止全國每個省份中每個城市疫情的累計情況和新增情況。id 字段是存儲每個城市統(tǒng)計時的序號,作為主鍵自增,update_time 字段是統(tǒng)計時間,suspect 字段是每個城市現(xiàn)存疑似人數,每次統(tǒng)計將以前統(tǒng)計的數據邏輯刪除,插入新統(tǒng)計的數據,確保每座城市的唯一性,并按照國家、省份、城市字段升序排序。

hotsearch 表用來存儲爬取的百度今日熱點排名前五十的熱搜數據,id 字段作為每次更新每條熱搜的序號,作為主鍵自增,content 字段是存儲熱點與熱度值兩個數據,每次更新邏輯刪除舊的數據,插入更新的數據。

3.2 系統(tǒng)實現(xiàn)

3.2.1 系統(tǒng)主界面

疫情可視化系統(tǒng)開發(fā)主界面包括全國疫情追蹤界面及全球疫情追蹤界面,界面效果如圖1 和圖2 所示。

圖1 全國疫情追蹤界面

圖2 全球疫情追蹤界面

3.2.2 疫情地圖

制作疫情地圖及其他一些統(tǒng)計圖、熱搜圖借助了Apache Echarts 繪畫圖表技術,Echarts 是基于js的開源數據可視化圖標庫,繪畫圖表簡便快捷,效果簡潔好看。在規(guī)劃了繪制地圖區(qū)域后準備中國地圖信息的js 文件,下載一個可用的導入到項目中后,編寫echarts 圖表配置信息,根據各省疫情確診的人數劃分為5 個等級,確診人數由少到多,顏色隨嚴重程度的加深而加深,在左下角進行顏色的說明。疫情地圖包括全國疫情圖和全球疫情圖,如圖3、圖4 所示。從圖中可以看出,湖北疫情累計確診人數是全國最多,其余各省得益于黨和國家及廣大人民群眾的不懈努力,都沒有達到最深顏色的程度,以圖中選中區(qū)域福建來說,累計確診人數統(tǒng)計到今天為止,一共598 名,并且沒有現(xiàn)有確診存在,疫情基本得到控制。全球疫情的實現(xiàn)及數據說明同中國疫情圖。

圖3 中國疫情圖

圖4 全球疫情圖

3.2.3 折線統(tǒng)計圖

疫情統(tǒng)計折線圖如圖5 和圖6 所示。從全國累計趨勢和新增趨勢可以看出,我國疫情情況現(xiàn)在比較穩(wěn)定,能夠得到有效控制[11],但全球范圍內,疫情確診人數卻持續(xù)增加,說明疫情在全球范圍內未得到控制,且越來越嚴重。折線圖可以選擇只顯示一種數據,并為數據重新制作折線圖,便于更好分析疫情發(fā)展情況,我國疑似人數趨勢,隱藏其他數據,如圖7 所示。將鼠標移到相應線段可以展示是哪一天的數據,可以看到,一旦有疑似,可以很快確認是否被確診,說明我國對新冠肺炎已經有有效措施進行排查,效果也很顯著,側面說明疫情得到控制。

圖5 全國累計趨勢與新增趨勢折線圖

圖6 全球累計趨勢與新增趨勢折線圖

圖7 全國現(xiàn)有疑似與新增疑似折線

3.2.4 柱狀圖

如圖8 和圖9 所示,根據中國除湖北外的城市確診情況和全球各國確診情況制作柱狀統(tǒng)計圖??梢钥闯?,在中國,香港確診人數相較其他城市來說,需要加強防護與監(jiān)管。而在世界范圍內,可以看到,美國、印度、巴西國家確診人數突破千萬級別,在這些國家,疫情并未得到及時控制。

圖8 全國確診城市排名柱狀圖

圖9 全球確診國家排名柱狀圖

3.2.5 疫情熱搜圖

疫情熱搜為今日熱搜圖,是今日搜索度和熱度值排名前五十的熱點,每日更新,利用后臺數據處理提取關鍵字和熱度值后使用echarts 繪畫出動態(tài)熱搜圖,如圖10 所示。由圖中可以看出,今日熱搜中安徽六安新冠疫情情況最多人關注,熱度值為379158,將鼠標移到每個關鍵詞,可以看到該熱搜的熱度值,熱度值越高,熱搜字體越大,也代表更多人關注;每一次切換頁面都會根據關鍵字重新渲染熱搜圖,做出動態(tài)熱搜效果。

圖10 今日熱搜動態(tài)圖

4 結語

本系統(tǒng)是基于網絡爬蟲技術的疫情可視化系統(tǒng)開發(fā),借助requests 模塊和selenium 模塊進行疫情數據爬取,借助jieba 等模塊進行返回數據處理,借助echarts 繪畫圖表技術進行可視化界面設計開發(fā)。系統(tǒng)開發(fā)完成可以方便人們隨時進行疫情的查看,根據每日疫情的結果也可推斷出我國疫情的控制過程以及世界疫情未來的發(fā)展趨勢。

系統(tǒng)設計難點主要在于疫情數據的獲取后如何整合出每一項想要的數據,并確保數據的實時性與準確性。所以疫情數據必須定時爬取更新,確保正確性必須多方多維度多次確認才能保證。

(注:文中顯示數據為2021年5月15日)

猜你喜歡
折線圖字段統(tǒng)計圖
圖書館中文圖書編目外包數據質量控制分析
Optimization Design of Miniature Air Quality Monitoring System Based on Multi-Sensor Fusion Technology
各式各樣的復式條形統(tǒng)計圖
讓折線圖顯示在一個單元格中
再多也不亂 制作按需顯示的折線圖
電腦愛好者(2018年2期)2018-01-31 19:07:26
美化Excel折線圖表
電腦愛好者(2017年1期)2017-04-14 10:16:22
CNMARC304字段和314字段責任附注方式解析
無正題名文獻著錄方法評述
如何選擇統(tǒng)計圖
與統(tǒng)計圖有關的判斷和說理問題
丹棱县| 伊宁县| 榆树市| 建平县| 曲靖市| 平顶山市| 嘉善县| 白水县| 临邑县| 罗源县| 绥江县| 宝山区| 建始县| 香格里拉县| 商都县| 阿拉善盟| 罗田县| 商丘市| 竹山县| 滨海县| 巴林左旗| 万荣县| 合江县| 武穴市| 扎鲁特旗| 泽普县| 和硕县| 平利县| 武陟县| 阜平县| 合阳县| 婺源县| 横山县| 鲁山县| 武清区| 胶南市| 安岳县| 三穗县| 罗平县| 德阳市| 兴业县|