国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于R shiny的法定傳染病可視化分析系統(tǒng)的設(shè)計(jì)和初步應(yīng)用

2021-04-01 12:45胡曉雯薛銘琰卞子龍蔡奇慧
關(guān)鍵詞:法定發(fā)病率傳染病

胡曉雯,薛銘琰,張 楓,卞子龍,3,吳 靜,蔡奇慧*

1南京醫(yī)科大學(xué)生物醫(yī)學(xué)工程與信息學(xué)院,2公共衛(wèi)生學(xué)院,江蘇 南京 211166;3浙江大學(xué)公共衛(wèi)生學(xué)院,浙江 杭州310058

傳染病一直伴隨著人類的發(fā)展,對人類健康構(gòu)成嚴(yán)重威脅,而基本衛(wèi)生設(shè)施的完善,生活水平的提高以及藥物和疫苗的研發(fā)又促使總發(fā)病率和病死率穩(wěn)步下降[1]。在中國,1970—2007年,連續(xù)報(bào)告的18 種傳染病的年發(fā)病率不斷下降,從每10 萬人4 000多例下降到每10萬人少于250例[2]。

目前國內(nèi)針對法定傳染病的時(shí)空分析較為成熟,如張淼等[3]利用空間自回歸對甲乙類傳染病進(jìn)行空間聚集性分析,王志心等[4]利用機(jī)器學(xué)習(xí)的方法對各省份新型冠狀病毒肺炎疫情進(jìn)行預(yù)測。在可視化方面,金思辰等[5]基于傳染病時(shí)空數(shù)據(jù)進(jìn)行聚類分析,并設(shè)計(jì)可視化系統(tǒng),但編程較為專業(yè)。高效清晰的數(shù)據(jù)可視化可以讓研究人員更容易掌握客觀情況并采取更有效的應(yīng)對方法。用圖形表現(xiàn)復(fù)雜的數(shù)據(jù),比傳統(tǒng)的統(tǒng)計(jì)分析法更加形象且具有啟發(fā)性。因此,公共衛(wèi)生研究人員可以借助傳染病數(shù)據(jù)的可視化圖表更好地尋找數(shù)據(jù)規(guī)律、分析推理、預(yù)測未來趨勢。

Shiny 是其開發(fā)團(tuán)隊(duì)針對R 語言開發(fā)的網(wǎng)頁應(yīng)用開發(fā)框架,可允許用戶使用純R 語言開發(fā)界面簡潔、功能強(qiáng)大可發(fā)布的網(wǎng)頁應(yīng)用。通過建立交互式圖表和應(yīng)用程序的Web框架,實(shí)現(xiàn)網(wǎng)頁應(yīng)用與數(shù)據(jù)處理的無縫銜接,可將分析結(jié)果轉(zhuǎn)化為交互式Web視覺效果[6]。因此本研究利用它設(shè)計(jì)了一款集數(shù)據(jù)分析與可視化為一體的分析系統(tǒng)——中國法定傳染病可視化分析系統(tǒng)。

了解傳染病的流行趨勢,加強(qiáng)傳染病的預(yù)防和控制,對于公共衛(wèi)生安全具有重要意義。本研究通過收集整理2004—2017年法定傳染病的病例數(shù)、死亡情況、發(fā)病率、病死率和年齡分布數(shù)據(jù),旨在分析中國39種法定傳染病的流行情況,包括時(shí)間和空間趨勢,為政府制定最佳防控策略提供科學(xué)依據(jù)。

1 資料和方法

1.1 資料

數(shù)據(jù)資料來自國家人口與健康科學(xué)數(shù)據(jù)共享平臺(http://www.ncmi.cn/),收集2004—2017年應(yīng)呈報(bào)的甲、乙、丙3 類共39 種法定報(bào)告?zhèn)魅静〉陌l(fā)病數(shù)、死亡數(shù)、發(fā)病率、病死率和年齡分布數(shù)據(jù)。其中甲類2種、乙類26種、丙類11種。甲類傳染病和乙類傳染病中的肺炭疽和嚴(yán)重急性呼吸綜合征(severe acute respiratory syndrome,SARS)在診斷后2 h內(nèi)應(yīng)在線報(bào)告,其余乙類和丙類傳染病應(yīng)在24 h內(nèi)報(bào)告[7]。

1.2 方法

該系統(tǒng)由軟件RStudio 在R 語言環(huán)境下(R-3.5.2)編程完成。通過安裝多種功能的R 包(shiny、ggplot2、maps、pheatmap、gplots、plyr、dplyr、spdep、inla等),可實(shí)現(xiàn)多種統(tǒng)計(jì)分析與可視化功能。假設(shè)檢驗(yàn)的水準(zhǔn)α=0.05,為雙側(cè)檢驗(yàn)。

Shiny是用于R的Web應(yīng)用程序框架,可用于構(gòu)建交互式Web 應(yīng)用程序。創(chuàng)建應(yīng)用程序需要兩個(gè)R 腳本:一個(gè)名為ui.R 的用戶界面腳本和一個(gè)服務(wù)器腳本server.R。用戶界面腳本控制應(yīng)用程序的布局和外觀。服務(wù)器腳本包含R對象以及如何顯示它們的有關(guān)說明。該應(yīng)用程序使用一種稱為反應(yīng)性的功能來支持交互性。這樣,用戶對文本、日期及其他輸入內(nèi)容進(jìn)行修改后,相應(yīng)的R 對象將得到自動(dòng)更改。

本研究設(shè)計(jì)的可視化系統(tǒng)框架詳見圖1所示。

圖1 可視化系統(tǒng)框架Figure 1 Framework of visualized system

2 結(jié)果

系統(tǒng)的主界面如圖2所示,包括4個(gè)功能模塊:總體概述、表格制作、統(tǒng)計(jì)分析和圖形繪制,其中圖形繪制的可視化功能為平臺的特色與主要功能。本系統(tǒng)通過讀取指定的傳染病數(shù)據(jù)信息,對數(shù)據(jù)信息進(jìn)行綜合處理,通過數(shù)據(jù)匯總和分析,可以對多年的傳染病數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析與可視化呈現(xiàn)。

圖2 可視化系統(tǒng)主界面Figure 2 The main interface of the visual system

2.1 總體概述模塊

總體概述模塊中主要包括系統(tǒng)簡介,介紹了可視化系統(tǒng)設(shè)計(jì)的背景,這是一款兼具數(shù)據(jù)分析與可視化功能的系統(tǒng)。同時(shí)在該模塊中還以動(dòng)態(tài)式和交互式地圖的形式展現(xiàn)了2016 年中國地區(qū)(除港、澳、臺)法定報(bào)告?zhèn)魅静〉陌l(fā)病率分布情況,表1 展示了具體的發(fā)病情況。

2.2 表格制作模塊

表格制作模塊分為年齡數(shù)據(jù)、月份數(shù)據(jù)、年齡分層數(shù)據(jù)、地區(qū)數(shù)據(jù)、按傳染途徑分類數(shù)據(jù)5 個(gè)部分。如按年齡分層數(shù)據(jù)(圖3),通過讀入指定數(shù)據(jù),可以對各層數(shù)據(jù)進(jìn)行標(biāo)化從而得到熱圖的目標(biāo)數(shù)據(jù)集。其他數(shù)據(jù)類型類似,不贅述。

2.3 統(tǒng)計(jì)分析模塊

在統(tǒng)計(jì)分析模塊中,可以對發(fā)病情況進(jìn)行人群、時(shí)間、空間和時(shí)空交互這4個(gè)層面的分析。

人群分析,分為年齡分層分析和疾病種類分析。圖4 展示疾病年齡聚類分析的結(jié)果,如手足口病、腮腺炎在兒童中的發(fā)病要高于成人;而乙肝、淋病成人發(fā)病較多。同時(shí)能夠找出發(fā)病年齡結(jié)構(gòu)類似的疾病,如淋病和艾滋病的發(fā)病年齡結(jié)構(gòu)類似,同樣高發(fā)于成人。另外,對地區(qū)的傳染病數(shù)據(jù)進(jìn)行聚類分析,也可找出發(fā)病結(jié)構(gòu)類似的省份。

表1 2016年中國地區(qū)法定報(bào)告?zhèn)魅静R總表Table 1 The summary of notifiable infectious diseases of China in 2016

時(shí)間層面的分析,利用時(shí)間序列分析的ARIMA模型[8-9]、指數(shù)平滑模型預(yù)測未來的發(fā)病變化情況,并給出95%可信區(qū)間,預(yù)測未來年份的傳染病發(fā)病變化情況??ǚ节厔莘治?,則以統(tǒng)計(jì)表格的形式判斷39種傳染病發(fā)病率的升降情況。

圖3 年齡分層數(shù)據(jù)Figure 3 Age stratified data

圖4 年齡分層熱圖Figure 4 The heatmap of age stratified data

空間層面的分析,使用空間自相關(guān)分析以及重心遷移技術(shù)??臻g自相關(guān)是檢驗(yàn)空間單元屬性聚集程度的一種有效方法,可以用來探索傳染病的空間聚集性以及發(fā)病率的中心改變情況??臻g自相關(guān)分為全局空間自相關(guān)和局部空間自相關(guān)兩大類,Moran’s I 指數(shù)法是最為基本和重要的方法[10]。通過將Global Moran’s I 指數(shù)的觀測值與其期望值E(I)進(jìn)行比較,可以判定其空間相關(guān)性,但是仍然要嚴(yán)格檢驗(yàn)兩者之間的差異是否具備統(tǒng)計(jì)學(xué)上的顯著性水平??赏ㄟ^Z統(tǒng)計(jì)量來進(jìn)行檢驗(yàn)。根據(jù)正態(tài)分布檢驗(yàn),在顯著性水平α下,當(dāng)P <α,表明區(qū)域之間的屬性分布具有顯著的空間相關(guān)關(guān)系;當(dāng)P>α,表明區(qū)域之間的屬性分布不具有顯著的空間相關(guān)關(guān)系[11-12]。對2004 年39 種傳染病的空間分布進(jìn)行分析,利用P值來判斷聚集性是否明顯,這里P=0.267 7表明聚集性并不明顯(圖5)。

時(shí)空交互分析,使用貝葉斯時(shí)空模型和時(shí)空掃描統(tǒng)計(jì)量的方法。貝葉斯時(shí)空模型是根據(jù)貝葉斯統(tǒng)計(jì)原理對具有時(shí)空屬性的數(shù)據(jù)資料進(jìn)行建模。模型中所有未知參數(shù)均作為隨機(jī)變量,利用先驗(yàn)分布對風(fēng)險(xiǎn)估算時(shí)可借用鄰近時(shí)空信息較好地解決復(fù)雜時(shí)空結(jié)構(gòu)中的異質(zhì)性問題,充分考慮傳染病的時(shí)空屬性[13]。相對于直接利用各省發(fā)病率來描述傳染病的相對風(fēng)險(xiǎn),貝葉斯時(shí)空模型可以分析區(qū)域間的相鄰關(guān)系,使得估計(jì)結(jié)果不易受樣本量與極端值的影響[14],除此之外,相較于空間層面僅能對1年情況分析的方法,貝葉斯時(shí)空模型將時(shí)間變量納入分析。

圖5 空間自相關(guān)分析Figure 5 Spatial autocorrelation analysis

2.4 圖形繪制模塊

在圖形繪制模塊,以折線圖、極圖、盒圖、地圖熱力圖等多種靜態(tài)和交互式圖片的形式將數(shù)據(jù)可視化,這也是平臺的特色之一。

極圖用顏色深淺顯示了39 種傳染病歷年的發(fā)病變化情況(圖6)。如流感扇區(qū),從內(nèi)向外顯示了2004—2017 年流感的發(fā)病變化。每種傳染病每年的發(fā)病率,做成極圖形式,可以直觀看出哪些年份傳染病盛行,哪些傳染病傾向于同時(shí)發(fā)生。

圖6 極圖Figure 6 Pole diagram

根據(jù)各省份的發(fā)病率畫出盒圖(圖7),顯示了各省份發(fā)病率隨年份增長的分布情況。地圖熱圖欄可通過導(dǎo)入各省的數(shù)據(jù),繪制發(fā)病率、死亡率、病死率的地理空間趨勢。該系統(tǒng)還可以繪制柱形圖、條形圖以及雷達(dá)圖等交互式圖形。

3 討論

圖7 各年發(fā)病率的盒圖Figure 7 Box plot of incidence rates by year

目前,國內(nèi)研究人員較少對傳染病開展綜合的時(shí)空可視化分析,更多集中在某種傳染病的時(shí)間層次或者空間層次的分析[15-16]。本研究的中國法定傳染病數(shù)據(jù)可視化分析平臺是一款數(shù)據(jù)分析與可視化系統(tǒng),特色在于有較完善的統(tǒng)計(jì)學(xué)分析,又提供了數(shù)據(jù)的自動(dòng)制表與可視化結(jié)果的輸出,更對時(shí)空數(shù)據(jù)進(jìn)行動(dòng)態(tài)化與交互式展示。該應(yīng)用程序易于使用,使公共衛(wèi)生研究人員無需復(fù)雜的統(tǒng)計(jì)或編程技能即可執(zhí)行復(fù)雜的監(jiān)視分析。它不僅可以作為空間和時(shí)空疾病數(shù)據(jù)的探索性工具,交互式地顯示地圖、時(shí)間序列和各種表格,還可以通過使用R 包INLA 擬合貝葉斯模型來獲得疾病風(fēng)險(xiǎn)估計(jì)及其不確定性[17]。另外,對新數(shù)據(jù)亦可進(jìn)行處理,并實(shí)時(shí)給出相關(guān)結(jié)果。

基于網(wǎng)絡(luò)的法定傳染病報(bào)告系統(tǒng)自2004 年投入運(yùn)行以來,對傳染病的及時(shí)發(fā)現(xiàn)和控制產(chǎn)生了很大影響。減少疾病,可為整個(gè)社會財(cái)政和人民健康帶來很多好處。之前國內(nèi)也有一些關(guān)于傳染病研究的報(bào)道,但本研究的獨(dú)特之處在于整合了中國地區(qū)(除港、澳、臺)14 年來39 種法定報(bào)告?zhèn)魅静〉娜繑?shù)據(jù)集。可以及時(shí)了解最新法定報(bào)告?zhèn)魅静〖俺蕡?bào)個(gè)案數(shù)目的狀況,為公共衛(wèi)生部門提供法規(guī)和計(jì)劃管理信息。

當(dāng)然,面對許多技術(shù)問題,本研究也嘗試?yán)枚喾N方法去解決。如為確保圖像的實(shí)用性與可適用性,同時(shí)更好地呈現(xiàn)傳染病數(shù)據(jù)的時(shí)空趨勢與人群分布特征,本研究查閱大量相關(guān)文獻(xiàn),以尋找廣泛使用的圖形,并且據(jù)此設(shè)計(jì)幾種特色圖形,如年齡分層聚類圖。同時(shí)不斷調(diào)整相關(guān)繪圖參數(shù),達(dá)到美觀大方的效果。

拓展動(dòng)態(tài)式與交互式可視化是難點(diǎn)??梢暬瓤梢允庆o態(tài)的,也可以是動(dòng)態(tài)的。動(dòng)態(tài)式可視化可以將時(shí)間線更具體地展現(xiàn)出來,設(shè)計(jì)成員采取層層疊加的方式,選取固定的過渡方式,最終形成動(dòng)態(tài)圖的格式。

了解傳染病的流行趨勢,加強(qiáng)傳染病的預(yù)防和控制,對于公共衛(wèi)生安全具有重要意義。為了描述疾病在人群、時(shí)間、空間上的分布特點(diǎn),需要通過專業(yè)的統(tǒng)計(jì)學(xué)手段進(jìn)行驗(yàn)證,也需要通過可視化的手段直觀展現(xiàn)疾病分布特點(diǎn)。于是,本研究制作了折線圖、年齡分層熱圖、滑珠圖、地區(qū)分布熱圖等來描述2004—2017年的傳染病分布特點(diǎn)。

本研究的設(shè)計(jì)分析也存在一定不足之處,相對于分析某一種具體的傳染病,宏觀分析較粗糙,沒有考慮經(jīng)濟(jì)因素、氣候因素(溫度、濕度、風(fēng)速、顆粒物PM2.5)等)[18]。因此,在未來的版本中,將為疾病映射、群集檢測以及自定義數(shù)據(jù)可視化提供更多選項(xiàng),從而增加其靈活性。擴(kuò)展應(yīng)用程序可以執(zhí)行的分析類型,以便用戶可以在更廣泛的模型中進(jìn)行選擇,合并協(xié)變量,包括不同類型的時(shí)空隨機(jī)效應(yīng),以及在不同形狀的聚類中進(jìn)行選擇;另一個(gè)擴(kuò)展是分析點(diǎn)數(shù)據(jù)的統(tǒng)計(jì)方法和可視化。梁祁等[19]利用移動(dòng)百分位數(shù)法、控制圖法對2009—2011年江蘇省傳染病進(jìn)行預(yù)警,但缺乏預(yù)測模型,而本研究系統(tǒng)可以基于時(shí)間序列模型等方法對相關(guān)疫情進(jìn)行預(yù)測。

綜上所述,相比其他類似系統(tǒng),設(shè)計(jì)的R shiny可視化統(tǒng)計(jì)分析系統(tǒng)操作簡便,分析方法多樣,提供了時(shí)間、空間的預(yù)測模型,有利于描述傳染病的流行特點(diǎn),便于公共衛(wèi)生人員研究。

猜你喜歡
法定發(fā)病率傳染病
《傳染病信息》簡介
傳染病的預(yù)防
多曬太陽或可降低結(jié)直腸癌發(fā)病率
3種傳染病出沒 春天要格外提防
中高速磁浮列車兩步法定子段換步控制技術(shù)研究
智取紅領(lǐng)巾
重建院落產(chǎn)生糾紛 土地確權(quán)程序法定
ARIMA模型在肺癌發(fā)病率預(yù)測中的應(yīng)用
重慶每小時(shí)10人確診癌癥 癌癥發(fā)病率持續(xù)上升
第27周全國民間借貸市場利率13.03%/年降0.17個(gè)百分點(diǎn)