国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于百度指數(shù)的登革熱疫情預(yù)測研究

2016-08-05 07:58王晶晶鄒遠(yuǎn)強(qiáng)彭友松李肯立蔣太交
計算機(jī)應(yīng)用與軟件 2016年7期
關(guān)鍵詞:登革熱百度病例

王晶晶 鄒遠(yuǎn)強(qiáng) 彭友松* 李肯立 蔣太交,2

1(湖南大學(xué)信息科學(xué)與工程學(xué)院 湖南 長沙 410082)2(中國科學(xué)院生物物理研究所蛋白質(zhì)與多肽藥物所重點實驗室 北京 100101)

?

基于百度指數(shù)的登革熱疫情預(yù)測研究

王晶晶1鄒遠(yuǎn)強(qiáng)1彭友松1*李肯立1蔣太交1,2

1(湖南大學(xué)信息科學(xué)與工程學(xué)院湖南 長沙 410082)2(中國科學(xué)院生物物理研究所蛋白質(zhì)與多肽藥物所重點實驗室北京 100101)

摘要基于互聯(lián)網(wǎng)數(shù)據(jù)的傳染病疫情監(jiān)測成為近年來傳染病防治的熱點研究內(nèi)容。通過對2014年9月暴發(fā)的以廣東省為中心的全國登革熱疫情與登革熱相關(guān)關(guān)鍵詞的百度指數(shù)的關(guān)聯(lián)性分析,發(fā)現(xiàn)地區(qū)(省、市)登革熱疫情嚴(yán)重程度與該地區(qū)“登革熱”關(guān)鍵詞的百度指數(shù)呈很強(qiáng)的正相關(guān)性。為了實時地預(yù)測疫情動態(tài),建立基于12個登革熱相關(guān)關(guān)鍵詞的百度指數(shù)的多元線性回歸模型。在留一法交叉驗證和反向測試中,該模型對于測試數(shù)據(jù)的預(yù)測值和實際值的皮爾森相關(guān)系數(shù)分別達(dá)到了0.89和0.73。經(jīng)實驗,該預(yù)測模型能夠比較準(zhǔn)確地預(yù)測登革熱疫情動態(tài),同時該研究對于基于互聯(lián)網(wǎng)數(shù)據(jù)的傳染病疫情監(jiān)測和防治具有一定的指導(dǎo)意義。

關(guān)鍵詞百度指數(shù)登革熱定量預(yù)測模型

0引言

登革熱是由登革熱病毒引起、伊蚊傳播的一種急性傳染病。臨床特征為起病急驟、高熱、全身肌肉、骨髓及關(guān)節(jié)痛、極度疲乏,部分患者有皮疹、出血傾向和淋巴結(jié)腫大[1]。登革熱廣泛流行于熱帶和亞熱帶的非洲、美洲、東南亞、西太平洋地區(qū)以及歐洲個別地區(qū)等100多個國家和地區(qū)。在中國,本地登革熱暴發(fā)地區(qū)主要分布在廣東、福建、浙江、云南和臺灣,而輸入性病例地區(qū)主要分布在北京、上海、香港、澳門等地[2]。如何及時有效地防治登革熱已經(jīng)成為了我國和世界其他多個國家和地區(qū)日益嚴(yán)重的公共衛(wèi)生問題。

在我國,由于登革熱病毒不像流感病毒那樣季節(jié)性地流行,而且一直以來只是散發(fā)性流行,很少造成大的公共衛(wèi)生危機(jī)。此外,登革熱疫情的病例數(shù)據(jù)也很少公開。因此,目前國內(nèi)針對登革熱疫情監(jiān)測的研究不多,特別是基于互聯(lián)網(wǎng)數(shù)據(jù)來預(yù)測其流行動態(tài)的研究很少。2014年9月在我國廣東暴發(fā)了史上最大規(guī)模的登革熱疫情,在短短的兩個多月時間里登革熱病毒感染人數(shù)超過5萬,這對我國的社會和經(jīng)濟(jì)造成了很大的影響。然而此間的登革熱病例數(shù)據(jù)也給我們研究基于互聯(lián)網(wǎng)數(shù)據(jù)的傳染病(尤其是登革熱)疫情監(jiān)測提供了一個機(jī)會。

在本文中,我們首先分析登革熱在全國和廣東省的疫情分布,以及研究“登革熱”百度指數(shù)與地區(qū)疫情嚴(yán)重程度的關(guān)聯(lián)性,以此進(jìn)一步選取與登革熱相關(guān)的關(guān)鍵詞,并分析其各關(guān)鍵詞的百度指數(shù)與疫情動態(tài)的相關(guān)性。由此建立基于12個關(guān)鍵詞的百度指數(shù)的多元線性回歸模型,并將歷史病例數(shù)據(jù)加入到模型訓(xùn)練中,通過留一法交叉驗證評估模型效果,使用反向測試評價預(yù)測效果。最終我們發(fā)展了一個基于百度指數(shù)的定量預(yù)測模型來實時地預(yù)測登革熱疫情的動態(tài)。

1相關(guān)研究發(fā)展

傳染病監(jiān)測是預(yù)防和控制傳染病疫情的核心。傳統(tǒng)的傳染病疫情監(jiān)測手段主要依賴各級醫(yī)療機(jī)構(gòu)、傳染病預(yù)防控制中心和傳染病監(jiān)測哨點醫(yī)院組建的監(jiān)測網(wǎng)絡(luò)提供的數(shù)據(jù)[3],整個監(jiān)測體系較為完善,但存在不足。首先,數(shù)據(jù)的獲取由各級單位逐層上報后匯總,會導(dǎo)致分析結(jié)果的滯后性;其次,該監(jiān)測手段耗費大量人力物力,且病例數(shù)據(jù)很少對公眾公開。而基于互聯(lián)網(wǎng)的傳染病疫情監(jiān)測在很大程度上彌補(bǔ)了傳統(tǒng)監(jiān)測手段的不足。首先,互聯(lián)網(wǎng)數(shù)據(jù)涵蓋就診病人和未就診病人對傳染病防控知識、疫情新聞報道等的搜索信息,數(shù)據(jù)來源的人群范圍更廣;其次,數(shù)據(jù)雖然集中在少數(shù)提供商手中,但其為研究用戶提供了相應(yīng)數(shù)據(jù)共享接口,并且數(shù)據(jù)實時公布[4]。因此,將互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用于傳染病疫情的監(jiān)測成為各國公共衛(wèi)生研究的重要內(nèi)容。

利用互聯(lián)網(wǎng)數(shù)據(jù)監(jiān)測傳染病疫情的思想最先開始于2006年[5]。隨后,各國傳染病疫情監(jiān)測研究者將互聯(lián)網(wǎng)搜索引擎數(shù)據(jù)[6-11]、社交網(wǎng)絡(luò)數(shù)據(jù)[12-15]、醫(yī)療網(wǎng)站數(shù)據(jù)[16]、藥物銷售數(shù)據(jù)[17]等應(yīng)用到疫情的分析監(jiān)測中。其中針對季節(jié)性流感的研究諸多,而且已經(jīng)取得了很好的效果,如國外的Ginsberg等人[6]利用Google流感趨勢監(jiān)測流感疫情,其監(jiān)測時效比CDC監(jiān)測提前了1~2周。類似的有Li等人[13]利用Twitter數(shù)據(jù)于流感監(jiān)測中,同樣具有很強(qiáng)的實時性;在國內(nèi),李秀婷等人[7]應(yīng)用Google搜索引擎數(shù)據(jù)研究基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的中國流感監(jiān)測,從116個與流感相關(guān)關(guān)鍵詞中抽取92個作為分析模型的搜索變量,通過交叉驗證分析,最后取得了較好的模型擬合和預(yù)測效果。另袁慶玉等人[8]則是利用百度搜索引擎的百度指數(shù)數(shù)據(jù)監(jiān)測中國流感趨勢。針對其他傳染病的研究,Milinovic等人[9]基于Google搜索引擎數(shù)據(jù)利用164個搜索條件對64種傳染病進(jìn)行分析監(jiān)測,結(jié)果顯示其監(jiān)測模型對其中17種傳染病的監(jiān)測效果尤為明顯。這表明基于流感的監(jiān)測方法對其他傳染病的監(jiān)測具有很大的潛在意義,尤其是對疫苗可預(yù)防、媒介傳播且臨床特征更明顯的傳染病的監(jiān)測效果更好,其中包括登革熱。而基于互聯(lián)網(wǎng)數(shù)據(jù)來預(yù)測登革熱也有了一些研究,影響最大的同樣是來自Google公司的“Google Dengue Trends”。如Althouse等人[10]與Chan等人[11]應(yīng)用Google趨勢對國外登革熱流行國家如新加坡等地的登革熱疫情進(jìn)行監(jiān)測。其研究思路與“Google Flu Trends”一樣,同樣是選擇與登革熱最相關(guān)的關(guān)鍵詞在Google的搜索數(shù)據(jù),建立定量預(yù)測模型,將數(shù)據(jù)集以周為單位進(jìn)行模型估計和預(yù)測,其研究取得了較好的預(yù)測效果。

由于一些原因,Google并沒有提供對于中國地區(qū)的登革熱流行的預(yù)測。百度是國內(nèi)市場份額最高的互聯(lián)網(wǎng)搜索引擎[18],它推出的百度指數(shù)已經(jīng)被各行各業(yè)廣泛使用。在傳染病監(jiān)測領(lǐng)域,同樣已經(jīng)有研究使用百度指數(shù)來預(yù)測流感的流行。然而,目前還很少有使用百度指數(shù)和其他互聯(lián)網(wǎng)數(shù)據(jù)來預(yù)測登革熱的流行。

2登革熱疫情分布

2014年9月,登革熱在中國廣東一帶暴發(fā),病例主要分布在廣東、廣西、云南、福建和臺灣(如圖1(a)所示)。截止10月31日,全國登革熱病例數(shù)超過5萬,廣東省疫情最為嚴(yán)重,已累計報告登革熱病例42 358例;臺灣省累計報告7425例;廣西、云南、福建省累計報告的本地登革熱病例均超過100例;海南、北京、湖南、浙江、澳門、香港地區(qū)累計報告的登革熱病例數(shù)均在100例以下,而且主要是輸入性病例。進(jìn)一步分析廣東省的登革熱疫情(如圖1(b)所示),發(fā)現(xiàn)超過80%的病例(累計35 237例)都分布在廣州,其次是佛山(累計3411例),其余市的病例數(shù)均在1000例以下。由登革熱引發(fā)的死亡病例也主要分布在廣州和佛山,分別有5例和1例病例死亡。

圖1 登革熱疫情在全國、廣東省的病例分布

3實驗數(shù)據(jù)與方法

3.1數(shù)據(jù)

(1) 登革熱病例

本文使用的登革熱病例數(shù)據(jù)來源于中國衛(wèi)生與計劃生育委員會官方網(wǎng)站、各省衛(wèi)生與計劃生育委員會官方網(wǎng)站以及網(wǎng)絡(luò)新聞報道搜索。病例數(shù)據(jù)包括全國各疫情省份和廣東省各疫情市截止2014年10月31日的總病例數(shù),以及廣東省從2014年9月22日到2014年10月30日間每日新增病例數(shù),由于除廣東省的其余省登革熱疫情較輕緩,統(tǒng)一報道較少,因此結(jié)合網(wǎng)絡(luò)新聞搜索共同取得。

(2) 百度指數(shù)

本文使用的百度指數(shù)數(shù)據(jù)來源于百度指數(shù)平臺(http://index.baidu.com)。百度指數(shù)是指關(guān)鍵詞在相應(yīng)時間段內(nèi)的搜索量數(shù)據(jù)。本文采集的數(shù)據(jù)集以天為單位。由于只能得到2014年9月22日到2014年10月30日間廣東省的登革熱每日新增病例數(shù),因此無特別說明外,實驗所使用的關(guān)鍵詞的百度指數(shù)都是指這段時間的數(shù)據(jù)。

3.2方法學(xué)

(1) 關(guān)鍵詞選取

本文根據(jù)登革熱定義和臨床癥狀等方面選取了15個與登革熱密切相關(guān)的搜索關(guān)鍵詞,去除未被百度指數(shù)平臺收錄的3個關(guān)鍵詞,剩下12個關(guān)鍵詞,分別是“登革熱”、“伊蚊”、“皮疹”、“淋巴結(jié)腫大”、“頭痛”、“惡心”、“嘔吐”、“腹瀉”、“便秘”、“關(guān)節(jié)痛”、“發(fā)燒”、“皮膚瘙癢”。

(2) 預(yù)測模型

(1)

(2)

本文應(yīng)用的模型為多元線性回歸模型,在模型式(1)中,Dt為第t天的登革熱新增病例數(shù),Bi,t表示第i個關(guān)鍵詞在第t天的百度指數(shù)數(shù)值,n表示模型中包含的搜索關(guān)鍵字的個數(shù),n∈[1,12],εt表示模型中的殘差項。在模型式(2)(改進(jìn)的模型)中,Dt-j表示對于第t天向前偏移j天后得到的登革熱每日新增病例數(shù)值,j∈[1,7]。

(3) 相關(guān)定義

留一法交叉驗證假設(shè)有n條數(shù)據(jù),將每一條數(shù)據(jù)作為測試集,其余n-1條數(shù)據(jù)作為訓(xùn)練集。重復(fù)方法使每條數(shù)據(jù)都被作為一次測試集。最后本文用測試集的預(yù)測值和實際值之間的相關(guān)性作為評價指標(biāo)。

反向測試指用過去的時間序列數(shù)據(jù)做訓(xùn)練集,預(yù)測未來的時間序列數(shù)據(jù)。假設(shè)數(shù)據(jù)集共M條數(shù)據(jù),用后N條數(shù)據(jù)作測試集。以測試其中的第n點為例,我們將前(M-N+n-1)條數(shù)據(jù)作為訓(xùn)練集構(gòu)建模型,預(yù)測第n點的值。重復(fù)方法N次,最后本文將預(yù)測值和實際值之間的相關(guān)性作為評價指標(biāo)。

逐步回歸為建立最優(yōu)回歸方程,從可供選擇的所有變量中選出對Dt有顯著影響的變量建立“最優(yōu)”回歸方程。

(4) 統(tǒng)計學(xué)分析

本文的相關(guān)性分析采用皮爾森相關(guān)系數(shù)(Pearson)和斯皮爾曼相關(guān)系數(shù)(Spearman)的方法,使用R語言中的cor()函數(shù)完成。多元線形回歸模型使用R語言中的lm()函數(shù)完成,逐步回歸使用R語言中的step()函數(shù)完成。預(yù)測模型的驗證采用留一法交叉驗證LOOCV(Leave-one-out cross validation)和反向測試(Retrospective test),R軟件的版本為R 3.1.2。

4實驗結(jié)果與分析

4.1百度指數(shù)與地區(qū)疫情嚴(yán)重程度的相關(guān)性

為了定性地衡量百度指數(shù)與登革熱疫情的關(guān)聯(lián)性,我們首先分析了關(guān)鍵詞“登革熱”的百度指數(shù)與登革熱疫情嚴(yán)重程度的相關(guān)性。表1展示的是在登革熱流行期間(2014年9月1日到2014年10月31日)各個疫情省份“登革熱”的百度指數(shù)中位數(shù),以及相應(yīng)省份截至2014年10月31日的總病例數(shù)。我們發(fā)現(xiàn)整體上省份病例數(shù)越多其百度指數(shù)越高,經(jīng)計算,兩者存在明顯的正相關(guān):皮爾森相關(guān)系數(shù)(PCC)為0.997,斯皮爾曼相關(guān)系數(shù)(SCC)為0.738。

表1 “登革熱”百度指數(shù)中位數(shù)與病例總數(shù)

注:*表示輸入性病例省份

進(jìn)一步將關(guān)聯(lián)性分析細(xì)化,對廣東省內(nèi)各個疫情市(20個市)的“登革熱”百度指數(shù)中位數(shù)與病例總數(shù)進(jìn)行相關(guān)性分析,同樣發(fā)現(xiàn)兩者之間存在很強(qiáng)的相關(guān)性(PCC=0.928,SCC=0.752),兩者的關(guān)系如圖2所示。

圖2 廣東省各疫情市(除廣州)百度指數(shù)中位數(shù)與該市的病例總數(shù)的關(guān)系

4.2各關(guān)鍵詞的百度指數(shù)與疫情變化的相關(guān)性

前面分析表明,從總體上來說,某地區(qū)的登革熱疫情的嚴(yán)重程度與該地區(qū)的“登革熱”百度指數(shù)相關(guān)性較強(qiáng),說明可以使用百度指數(shù)來定性地評估登革熱疫情的嚴(yán)重性。那么它是否能夠用來預(yù)測登革熱疫情的動態(tài)變化?由于此次登革熱疫情主要發(fā)生在廣東省,因此為定量評估百度指數(shù)與疫情變化的相關(guān)性,本文針對廣東省的疫情動態(tài)進(jìn)行研究。除了關(guān)鍵詞“登革熱”,本文另外選擇了11個與登革熱相關(guān)的關(guān)鍵詞,分析其在廣東省范圍內(nèi)的每日百度指數(shù)與該省登革熱每日新增病例數(shù)的相關(guān)性。圖3(X軸日期間隔為天;Y軸采用雙坐標(biāo),左Y軸為廣東省每日新增病例數(shù)(對應(yīng)實曲線),右Y軸為關(guān)鍵詞的百度指數(shù)數(shù)值(對應(yīng)虛曲線);BI為百度指數(shù)縮寫)舉例展示相關(guān)性較強(qiáng)的5個關(guān)鍵詞的百度指數(shù)與病例數(shù)的曲線。經(jīng)分析,登革熱最常見的癥狀“皮疹”的百度指數(shù)與每日新增病例數(shù)的相關(guān)性最高(PCC=0.825,SCC= 0.823);此外,登革熱名詞“登革熱”和登革熱的常見癥狀“發(fā)燒”、“皮膚瘙癢”以及登革熱的傳染源“伊蚊”的百度指數(shù)都與病例數(shù)有非常強(qiáng)的在時間維度上的正相關(guān)。其他關(guān)鍵詞的百度指數(shù)則與登革熱病例數(shù)的相關(guān)性較弱。

圖3 廣東省每日新增病例數(shù)與各個登革熱相關(guān)關(guān)鍵詞的百度指數(shù)的關(guān)系

4.3模型預(yù)測

為了進(jìn)一步基于百度指數(shù)預(yù)測登革熱疫情動態(tài),本文重點研究基于百度指數(shù)來預(yù)測廣東省的登革熱疫情,建立多元線形回歸模型。該模型以上面相關(guān)性分析中與登革熱疫情相關(guān)的12個關(guān)鍵詞的百度指數(shù)作為自變量,以廣東省每日新增病例數(shù)作為因變量,該模型增加使用逐步回歸方法去除回歸效果不夠明顯的自變量。

(1) 模型訓(xùn)練

為了檢測模型的效果,我們首先將所有數(shù)據(jù)(2014年9月22日至2014年10月30日期間的廣東省每日新增病例數(shù)與12個關(guān)鍵詞在此期間的每日百度指數(shù),39*13)作為訓(xùn)練集進(jìn)行測試。

Input:S={(Ci, Xi_1,Xi_2, …,Xi_12) , i=1,2,…,39}

Process:

Step1//在訓(xùn)練集S上進(jìn)行多元線性回歸分析

Ms <- lm(C~ X1+X2+ …+ X12, S)

Step2//逐步回歸

Ss <- step(Ms)

Step3//預(yù)測值

Ps <- predict(Ss, S)

Step4//相關(guān)性

cor (C, Ps[,1])

Output:{(Ci, Ps[n,1]) , i, n=1,2,…,39}相關(guān)系數(shù)

模型的訓(xùn)練效果顯示,其在訓(xùn)練數(shù)據(jù)上的預(yù)測值和實際值兩者的PCC達(dá)到了0.874,說明模型在訓(xùn)練集上的效果較好。圖4(a)表示該模型在訓(xùn)練數(shù)據(jù)上的預(yù)測值和實際值的關(guān)系。

(2) 模型估計

進(jìn)一步我們使用留一法交叉驗證來評估該模型的效果,循環(huán)將39-1天的數(shù)據(jù)作為訓(xùn)練集,其中另1天的數(shù)據(jù)作為測試集。

Input:S={(Ci, Xi_1, Xi_2,…,Xi_12),i=1,2,…,39}

Process:

Step1 For i=1,2,…,39

//在S上除去第i天的數(shù)據(jù)得到訓(xùn)練集

T <- S[-i,]

//在訓(xùn)練集T上進(jìn)行多元線性回歸分析

Ms <- lm(C~ X1+X2+ …+ X12, T)

//逐步回歸

Ss <- step(Ms)

//預(yù)測值

Ps[i] <- predict(Ss, S)

Step2//相關(guān)性

cor (C, Ps)

Output:{(Ci, Ps[i]) , i =1,2,…,39}的相關(guān)系數(shù)

模型的評估效果顯示,其在留一法交叉驗證的測試集上模型的預(yù)測值和實際值的PCC為0.691,說明該模型在測試數(shù)據(jù)上的效果也較好。圖4表示模型的效果。

圖4 基于登革熱相關(guān)關(guān)鍵詞預(yù)測登革熱疫情的模型的效果

(3) 模型預(yù)測

為了測試模型在實際的登革熱疫情預(yù)測中的效果,本文對該模型做了反向測試,即用某天之前的數(shù)據(jù)訓(xùn)練模型。然后用得到的模型去預(yù)測該天的病例數(shù),進(jìn)而分析其預(yù)測值和實際值的相關(guān)性。在本實驗中,我們使用前31天的數(shù)據(jù)預(yù)測后8天的登革熱病例數(shù)。

Input:S={(Ci, Xi_1, Xi_2,…,Xi_12) , i=1,2,…,39}

Process:

Step1For j=1,2,…,8

//取S的前j+30天的數(shù)據(jù)作為訓(xùn)練集

T <- {Si, i=1,2,…,j+30}

//在訓(xùn)練集T上進(jìn)行多元線性回歸分析

Ms <- lm(C~ X1+X2+ …+ X12, T))

//逐步回歸

Ss <- step(Ms)

//預(yù)測值

Ps[j] <- predict(Ss, Sj+31)

Step2//相關(guān)性

cor (C, Ps)

Output:{(Ci, Ps[j]) , i, j=1,2,…,8}的相關(guān)系數(shù)

通過模型預(yù)測得到后8天的實際值,發(fā)現(xiàn)該模型在反向測試中的效果較差,預(yù)測值和實際值的皮爾森相關(guān)系數(shù)只有0.379。

4.4改進(jìn)的模型預(yù)測

考慮到歷史的登革熱疫情也對當(dāng)前登革熱疫情有一定影響,因此本文將當(dāng)前登革熱疫情N天(N=1~7)前的登革熱病例數(shù)也作為變量加到定量預(yù)測模型中,然后評估新模型的效果。

以反向測試舉例說明新模型的預(yù)測算法:

Input:S={(Ci, Xi_p,Xi_1, Xi_2, …., Xi_12) , i=1,2,…,39}

Process:

Step1For N=1,2,…,7

For j=1,2,…,8

//取S偏移N天后的前j+30-N天的數(shù)據(jù)為訓(xùn)練集

T <- {Si, i=1,2,…,j+30-N }

//在T上進(jìn)行多元線性回歸分析

Ms <- lm(C~Xp+ X1+X2+ …+ X12, T)

//逐步回歸

Ss <- step(Ms)

//預(yù)測值

Ps[j] <- predict(Ss, Sj+31-N)

Step2//相關(guān)性

cor (C, Ps)

Output:偏移1~7天的相關(guān)系數(shù)集Cor[i], i=1,2,…,7。

表2展示了分別把1~7天前的歷史登革熱病例數(shù)作為變量增加到模型中得到的新模型在留一法交叉驗證中的效果??梢园l(fā)現(xiàn),整合歷史數(shù)據(jù)之后,模型不管是在留一法交叉驗證還是反向測試中的效果明顯增加,其中在留一法交叉驗證中,其預(yù)測值與實際值的PCC均在0.75以上;在反向測試中,預(yù)測值與實際值的PCC最高達(dá)到了0.733。

表2 不同偏移時間的模型留一法交叉驗證和反向測試效果

圖5表示在整合7天前的歷史數(shù)據(jù)時模型在留一法交叉驗證和反向測試中的預(yù)測值和實際值的關(guān)系。從圖5(a)可以看到在留一法交叉驗證中,整合7天前的歷史數(shù)據(jù)使得測試值與實際值更為接近;從圖5(b)可以看到在反向測試中,整合7天前的歷史數(shù)據(jù)使得測試值與實際值不僅相關(guān)性較強(qiáng),而且比較接近。因此加入歷史登革熱病例數(shù)據(jù)到模型訓(xùn)練中使得模型的預(yù)測效果得到了很大的提高。

圖5 整合7天前的歷史登革熱病例數(shù)據(jù)得到的改進(jìn)的模型在留一法交叉驗證(a)和反向測試(b)中其預(yù)測值和實際值的關(guān)系

5結(jié)語

本文通過對登革熱相關(guān)關(guān)鍵詞的百度指數(shù)與實際登革熱疫情進(jìn)行相關(guān)性分析,發(fā)現(xiàn)地區(qū)登革熱疫情的嚴(yán)重程度與該地區(qū)的百度指數(shù)存在很強(qiáng)的關(guān)聯(lián)性。與此同時,在廣東省登革熱暴發(fā)期間,每日的登革熱新增病例數(shù)與登革熱相關(guān)關(guān)鍵詞的百度指數(shù)也存在明顯的正相關(guān)。分析發(fā)現(xiàn),與登革熱相關(guān)的幾個關(guān)鍵詞,如“登革熱”、“皮疹”、“發(fā)熱”、“伊蚊”等的百度指數(shù)與實際的登革熱疫情之間存在較強(qiáng)的正相關(guān)。基于與登革熱相關(guān)的12個關(guān)鍵詞的百度指數(shù)建立的登革熱預(yù)測模型在留一法交叉驗證和反向測試中的效果也較好。因此本文構(gòu)建的定量預(yù)測模型能夠比較準(zhǔn)確地預(yù)測廣東省的登革熱疫情動態(tài)。

由于此次登革熱在廣東省暴發(fā)持續(xù)的時間較短,因此本研究的一個不足之處在于研究的時間段不長。然而,本研究發(fā)現(xiàn)的登革熱相關(guān)關(guān)鍵詞的百度指數(shù)和登革熱疫情的關(guān)聯(lián)性非常明顯,而且基于它們建立的模型也確實能夠較為準(zhǔn)確地預(yù)測登革熱的實時疫情。因此,本研究對于國內(nèi)使用互聯(lián)網(wǎng)數(shù)據(jù)監(jiān)測傳染病(特別是登革熱)的工作具有一定的參考價值和指導(dǎo)意義。

參考文獻(xiàn)

[1] 中國疾病預(yù)防控制中心[EB/OL].(2014-11-06).[2015-01-23].http: //www.china.cdc/gwxx/201411/t20141106_10630.htm.

[2] 何劍峰.登革熱流行趨勢及防控策略[J].實用醫(yī)學(xué)雜志,2014(19):3462-3463.

[3] 突發(fā)公共衛(wèi)生事件與傳染病疫情監(jiān)測信息報告管理辦法(衛(wèi)生部令第37號,2006年8月修改版)[EB/OL].(2009-01).[2015-01-23].http://www.nhfpc.gov.cn/jkj/s7913/200901/896c7b47c2d84 b8b84586f17ade28d71.shtml.

[4] 李銳,王增亮,張志杰.互聯(lián)網(wǎng)搜索數(shù)據(jù)與流感預(yù)警[J].中華流行病學(xué)雜志,2013(1):101-103.

[5] Eysenbach G.Tracking flu-related searches on the web for syndromic surveillance[J].AMIA Annu Symp Proc,2006(1):244-248.

[6] Ginsberg J,Mohebbi M H,Patel R S,et al.Detecting influenza epidemics using search engine query data[J].Nature,2009,457(7232):1012-1014.

[7] 李秀婷,劉凡,董紀(jì)昌,等.基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的中國流感監(jiān)測[J].系統(tǒng)工程理論與實踐,2013(12):3028-3034.

[8] Yuan Q Y,Nsoesie E O,Lv B,et al.Monitoring influenza epidemics in china with search query from Baidu[J].PloS ONE,2013,8(5):1-7.

[9] Milinovich G J,Avril S M,Clements A C,et al.Using internet search queries for infectious disease surveillance:screening diseases for suitability[J].BMC Infectious Diseases,2014,14(1):3840.

[10] Althouse B M,Ng Y Y,Cummings D A T.Prediction of Dengue Incidence Using Search Query Surveillance[J].PloS Neglected Tropical Diseases,2011,5(8):e1258.

[11] Chan E H,Sahai V,Conrad C,et al.Using Web search Query Data to Monitor Dengue Epidemics:A New Model for Neglected Tropical Disease Surveillance[J].PloS Neglected Tropical Diseases,2011,5(5):e1206.

[12] Gu H,Chen B,Zhu H,et al.Importance of Internet Surveillance in Public Health Emergency Control and Prevention Evidence From a Digital Epidemiologic Study During Avian Influenza A H7N9 Outbreaks[J].J Med Internet Res,2014,16(1):e20.

[13] Li J,Cardie C.Early Stage Influenza Detection from Twitter[J].Eprint arXiv,2013.

[14] Signorini A,Segre A M,Polgreen P M.The use of Twitter to Track Levels of Disease Activity and Public Concern in the U.S during the Influenza A H1N1 Pandemic[J].PLoS ONE,2011,6(5):e19467.

[15] Fung I C,Fu K W,Ying Y C,et al.Chinese social media reaction to the MERS-CoV and avian influenza A(H7N9) outbreaks[J].Infectious Diseases of Poverty,2013,2(1):31.

[16] Hulth A,Rydevik G,Linde A.Web Queries as a Source for Syndromic Surveillance[J].PLoS ONE,2009,4(2):e4378.

[17] Pivette M,Mueller J E,Crepey P,et al.Drug sales data analysis for outbreak detection of infectious diseases:a systematic literature review[J].BMC Infectious Diseases,2014,14(1):604.

[18] 中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].(2014-01).[2015-01-23].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201403/P020140305346585959798.pdf.

收稿日期:2015-01-28。國家自然科學(xué)基金項目(31371338);國家傳染病重大專項(2013ZX10004611-002,2014ZX10004002-001);湖南大學(xué)青年教師成長計劃項目(531107040720);湖南大學(xué)生物醫(yī)學(xué)超算項目(531106011004)。王晶晶,碩士生,主研領(lǐng)域:生物信息學(xué),數(shù)據(jù)挖掘。鄒遠(yuǎn)強(qiáng),博士生。彭友松,助理研究員。李肯立,教授。蔣太交,教授。

中圖分類號TP391

文獻(xiàn)標(biāo)識碼A

DOI:10.3969/j.issn.1000-386x.2016.07.010

ON PREDICTION OF DENGUE EPIDEMICS BASED ON BAIDU INDEX

Wang Jingjing1Zou Yuanqiang1Peng Yousong1*Li Kenli1Jiang Taijiao1,2

1(SchoolofComputerScienceandElectronicEnginnering,HunanUniversity,Changsha410082,Hunan,China)2(KeyLaboratoryofProteinandPeptidePharmaceutical,NationalLaboratoryofBiomacromolecules,InstituteofBiophysics,ChineseAcademyofSciences,Beijing100101,China)

AbstractIn recent years, the internet data-based epidemics surveillance for infectious diseases has been the hot topic of studies in infectious diseases prevention and treatment. Through analysing the correlation between the dengue epidemic outbreak in September, 2014 in whole China with Guangdong province as the centre and the Baidu index of the keywords correlated to dengue, we found that the severity of dengue epidemic in each province has strong positive correlation with Baidu index of keyword “dengue” in given province. For timely predicting dengue epidemic status, we built a multivariate linear regression model, which is based on the Baidu index of 12 dengue-correlated keywords. In both leave-one-out cross-validation and retrospective testing, the model performed well, with Pearson correlation coefficient between the predicted and actual epidemic size equalling to 0.89 and 0.73 respectively. It was indicated through experiment that this prediction model could be preferably accurate in predicting dengue epidemic status, at the same time our study has certain significance in terms of guidance for internet data-based surveillance, prevention and treatment of infectious diseases.

KeywordsBaidu indexDengueQuantitative prediction model

猜你喜歡
登革熱百度病例
一類具變系數(shù)交錯擴(kuò)散的登革熱模型
登革熱流行現(xiàn)狀及診療進(jìn)展
健康教育在登革熱患者中的應(yīng)用效果觀察
“病例”和“病歷”
Robust adaptive UKF based on SVR for inertial based integrated navigation
百度年度熱搜榜
一例犬中毒急診病例的診治
百度醫(yī)生
百度“放衛(wèi)星”,有沒有可能?
妊娠期甲亢合并胎兒甲狀腺腫大一例報告
贡嘎县| 邯郸市| 哈尔滨市| 临清市| 吉安市| 六枝特区| 邹城市| 庄浪县| 方正县| 柳州市| 科尔| 临江市| 荥经县| 定安县| 始兴县| 浦北县| 黄平县| 新龙县| 耒阳市| 东山县| 淮北市| 巫溪县| 偃师市| 万荣县| 奇台县| 巨野县| 昔阳县| 夹江县| 怀安县| 仙桃市| 肃北| 永春县| 竹溪县| 澄城县| 奈曼旗| 磐安县| 罗源县| 沙洋县| 长兴县| 黄山市| 阳泉市|