国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

2011—2017年基于百度搜索指數(shù)的全國手足口病預(yù)測研究

2020-07-27 05:32:52紀(jì)煥林張燕婷羅淦豐
關(guān)鍵詞:口病百度傳染病

紀(jì)煥林,張燕婷,羅淦豐,李 克

(1.汕頭大學(xué)醫(yī)學(xué)院公共衛(wèi)生與預(yù)防醫(yī)學(xué)教研室,廣東 汕頭 515041;2.中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計與流行病學(xué)系,廣東廣州 510080;3.中山大學(xué)公共衛(wèi)生學(xué)院(深圳),廣東 深圳 518107)

手足口病是以多種腸道病毒為病原體的傳染病,目前已成為全國傳染病報告發(fā)病率排名前五的丙類傳染病[1],對5歲以下的兒童造成了嚴(yán)重的疾病負(fù)擔(dān)[2]。傳統(tǒng)的疾病監(jiān)測系統(tǒng)是通過逐層上報的形式,數(shù)據(jù)發(fā)布上有延遲。近年來,已有不少研究通過挖掘互聯(lián)網(wǎng)搜索數(shù)據(jù),建立數(shù)學(xué)模型對傳染病進(jìn)行預(yù)測[3-4],證明了網(wǎng)絡(luò)搜索數(shù)據(jù)對傳染病疫情有一定的預(yù)測能力。本研究旨在建立一個結(jié)合百度關(guān)鍵詞搜索指數(shù)和全國手足口病發(fā)病數(shù)的自回歸移動平均模型(autoregressive integrated moving average,ARIMA),對手足口病的發(fā)病進(jìn)行監(jiān)測和預(yù)測。

1 資料與方法

1.1 數(shù)據(jù)來源

2011—2017年手足口病的發(fā)病數(shù)據(jù)來源于中國疾病預(yù)防與控制中心公布的數(shù)據(jù)(http://www.phsciencedata.cn/Share/),其中2011年1月—2016年12月數(shù)據(jù)用于模型擬合,2017年1—12月的數(shù)據(jù)用于模型驗證。對應(yīng)時間的百度關(guān)鍵詞搜索指數(shù)數(shù)據(jù)從百度指數(shù)官網(wǎng)(http://index.baidu.com)上以月為單位進(jìn)行收集。

1.2 研究內(nèi)容與方法

1.2.1 構(gòu)建綜合百度搜索指數(shù) 從手足口病的疾病名稱、癥狀、治療和預(yù)防4個維度入手,結(jié)合相關(guān)領(lǐng)域文獻(xiàn),參考百度關(guān)鍵詞挖掘工具(http://tool.chinaz.com/baidu/words.aspx)選擇關(guān)鍵詞并擴(kuò)展,初步獲取了240個與手足口病相關(guān)的基礎(chǔ)關(guān)鍵詞,計算每個關(guān)鍵詞的搜索指數(shù)與手足口病發(fā)病數(shù)的Spearman相關(guān)系數(shù),按照相關(guān)系數(shù)r>7且有統(tǒng)計學(xué)意義(P<0.05)的原則,篩選出最終納入分析的關(guān)鍵詞。然后構(gòu)建綜合百度搜索指數(shù),即計算每個關(guān)鍵詞的搜索指數(shù)與發(fā)病數(shù)的相關(guān)系數(shù)在所有相關(guān)系數(shù)之和中的權(quán)重系數(shù),再將該權(quán)重系數(shù)與對應(yīng)的關(guān)鍵詞的搜索指數(shù)相乘,最后求和得到。最后計算綜合百度搜索指數(shù)與全國發(fā)病數(shù)據(jù)的Spearman相關(guān)系數(shù),確定相關(guān)性的大小。相關(guān)公式如下:

式中,ρi為第i個關(guān)鍵詞的搜索指數(shù)與發(fā)病數(shù)的相關(guān)系數(shù);Weighti為第i個關(guān)鍵詞的權(quán)重系數(shù);Keywordi為第i個關(guān)鍵詞的搜索指數(shù)。

1.2.2 模型擬合 ARIMA模型是一種將ARMA模型與差分運算組合的時間序列預(yù)測方法,即建立一個由因變量和隨機(jī)誤差對平穩(wěn)時間序列的滯后值影響的模型,公式為ARIMA(p,d,q)×(P,D,Q)s,該模型應(yīng)用的前提條件是所要預(yù)測數(shù)列的個體值需相對穩(wěn)定[5]。本研究通過時序圖及單位根檢驗來判斷時間序列的平穩(wěn)性,采用差分處理將不平穩(wěn)的序列轉(zhuǎn)換為平穩(wěn)序列,用極大似然法估計模型參數(shù)。模型殘差通過Ljung-Box方法判斷是否為隨機(jī)序列。根據(jù)赤池信息準(zhǔn)則來判斷模型的擬合優(yōu)度,AIC值最小時為最優(yōu)模型。以上方法通過R軟件中的“tseries”和“forecast”包實現(xiàn)。

1.2.3 模型預(yù)測 模型的預(yù)測效果使用均方根誤差百分比(root mean squared percent error,RMSPE)和平均絕對百分比誤差(mean absolute percent error,MAPE)來評價[6],其值越小,說明模型預(yù)測性能越好。計算公式如下:

式中,Ti表示第i個真實值;Pi表示第i個預(yù)測值。

1.3 統(tǒng)計學(xué)方法

模型的分析及作圖使用軟件R 3.4.1,檢驗水準(zhǔn)均為a=0.05,P<0.05認(rèn)為差異有統(tǒng)計學(xué)意義。

2 結(jié)果

2.1 2011—2017年全國手足口病發(fā)病概況

2011—2017年全國共計發(fā)病達(dá)14 787 625人,月平均發(fā)病數(shù)176 043人,年平均發(fā)病率約154/10萬。

2.2 關(guān)鍵詞的篩選與綜合百度搜索指數(shù)的構(gòu)建

分別對240個百度關(guān)鍵詞搜索指數(shù)和全國手足口病發(fā)病數(shù)進(jìn)行相關(guān)分析,按r>0.7,P<0.05的條件,篩選出19個關(guān)鍵詞,見表1。根據(jù)19個關(guān)鍵詞的百度搜索指數(shù)及其與全國手足口病發(fā)病數(shù)的相關(guān)系數(shù)進(jìn)行加權(quán)來構(gòu)建綜合百度搜索指數(shù)。全國手足口病發(fā)病數(shù)與綜合百度搜索指數(shù)的相關(guān)系數(shù)r=0.94,P<0.05。

2.3 模型擬合

2.3.1 時間序列平穩(wěn)化 用2011年1月—2016年12月的發(fā)病數(shù)據(jù)構(gòu)建時間序列,繪制時序圖,發(fā)現(xiàn)序列為非平穩(wěn)序列,需進(jìn)行差分處理。差分后通過單位根檢驗得DF=-4.176 5,P<0.05,說明該序列已經(jīng)平穩(wěn),d與D取值為1。序列的季節(jié)周期為12個月,故s=12。

2.3.2 模型的定階 繪制自相關(guān)圖和偏自相關(guān)圖后發(fā)現(xiàn)自相關(guān)系數(shù)拖尾,q可取值0。偏自相關(guān)系數(shù)2階后截尾,p可取值1或2。P,Q值一般不會超過2,分別對P,Q值取0、1逐個嘗試,結(jié)合AIC值判斷,最終確定的模型為ARIMA(2,1,0)(0,1,1)12,此模型的AIC值最小。

表1 19個百度關(guān)鍵詞與手足口病發(fā)病數(shù)的相關(guān)性

2.3.3 模型驗證 對此模型殘差進(jìn)行白噪聲檢驗,Ljung-Box統(tǒng)計量Q=0.165,P=0.684,未通過顯著性檢驗,殘差是隨機(jī)序列,證明該模型已充分提取原序列信息,可進(jìn)行預(yù)測。

2.4 模型預(yù)測效果比較

2017年1—12月手足口病實際發(fā)病數(shù)與模型預(yù)測發(fā)病數(shù)見表2,進(jìn)一步計算模型的預(yù)測效果指標(biāo),得到基于百度指數(shù)的模型的MAPE=24.86%,RMAPE=29.86%;單獨利用發(fā)病歷史數(shù)據(jù)的模型的MAPE=27.58%,RMAPE=35.50%,說明前者的預(yù)測準(zhǔn)確度要更好?;诎俣人阉髦笖?shù)建立的ARIMA模型與單獨利用發(fā)病歷史數(shù)據(jù)建立的ARIMA模型的預(yù)測效果見圖1、圖2。

3 討論

百度指數(shù)是大數(shù)據(jù)時代重要的統(tǒng)計分析數(shù)據(jù),客觀地記錄了各個關(guān)鍵詞每日的搜索量。網(wǎng)絡(luò)搜索詞量的動態(tài)變化一定程度上反映了該地區(qū)相關(guān)疾病流行情況和人群中發(fā)病及求醫(yī)的信息[7]。ARIMA模型是應(yīng)用于傳染病預(yù)測最常用的方法之一[8-9],其綜合考慮了傳染病的周期性、季節(jié)性、隨機(jī)性等可能影響序列平穩(wěn)性的因素,提高了模型的預(yù)測和擬合效果。利用網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行傳染病的預(yù)測已成為研究熱點之一,國外研究基于“谷歌”搜索引擎已有登革熱[10]、流行性感冒[11]谷歌趨勢預(yù)測,國內(nèi)更多的研究是挖掘百度搜索指數(shù),進(jìn)行不同數(shù)學(xué)模型預(yù)測,如流行性感冒[12]、登革熱[13]、紅斑性肢痛癥[14]等,也有對清遠(yuǎn)市做基于百度指數(shù)的手足口病不同數(shù)學(xué)模型的預(yù)測研究[15-16],但目前尚無基于百度搜索指數(shù)的全國手足口病ARIMA發(fā)病預(yù)測模型研究。

表2 2017年1—12月的實際發(fā)病數(shù)與模型預(yù)測發(fā)病數(shù)(人)

圖1 基于百度搜索指數(shù)的ARIMA模型預(yù)測效果圖

圖2 基于發(fā)病歷史數(shù)據(jù)的ARIMA模型預(yù)測效果圖

本研究利用關(guān)鍵詞挖掘工具,從240個百度關(guān)鍵詞最終篩選出19個相關(guān)系數(shù)大于0.7的關(guān)鍵詞,然后加權(quán)構(gòu)建綜合百度搜索指數(shù),提高了預(yù)測的精確度。綜合百度搜索指數(shù)與手足口病發(fā)病數(shù)的相關(guān)性為0.94,同時,兩者變化的趨勢較為一致,說明使用百度指數(shù)進(jìn)行手足口病發(fā)病的預(yù)測是合理且可靠的。利用建立的ARIMA模型進(jìn)行預(yù)測,發(fā)現(xiàn)用結(jié)合百度搜索指數(shù)建立的ARIMA模型相對于只基于手足口病發(fā)病數(shù)建立的ARIMA模型,前者的MAPE值以及RMSPE值都比較低,說明使用百度搜索指數(shù)可以更好地提升ARIMA模型的預(yù)測性能。

本研究也存在一定局限性,百度關(guān)鍵詞受到網(wǎng)民文化教育水平、個體健康需求等的影響,導(dǎo)致關(guān)鍵詞范圍寬泛;另一方面,人們也可能受媒體報道的影響,使百度指數(shù)存在媒體效應(yīng),造成百度指數(shù)的虛浮。盡管如此,挖掘互聯(lián)網(wǎng)大數(shù)據(jù)對傳染病進(jìn)行發(fā)病預(yù)測的方法,為傳染病的監(jiān)測和防控提供了一個新思路。隨著大數(shù)據(jù)時代的來臨,百度指數(shù)作為一個方便、免費、易得的數(shù)據(jù)來源,應(yīng)用前景廣泛,未來可以使用不同的數(shù)學(xué)模型,結(jié)合全國或不同地區(qū)的傳染病發(fā)病數(shù)據(jù),建立預(yù)測性能更優(yōu)的傳染病監(jiān)測系統(tǒng)。

猜你喜歡
口病百度傳染病
《傳染病信息》簡介
傳染病信息(2022年3期)2022-07-15 08:25:08
傳染病的預(yù)防
肝博士(2022年3期)2022-06-30 02:48:50
3種傳染病出沒 春天要格外提防
手足口病那些事
警惕手足口病
幼兒園(2020年18期)2020-12-30 11:58:02
孩子“口腔潰瘍”警惕手足口病惹禍
Robust adaptive UKF based on SVR for inertial based integrated navigation
呼吸道傳染病為何冬春多發(fā)
百度年度熱搜榜
青年與社會(2018年2期)2018-01-25 15:37:06
百度遭投行下調(diào)評級
IT時代周刊(2015年8期)2015-11-11 05:50:22
盱眙县| 西华县| 贵德县| 乌鲁木齐市| 东港市| 白银市| 内黄县| 莱州市| 陇南市| 肇源县| 邹城市| 永兴县| 吴川市| 惠来县| 黑水县| 衡阳县| 合江县| 浏阳市| 永平县| 灵宝市| 拜泉县| 台湾省| 陆川县| 汪清县| 泾川县| 大埔县| 东乌珠穆沁旗| 喀喇沁旗| 格尔木市| 开封县| 育儿| 雅安市| 湟中县| 景谷| 肇源县| 鄢陵县| 阳江市| 余庆县| 延长县| 聊城市| 丹江口市|