貴州省疾病預(yù)防控制中心結(jié)核病防治研究所(貴陽550004)
結(jié)核病是由結(jié)核分枝桿菌感染引起的慢性傳染病,是一種古老而常見且嚴(yán)重危害人類健康的慢性傳染性疾病之一,結(jié)核菌可能侵入人體全身各種器官,但主要侵犯肺臟,是我國重要的公共衛(wèi)生問題之一,結(jié)核病患者數(shù)居全球第二位,2018年WHO 估算[1],我國2017年結(jié)核病新發(fā)患者數(shù)為88.9萬,發(fā)病率為63/10萬,結(jié)核病死亡數(shù)為3.7萬例,死亡率為2.6/10萬,是全球第二大結(jié)核病高負(fù)擔(dān)、高疫情國家。貴州省是我國結(jié)核病疫情較高的省份之一,我省每年報告的肺結(jié)核患者中排在第二位的是學(xué)生,提示,學(xué)生是易感人群,應(yīng)作為我省結(jié)核病防控工作的重點(diǎn)人群[2]。求和自回歸移動平均(autoregres-sive integrated moving average,ARIMA)模型常用于預(yù)測傳染病的短期發(fā)病趨勢,預(yù)測對象可隨時間變化而形成數(shù)據(jù)序列,隨機(jī)變量是一組依賴于時間t的,這組隨機(jī)變量所具有的自相關(guān)性被相應(yīng)的數(shù)學(xué)模型描述出來,表征了預(yù)測對象發(fā)展的延續(xù)性,就可以從時間序列的過去值及現(xiàn)在值預(yù)測未來的值,ARIMA 模型對于我國開展肺結(jié)核發(fā)病率預(yù)測預(yù)警工作具有重要指導(dǎo)意義[3]。本研究采用ARIMA時間序列預(yù)測模型,分析貴州省2013年1月至2017年12月學(xué)生肺結(jié)核發(fā)病數(shù)據(jù),預(yù)測2018年學(xué)生肺結(jié)核發(fā)病的變化趨勢,并與2018 數(shù)據(jù)進(jìn)行對比,從而探索我省學(xué)校結(jié)核病報告發(fā)病預(yù)測的新方法,探索學(xué)生肺結(jié)核發(fā)病的預(yù)測模型,這對早期采取精準(zhǔn)有效的防控措施,在節(jié)約人力、物力、財力的基礎(chǔ)上同時為今后學(xué)校結(jié)核病防控工作中提供科學(xué)理論參考依據(jù)均具有重要意義。
1.1 資料來源2013年1月1日至2017年12月31日肺結(jié)核報告發(fā)病數(shù)的資料來源于“結(jié)核病管理信息系統(tǒng)”,人口資料來源于《貴州年鑒》。
1.2 方法
1.2.1 數(shù)據(jù)整理根據(jù)“結(jié)核病管理信息系統(tǒng)”和《貴州年鑒》收集相關(guān)數(shù)據(jù),并按照年、月份歸類整理。
1.2.2 建立ARIMA 模型
1.2.2.1 繪制時間序列圖 根據(jù)2013-2017年貴州省學(xué)生肺結(jié)核月發(fā)病數(shù)據(jù)繪制時間序列圖,初步確定p,d,q和P,D,Q的值是通過計算自相關(guān)系數(shù)(Autocorrelation Function,ACF)和偏自相關(guān)系數(shù)(Partial Autocorrelation Function,PACF),從而分析序列平穩(wěn)性。
1.2.2.2 模型擬合 采用SPSS 19.0 軟件中的“專家建模器”中選擇“ARIMA 模型”對模型反復(fù)擬合分析、比較;通過分析擬合篩選出最優(yōu)模型,比較的主要指標(biāo)有平穩(wěn)的R2(該統(tǒng)計量用于比較模型中的固定成分與簡單均值模型的差別,該值越高則擬合越好)、R2(該統(tǒng)計量表示模型所能解釋的數(shù)據(jù)變異占變異的比例)、正態(tài)化BIC(該統(tǒng)計量基于均方誤差統(tǒng)計量,并考慮了模型的參數(shù)個數(shù)和序列數(shù)據(jù)個數(shù))。
1.2.2.3 預(yù)測預(yù)警分析 通過模型的反復(fù)修正和改進(jìn)后篩選出擬合度最優(yōu)模型,并應(yīng)用此模型對貴州省學(xué)校結(jié)核病發(fā)病率進(jìn)行預(yù)測和預(yù)警分析。1.3 統(tǒng)計學(xué)方法 學(xué)生肺結(jié)核病例資料用WPS Office 建立數(shù)據(jù)庫,采用SPSS 19.0 統(tǒng)計學(xué)分析,計算2013-2017年各年度學(xué)生肺結(jié)核報告發(fā)病率,進(jìn)行趨勢分析,檢驗水準(zhǔn)α=0.05。
2.1 總體情況2013-2017年貴州省共報告學(xué)生肺結(jié)核20 620例,年均報告發(fā)病數(shù)為4 124例,年均報告發(fā)病率為46.01/10萬,學(xué)生肺結(jié)核報告發(fā)病率差異有統(tǒng)計學(xué)意義(χ2= 345.677,P<0.001)。見表1。
表1 貴州省2013-2017年學(xué)生肺結(jié)核報告發(fā)病情況Tab.1 Reported incidence of tuberculosis among students in Guizhou Province from 2013 to 2017
2.2 模型識別
2.2.1 繪制時間序列圖繪制2013-2017年全省學(xué)生肺結(jié)核報告發(fā)病數(shù)的時間序列圖(圖1),總體無上升和下降趨勢,月發(fā)病數(shù)主要集中在187~688例,平均343.7例,顯示發(fā)病數(shù)是隨時間變化而變化的,呈季節(jié)變化的趨勢關(guān)系,以年為周期,每年發(fā)生相似的變化,表現(xiàn)為冬春季升高,夏秋季下降,序列的平均水平波動較大,說明該序列為非平穩(wěn)的時間序列。
2.2.2 初步確定模型參數(shù)通過對序列進(jìn)行12 步差分處理可能達(dá)到有效控制序列的長期趨勢和季節(jié)周期性,原序列經(jīng)1 階差分后為平穩(wěn)序列(圖2),初步確定模型ARIMA(p,d,q)(P,D,Q)s中參數(shù)d=1,D=1。該序列具有連續(xù)相關(guān)性和季節(jié)性,季節(jié)以12個月為周期,在“專家建模器”的條件設(shè)置中選擇的兩種模型均考慮復(fù)合季節(jié)模型。2.3 參數(shù)估計 模型參數(shù)估計運(yùn)用最大似然估計(maximum likelihood estimation,MLE)或者最小二乘法估計(least squares estimation,LSE),本研究采用最大似然估計,獲得模型ARIMA(p,d,q)(P,D,Q)s 中的p、q、P、Q 參數(shù),經(jīng)差分后,繪制序列的自相關(guān)系數(shù)圖(ACF)和偏自相關(guān)系數(shù)圖(PACF)(圖3)。在SPSS19.0 軟件中,依次給參數(shù)p、q、P、Q分別賦值,根據(jù)每次賦值后的參數(shù)差異有無統(tǒng)計學(xué)意義來判斷模型擬合情況,從而確定模型參數(shù)。
圖1 2013-2017年貴州省學(xué)生肺結(jié)核按月發(fā)病數(shù)時間序列圖Fig.1 Time series of monthly incidence of tuberculosis among students in Guizhou Province from 2013 to 2017
圖2 2013-2017年貴州省學(xué)生肺結(jié)核原序列經(jīng)差分后時間序列圖Fig.2 Time series after differential analysis of the original sequence of tuberculosis in Guizhou students in 2013-2017
圖3 原序列經(jīng)差分后ACF和PACF 圖Fig.3 ACF and PACF of the original sequence after difference
圖4 殘差A(yù)CF和PACF 圖Fig.4 Residual ACF and PACF
2.4 模型診斷經(jīng)過不斷篩選反復(fù)擬合,篩選出擬合度較好的2個模型是ARIMA(0,1,0)(0,1,0)12和ARIMA(0,1,1)(1,1,0)12,從ARIMA(0,1,0)(0,1,0)12模型的擬合值和實際值較接近,因此是擬合度最好的模型(圖5-6)。從擬合度檢驗結(jié)果看,雖然2個模型的固定R2均大于0,但ARIMA(0,1,0)(0,1,0)12模型的平穩(wěn)R2和R2更接近1,分別是0.842、0.842,統(tǒng)計量、模型參數(shù)差異具有統(tǒng)計學(xué)意義,擬合度較好。見表2。
2.5 預(yù)測與檢驗經(jīng)過擬合度檢驗,選擇ARIMA(0,1,0)(0,1,0)12模型作為預(yù)測模型,預(yù)測我省2018年學(xué)生肺結(jié)核報告發(fā)病絕對數(shù)。通過預(yù)測結(jié)果提示,報告發(fā)病高峰在3、10和9月,以95%CI的上限作為預(yù)警指標(biāo),本研究年度預(yù)警值為5 417例。見表3。
圖5 2013-2017年學(xué)生肺結(jié)核發(fā)病數(shù)ARIMA(0,1,1)(1,1,0)12模型擬合圖Fig.5 ARIMA(0,1,1)(1,1,0)12 model fitting chart of tuberculosis incidence in 2013-2017
圖6 2013-2017年學(xué)生肺結(jié)核發(fā)病數(shù)ARIMA(0,1,0)(0,1,0)12模型擬合圖Fig.6 ARIMA(0,1,0)(0,1,0)12 model fitting chart of tuberculosis incidence in 2013-2017
表2 學(xué)生肺結(jié)核發(fā)病入選模型擬合度檢驗結(jié)果Tab.2 Test results of fitting degree of selected model of tuberculosis incidence in students
表3 ARIMA 模型預(yù)測2018年貴州省學(xué)生肺結(jié)核發(fā)病數(shù)Tab.3 ARIMA model predicts the incidence of tuberculosis among students in Guizhou Province in 2018
學(xué)生肺結(jié)核預(yù)測在學(xué)校結(jié)核病防治工作中具有重要意義,因此選擇精確的預(yù)測方法至關(guān)重要[4]。ARIMA是一種靈敏度較高的序列分析預(yù)測模型,在傳染病發(fā)病率的預(yù)測中應(yīng)用較廣泛[4-7]。本研究采用2013-2017年貴州省學(xué)生肺結(jié)核報告發(fā)病數(shù)建立ARIMA 預(yù)測模型,通過反復(fù)篩選后確定適合的模型為ARIMA(0,1,0)(0,1,0)12,初步建立我省學(xué)生肺結(jié)核較敏感的發(fā)病預(yù)測模型,以期早期發(fā)現(xiàn)疫情并及時采取處置措施,防止疫情擴(kuò)散,對學(xué)校結(jié)核病防控工作達(dá)到預(yù)警作用。結(jié)果顯示,2013-2017年的實際數(shù)與模型擬合數(shù)基本一致,實際數(shù)均在95%置信區(qū)間內(nèi),模型對2018年每月學(xué)生肺結(jié)核發(fā)病數(shù)的預(yù)測值與實際報告發(fā)病數(shù)進(jìn)行比較,提示本研究建立的模型基本合理。
學(xué)生是我省結(jié)核病防控的重點(diǎn)人群之一[8]。本研究學(xué)生肺結(jié)核的年均報告發(fā)病率為46/10萬,高于廣西[9]13.06/10萬、浦江[10]17.56/10萬,低于西藏[11]84.56/10萬,年度發(fā)病率差異有統(tǒng)計學(xué)意義,2017年的發(fā)病率比往年有明顯增高,提示我省學(xué)生肺結(jié)核總體疫情仍不容忽視,提高學(xué)校結(jié)核病聚集性疫情可能發(fā)生的警惕性,應(yīng)加強(qiáng)我省學(xué)校結(jié)核病防控工作。
學(xué)校的特點(diǎn)主要是人口密度較大、學(xué)生接觸密切,而且學(xué)習(xí)氛圍較緊張、學(xué)生抵抗力降低等可能發(fā)生流行。肺結(jié)核不僅影響學(xué)生的身心健康和學(xué)業(yè)造成影響,也可能給家庭宿舍、校園健康和社會穩(wěn)定帶來不良影響[12]。研究顯示,肺結(jié)核報告發(fā)病數(shù)隨時間變化的趨勢關(guān)系,波動有一定的季節(jié)變化,冬春季升高,夏秋季下降,與全國發(fā)病和報告高峰基本一致[13]。從時間序列圖看,3-5月是發(fā)病高峰,其次是12-2月,可能春季多是畢業(yè)生體檢高峰,冬春季天氣較濕冷,教室、宿舍等人口密集的公共場所通風(fēng)不良等因素有關(guān)。同時,可能由于學(xué)習(xí)負(fù)擔(dān)重,尤其是畢業(yè)生,作息時間不規(guī)律、飲食營養(yǎng)攝入不足、體育鍛煉減少等原因使學(xué)生身體抵抗力降低[12];也可能與每年全省開展“3·24世界結(jié)核病防治日”的宣傳活動有關(guān)。因此,不斷完善結(jié)核病患者的發(fā)現(xiàn)機(jī)制,統(tǒng)籌合理配置醫(yī)療資源,不斷提高醫(yī)療機(jī)構(gòu)服務(wù)能力是重要策略,也是降低結(jié)核病疫情的必要措施[14]。
本研究采用的是肺結(jié)核學(xué)生病例建立、分析并篩選出最優(yōu)預(yù)測模型,從而對2018年發(fā)病絕對數(shù)進(jìn)行預(yù)測,95%CI的預(yù)測上限可作為學(xué)生肺結(jié)核可能出現(xiàn)異常、聚集性、暴發(fā)等預(yù)警指標(biāo),提示,報告發(fā)病數(shù)出現(xiàn)異常值可能造成暴發(fā)或流行,但也可能與防控策略、患者發(fā)現(xiàn)、診療和服務(wù)模式、診斷標(biāo)準(zhǔn)和數(shù)據(jù)填報等有關(guān),或者是其他社會事件的影響[9]。KUANG 等[15]也認(rèn)為,與潛伏期長的傳染病相比,潛伏期短的傳染病靈敏度低,但更能及時發(fā)現(xiàn)暴發(fā)。因此,應(yīng)充分理解時下與防控措施相關(guān)的政策性文件、新出臺的肺結(jié)核診斷標(biāo)準(zhǔn)和可能的社會事件等綜合對異常值進(jìn)行判定,排除非疾病本身的因素后,結(jié)合現(xiàn)場流行病學(xué)調(diào)查和分子流行病學(xué)分析[16-18],在對疫情性質(zhì)和傳播模式進(jìn)行定性時應(yīng)采取相應(yīng)的防控干預(yù)策略。ARIMA 模型隨著時間的延長,預(yù)測誤差會增大,但總體來說預(yù)測準(zhǔn)確性較高[14],但預(yù)測值與實際值仍存在一定的偏差[19],本研究的預(yù)測值和實際值存在一定的差異,ARIMA 模型更廣泛應(yīng)用于短期預(yù)測,相關(guān)研究也顯示[20-21],隨著時間的延長,觀察對象不斷增加,在實際工作中需要提高監(jiān)測工作質(zhì)量,持續(xù)更新修正模型,才能獲得更加準(zhǔn)確而實用的預(yù)測結(jié)果。
本研究的模型是針對全省監(jiān)測數(shù)據(jù),數(shù)據(jù)質(zhì)量可靠程度直接關(guān)系預(yù)警系統(tǒng)的有效性,這對縣級定點(diǎn)醫(yī)院結(jié)核門診醫(yī)師在詢問、錄入信息時確保學(xué)生信息的準(zhǔn)確性具有較高要求,嚴(yán)格按照健康檢查、轉(zhuǎn)診、追蹤等正確信息錄入。今后可以考慮各縣區(qū)根據(jù)當(dāng)?shù)財?shù)據(jù)建立模型,不斷提高模型預(yù)警的敏感性、及時性和準(zhǔn)確性。