周江娥 胡堯 商明菊
摘 要:多元時(shí)間序列中的尾指數(shù)變點(diǎn)檢測在理論和實(shí)際應(yīng)用中都有著廣泛應(yīng)用。本文利用單分位數(shù)方法(Single Quantile Method)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量檢測和估計(jì)出多元時(shí)間序列數(shù)據(jù)尾指數(shù)變點(diǎn),證明其極限分布。在模擬研究中,分別產(chǎn)生三個(gè)經(jīng)典的厚尾分布類型隨機(jī)數(shù)進(jìn)行模擬研究,結(jié)果表明,單分位數(shù)方法對多元時(shí)間序列尾指數(shù)的變點(diǎn)檢測是有效的,尤其對分布變化造成的尾指數(shù)變化的情形更加敏感與準(zhǔn)確。最后將該方法應(yīng)用于深圳市香蜜湖路市委黨校南行路段車流量數(shù)據(jù),結(jié)果顯示該方法能準(zhǔn)確檢測出交通流變點(diǎn),根據(jù)存在的變點(diǎn)分析出交通流的變化規(guī)律。
關(guān)鍵詞:單分位數(shù)方法; 變點(diǎn); 多元時(shí)間序列; 厚尾分布; 尾指數(shù)
中圖分類號:O212
文獻(xiàn)標(biāo)識碼: A
通常,我們將樣本用一個(gè)分布或者模型進(jìn)行刻畫,變點(diǎn)則是指其分布、模型或其參數(shù)突然發(fā)生改變之點(diǎn)稱為變點(diǎn),通過變點(diǎn)檢測可以分析出造成該變點(diǎn)的原因,從而找到有效的解決辦法。自Page以來,大量的研究都致力于變點(diǎn)分析這一理論及其在各個(gè)領(lǐng)域中的應(yīng)用[1]。在現(xiàn)有的方法中,Cusum檢驗(yàn)因其在實(shí)際應(yīng)用中的易用性而長期流行,與似然法相比,原序列真實(shí)分布未知情況可使用Cusum方法。例如文獻(xiàn)[2,3]。在金融和生物統(tǒng)計(jì)中,數(shù)據(jù)常具有尖峰厚尾的性質(zhì),尾指數(shù)是描述此特征的一個(gè)重要指標(biāo)。實(shí)際應(yīng)用中,大多數(shù)文獻(xiàn)關(guān)注的是導(dǎo)致極端事件發(fā)生變化的均值或方差,但尾部的變化(即尾指數(shù)變化)會(huì)導(dǎo)致更多的極端事件。
極端現(xiàn)象的統(tǒng)計(jì)建模和分析是非常關(guān)鍵的,因?yàn)闉?zāi)害和恐慌事件(如洪水、大地震和股市崩盤)的潛在風(fēng)險(xiǎn)可以事先確定,從而使它們得到充分的管理或預(yù)防。在此基礎(chǔ)上,研究極值理論中的變點(diǎn)檢驗(yàn)問題,特別是由于尾指數(shù)代表分布的肥胖程度,并確定了樣本最大值等極值漸近分布的形狀,因此本文重點(diǎn)研究分布尾指數(shù)的變點(diǎn)檢測。尾指數(shù)估計(jì)問題是幾十年來統(tǒng)計(jì)、金融、水文[4]、可靠性和通信工程中的一個(gè)核心問題。Quintos et al.和Kim et al.發(fā)展了一種檢測分布尾指數(shù)參數(shù)變點(diǎn)的方法,這兩種方法都是基于Hill的尾指標(biāo)估計(jì),都是針對厚尾分布而進(jìn)行的[5,6]。根據(jù)Lee et al.提出的檢驗(yàn)程序,考慮尾序過程,構(gòu)造Cusum檢驗(yàn)并證明尾序列過程在假設(shè)尾指數(shù)保持為常數(shù)的原假設(shè)下弱收斂于布朗運(yùn)動(dòng)[7]。
本文將根據(jù)Oka et al.提出的變點(diǎn)估計(jì)修正單分位數(shù)方法進(jìn)行樣本尾指數(shù)變點(diǎn)檢測,利用Cusum檢驗(yàn)思想,主要是針對多元時(shí)間序列尾指數(shù)變點(diǎn)檢測[8]。采用單分位數(shù)方法對多元時(shí)間序列進(jìn)行樣本尾指數(shù)變點(diǎn)檢測。文章主要從以下方面進(jìn)行:首先,進(jìn)行模型基本假設(shè)介紹、檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造和統(tǒng)計(jì)量極限分布的證明;其次,變點(diǎn)存在性檢驗(yàn)及臨界值的模擬計(jì)算;然后,針對三個(gè)經(jīng)典厚尾分布類型模擬數(shù)據(jù)進(jìn)行模擬研究,最后,利用本文提出的方法對深圳市香蜜湖路市委黨校南行路段車流量數(shù)據(jù)進(jìn)行變點(diǎn)存在性研究分析。
1 模型理論介紹
1.1 模型基本假設(shè)
利用變點(diǎn)檢測模型檢測多元時(shí)間序列中樣本尾指數(shù)的變化,我們假設(shè)所有隨機(jī)變量都被定義在概率空間(Ω,P)中。假設(shè)樣本觀測值為{Zit,i=1,…,n,t=1,…,T}是一個(gè)非負(fù)隨機(jī)變量序列,其i是指某個(gè)個(gè)體(如:年),t是指時(shí)間(如:天)。設(shè)m是將樣本劃分為m+1段的m個(gè)未知變點(diǎn),及T1,…,Tm為對應(yīng)未知變點(diǎn)。對于每個(gè)i,假設(shè)Zit~fj,對于t∈[Tj-1,Tj),j=1,…,m+1,其中T0=1,Tm+1=T+1,fj是其分布函數(shù),使得fj在實(shí)際應(yīng)用中不同于fj-1和fj+1。為了避免估計(jì)的序列樣本量過少,進(jìn)行變點(diǎn)檢測時(shí)默認(rèn)對原序列存在以下可能的劃分:Λε={(T1,…,Tm):Tj-Tj-1≥εT,T1≥εT,Tm≤(1-ε)T},其中ε>0是個(gè)較小的常數(shù)。Kim et al.提出的基于累積和檢測時(shí)間序列尾指數(shù)變化的模型,將其應(yīng)用到多元時(shí)間序列尾指數(shù)變點(diǎn)檢測中。尾指數(shù)是衡量樣本尾部分布的肥胖程度的指標(biāo)[9]。對于該變點(diǎn)檢測問題,有如下假設(shè):
2 變點(diǎn)存在性檢驗(yàn)
2.1 變點(diǎn)存在性檢驗(yàn)步驟
由尾指數(shù)計(jì)算公式得出的各樣本尾指數(shù)情況如表1所示,可以看出在樣本的參數(shù)變化時(shí)其尾指數(shù)也隨之變化。 但在實(shí)際情況下,我們是無法從散亂的數(shù)據(jù)中觀測到該變化。下面的模擬研究中我們將針對上述三個(gè)類型分布數(shù)據(jù)中檢測其尾指數(shù)的變化,即尾指數(shù)變點(diǎn)存在性檢驗(yàn)。
3.2 臨界值的確定
檢驗(yàn)統(tǒng)計(jì)量的極限分布性質(zhì)檢測尾指數(shù)變點(diǎn)存在情況,由于臨界值通過其極限分布不容易計(jì)算,所以通過蒙特卡洛模擬(Monte Carlo simulation)方式獲得檢驗(yàn)法則中的臨界值,即在給定顯著性水平為α的條件下,分別產(chǎn)生隨機(jī)數(shù)εi,且εi~N(0,1)樣本量為1000,模擬10000次,α分別取01,0.05,0.01,計(jì)算μn,1,得到10000次模擬最大值的(1-α)分位數(shù)即為對應(yīng)α水平下的臨界值,其結(jié)果展示如表2。
由上表可以看出單分位數(shù)方法對多元時(shí)間序列尾指數(shù)變點(diǎn)檢測在顯著性水平α=0.05下準(zhǔn)確度相對最高,且針對三個(gè)分布類型數(shù)據(jù)當(dāng)分布從正態(tài)分布變化到t分布時(shí)檢測正確率很高,說明該方法針對分布變化導(dǎo)致尾指數(shù)變化情形的變點(diǎn)識別更加精確,且運(yùn)算速度較快,尤其對于t分布的檢測時(shí)間比其他兩種分布都少。
對于多變點(diǎn)檢測,本文采用二分法原理,結(jié)合二分法來對變點(diǎn)個(gè)數(shù)和位置的估計(jì)簡單描述如下: 第一步,通過上文所述變點(diǎn)存在性檢驗(yàn)方法在全部數(shù)據(jù)集{Zit}上檢驗(yàn)變點(diǎn)是否存在,若沒有變點(diǎn)則終止程序,表明整個(gè)數(shù)據(jù)集不存在變點(diǎn); 否則,我們可以估計(jì)出第一個(gè)變點(diǎn)T^1。第二步,基于變點(diǎn)T^1將數(shù)據(jù)序列{Zit}分為兩個(gè)子集{Zit}T^1-1t=1與{Zit}Tt=T^1,則類似地用同樣的方法檢驗(yàn)子序列{Zit}T^1-1t=1和{Zit}Tt=T^1中是否存在變點(diǎn),并且相應(yīng)地進(jìn)行位置估計(jì)。無論何時(shí),若不能檢驗(yàn)出某個(gè)子序列存在變點(diǎn),則說明這個(gè)子序列中不存在變點(diǎn); 若檢驗(yàn)出了變點(diǎn),則繼續(xù)利用二分法將該序列分開,再在每個(gè)子序列中檢驗(yàn)是否存在變點(diǎn)并進(jìn)行位置估計(jì)。一直持續(xù)上述過程,直至所有子序列中不再檢驗(yàn)出變點(diǎn)為止。運(yùn)用此方法,僅需要比較子序列沒有變點(diǎn)和僅有一個(gè)變點(diǎn)的模型,并且可同時(shí)確定變點(diǎn)的個(gè)數(shù)和它們的位置,因而該方法簡單而有效。
4 實(shí)例分析
本實(shí)例分析數(shù)據(jù)源于深圳市局部區(qū)域道路的流量監(jiān)測數(shù)據(jù),主要選取深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)、2018年3月30號(星期五)和2018年3月31號(星期六)三天的數(shù)據(jù)為例,數(shù)據(jù)結(jié)構(gòu)為每兩分鐘記錄一次該路段車流量總數(shù)(一天共720個(gè)數(shù)據(jù)),根據(jù)實(shí)際數(shù)據(jù)得到過車量的時(shí)序圖1所示。
分別以深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)、2018年3月30號(星期五)和2018年3月31號(星期六)三天的數(shù)據(jù)為例,利用本文的單分位數(shù)方法根據(jù)二分法原理將多變點(diǎn)轉(zhuǎn)化為單變點(diǎn)問題進(jìn)行變點(diǎn)檢測,得到結(jié)果如圖2、圖3所示。
由圖2(左)顯示深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)車流量變點(diǎn)檢測情況,檢測結(jié)果顯示存在三個(gè)變點(diǎn),對應(yīng)的位置分別是205、274、555,相對應(yīng)的時(shí)間為 06∶46,09∶04、18∶26,2018年3月30號(星期五)車流量變點(diǎn)檢測情況如圖2(右)所示,檢測結(jié)果顯示存在四個(gè)變點(diǎn),對應(yīng)的位置分別是199、217、512、550且相對應(yīng)的時(shí)間為 06∶34,07∶10、17∶00、18∶16,從檢測結(jié)果容易看出工作日星期二和星期五有著類似的交通流變化規(guī)律,檢測出早高峰7∶00~9∶00和晚高峰17∶00~19∶00都存在交通流變點(diǎn),對于星期五而言變化情況更為復(fù)雜,這是因?yàn)樾瞧谖迨且恢苤泄ぷ魅盏淖詈笠惶欤藗兌加懈髯缘闹苣┌才?,在結(jié)束一周的工作后將出行旅游或者和朋友聚餐等活動(dòng),這就造成交通流變化規(guī)律有一定的變化,本文的檢測結(jié)果和人們平時(shí)的出行規(guī)律相符合,證明了此方法的有效性。
2018年3月31號(星期六)車流量變點(diǎn)檢測結(jié)果如圖3所示。
從圖3中2018年3月31號(星期六)車流量變點(diǎn)檢測結(jié)果得到,在周末變點(diǎn)存在的時(shí)間為8∶22,15∶50,17∶56和上述工作日車流量變點(diǎn)檢測結(jié)果相比,周末的早高峰要比工作日來得晚,而晚高峰變點(diǎn)存在情況和工作日相差不大,這是因?yàn)橹苣┦侨藗冊诮?jīng)過辛苦的一周工作后放松的時(shí)間,人們的生活習(xí)慣傾向于更加隨意和散漫,人們都更愿意睡個(gè)舒服的懶覺再整理出門,這就導(dǎo)致了路段交通流變點(diǎn)的延遲,說明本文變點(diǎn)檢測方法能有效地檢測出交通流變點(diǎn)存在情況。
5 總結(jié)
本文通過單分位數(shù)方法對多元時(shí)間序列尾指數(shù)變化進(jìn)行變點(diǎn)檢測。通過模擬研究證明了該方法的有效性,通過對交通數(shù)據(jù)的實(shí)例分析,得到該方法能準(zhǔn)確檢測到交通流中存在的變點(diǎn),進(jìn)而對于出行者而言了解該信息可以避免出行高峰期,提高出行效率,對于相關(guān)交管部門而言可根據(jù)該信息有效且快速地采取解決方案,一定程度上舒緩交通壓力。
參考文獻(xiàn):
[1][1]Page E S. Continuous inspection schemes [J]. Biometrika, 1954, 41: 100-116.
[2]Brown R L. Techniques for Testing the Constancy of Regression Relations Over Time[J]. Journal of the Royal Statistical Society, 1975, 37(2):149-192.
[3]Lee S, Nishiyama Y, Yoshida N. Test for Parameter Change in Diffusion Processes by Cusum Statistics Based on One-step Estimators[J]. Annals of the Institute of Statistical Mathematics, 2006, 58(2):211-222.
[4]白乙拉,劉國慶,李志軍,等.芬蘭Valkea-Kotinen 湖5月-10月水溫長期變化趨勢分析[J].渤海大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,39(4):289-295.
[5]Quintos C, Fan Z, Philips P C B. Structural Change Tests in Tail Behaviour and the Asian Crisis[J]. Review of Economic Studies, 2001, 68(3):633-663.
[6]Kim M, Lee S. Test for tail index change in stationary time series with Pareto-type marginal distribution[J]. Bernoulli, 2009, 15(2):325-356.
[7]Lee S, Ha J, Na N S. The Cusum Test for Parameter Change in Time Series Models[J]. Scandinavian Journal of Statistics, 2003, 30(4):781-796.
[8]Oka T, Qu Z. Estimating structural changes in regression quantiles[J]. Journal of Econometrics, 2011, 162(2):248-267.
[9]Kim M, Lee S. Test for tail index change in stationary time series with Pareto-type marginal distribution[J]. Bernoulli, 2009, 15(2):325-356.
[10]Dupuis, Debbie J. Modeling Waves of Extreme Temperature: The Changing Tails of Four Cities[J]. Journal of the American Statistical Association, 2012, 107(497):24-39.
(責(zé)任編輯:曾 晶)