楊 超,胡 堯,b,李 揚(yáng)
(貴州大學(xué) a.數(shù)學(xué)與統(tǒng)計學(xué)院;b.貴州省公共大數(shù)據(jù)重點實驗室,貴州 貴陽 550025)
時間序列中結(jié)構(gòu)性突變的統(tǒng)計檢驗和估計在各種應(yīng)用中都有廣泛涉及,如計量經(jīng)濟(jì)學(xué)、移動通信、機(jī)器學(xué)習(xí)、海洋工程或神經(jīng)生理學(xué)數(shù)據(jù)分析等方面[1]。在變點分析方面,近年來,學(xué)者們也做了大量的探究[2-5]。
本研究是在一般分布假設(shè)下進(jìn)行,即允許其它參數(shù)變化的情況下,時間序列中存在未知個數(shù)的多時間尺度的均值變點模型。針對均值變點的研究,Horvth等提出了非參數(shù)檢測方法[6-9],進(jìn)一步鄧春霞研究了存在均值和方差雙重變點的非參數(shù)檢測方法[10],這些方法雖然避免了參數(shù)方法中的參數(shù)估計難題,但存在缺點是需要對模型有較強(qiáng)的分布假設(shè)。針對多時間尺度上的變點研究,F(xiàn)rick等在檢測方法方面做了相關(guān)的探究[11-13],其中一些方法只需相對較弱的分布假設(shè)。然而當(dāng)目標(biāo)函數(shù)為檢測均值變點時,其方法需要規(guī)定其它參數(shù)變化具有魯棒性,這使得與實際并不相符。Pein等提出了一種利用似然比統(tǒng)計量對高斯序列中存在多時間尺度變點估計的檢測方法,其方法檢測均值變點的同時允許方差變化[14]。然而一般情況下,在均值對方差變化具有魯棒性的情況下,方法檢測結(jié)果并不理想。在Arlot等的研究中,提出了運(yùn)用刪一交叉驗證和分割的檢測方法,這些方法對不規(guī)則模型的參數(shù)變化具有較好的魯棒性[15-16]。然而,在現(xiàn)有的文獻(xiàn)中,還沒有學(xué)者研究一種結(jié)合這三種特性的方法,即對數(shù)據(jù)有較弱的分布假設(shè),對多時間尺度的變點檢測,對模型外的其它參數(shù)變化具有較強(qiáng)魯棒性。
基于此,論文考慮這樣一種方法(Multiple Filter Test,MFT),可檢測均值不變的零假設(shè)或存在均值變點的備擇假設(shè)。論文將為此過程設(shè)計變點檢測框架,即將Messer 等人中的方法變換為基于i.i.d.隨機(jī)變量的分段序列模型[17],這種變換需要構(gòu)造一個基于MOSUM型統(tǒng)計量的變點模型,其中也包含參數(shù)估計過程[9]。在均值不變的零假設(shè)下,并對極限過程進(jìn)行推導(dǎo),得出拒絕域的計算方法。而在存在均值變點的備擇假設(shè)下,基于零假設(shè)下得出的拒絕域值,應(yīng)用多個MOSUM過程,給出其多時間尺度的變點檢測規(guī)則,最終給出變點檢測算法。
針對以上探究,論文將圍繞以下三個方面進(jìn)行。首先,對模型提出假設(shè)條件,推導(dǎo)出MFT方法,同時也給出參數(shù)估計過程。此外,由模型可同時應(yīng)用多個窗寬的MOSUM過程,在拒絕零假設(shè)的情況下,結(jié)合不同窗寬的MOSUM過程,提出一個估計多個時間尺度變點的算法。其算法思想為結(jié)合小窗寬的優(yōu)勢,可更精確地檢測較短時間范圍內(nèi)發(fā)生的變點,結(jié)合大窗寬可對發(fā)生較小變化的變點進(jìn)行更準(zhǔn)確的識別。其次,在無均值變化的零假設(shè)情況下,探究存在其它分布參數(shù)變化對MFT方法是否具有魯棒性。
最后,為驗證該方法的有效性和實效性,論文模擬仿真MFT方法對均值變化的靈敏性以及它對其它參數(shù)變化的魯棒性,并最后通過實證分析驗證方法的實效性。
設(shè)X=(Xi)i=1,2…為i.i.d.的隨機(jī)變量序列,無均值變點的零假設(shè)為μ:=E[X1]。給定具有分段均值平穩(wěn)組合的模型M,假設(shè)觀測值時刻點為1,2,…,3,T,T∈/{0,1}。這里假定存在變點集合C?{2,3,…,T},其元素c1 X1,[1],…,Xc1-1,[1],Xc1,[2],…,Xc2-1,[2],…,Xck-1,[k+1],XT,[k+1] 即在每一個變點cj后,都將伴隨一個新均值μ[j+1]的過程X[j+1],具體過程見圖1。 從圖1中可看出,圖1(a)為無均值變點的隨機(jī)變量時間序列,Xi~N(0,1),T=2 000;圖1(b)為存在有三個均值變點時間序列X∈M,其變點c1=500(此處均值變化較小),而變點c2=1 200和c3=1 290(此處均值變化迅速且變化較大),Xi~N(μ,1),均值為μ[1]=0,μ[2]=0.3,μ[1]=2.2,μ[4]=1.4,T=2 000。當(dāng)序列均值恒定時,則需要檢驗無變點的零假設(shè),即使得C=Φ(如圖1(a))。在備擇假設(shè)下,則要估計集合C(如圖1(b)中的三個變點)。注意,為了簡單起見,假設(shè)隨機(jī)變量是i.i.d.的,后續(xù)提出的檢測方法可對這個假設(shè)條件放寬[1]。為此,基于模型構(gòu)造一種均值變點檢測方法。 (a)均值無變化序列 (b)均值有變化序列圖1 零假設(shè)和備擇假設(shè)下的時間序列圖 首先考慮無均值變點情形,下面構(gòu)造零假設(shè)C=Φ的MFT。這是一個漸近方法,在模型M中,讓時間和變點在參數(shù)n中呈線性增長。即在以下漸近情況下,從參數(shù)T,c1,c2,…,ck和窗寬h下引入?yún)?shù)nT,nc1,…,nck和nh,n∈。這里,讓X∈M,MFT是基于多個MOSUM統(tǒng)計量,它們比較了相鄰窗口觀測值的經(jīng)驗平均值。首先考慮一個窗寬h∈{1,2,…,T/2}的情形,時間范圍t取[h,T-h],其中·為下取整函數(shù)。故對于所有的t∈[h,T-h],構(gòu)建統(tǒng)計量: (1) (2) (3) 注意,這里L(fēng)是一個高斯過程,均值為零,方差為1,因此在零假設(shè)下D(n)通常在0附近波動。由命題1的收斂性可推導(dǎo)出兩個較好的結(jié)果。首先,由于極大值運(yùn)算符的連續(xù)性,確保了極大值的收斂性,即有: (4) MFT的進(jìn)一步解釋:式(5)~式(8)中再次描述了MFT。首先,在零假設(shè)下,基于觀測值X,隨機(jī)游走S(n)弱收斂為標(biāo)準(zhǔn)布朗運(yùn)動W。給定窗寬h∈H,過程D(n)收斂到L。收斂關(guān)鍵的一點,在經(jīng)驗(左)側(cè),所有函數(shù)都是基于單個過程X的,而在極限(右)側(cè),所有函數(shù)都是基于布朗運(yùn)動W求值,又由式(5)~(8)中所有映射都是連續(xù)的,從而保證了收斂性。因此,對于拒絕域值Q的確定,可以間接模擬布朗運(yùn)動W得到,并求出每次模擬所有函數(shù){(|Lh,t|)t∈[h,T-h]|h∈H}的最大值。最后將不同窗寬大小下的D(n)的最大值作為檢驗統(tǒng)計量,從而避免了原假設(shè)檢驗中的多重檢驗。 (5) (6) (7) (8) (a)單窗寬 在實踐中,當(dāng)n=1,但T很大,這種方法很適用,雖然是基于漸近結(jié)果,但只需要選擇足夠大的最小窗寬即可。例如,對于正態(tài)分布隨機(jī)變量,對于h(取約30)值,可以認(rèn)為逐點分布足夠接近正態(tài)分布,也類似于t分布。 這里考慮存在均值變點的備擇假設(shè)。在圖3中,圖3(a)和圖3(b)展示了數(shù)據(jù)分布及均值分布,圖3(c)和圖3(d)展示了過程D(1)在三種不同的窗寬大小下的值分布。由于全局最大值M小于拒絕閾值Q(圖3(c)),從而MFT接受零假設(shè),故表明無均值變點。然而,如果零假設(shè)被拒絕(圖3(d)),則目標(biāo)是估計C。為此,本文采用了一種啟發(fā)式算法,稱為多過濾器算法(MFA),最初提出該方法思想的是Messer等人對時間序列中的變點分析[17]。針對圖3(b)序列中的變點,MFA檢測方法具體如下。 (a)無均值變點序列 (b)有均值變點序列 (c)無均值變點序列變點檢測 (d)有均值變點序列變點檢測圖3 MFA算法變點檢測結(jié)果圖 圖3說明了MFT方法同時使用多個MOSUM過程的優(yōu)勢所在:較小的窗寬對快速變化的均值變點較靈敏,而較大的窗寬在均值變化較小時較靈敏。這里可看出,MFA并不代表統(tǒng)計經(jīng)驗,而是一種算法,可以在拒絕零假設(shè)后用于估計變點。同時,該算法利用多個窗寬的實質(zhì)是變點估計的影響只是局部的,即給定的變點過程D(n)的影響只在h-鄰域內(nèi),這是因為過程D(n)構(gòu)成只依賴于2h,與實際數(shù)據(jù)的分布無關(guān)。 X1,[1],…,Xnc-1,[1],Xnc,[2],…,XnT,[2] (9) (10) 命題2 給定X∈M,對于C={nc},c∈[h,T-h]和μ[1]=μ[2](無均值變化)。在(D[h,T-h],dSK)上,當(dāng)n→,有: (a)L值和值分布 (b)滯后項分布圖4 L值和值對比圖 在本節(jié)中,為驗證MFT方法對其它參數(shù)變化的魯棒性以及對均值變點的靈敏性性能,模擬分為兩部分,第一部分對均值變點檢測的靈敏性和對均值外的參數(shù)變化的魯棒性模擬探究,第二部分對其方法的優(yōu)勢性進(jìn)行模擬分析。 首先,對模型均值外其它參數(shù)變化的魯棒性分析,這里模擬設(shè)計存在不同時間尺度上的三個均值變點(c1,c3,c4)與一個方差變點(c2)的隨機(jī)變量序列,見圖5(a)。其中均值變點c1的變化很小,而均值變點(c3,c4)彼此距離較近且變化相對較大。由于分布假設(shè)具有一般性,選用正態(tài)分布和伽瑪分布的隨機(jī)變量作為測試數(shù)據(jù),應(yīng)用MFA算法進(jìn)行統(tǒng)計檢驗變點,取顯著性水平為5%。兩分布序列1 000次模擬中檢測到的變點數(shù)量直方圖分布,見圖5(b)和圖5 (c)。 (a)序列均值和方差分布 (b)正態(tài)分布序列變點檢測結(jié)果 (c)伽瑪分布序列變點檢測結(jié)果圖5 變點檢測頻率直方圖 表1 MFT方法變點檢測結(jié)果 表2 Merge MOSUM(bandwidth)方法變點檢測結(jié)果 表3 WBS方法變點檢測結(jié)果 最后,通過模擬1實驗分析,表明了MFT檢測方法對均值外的其它參數(shù)具有較強(qiáng)的魯棒性;針對模擬2,從表1與表2和表3的檢測結(jié)果對比可以看出,在前兩組數(shù)據(jù)檢測結(jié)果中,MFT檢測方法的正確率都高達(dá)90%以上,相比較Eichinger等人論文中的方法在準(zhǔn)確度和精度方面的優(yōu)勢很明顯,在第三組數(shù)據(jù)的檢測結(jié)果中,MFT方法較Eichinger等人論文中的方法在準(zhǔn)確度方面結(jié)果略差,相對精度方面MFT方法較優(yōu)??傮w而言,在方法的對比上MFT占據(jù)一定優(yōu)勢,也說明了方法對于均值變點檢測具有良好的靈敏性。 為驗證MFT方法的實用性,將使用該方法與WBS方法和“Merge MOSUM(bandwidth)”方法作實例對比分析。數(shù)據(jù)選取美國IBM(國際商業(yè)機(jī)器公司,International Business Machines Corporation)于1962年1月29日至2019年8月9日的周數(shù)據(jù)(數(shù)據(jù)來源:https://finance.yahoo.com/),其數(shù)據(jù)包含開盤價、最高價、最低價、收盤價、成交量和復(fù)權(quán)收盤價共6種數(shù)量。為分析IBM公司股票的變動情況,選取股票收盤價作為研究對象,共3 003條數(shù)據(jù),數(shù)據(jù)分布見圖6 (a)。 (a)wbs方法變點檢測結(jié)果 (b)MFT方法變點檢測結(jié)果 (c)Merge MOSUM方法變點檢測結(jié)果圖6 股票收盤價變點檢測對比圖 圖6展示了IBM公司股票收盤價在三種方法下的變點檢測結(jié)果,這里MFT方法和“Merge MOSUM”方法基于數(shù)據(jù)量,取相同窗寬H=250,280,300。由檢測結(jié)果統(tǒng)計得到:wbs方法共檢測到4個變點,見圖6(a)。時間點對應(yīng)于1982年12月27日、1998年7月27日、2004年4月16日、2010年10月11日;MFT方法共檢測到5個變點,時間點對應(yīng)于1973年11月19日、1983年1月3日、1991年4月8日、1998年7月27日、2010年10月11日,見圖6(b);“Merge MOSUM”方法共檢測到6個變點,時間點對應(yīng)于1973年11月19日、1983年1月3日、1991年4月1日、1998年7月20日、2002年11月18日、2010年10月18日,見圖6 (c)。為便于分析,后續(xù)將以上三種方法分別記為法1、法2、法3。 根據(jù)圖6結(jié)果,除了法3中檢測到的第五個變點(2002年11月18日)外,法2(5個變點)和法3(6個變點)的檢測結(jié)果極為相似,相似的5個變點在法2和法3中基本在同一時期被檢測到,進(jìn)一步看出這5個變點中存在3個變點也同時被法1檢測到,由此分析IBM公司股票數(shù)據(jù)在這5個時期點可能存在波動。經(jīng)查閱資料,變點1:可能由于20世紀(jì)60年代后期,美國政府巨額的財政赤字,通貨膨脹、石油價格上漲、國際收支成為美國經(jīng)濟(jì)的重要問題,最終導(dǎo)致1971年戰(zhàn)后的布雷頓森林體系的崩潰、美元貶值和1973年的第一次石油危機(jī)。變點2:可能由于當(dāng)前世界經(jīng)濟(jì)危機(jī)從1979年開始,經(jīng)歷了1980年和1981年連續(xù)兩次的下降之后,政府出臺了相關(guān)的應(yīng)對政策,直到1983年第一季度才開始出現(xiàn)經(jīng)濟(jì)回升的跡象,但是并不顯著。變點3:可能由于美國經(jīng)濟(jì)在經(jīng)歷了1990年的危機(jī)和1991年蘇聯(lián)解體后,于1991年3月達(dá)到谷底,同年4月開始出現(xiàn)回升,此后持續(xù)了“自1854年有統(tǒng)計以來時間最長的一次”景氣擴(kuò)張。變點4:可能由于自1994年4月到1998年7月美國經(jīng)濟(jì)持續(xù)增長了84個月,失業(yè)率(4.5%)為20世紀(jì)70年代末的最低水平,而之后由于美國受亞洲金融危機(jī)和國內(nèi)消費不振的影響(互聯(lián)網(wǎng)泡沫事件),導(dǎo)致經(jīng)濟(jì)增長有所放慢。變點5:可能由于2009年第二季度以來,美國金融市場狀況有所改善,實體經(jīng)濟(jì)也出現(xiàn)積極變化,第二季度經(jīng)濟(jì)降幅明顯收窄,第三季度出現(xiàn)了連續(xù)四個季度下滑的首次增長,美國經(jīng)濟(jì)開始步入復(fù)蘇階段。針對法3中出現(xiàn)的變點5(2002年11月18日)和法1中出現(xiàn)的變點3(2004年4月16日),這兩個變點有且只能被其中一種方法檢測到,而另外兩種方法均未檢測到,由此推測兩變點對應(yīng)的時期點可能并沒有發(fā)生變化。經(jīng)查閱資料顯示,在這兩個時期美國經(jīng)濟(jì)保持相對穩(wěn)定,并無較大的金融事件發(fā)生。 基于以上三種方法對比分析得出,在MFT方法檢測的變點集中,對應(yīng)時期點的經(jīng)濟(jì)狀態(tài)都發(fā)生了變化,而在wbs方法和“Merge MOSUM”方法的檢測結(jié)果中,出現(xiàn)了未識別變點和誤檢的情況。相比較三種方法而言,MFT方法更具實效性。 在時間序列中存在多個時間尺度的均值變點情況下,本文提出的MFT檢測方法有三個顯著的優(yōu)勢。首先,它允許模型具有一般分布假設(shè),只需假設(shè)隨機(jī)變量為i.i.d.的分段序列,也可對同分布或獨立性條件進(jìn)行放寬。其次,MFT使用了一個MOSUM型統(tǒng)計量和漸近情形,其中MOSUM過程弱收斂到一個標(biāo)準(zhǔn)布朗運(yùn)動的函數(shù),這種方法可同時應(yīng)用多個MOSUM過程,改進(jìn)了單一MOSUM過程對不同時間尺度上的變點檢測的缺點。最后,MFT方法對模型外參數(shù)的變化具有較強(qiáng)的魯棒性,如方差或高階矩。 MFT方法建模簡單且檢測效果優(yōu)良,對管理部門決策者制定相關(guān)戰(zhàn)略及防范措施具有一定的實際意義。三、檢測方法探究
(一)多重過濾測試(MFT)
(二)多重濾波算法(MFA)
四、參數(shù)變化魯棒性評估
五、模擬與實證分析
(一)模擬
(二)實證分析
六、結(jié)束語