賈偉亞,魏岳嵩,徐建中
(1.亳州學(xué)院 教育系,安徽 亳州 236800;2.淮北師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,安徽 淮北 235000;3.亳州學(xué)院 電子與信息工程系,安徽 亳州 236800)
變點(diǎn)問(wèn)題起源于質(zhì)量控制領(lǐng)域,由于生產(chǎn)線中產(chǎn)出的產(chǎn)品總存在不合格產(chǎn)品,為保證產(chǎn)品質(zhì)量,需將不合格產(chǎn)品及時(shí)抽出,不合格品出現(xiàn)的時(shí)刻就是變化點(diǎn),這便產(chǎn)生對(duì)變點(diǎn)的研究。隨著變點(diǎn)問(wèn)題研究的深入,其研究方法和分析模型也相應(yīng)多樣化,從而被廣泛應(yīng)用到金融、工業(yè)、醫(yī)學(xué)和水文等領(lǐng)域。如譚長(zhǎng)春等[1]應(yīng)用變點(diǎn)檢測(cè)分析金融傳染問(wèn)題;周佳琪等[2]利用變點(diǎn)模型分析房地產(chǎn)價(jià)格的影響因素;尚云艷等[3]和仲建蘭等[4]應(yīng)用變點(diǎn)模型研究控制圖的問(wèn)題;張羽等[5]和張清杰等[6]在研究水文問(wèn)題中應(yīng)用變點(diǎn)分析法。
變點(diǎn)的在線監(jiān)測(cè)問(wèn)題是指在已有模型基礎(chǔ)上對(duì)新觀察數(shù)據(jù)進(jìn)行在線監(jiān)測(cè),直到出現(xiàn)變點(diǎn)才停止[7]。許天明等[8]研究AR(p)(p階自回歸)模型中存在一個(gè)均值變點(diǎn)的估計(jì)問(wèn)題;胡堯等[9]研究方差非參數(shù)回歸模型中均值與方差雙重變點(diǎn)的估計(jì);朱慧敏等[10]研究方差變點(diǎn)模型CUSUM(Cumulative Sum)型估計(jì)量的相合性;胡丹青等[11]研究線性回歸模型多結(jié)構(gòu)變點(diǎn)檢測(cè)方法;李美琪等[12]研究線性回歸模型中相依數(shù)據(jù)的多結(jié)構(gòu)變點(diǎn)問(wèn)題。Gombay等[13]引入有效得分向量,將變點(diǎn)的在線監(jiān)測(cè)問(wèn)題推廣到AR(p)(p階自回歸)模型中。薛義新等[14]對(duì)自回歸模型參數(shù)變點(diǎn)進(jìn)行分析,構(gòu)造殘差累積和監(jiān)測(cè)統(tǒng)計(jì)量,給出監(jiān)測(cè)統(tǒng)計(jì)量的極限性。齊培艷等[15]研究多項(xiàng)式回歸模型中系數(shù)變點(diǎn)的在線監(jiān)測(cè)問(wèn)題。Na等[16]討論變系數(shù)和變方差的在線監(jiān)測(cè)問(wèn)題。Qin等[17]研究線性過(guò)程方差變點(diǎn)估計(jì)強(qiáng)相合性。Aue等[18]對(duì)RCA(1)時(shí)間序列模型均值變點(diǎn)的監(jiān)測(cè)統(tǒng)計(jì)量進(jìn)行分析研究,得到統(tǒng)計(jì)量的極限分布性質(zhì)。Li等[19]引入波動(dòng)監(jiān)測(cè)程序?qū)CA(p)模型中參數(shù)變點(diǎn)進(jìn)行在線監(jiān)測(cè)分析研究。窗寬參數(shù)在高頻數(shù)據(jù)波動(dòng)率和短期負(fù)荷區(qū)間預(yù)測(cè)等分析中均有應(yīng)用[20-21]。在變點(diǎn)問(wèn)題的研究中,劉維奇等[22]對(duì)多元時(shí)間序列均值向量變點(diǎn)進(jìn)行研究,引入窗寬參數(shù)構(gòu)造殘差累積和統(tǒng)計(jì)量對(duì)均值變點(diǎn)進(jìn)行在線監(jiān)測(cè)。陳占?jí)鄣龋?3]和李佛曉等[24]通過(guò)引入窗寬參數(shù)分別對(duì)線性回歸模型和自回歸模型的參數(shù)變點(diǎn)進(jìn)行修正后的在線監(jiān)測(cè)。在變點(diǎn)的在線監(jiān)測(cè)過(guò)程中,窗寬參數(shù)對(duì)變點(diǎn)監(jiān)測(cè)運(yùn)行時(shí)間有著重要的影響,故可通過(guò)引入窗寬參數(shù)來(lái)調(diào)整運(yùn)行時(shí)間。
本文對(duì)RCA時(shí)間序列模型的均值變點(diǎn)進(jìn)行研究,在模型中引入窗寬參數(shù),并插入窗寬參數(shù)的一致估計(jì),用來(lái)調(diào)整監(jiān)測(cè)的起始時(shí)刻,以此來(lái)提高變點(diǎn)分析檢驗(yàn)勢(shì),縮短監(jiān)測(cè)平均運(yùn)行時(shí)間,給出一種改進(jìn)變點(diǎn)監(jiān)測(cè)方法。給出監(jiān)測(cè)統(tǒng)計(jì)量在原假設(shè)和備擇假設(shè)下的極限分布以及其后驗(yàn)檢驗(yàn),并對(duì)極限分布和后驗(yàn)檢驗(yàn)進(jìn)行證明,得出極限分布的一致性,以及后驗(yàn)檢驗(yàn)提高檢驗(yàn)準(zhǔn)確率的有效性。數(shù)據(jù)模擬結(jié)果表明,可根據(jù)變點(diǎn)出現(xiàn)時(shí)刻與監(jiān)測(cè)起始時(shí)刻的遠(yuǎn)近選取適當(dāng)?shù)拇皩拝?shù),以縮短平均運(yùn)行長(zhǎng)度,達(dá)到更有效檢驗(yàn)效果,并通過(guò)后驗(yàn)檢驗(yàn)對(duì)歷史樣本數(shù)據(jù)穩(wěn)定性進(jìn)行分析,提高模型檢驗(yàn)準(zhǔn)確性。
設(shè)隨機(jī)變量{Xn} 是一階隨機(jī)系數(shù)自回歸時(shí)間序列模型,滿足下列等式
這里Z 表示任意正整數(shù),φ是待估系數(shù),{bn} 和{en} 分別是白噪聲序列,且滿足如下條件
這里條件(i)保證{Xn} 的嚴(yán)平穩(wěn)性,條件(ii)是{Xn} 二階平穩(wěn)性充要條件??紤]隨機(jī)變量的均值模型
這里{ }Xn是RCA(1)時(shí)間序列模型。假設(shè)歷史數(shù)據(jù)前m個(gè)觀測(cè)樣本是沒(méi)有變化的,檢驗(yàn)如下假設(shè)H0:Δm=0,H1:Δm≠0。當(dāng) |Q(m,k,h) |第一次超過(guò)g(m,k,h)時(shí),拒絕H0并停止。因此,定義如下停止時(shí)刻
這里inf?=∞,Q(m,k,h),g(m,k,h)分別表示累積和監(jiān)測(cè)統(tǒng)計(jì)量和邊界函數(shù),定義為
引理1(RCA(1)時(shí)間序列的強(qiáng)不變性) 令{ }Xn是滿足式(1)中條件(i)和(ii)的RCA(1)時(shí)間序列,則存在k >2,使得。然后,存在一個(gè)維納過(guò)程{W(t)}t≥0,使得
這里t→∞,v >2,St=X1+X2+…+Xt,且令
證明 類似文獻(xiàn)[16]中5.1對(duì)定理2.1的證明方法可證得。
由于上述統(tǒng)計(jì)量中的參數(shù)σs未知,便需引入另一個(gè)合適估測(cè)參數(shù)來(lái)代替方差參數(shù)σ2s,為此通過(guò)RCA(1)時(shí)間序列模型參數(shù)一致估計(jì)引入?yún)?shù)估計(jì),其中m∈N。
引理2 隨機(jī)變量{Xn} 是滿足式(1)中條件(i)和(ii)的RCA(1)時(shí)間序列,對(duì)任意m∈N,令和分別是參數(shù)φ,σ2和ω2的弱一致估計(jì),有
其中m→∞,→P表示依概率收斂,是的弱一致估計(jì)。
證明 結(jié)合引理1,由可測(cè)映射定理和弱一致收斂原理可證。
定理1 令{Xn} 是滿足式(1)中條件(i)和(ii)的RCA(1)時(shí)間序列,則存在k >2,使得<∞和E|φ+b1|k <1,則存在一個(gè)維納過(guò)程{Wˉ(t)}t∈[0,1],使得在假設(shè)H0下有
證明 由引理1和引理2,對(duì)任意k∈N 和,當(dāng)m→∞時(shí),有
和
又因?yàn)?/p>
其中m→∞,證明得
其中m→∞。令,其中維納分布和m是獨(dú)立的,得
其中=D表示等號(hào)兩邊函數(shù)分布相同。{W(t)} 和{W(t)} 是2個(gè)相互獨(dú)立的維納過(guò)程,由
和
其中0 ≤t<∞, →D表示依分布收斂。{Wˉ(t)}是一個(gè)維納過(guò)程,可得
結(jié)論得證。
證明 由文獻(xiàn)[15]中定理2,類似得證。
令Y1,Y2,…,Ym是隨機(jī)變量觀測(cè)值,考慮均值模型
這里{Xn} 是RCA(1)時(shí)間序列模型。應(yīng)用基于固定數(shù)據(jù)m個(gè)觀測(cè)值的監(jiān)測(cè)程序代替時(shí)間序列模型體系,檢測(cè)平均假設(shè)變化,假設(shè)H0:Δm=0,H1:Δm≠0,k*<m,構(gòu)造累積和檢驗(yàn)統(tǒng)計(jì)量
其中m→∞,σ?S,m定義在式(8)中。
證明 由引理1和引理2,存在一個(gè)維納過(guò)程{W(t)} ,且v >2 時(shí),有
其中k→∞。因此
其中m→∞,則
其中m→∞。最后,由模型變換可得,其中{B(t)}t∈[0,1]表示布朗橋,類似①的證明,可得②也成立。
定理4 令{Xn} 表示滿足式(1)中的條件(i)和(ii)的RCA(1)時(shí)間序列,存在k >2,使得E|e1|k <∞和E|φ+b1|k <1,有
證明 令k?=m+k*,其中k*表示變點(diǎn)發(fā)生的時(shí)刻,由式(22)的累積和統(tǒng)計(jì)量的假設(shè)
應(yīng)用python軟件對(duì)模型進(jìn)行數(shù)據(jù)模擬檢驗(yàn),主要通過(guò)檢測(cè)統(tǒng)計(jì)量經(jīng)驗(yàn)水平、檢驗(yàn)的勢(shì)和平均運(yùn)行長(zhǎng)度來(lái)說(shuō)明模型優(yōu)越性。表1是用5 000個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的歷史樣本和10 000個(gè)檢測(cè)樣本經(jīng)過(guò)10 000次循環(huán)得到的部分臨界值表cα(γ)?;谶吔绾瘮?shù)
表1 不同的檢驗(yàn)水平α 和γ 的臨界值
令參數(shù)γ=0.00、0.15、0.25、0.35、0.45、0.49,顯著性水平α=0.01、0.025、0.05、0.1、0.25,可以由公式得到對(duì)于不同的檢驗(yàn)水平α和γ的臨界值,如表1所示。
表2是由定理1經(jīng)過(guò)2 500次模擬得到的經(jīng)驗(yàn)水平。采用數(shù)據(jù)生成模型Xn=(φ+bn)Xn-1+en(n∈Z),其中φ=0,w2=0.5,σ2=0.5。取歷史樣本量m=200、500,并且令窗寬參數(shù)h=0.0、0.1、0.2、0.3、0.4、0.5,邊界函數(shù)中參數(shù)γ=0.00、0.25、0.45,檢驗(yàn)水平α=0.05,檢測(cè)樣本量q=m,q=2m,q=4m。由表2可以看出,當(dāng)歷史樣本量m和窗寬h不變時(shí),檢測(cè)樣本量q和參數(shù)γ在逐漸增大的時(shí)候檢驗(yàn)勢(shì)也在逐漸增大,即誤報(bào)率在逐漸增大。當(dāng)歷史樣本數(shù)據(jù)m在逐漸增大時(shí),保持其他3個(gè)變量相同時(shí)的經(jīng)驗(yàn)水平值基本呈現(xiàn)減少趨勢(shì)。當(dāng)γ=0.25,m=200,q=m,h=0.4;γ=0.25,m=500,q=2m,h=0.5 和γ=0.45,m=500,q=4m,h=0 時(shí),統(tǒng)計(jì)量的模擬值和顯著性水平更接近,但是在其他給定參數(shù)下,兩者有一定的偏差。
表2 經(jīng)驗(yàn)水平
表3和表4分別是檢驗(yàn)勢(shì)和平均運(yùn)行長(zhǎng)度。在數(shù)據(jù)生成模型中取k=0.1q和k=0.5q時(shí)加入變點(diǎn),將均值在k處由0變到1,測(cè)試監(jiān)測(cè)統(tǒng)計(jì)量,得到檢驗(yàn)勢(shì)和平均運(yùn)行長(zhǎng)度。取歷史樣本量m=200,監(jiān)測(cè)樣本量q=m,窗寬參數(shù)h=0.0、0.1、0.2、0.3、0.4、0.5,邊界函數(shù)中的參數(shù)γ=0.00、0.25、0.45,比較參數(shù)γ和窗寬h變化時(shí)監(jiān)測(cè)統(tǒng)計(jì)量檢驗(yàn)勢(shì)和平均運(yùn)行長(zhǎng)度變化。由表3 和表4 可以看出,當(dāng)k=0.1q時(shí),在不同γ和h取值下,檢驗(yàn)勢(shì)基本相同,但是隨著h的增大,平均運(yùn)行長(zhǎng)度有所減小。當(dāng)k=0.5q時(shí),隨著h的增大,檢驗(yàn)勢(shì)逐漸提高,平均運(yùn)行長(zhǎng)度逐漸減小。故在進(jìn)行變點(diǎn)分析時(shí),選取合適參數(shù)進(jìn)行檢驗(yàn)可以有效降低誤差,提高檢驗(yàn)的準(zhǔn)確性。與不加窗寬參數(shù)h原模型進(jìn)行對(duì)比分析,加入窗寬參數(shù)后效果更顯著。
表3 檢驗(yàn)勢(shì)
表4 平均運(yùn)行長(zhǎng)度
由表1~4綜合分析可得,引進(jìn)窗寬參數(shù)以后,能夠調(diào)整監(jiān)測(cè)起始時(shí)刻,提高檢驗(yàn)勢(shì),縮短平均運(yùn)行長(zhǎng)度,特別是在變點(diǎn)出現(xiàn)較晚時(shí),效果更加顯著。在進(jìn)行變點(diǎn)實(shí)際分析時(shí),可根據(jù)變點(diǎn)與監(jiān)測(cè)起始時(shí)刻距離選取合適γ和h。
表1~4中參數(shù)α,γ,h選取受監(jiān)測(cè)樣本量和歷史樣本量影響而會(huì)有所不同。如文獻(xiàn)[7]所給邊界函數(shù)以及參數(shù)γ取值接近于0時(shí),監(jiān)測(cè)方法過(guò)于保守,使得監(jiān)測(cè)樣本量相對(duì)較小時(shí),會(huì)降低監(jiān)測(cè)功效。實(shí)際變點(diǎn)監(jiān)測(cè)問(wèn)題中,監(jiān)測(cè)過(guò)程遲早要結(jié)束,所以當(dāng)監(jiān)測(cè)樣本量相對(duì)于歷史樣本量較小時(shí),可取較大γ值,反之可取較小γ值,從而使經(jīng)驗(yàn)水平接近于給定檢驗(yàn)水平。
由于模型監(jiān)測(cè)中用到歷史數(shù)據(jù),即監(jiān)測(cè)中前m個(gè)數(shù)據(jù)是給定的,由上面對(duì)經(jīng)驗(yàn)水平表、檢驗(yàn)勢(shì)和平均運(yùn)行長(zhǎng)度分析可知,歷史樣本量m對(duì)檢測(cè)結(jié)果有重要影響,并且前m個(gè)歷史數(shù)據(jù)也有存在變點(diǎn)可能,若存在變點(diǎn)則影響更大。故利用python 軟件對(duì)歷史樣本數(shù)據(jù)進(jìn)行檢驗(yàn),通過(guò)后驗(yàn)檢驗(yàn)判別前m個(gè)歷史樣本是否存在變化。
表5 是基于定理3 經(jīng)過(guò)1 000 次模擬得到的后驗(yàn)檢驗(yàn)表。數(shù)據(jù)生成采用模型1 ≤n≤m。取歷史樣本量m=200、500,并且令窗寬參數(shù)h=0.0、0.1、0.2、0.3、0.4、0.5,邊界函數(shù)中的參數(shù)γ=0.00、0.25、0.45。
表5 后驗(yàn)檢驗(yàn)勢(shì)
由表5可以看出,當(dāng)歷史樣本量m和參數(shù)γ固定時(shí),檢驗(yàn)勢(shì)隨著窗寬參數(shù)h增大逐漸增大。當(dāng)歷史樣本量m和窗寬參數(shù)h固定時(shí),檢驗(yàn)勢(shì)隨著參數(shù)γ的增大逐漸增大。但當(dāng)窗寬參數(shù)h和參數(shù)γ固定時(shí),檢驗(yàn)勢(shì)隨著歷史樣本量m的增大呈現(xiàn)增大或者減小變化。并且當(dāng)γ=0.45,m=200,h=0.3 和γ=0.45,m=500,h=0.3 時(shí),統(tǒng)計(jì)量的模擬值和顯著水平更為接近。綜上,給定不同的參數(shù)值對(duì)分析結(jié)果有一定影響,并且本次模擬給定的前m個(gè)歷史樣本數(shù)據(jù)基本符合要求,可有效降低原模型檢驗(yàn)錯(cuò)誤率。故對(duì)于此類模型檢驗(yàn)問(wèn)題,可通過(guò)進(jìn)行后驗(yàn)檢驗(yàn)判斷歷史數(shù)據(jù)穩(wěn)定性,以提高模型檢驗(yàn)準(zhǔn)確度。
本文給出改進(jìn)變點(diǎn)監(jiān)測(cè)方法,用于RCA(1)時(shí)間序列模型均值變點(diǎn)監(jiān)測(cè)。通過(guò)在模型中引入窗寬參數(shù),用來(lái)調(diào)整監(jiān)測(cè)起始時(shí)刻,以此來(lái)提高變點(diǎn)分析檢驗(yàn)勢(shì),縮短監(jiān)測(cè)平均運(yùn)行時(shí)間。給出監(jiān)測(cè)統(tǒng)計(jì)量在原假設(shè)和備擇假設(shè)下的極限分布以及其后驗(yàn)檢驗(yàn),并對(duì)極限分布和后驗(yàn)檢驗(yàn)進(jìn)行證明,得出極限分布的一致性。數(shù)據(jù)模擬結(jié)果表明,可根據(jù)變點(diǎn)出現(xiàn)時(shí)刻與監(jiān)測(cè)起始時(shí)刻遠(yuǎn)近選取適當(dāng)窗寬參數(shù),以縮短平均運(yùn)行長(zhǎng)度,達(dá)到更有效的檢驗(yàn)效果,并通過(guò)后驗(yàn)檢驗(yàn)對(duì)歷史樣本數(shù)據(jù)穩(wěn)定性進(jìn)行分析,以提高模型檢驗(yàn)準(zhǔn)確性。