国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RJMCMC算法的Gamma分布形狀參數(shù)多變點檢測

2022-03-02 01:55程慧慧許淑月
關鍵詞:變點馬爾可夫后驗

程慧慧, 許淑月

(華北水利水電大學 數(shù)學與統(tǒng)計學院,河南 鄭州 450046)

0 引言

所謂變點是指觀測值在某一個位置或時間點發(fā)生了分布或數(shù)字特征的突然變化,這個位置或時間點稱為變點。不考慮可能的變化點就進行統(tǒng)計分析很大可能會得到具有誤導性的結(jié)果,因此變點問題的研究在金融學、醫(yī)學、氣象學和計算機科學等領域有著廣泛的應用價值。眾多學者對檢測變點的方法進行了研究,如JAMES B J等[1]通過似然比方法檢驗多元正態(tài)分布變點是否存在;李拂曉等[2]使用Pearson卡方統(tǒng)計量的二元分割方法檢驗了多元Logistic回歸模型中存在的變點;陳睿軒等[3]利用非參數(shù)極大似然方法對金融時間序列中的變點進行估計;CHERNOFF H等[4]應用貝葉斯方法檢驗正態(tài)分布中變點是否存在。

與經(jīng)典統(tǒng)計學相比,貝葉斯方法不僅能對參數(shù)做出有效的估計,還使得變點檢測變得更加簡便,文獻[5-9]都是基于貝葉斯方法解決多變點問題。盡管如此,貝葉斯變點問題中的計算仍是一大難點,尤其是在高維情形下與后驗分布相關的一些積分很難用數(shù)值方法計算。對此,馬爾可夫鏈蒙特卡洛(Markov Chain Monte Carlo,MCMC)算法作為一種重要的貝葉斯計算方法,將貝葉斯統(tǒng)計中復雜的計算簡單化,在變點問題中得到廣泛應用。如張晗等[10]在艾拉姆咖分布單變點模型中運用MCMC算法對變點位置做出了有效估計;石凱等[11]采用MCMC算法為多維混合分布數(shù)據(jù)的參數(shù)估計和識別提供了一種有效的解決途徑。由于進行變點識別時貝葉斯后驗計算會產(chǎn)生不同維數(shù)的多參數(shù)子空間,1995年GREEN P J[12]提出了可逆跳躍馬爾可夫鏈蒙特卡洛(Reversible Jump Markov Chain Monte Carlo,簡記為RJMCMC)算法。該采樣器實現(xiàn)了抽樣過程在不同維數(shù)的參數(shù)子空間之間跳躍,十分適用于多變點檢測,如ZHAO X 等[13]在層次貝葉斯框架下利用RJMCMC算法識別極端事件序列中的多個突變狀態(tài);石永亮[14]利用RJMCMC算法對線性回歸模型的異常點進行識別;劉鶴飛等[15]運用RJMCMC算法對隱狀態(tài)個數(shù)未知的隱馬爾可夫多元正態(tài)分布進行貝葉斯推斷;李勇等[16]利用RJMCMC確定對隱狀態(tài)個數(shù)未知的隱馬爾可夫0-1分布進行貝葉斯推斷;范元靜等[17]利用RJMCMC算法確定泊松分布參數(shù)多變點模型中變點的個數(shù),并在變點個數(shù)確定的基礎上,結(jié)合MCMC方法進行參數(shù)估計。

Gamma分布經(jīng)常出現(xiàn)在各種應用中,特別是在可靠性、生存分析和收入分配模型中。有關伽馬分布形狀參數(shù)ν的重要性也是毋庸置疑的,正如RAMANAYAKE A[18]所述:伽馬分布是降低故障率、常數(shù),還是增加故障率,都由ν-1的值所決定,并且形狀參數(shù)ν在更新理論中也起著重要作用。關于Gamma分布參數(shù)變點的研究已有一些結(jié)果,如文獻[19-22]考慮的是典型的伽馬分布序列中的單變點問題;胡俊迎[23]在變點個數(shù)未知的情形下,利用RJMCMC算法對Gamma分布尺度參數(shù)進行多變點檢測,并通過仿真模擬證明了在變點檢測中RJMCMC算法顯著優(yōu)于S-N方法;但是有關Gamma分布的形狀參數(shù)發(fā)生變化,以及形狀參數(shù)和尺度參數(shù)同時發(fā)生變化的研究仍然較少。因此,在Gamma分布參數(shù)多變點模型中找到多個變點的數(shù)量及位置是一個重要且具有挑戰(zhàn)性的統(tǒng)計問題。對比以往關于Gamma分布序列變點問題的研究,本文擬著重研究基于RJMCMC算法下的Gamma分布序列中形狀參數(shù)的多變點檢測,先利用算法確定變點個數(shù),再通過MCMC算法估計變點位置和形狀參數(shù)。

1 Gamma分布形狀參數(shù)多變點模型

現(xiàn)有一組含有k個變點的觀測值序列y1,y2,…,yn,yi獨立且均服從Gamma分布。c1,c2,…,ck,將此觀測值序列分成了k+1段,其中的第j段ycj-1+1,ycj-1+2,…,ycj,服從形狀參數(shù)νj>0,尺度參數(shù)λj>0,j=1,2,…,k+1的Gamma分布??蓪⑦@個多變點模型表示為

(1)

為了方便,規(guī)定c0=0,ck+1=n。式(1)中,變點個數(shù)為k,變點位置分別在c1,c2,…,ck。現(xiàn)在先假定較為簡單的一種情形:λj始終不發(fā)生變化,那么擬研究的變點模型(1)就是關于Gamma分布形狀參數(shù)的多變點檢測,需要估計的參數(shù)有2(k+1)個,分別是變點個數(shù)k;變點位置c1,c2,…,ck;形狀參數(shù)ν1,ν2,…,νk+1。

2 推斷原理及推斷過程

2.1 貝葉斯估計原理

貝葉斯統(tǒng)計學是基于總體信息、樣本信息、先驗信息進行的統(tǒng)計推斷。設參數(shù)θ的先驗信息分布為π(θ),隨機變量θ給定值時,總體的條件概率函數(shù)為p(x|θ)。樣本X和參數(shù)θ的聯(lián)合分布h(X,θ)=p(X|θ)π(θ),利用貝葉斯公式

(2)

但是在實際問題中,上述后驗密度分布(2)通常是比較復雜的未知形式,馬爾可夫鏈蒙特卡洛(MCMC)方法可以解決這一難題,它以目標后驗分布作為平穩(wěn)分布的馬爾可夫鏈生成隨機數(shù),代替從后驗分布中直接抽取樣本。

2.2 推斷過程

在貝葉斯框架下的變點分析,需要確定各參數(shù)的先驗分布,并推導出其后驗分布。根據(jù)文獻[12]可考慮各參數(shù)的先驗分布。

1)變點個數(shù)k服從截斷的泊松分布,

2)從離散的均勻分布{0,1,2,…,n}上產(chǎn)生2k+1個順序統(tǒng)計量,c1,c2,…,ck作為其中的偶數(shù)階統(tǒng)計量,

其中0

3)取形狀參數(shù){ν1,ν2,…,νk+1}獨立同分布于形狀參數(shù)a和尺度參數(shù)b的Gamma分布且均與變點位置相互獨立,則

νj~Gamma(a,b),j=1,2,…,k+1。

由貝葉斯分層理論,可得所有未知參數(shù)的聯(lián)合先驗分布

p(k,c1c2…ck,ν1ν2…νk+1)=p(k)p(c1c2…ck|k)p(ν1ν2…νk+1|k),

再結(jié)合貝葉斯公式可得到樣本與參數(shù)聯(lián)合分布的密度函數(shù)

(3)

用π(ck|·)表示變點位置ck的滿條件分布,同理π(νj|·)表示形狀參數(shù)νj的滿條件分布。由(3)式可得各參數(shù)的滿條件分布

3 基于RJMCMC算法的參數(shù)估計

3.1 RJMCMC算法

為獲取可逆的蒙特卡洛樣本,需要設計合適的移動類型來達到維數(shù)的平衡。當形狀參數(shù)是一個階梯函數(shù)時,本文可基于變點模型設計4種移動類型改變馬爾可夫鏈的狀態(tài){k,c1,c2,…,ck,ν1,ν2,…,νk+1},

(a)任意改變一個形狀參數(shù)值;

(b)任意改變一個變點的位置;

(c)在{1,2,…,n}{c1,c1,…,ck}上任意選擇新增加一個;

(d)在{c1,c1,…,ck}中任意選擇減少一個。

顯然,(c)、(d)的移動會使得馬氏鏈的狀態(tài)空間維數(shù)隨著變點數(shù)量的改變而變化,因此傳統(tǒng)的蒙特卡洛馬爾可夫鏈理論無法適用。用{(a),(b),(c),(d)}表示這些移動的集合,且用m表示移動類型。假設當前狀態(tài)為x,建議移動類型為m∈{(c),(d)},新狀態(tài)為x′,通過獲得一個獨立于x的連續(xù)隨機變量u且滿足dim(x,u)=dim(x′),并利用可逆的確定性函數(shù)x′(x,u)設置x′后,可實現(xiàn)狀態(tài)空間的可逆跳躍。

1995年,GREEN P J探索了4種移動類型的接受概率,并且證明了每個移動類型都能達到馬爾可夫鏈細致平衡的既定目標。當移動類型m∈{(a),(b)}的接受概率

(4)

其中π(x)為狀態(tài)x時參數(shù)后驗分布的密度函數(shù),qm(x′,x)為建議密度函數(shù),為簡化計算,(4)式中后驗分布可分別用似然函數(shù)與先驗分布的乘積項代替或由相應參數(shù)的滿條件分布代替。當移動類型m∈{(c),(d)}的接受概率

(5)

下面探討Gamma分布形狀參數(shù)多變點模型在每種移動下的接受概率。

Pallow=min{1,A1},

這里

Pallow=min{1,A2},

這里,當c′j

當c′j>cj時

對于m=(c),不失一般性,我們假設在區(qū)間(cj-1,cj)上增加一個變點c*,則在區(qū)間(cj-1,c*)和(c*,cj)上會產(chǎn)生新的參數(shù)ν′j,ν′j+1,且νj在ν′j,ν′j+1之間,其關系用權(quán)重方式表示為

(c*-cj-1)logν′j+(cj-c*)logν′j+1=(cj-cj-1)logνj。

在此種移動類型的可接受概率表示為

Pallow=min{1,(l.r.b)×(p.r.b)×(pro.r.b)×|(Jaco.b)|},

其中l(wèi).r.b,p.r.b,pro.r.b,Jaco.b分別表示似然比、先驗比、建議比、雅可比行列式。

經(jīng)計算,似然比可直接表示為

先驗比

建議比

雅克比行列式

因此隨機增加一個新變點c*的接受概率為Pallow=min{1,A3},這里

針對m=(d),同樣不失一般性,假設隨機選擇被減去的變點為cj,則區(qū)間(cj-1,cj,cj+1)變?yōu)?cj-1,cj+1)。假設ν′j,ν′j+1為區(qū)間(cj-1,cj,cj+1)上的2個舊參數(shù),νj為區(qū)間(cj-1,cj+1)上的新參數(shù)。同理可得,隨機減少變點cj的可接受概率為Pallow=min{1,A4},這里,

3.2 參數(shù)估計

首先利用RJMCMC算法確定模型中變點的個數(shù)。由于變點位置及形狀參數(shù)的后驗分布比較復雜,所以采用Metroplis-Hastings算法對其抽樣,再根據(jù)前面推導出的相應移動的接受概率,得到模型參數(shù)的更新值,具體步驟如下:

1)初始化,給出參數(shù)k,ck,λ的初始值,給定超參數(shù)a,b,kmax,α的值。

2)利用Metroplis-Hastings算法更新參數(shù){c1,c2,…,ck}。

3)利用Metroplis-Hastings算法更新參數(shù){ν1,ν2,…,νk+1}。

4)每次以bk或dk隨機增加或減少一個變點,參數(shù)發(fā)生相應的改變,最后以概率Pallow接受變點個數(shù)的跳躍,實現(xiàn)可逆跳躍過程,其中當0

重復以上迭代步驟,直到最大迭代次數(shù)。

4 實證研究

4.1 仿真模擬

隨機生成含有300個數(shù)據(jù)的Gamma分布序列,分為3段: 1~120,121~200,201~300,數(shù)據(jù)分別服從Gamma(0.5,2),Gamma(2,2),Gamma(5,2)。根據(jù)3段形狀參數(shù)ν不一致,可見存在2個變點,分別在120處和200處,3段Gamma分布參數(shù)分別為(0.5,2),(2,2),(5,2)。300個隨機數(shù)據(jù)模擬圖如圖1所示。設定參數(shù)的初始值k=3,c1=50,c2=150,c3=180,ν1,ν2,…,ν4取初始分段上的均值,超參數(shù)kmax=10,α=5a=25/4,b=5/4。迭代20 000次算法,去掉前10 000次,用后10 000次的結(jié)果計算變點個數(shù)的后驗概率,得出的變點個數(shù)估計如圖2所示。

圖1 兩變點的Gamma分布數(shù)據(jù)模擬圖

圖2 變點個數(shù)估計直方圖

由圖2可知,變點個數(shù)為2的后驗概率最大,因此確定300個Gamma分布序列的變點個數(shù)為2。進一步在變點個數(shù)的基礎上利用MCMC算法估計變點位置參數(shù)和Gamma分布形狀參數(shù)。通過R軟件實現(xiàn)模擬,在模擬的過程中進行50 000次迭代抽樣,為保證參數(shù)的收斂性,舍棄前30 000次抽樣,根據(jù)后20 000次結(jié)果進行統(tǒng)計分析,20 000次變點位置參數(shù)和形狀參數(shù)迭代過程如圖3和圖4所示。

圖3 變點位置c1的迭代抽樣過程

圖4 變點位置c2的迭代抽樣過程

兩變點位置的后驗密度分布如圖5所示,兩個變點下的形狀參數(shù)的后驗分布如圖6所示。由圖5可知,變點位置的后驗密度分布有2個峰,分別在120,200附近;由圖6可知,形狀參數(shù)的后驗密度分布有3個峰,分別在0.5,2,5附近。由眾數(shù)后驗估計可得變點位置c1,c2為120、200,3個形狀參數(shù)ν1,ν2,ν3近似為0.5、2、5。這與真實的變點位置及Gamma分布形狀參數(shù)相符,說明RJMCMC算法對Gamma分布形狀參數(shù)多變點檢測的有效性。

圖5 兩變點位置的后驗密度分布

圖6 兩變點形狀參數(shù)的后驗密度分布

4.2 英國煤礦災害

MAGUIRE B A等[24-25]對英國在1875年12月6日至1951年5月29日期間發(fā)生的造成10人以上死亡的煤礦爆炸的時間間隔進行了研究(如圖7所示),得出結(jié)論:這組數(shù)據(jù)可能存在一個變點在1890年。隨后RAMANAYAKE A[18]又驗證了這109個數(shù)據(jù)服從Gamma分布,進一步證實了在第45個位置(即對應1890年)發(fā)生了突變并估計出突變前的形狀參數(shù)為0.629,突變后的形狀參數(shù)為1.036。

圖7 英國煤礦爆炸數(shù)據(jù)折線圖

現(xiàn)在根據(jù)RJMCMC算法對這組數(shù)據(jù)的變點個數(shù)進行檢測,變點個數(shù)的估計如圖8所示,109個數(shù)據(jù)中存在1個變點的后驗概率最大,表明1875年至1951年間發(fā)生了一次明顯的變化。接下來在變點個數(shù)為1的基礎上估計變點位置c1及變點前后的形狀參數(shù)ν1、ν2。

圖8 變點個數(shù)估計直方圖

變點位置c1的迭代抽樣過程如圖9所示,變點位置的后驗密度分布如圖10所示,變點前后的形狀參數(shù)ν1、ν2的后驗密度分布如圖11所示。由圖10和圖11,利用最大后驗估計法進行分析,可知變點的位置在44附近(即在1890年附近),變點前后的形狀參數(shù)ν1在0.63附近且ν2在1附近。這與 RAMANAYAKE A[18]的研究結(jié)果基本相符,進一步表明了該方法對伽馬分布參數(shù)變點檢測的有效性。

圖9 變點位置的迭代抽樣圖

圖10 變點位置c1的后驗分布圖

圖11 形狀參數(shù)ν1、ν2的后驗分布圖

5 總結(jié)

本文基于貝葉斯方法和RJMCMC算法對Gamma分布形狀參數(shù)多變點模型進行變點檢測。首先給出了Gamma分布形狀參數(shù)多變點模型,確定各參數(shù)的先驗分布,由貝葉斯分層理論將樣本與參數(shù)的聯(lián)合分布以乘積項的形式表示。然后針對變點模型設計4種移動,并分別得到其接受概率的表達式,建立RJMCMC算法。最后利用該算法和MCMC算法得到變點個數(shù)的確定以及變點位置和形狀參數(shù)的后驗估計。仿真模擬和實例的結(jié)果都說明了RJMCMC算法對Gamma分布形狀參數(shù)多變點模型變點個數(shù)確定的有效性。

目前,研究還存在一些不足之處:①沒有進一步研究RJMCMC算法的收斂性,可能會出現(xiàn)由于計算量較大,算法耗時較長的情形;②本文考慮的Gamma分布多變點模型有尺度參數(shù)不發(fā)生變化的假定,算法僅實現(xiàn)了變點位置和形狀參數(shù)的估計,而實際數(shù)據(jù)往往與假定條件存在著些許偏差,所以如何利用RJMCMC算法更好地結(jié)合伽馬分布的兩個參數(shù)進行的多變點檢測有待進一步研究。

猜你喜歡
變點馬爾可夫后驗
回歸模型參數(shù)的變點檢測方法研究
正態(tài)分布序列均值變點檢測的貝葉斯方法
基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
基于二元分割的多變點估計
獨立二項分布序列變點的識別方法
基于馬爾可夫鏈共享單車高校投放研究
基于馬爾可夫鏈共享單車高校投放研究
基于貝葉斯理論的云模型參數(shù)估計研究
一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
基于隱馬爾可夫模型的航空機械系統(tǒng)故障診斷算法設計