多變點(diǎn)位置的識(shí)別隱馬爾科夫鏈方法

2021-10-25 08:54郭衛(wèi)娟

湖北第二師范學(xué)院學(xué)報(bào) 2021年8期

郭衛(wèi)娟

(湖北第二師范學(xué)院a.數(shù)學(xué)與經(jīng)濟(jì)學(xué)院；b.大數(shù)據(jù)建模與智能計(jì)算研究所，武漢 430205)

1 變點(diǎn)問題簡介

變點(diǎn)序列數(shù)據(jù)是數(shù)理統(tǒng)計(jì)中經(jīng)常遇見的一個(gè)序列，在該序列中，各個(gè)子部分的總體的分布并不是一樣的，對(duì)于這類問題，通常的處理方式是先識(shí)別該序列中的變點(diǎn)的位置，然后就可以利用相鄰的兩個(gè)變點(diǎn)之間的分布是相同的，進(jìn)而來估計(jì)該部分的分布。

其一般模型如下：

(1)

2 狀態(tài)轉(zhuǎn)移概率

為此建立如下模型：在時(shí)刻，定義狀態(tài)(i=0,1,2,…,t-1)表示離t最近的前向變點(diǎn)位置在t-i位置上，記其概率為p(Ct=i|xt-1,xt-i+1,…xt-1)，意思即xt-i,xt-i+1,…xi-1這個(gè)觀測值是獨(dú)立同分布，例如(Ct=0|xt-i,xt-i+1,…xt)表示xi-1是變點(diǎn)，i=t-1表示該序列無變點(diǎn)。這與傳統(tǒng)的馬爾科夫鏈相比，就是將隱馬爾科夫鏈中有限個(gè)狀態(tài)改成成了與當(dāng)前時(shí)刻t相關(guān)的一個(gè)變量。這樣將會(huì)導(dǎo)致轉(zhuǎn)移概率矩陣維數(shù)無限增大，因此為了最大程度上簡化狀態(tài)轉(zhuǎn)移概率矩陣，為此筆者再假設(shè)模型(1)滿足如下特征：

p(Ct=i|xt-i,xt-i+1,…，xt-1)=p(Ct-k=i|xt-k-i,xt-k-i+1,…xt-k+1)，

也就是連續(xù)的i個(gè)觀測值是同一分布(大部分參考文獻(xiàn)稱該值為鏈長，用字母g表示)與該觀測值的起點(diǎn)位置無關(guān)，這樣，整個(gè)狀態(tài)概率概率就簡單的由鏈長的概率分布確定了?？紤]到本文是從當(dāng)前時(shí)刻開始，逐步向前查找最近的變點(diǎn) ，若令p表示每個(gè)觀察值可能是變點(diǎn)的概率，即

p(xi是變點(diǎn))=p

=p(1-p)i-1i=0,1,2,…，t-1。即此時(shí)鏈長g服從幾何分布Ge(p) 。

實(shí)際上為鏈長g可以為取值于i=0,1,2,…，t-1的任意離散型分布，同樣可以計(jì)算該分布的生存函數(shù)。利用生存函數(shù)可以計(jì)算出各個(gè)狀態(tài)之間的轉(zhuǎn)移概率。

則有各個(gè)狀態(tài)之間的轉(zhuǎn)移概率計(jì)算如下：

(1)若位置t-1是為變點(diǎn)，則此時(shí)離t最近的前向變點(diǎn)就是t-1，此時(shí)j=0,

(2)若位置t-1是為變點(diǎn)，則此時(shí)離t最近的前向變點(diǎn)就是t-1，此時(shí)j=i+1,

特別的，若鏈長g服從幾何分布Ge(p)，則利用(2)式可知其對(duì)應(yīng)的狀態(tài)轉(zhuǎn)移概率為：

TP=(t=j│t-1=i)

3 模擬和計(jì)算

因?yàn)樵撃Ｐ偷闹攸c(diǎn)是識(shí)別變點(diǎn)的位置，也就是識(shí)別當(dāng)前時(shí)刻該序列所處的狀態(tài)，因此按照隱馬爾科夫鏈模型，主要是學(xué)習(xí)該模型的參數(shù)，然后采用最大后驗(yàn)概率進(jìn)行模式(隱含狀態(tài))識(shí)別問題。實(shí)際上，本文的主要工作就是從最后一個(gè)觀察值，采用前向傳導(dǎo)算法找出該序列中所有的變點(diǎn)位置。也就是主要是求給定觀測值下鏈長的概率分布。為此采用貝葉斯方法。方法如下：

(1) 初始化令p(C1=0│x1) =0

(2)遞推公式：

上式p(Ct=i|x1,x2,…,xt)和p(Ct-1=i|x1,x2,…,xt-1)形式一致，因此可以建立二者之間的遞推關(guān)系，若記b(t,i)=p(Ct=i|x1,x2,…,xt)，則有遞推公式

由此可以計(jì)算出全部的b(t,i),i≤t≤n。

(3)隨機(jī)模擬方法：令T0=n，k=0,從b(T0,i)抽樣，得到Tk，然后令k=k+1，若Tk>0，則繼續(xù)從b(Tk-1,i)中抽樣，這樣就得到一序列變點(diǎn)位置，Tk-1,Tk-2,…T1。為提高精度，本文重復(fù)抽樣1000次，最后用均值估計(jì)Tk-1,Tk-2,…,T1。

顯然模擬數(shù)據(jù)一共是400個(gè)，有4個(gè)變點(diǎn)，位置分別位于第100,200,300,400處。因此假設(shè)p=0.04.

圖1 有4個(gè)變點(diǎn)的實(shí)際圖像

實(shí)際上，該方法主要問題是求出全部變點(diǎn)位置，而對(duì)參數(shù)估計(jì)值并未做出更多改進(jìn)，因而，參數(shù)估計(jì)部分由于不同，必然會(huì)帶來一定的估計(jì)偏差，這是筆者下一步努力的方向?？偟膩碚f，該方法不失為多個(gè)變點(diǎn)位置估計(jì)的一種好方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

多變點(diǎn)位置的識(shí)別隱馬爾科夫鏈方法

1 變點(diǎn)問題簡介

2 狀態(tài)轉(zhuǎn)移概率

3 模擬和計(jì)算