劉 貞, 周菊玲, 董翠玲
(新疆師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,烏魯木齊 830017)
變點(diǎn)問題在經(jīng)濟(jì)、金融、醫(yī)學(xué)、工程等領(lǐng)域應(yīng)用廣泛,是統(tǒng)計(jì)學(xué)中比較熱門的研究方向之一. 線性回歸模型自19世紀(jì)發(fā)展以來就被廣泛應(yīng)用于各學(xué)科中. 王振友和陳莉娥運(yùn)用多元線性回歸方法,建立了俄亥俄州臭氧含量與氣象的回歸方程[1]. 周晨等分析了多元線性回歸模型在東北地區(qū)需水量中的應(yīng)用[2]. 王培冬基于多元線性回歸模型,分析及預(yù)測了滬深股價(jià)[3]. 袁水林利用多元線性回歸模型,探討了企業(yè)更有效的物流成本管理方法及對企業(yè)效益的影響動因[4]. 王康慧通過建立多元線性回歸模型驗(yàn)證了工業(yè)、最終消費(fèi)以及貨幣M2對我國GDP的增長有較為顯著的影響[5].
近年關(guān)于線性回歸系數(shù)變點(diǎn)模型問題的研究,主要有兩種方法. 一是通過構(gòu)造統(tǒng)計(jì)量對變點(diǎn)進(jìn)行檢測. 如Liu等提出了一種新的經(jīng)驗(yàn)似然比檢驗(yàn)統(tǒng)計(jì)量來檢驗(yàn)線性回歸模型的回歸系數(shù)變點(diǎn)問題[6]. 陳占壽等通過引進(jìn)一個窗寬參數(shù),對線性回歸模型系數(shù)變點(diǎn)和方差變點(diǎn)進(jìn)行在線監(jiān)測[7]. 秦瑞兵等提出了兩個基于回歸殘差的平方累積和的比值型監(jiān)測統(tǒng)計(jì)量,并在這兩個統(tǒng)計(jì)量的基礎(chǔ)上討論了線性回歸模型系數(shù)變點(diǎn)的在線監(jiān)測問題[8]. 楊兆新等在構(gòu)建分位數(shù)LASSO估計(jì)量的基礎(chǔ)上研究了線性回歸模型變點(diǎn)位置的估計(jì)問題[9].二是利用貝葉斯方法估計(jì)變點(diǎn)位置等未知參數(shù). 如Tang等主要討論了在先驗(yàn)分布為beta-binomial分布和冪型先驗(yàn)的條件下,一元線性回歸模型變點(diǎn)的貝葉斯估計(jì)[10]. 楊豐凱和袁海靜基于非迭代IBF抽樣算法,詳細(xì)討論了線性回歸模型中回歸系數(shù)變點(diǎn)的貝葉斯估計(jì)問題[11]. 貝葉斯方法需要對后驗(yàn)分布進(jìn)行計(jì)算,目前MCMC算法因?yàn)槟軌蚋咝幚韽?fù)雜問題和程序相對容易等優(yōu)點(diǎn)被廣泛應(yīng)用于貝葉斯方法中. 關(guān)于利用貝葉斯方法研究線性回歸變點(diǎn)的文獻(xiàn)中,Tang等[10]主要側(cè)重于變點(diǎn)模型先驗(yàn)分布的選擇,未詳細(xì)介紹其算法,楊豐凱等[11]主要討論了IBF算法. 本文在前人學(xué)者的研究基礎(chǔ)上,研究了基于MCMC算法的多元線性回歸系數(shù)變點(diǎn)模型的貝葉斯估計(jì),并對位置參數(shù)和其他參數(shù)做了隨機(jī)模擬.
其中:yi,i=1,…,n相互獨(dú)立. 稱(2)式為多元線性回歸系數(shù)變點(diǎn)模型.
本文使用R軟件進(jìn)行隨機(jī)模擬,利用Gibbs抽樣和M-H算法相結(jié)合的MCMC算法討論多元線性回歸變點(diǎn)的位置參數(shù)和其他參數(shù)的貝葉斯估計(jì)效果. 考慮如下一元線性回歸變點(diǎn)模型:
假設(shè)εi,i=1,…,n相互獨(dú)立.
其中:l表示待估參數(shù)的真值;l?表示該參數(shù)的貝葉斯估計(jì);l()t表示第t次迭代該參數(shù)產(chǎn)生的樣本. 模擬結(jié)果如表1所示.
表1 隨機(jī)模擬結(jié)果Tab.1 Stochastic simulation results
MCMC算法很重要的一個問題是收斂性診斷,如果用MCMC方法生成的馬爾可夫鏈不收斂,則得到的后驗(yàn)估計(jì)將是不可靠的. MCMC算法收斂性的診斷一是判斷由MCMC方法抽樣生成的馬爾可夫鏈?zhǔn)欠褚呀?jīng)收斂到平穩(wěn)分布,二是判斷由MCMC方法抽樣生成的馬爾可夫鏈的樣本均值是否已經(jīng)收斂到遍歷均值[13]. 一般常用的方法是畫出待估參數(shù)模擬得到的馬爾可夫鏈的迭代圖,通過迭代圖可以直觀地發(fā)現(xiàn)不正?;虿黄椒€(wěn)的狀態(tài),同時也可以對待估參數(shù)取不同初值,產(chǎn)生多條馬爾可夫鏈,在一段時間后,若幾條鏈逐漸穩(wěn)定并且趨于重合,則說明抽樣收斂. 因參數(shù)較多,本文只列出參數(shù)變點(diǎn)位置r的馬爾可夫鏈迭代圖,見圖1和圖2.
圖1 r 的馬爾可夫鏈迭代圖Fig.1 Markov chain iteration diagram of r
從表1可以看到,各參數(shù)的估計(jì)值與真值很接近,RMS均不超過0.7,估計(jì)精度較高. 從圖1可以看出,r的馬爾可夫鏈在迭代過程中比較穩(wěn)定,從圖2可以看出,r的兩條馬爾科夫鏈穩(wěn)定且趨于重合,說明馬爾可夫鏈?zhǔn)諗浚玫降墓烙?jì)是有效的. 因此,隨機(jī)模擬實(shí)驗(yàn)的效果較好.
圖2 r 的多條馬爾可夫鏈迭代圖Fig.2 Multiple Markov chains iteration diagram of r
本文結(jié)合貝葉斯方法和MCMC 算法得到了多元線性回歸變點(diǎn)模型的變點(diǎn)位置參數(shù)和系數(shù)參數(shù)的貝葉斯估計(jì). 在隨機(jī)模擬實(shí)驗(yàn)中,通過討論貝葉斯估計(jì)的精度及MCMC 算法的收斂性,最終結(jié)果表明了該算法的有效性.