韓立巖 蔡明生 尹力博
(北京航空航天大學 經(jīng)濟管理學院,北京100191)
在工程設計、工程統(tǒng)計和價值評估的參數(shù)統(tǒng)計推斷中,統(tǒng)計量分布的確定是一個關鍵環(huán)節(jié).當一個統(tǒng)計量由眾多獨立而微小的因素所決定時,中心極限定理保證了設定其服從正態(tài)分布的合理性.目前主流參數(shù)統(tǒng)計說到底還是基于正態(tài)假設的.但是,在工程與價值評估相關的統(tǒng)計分析中,眾多實例的數(shù)據(jù)分析結(jié)果不能給出統(tǒng)計顯著的支持正態(tài)假設的證據(jù).例如金融投資中收益率往往具有尖峰后尾或者偏斜特性,工程可靠性分析中的部件壽命也往往不滿足正態(tài)特性.對此,以往的研究重點集中在特殊分布的選擇上,由此往往導出十分復雜的分布形式,使得后續(xù)的統(tǒng)計分析難以展開.對此,本文提出一個新的思路:非正態(tài)分布的正態(tài)逼近,并在極大似然估計的期望最大化(EM,Expectation Maximization)算法中提出基于最大覆蓋寬度的定階原則.
在工程領域,任何隨機擾動都是以正態(tài)分布為基礎.在經(jīng)濟學領域,Bachelier在1909年開創(chuàng)性提出用正態(tài)分布研究股票價格之后,正態(tài)假設逐漸成為價值分析的正統(tǒng).馬克維茨最優(yōu)資產(chǎn)組合理論和Black-Sholes-Merton期權(quán)定價理論奠定了正態(tài)假設之下新古典金融學的基石.而在其后對有效市場理論的檢驗過程中,否定正態(tài)假設的經(jīng)驗證據(jù)卻主導了文獻.人們發(fā)現(xiàn)當信息不均勻地傳遞到市場時就會導致收益分布呈尖峰厚尾或者偏斜狀態(tài),而且在不同的時間頻率上差異顯著.在最新的文獻中,Kim等人以深入的實證研究拒絕了收益率的正態(tài)分布假設,并分別采用連續(xù)型和離散型市場模型歸納了正態(tài)破缺的條件異方差效應[1],金融統(tǒng)計的成果對于工程領域也具有啟發(fā)性.只要信息傳導出現(xiàn)集簇現(xiàn)象,正態(tài)性假定就很難成立.
系統(tǒng)極端事件發(fā)生的頻率往往大于正態(tài)分布蘊含的概率,Levy穩(wěn)定分布對資產(chǎn)收益率分布的左右尾部進行單獨建模,可以描述分布的不對稱性并對極端風險進行比較.Longin的實證檢驗發(fā)現(xiàn)歐美金融市場收益分布尾部可用指數(shù)大于2的穩(wěn)定分布描述[2].該分布適合描述具有胖尾特征的分布,特征指數(shù)越小尾部越胖,當指數(shù)小于2時穩(wěn)定分布的方差不存在.穩(wěn)定分布一般用特征函數(shù)表示,含有4個參數(shù):特征指數(shù)(尾部形狀)、偏斜度(對稱性)、尺度參數(shù)和位置參數(shù).Nolan指出該特征函數(shù)在參數(shù)空間內(nèi)是連續(xù)的,且是最簡單的表示形式,因而數(shù)值計算和統(tǒng)計推理都比較方便[3].然而,穩(wěn)定分布不存在有限方差卻與市場實際情況不符合.經(jīng)驗分析表明,長時間標度的低頻金融數(shù)據(jù)經(jīng)驗分布的方差一般是有限的.對此,Mantegna等提出截斷Levy分布,具有有限方差,同時保留了良好的尖峰性質(zhì)[4].Koponen提出的平滑截斷 Levy分布[5]、Gupta和 Campanha提出的漸近截斷 Levy分布[6]、Matsushita和 Gleria等提出的指數(shù)阻尼Levy分布[7-8],可以更好滿足收益率長期記憶性和波動持續(xù)性的正反饋情形.雖然截斷Levy分布可以較好地描述經(jīng)驗收益分布特征,但其密度函數(shù)十分復雜,使其應用受到限制.
證券市場的豐富數(shù)據(jù)為分布選擇提供了試驗場.陳啟歡認為中國股票市場大體符合自由度為5~9的t分布[9].王新宇和宋學峰對中國滬深股市收益的統(tǒng)計分布特征和市場風險規(guī)律進行了定量比較研究,分別采用穩(wěn)定分布、漸近Pareto分布和截斷Levy分布擬合中國股票市場收益統(tǒng)計分布,實證研究發(fā)現(xiàn)中國股市收益分布的中間部分適合用穩(wěn)定分布描述,分布的尾部適合用尾部指數(shù)大于2的漸近Pareto分布描述[10].都國雄和寧宣熙根據(jù)上證綜指和深證成指在此前7年中不同時間標度的高頻數(shù)據(jù),對收益的波動特性進行了實證分析,發(fā)現(xiàn)收益的概率分布不僅具有明顯的尖峰胖尾特征和標度不變性,而且遵循漸近冪律特性,穩(wěn)定分布較好地描述了分布的中間區(qū)域,其特征指數(shù)表明價格波動具有非線性分形特征[11].黃德龍和楊曉光利用scaled-t分布、logistic分布、指數(shù)冪分布和GARCH-M模型等對滬深股指收益數(shù)據(jù)分布進行擬合,認為scaled-t分布可以較好模擬股指收益分布[12].用t分布、對稱Levy分布等代替正態(tài)分布描述具有尖峰厚尾的統(tǒng)計量分布以及建模中的誤差項分布是目前比較好的選擇,但仍然是屬于經(jīng)驗主導的選擇.
在工程計算和價值評估中由于不同信息的到達時間以及對統(tǒng)計量的影響程度不同,同分布的假設往往不滿足,人們需要異質(zhì)性的分布刻畫.混合分布模型就是一個自然的結(jié)果.混合模型通常由2個分布構(gòu)成,其中一個為正態(tài)分布,描述統(tǒng)計量的分布形式,另一個分布則描述干擾項的波動情況,控制正態(tài)分布方差的變動.由于在不同時間長度上信息的到達是不均勻的,因此在不同時刻,方差的分布很可能就不同,混合模型的形式也就不同.研究者探索了大量的混合模型,Press構(gòu)造的復合事件模型起到了引領作用[13].Praetz研究了正態(tài)分布方差服從Gamma-2分布的情況,他證明在這種情況下收益率服從 t分布[14].Blattberg與Gonedes研究了正態(tài)分布方差服從特征指數(shù)小于1的嚴格正的漸進Pareto分布的情況,此時收益率服從對稱的漸進Paretian分布,且特征指數(shù)小于2[15].由于Gamma-2分布與特征指數(shù)小于1的嚴格正的漸進Pareto分布都是非對稱有偏分布,因此這2類模型都較好地刻畫了信息到達的不均勻特征,特別刻畫了外部沖擊所引起的統(tǒng)計量較大變動.
通過以上文獻分析可以看出,采取分析統(tǒng)計量形成機理從而確定對應的統(tǒng)計分布,具有堅實的理論基礎,但是難以滿足良好的統(tǒng)計特性;使用現(xiàn)有函數(shù)擬合經(jīng)驗數(shù)據(jù)的方法獲得統(tǒng)計分布,有較好的精確度,但是缺乏堅實的理論依據(jù).在長期探索之后,人們又開始關注經(jīng)典的由正態(tài)分布的線性組合所構(gòu)成的混合正態(tài)分布.
正態(tài)分布以其簡潔、參數(shù)線性和清晰的統(tǒng)計理論依據(jù)而得到最為廣泛的認可,任何一種偏離正態(tài)分布的具有非對稱、尖峰后尾性質(zhì)的分布都是依某種程度對于正態(tài)的扭曲.從標準函數(shù)空間逼近其他函數(shù)的思想出發(fā),能否選擇一個恰當數(shù)量的正態(tài)分布的線性組合來逼近一個非正態(tài)分布,這可能是選擇其他非正態(tài)分布的最為簡潔的替代.而有限混合正態(tài)分布自19世紀被提出后,在工程領域有著一定程度的應用,但是缺乏統(tǒng)計理論支持.近年來混合正態(tài)分布的應用有了新的進展,趙希男和崔海波針對上證指數(shù)和深圳成分指數(shù)采用2個正態(tài)分布加權(quán)的混合辨識模型,運用5階矩估計和均方誤差最小化迭代方法確定權(quán)重分配,并運用柯爾莫哥洛夫優(yōu)度檢驗判定二元混合辨識的統(tǒng)計效果[16].隨著計算機的出現(xiàn)和發(fā)展,對混合正態(tài)分布參數(shù)估計的研究緊密結(jié)合Dempster等人的最大期望(EM)算法,獲得了新的估計方法[17].熊明和謝民育給出了均值混合正態(tài)分布的估計方法[18].Caudill針對混合正態(tài)分布的受限回歸模型給出了部分自適應估計[19].
考慮到有限混合正態(tài)分布的簡潔性,借鑒泰勒級數(shù)和傅里葉級數(shù)的逼近思想,本文提出替代非正態(tài)分布選擇的新思路:選擇若干個正態(tài)分布的凸組合而形成的有限混合正態(tài)分布在極大似然估計意義下逼近所考慮的狀態(tài)分布.從統(tǒng)計上講,極大似然估計是概率意義下的最優(yōu)化選擇,這就從統(tǒng)計理論上支持了非正態(tài)分布的正態(tài)逼近.
下面從有限混合正態(tài)分布的概念開始,順序給出有限混合狀態(tài)分布及其參數(shù)的極大似然估計的EM算法.
假定X為一隨機變量,其概率密度為
則式(1)的分布密度的參數(shù)形式為
其中權(quán)重要保證密度函數(shù)的積分等于1.
給定總體,抽取樣本為n的簡單隨機樣本,X1,X2,…,Xn,其樣本似然函數(shù)為
用極大似然法估計的參數(shù)為
EM算法是分E(期望)步和M(極大化)步兩個步驟的迭代運算.
1)E步.給定參數(shù)向量初值:
則在初值條件下樣本 X1,X2,…,Xn中 Xi∈N(μ(0)j,σ2(0)j)的后驗概率為
EM迭代中成分分布數(shù)目k的確定是關鍵環(huán)節(jié).對一個確定的k來講,EM迭代除了給出所估計的參數(shù)外,還給出相應的對數(shù)似然函數(shù)值l().赤池準則(AIC,Akaike Information Criterion)根據(jù)最大熵原理得出了極大似然函數(shù)與熵之間的關系.根據(jù)這個關系,在有限混合正態(tài)分布參數(shù)的極大似然估計中,確定k使AIC準則AIC=-2l()+2N(k)最小,其中N(k)是所估計參數(shù)的數(shù)目.
但是考慮到極端情形的覆蓋程度,本文提出覆蓋性準則:計算每一個混合正態(tài)分布的經(jīng)過標準差調(diào)整的最大均值與相應權(quán)重的乘積減去經(jīng)過標準差調(diào)整的最小均值與相應權(quán)重的乘積,稱之為“覆蓋寬度”,選取最大覆蓋寬度的混合正態(tài)分布作為原始分布的正態(tài)逼近.
下面選擇北美股市的綜合股指MSCI_NA從2006年2月到2011年1月的日度數(shù)據(jù),進行收益率分布的正態(tài)逼近.MSCI全球指數(shù),是摩根士丹利資本國際公司(Morgan Stanley Capital International)所編制的覆蓋全球的使用廣泛的權(quán)威證券指數(shù).所選擇的時間段覆蓋了2008年全球金融危機的前后時間,具有代表性.
采用混合正態(tài)分布對于經(jīng)驗分布做逼近.根據(jù)上面介紹的EM迭代算法,用Matlab實現(xiàn).正態(tài)逼近的支數(shù)(成分分布個數(shù))最大取到11.覆蓋寬度的結(jié)果如表1所示.覆蓋寬度在經(jīng)過權(quán)重調(diào)整前,最大覆蓋寬度的逼近支數(shù)為7,而經(jīng)過權(quán)重調(diào)整后的最大覆蓋寬度的逼近支數(shù)為5.因此最佳逼近的參數(shù)如表2所示.
表1 混合正態(tài)分布覆蓋寬度
表2 基于最大覆蓋寬度的正態(tài)逼近參數(shù)
圖1 5支混合正態(tài)分布逼近的分布密度
5支混合正態(tài)分布的分布密度如圖1所示.根據(jù)最小AIC準則的逼近選擇為2支混合正態(tài)分布,5支混合正態(tài)分布的擬合效果優(yōu)于通常的2支效果.另外,在實驗中與主要非正態(tài)分布的擬合相比,正態(tài)逼近方法具有估計時間短、方法統(tǒng)一并適用正態(tài)情形的理論框架的優(yōu)勢.
針對涉及統(tǒng)計數(shù)據(jù)建模的工程與價值分析中復雜的分布選擇問題,結(jié)合混合正態(tài)模型的實踐,本文提出非正態(tài)分布的正態(tài)逼近的思路,并在EM算法中提出最大覆蓋寬度的定階原則.實證結(jié)果驗證了方法的可行性.今后研究的重點應放在分布逼近的穩(wěn)健性評價與控制準則上,以滿足復雜情形對于估計有效性的要求.
References)
[1] Kim Y S,Rachev S T,Bianchi M L,et al.Financial market models with levy process and time-varying volatility[J].Journal of Banking & Finance,2008,32(7):1363-1378
[2] Longin F.The asymptotic distribution of extreme stock market returns[J].Journal of Business,1996,69(7):383-408
[3] Nolan J P.Stabledistributions:models for heavy-tailed data[M].Verlag:Birkhauser,2003
[4] Mantegna R N,Buldyrev S V,Goldberger A L,et al.Linguistic features of noncoding DNA sequences[J].Physical Review Letters,1994,73(23):3169-3172
[5] Koponen Ismo.Analytic approach to the problem of convergence of truncated Lévy flights towards the Gaussian stochastic process[J].Phys Rev E,1995,52:1197-1199
[6] Gupta H M,CampanhaJ R.The gradually truncated Lévy flight for systems with power-law distributions[J].Physica A:Statistical Mechanics and Its Applications,1999,268(1):231-239
[7] Matsushita R,Rathie P,Silva S D.Exponentially damped Lévy flights[J].Physica A:Statistical Mechanics and Its Applications,2003,326(3):544-555
[8] Gleria I,F(xiàn)igueiredo A,Matsushita R,et al.Exponentially damped Lévy flights,multiscaling and slow convergence in stock markets[J].Physica A:Statistical Mechanics and Its Applications,2004,342(1):200-206
[9]陳啟歡.中國股票市場收益率分布曲線的實證[J].數(shù)理統(tǒng)計與管理,2002,21(5):9-11 Chen Qihuan.The curve of stock market yield in China[J].Journal of Application of Statistics and Management,2002,21(5):9-11(in Chinese)
[10]王新宇,宋學峰.擬合中國股票市場收益的統(tǒng)計分布[J].系統(tǒng)工程理論與實踐,2006(12):40-46 Wang Xinyu,Song Xuefeng.A study on describing the statistical distribution of returns in Chinese stock markets[J].Systems Engineering-Theory & Practice,2006(12):40-46(in Chinese)
[11]都國雄,寧宣熙.我國股市收益概率分布的統(tǒng)計特性分析[J].中國管理科學,2007,15(5):16-22 Du Guoxiong,Ning Xuanxi.Statistical properties of probability distributions of returns in Chinese stock markets[J].Chinese Journal of Management Science,15(5):16-22(in Chinese)
[12]黃德龍,楊曉光.中國證券市場股指收益分布的實證分析[J].管理科學學報,2008,11(1):68-77 Huang Delong,Yang Xiaoguang.Empirical study on distributions of stock index returns in China’s securities market[J].Journal of Management Sciences in China,2008,11(1):68-77(in Chinese)
[13] James S.A compound events model for security prices[J].The Journal of Business,1967,40(3):317-335
[14] Praetz P.The distribution of share price changes[J].Journal of Business,1972,45(1):49-55
[15] Blattberg,R C,Nicholas J G.A comparison of the stable and student distributions as statistical models for stock prices[J].Journal of Business,1974,47(2):244-280
[16]趙希男,崔海波.確定金融資產(chǎn)收益率分布形式的一種方法[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究,2004(9):56-63 Zhao Xi'nan,Cui Haibo.A kind of methods to determining return distributions of financial assets[J].Quantitative & Technical Economics,2004(9):56-63(in Chinese)
[17] Dempster,Nan Laird,Donald Rubin.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society:Series B,1977,39(1):1-38
[18]熊明,謝民育.均值混合正態(tài)分布統(tǒng)計量的性質(zhì)[J].數(shù)學物理學報,2009(3):685-690 Xiong Ming,Xie Minyu.The properties of the mean-mixture of normal distribution[J].Acta Mathematica Scientia,2009(3):685-690(in Chinese)
[19] Caudill S B.A partially adaptive estimator for the censored regression model based on a mixture of normal distributions[J].Statistical Methods and Applications,2012,21:121-137