王云潤,喬高秀
(西南交通大學 數(shù)學學院,成都 611756)
金融資產(chǎn)的波動率是衡量市場風險的重要指標,在資產(chǎn)的定價和分配、風險管理和貨幣政策制定方面都起著重要作用。因此,對波動率的預測在金融計量學研究中受到了極大關注。Bollerslev[1]提出了廣義自回歸條件異方差(GARCH)模型,該模型能捕捉到波動率聚集效應等,但其估計大多基于日數(shù)據(jù)。隨著對日內高頻數(shù)據(jù)的可獲取,Andersen 等[2]提出將已實現(xiàn)波動作為對高頻波動率的度量,以便更好地觀測和評估波動率。為了刻畫已實現(xiàn)波動的長記憶性,Corsi[3]引入異質性自回歸(HAR)模型,該模型由于結構簡潔、估算容易在研究界被廣泛使用。Byun 等[4]將風險中性偏度直接作為解釋變量加入HAR 模型,發(fā)現(xiàn)風險中性偏度包含已實現(xiàn)波動和隱含波動率中沒有包含的信息,這些信息有助于波動率預測。其中,隱含波動率是由期權的市場價格倒推出的波動率,反映了投資者對標的資產(chǎn)未來波動率的預期。Mei 等[5]將已實現(xiàn)偏度加入HAR 模型中,發(fā)現(xiàn)已實現(xiàn)偏度對未來的波動率有明顯的負面影響。樣本外結果表明,已實現(xiàn)偏度有助于中長期預測,但無法提高短期預測的準確性。鄭振龍等[6]在比較偏度和峰度對波動率的影響時,發(fā)現(xiàn)期權隱含偏度所包含的信息要多于基于歷史信息的已實現(xiàn)偏度,對波動率的影響更顯著。
在金融預測領域,傳統(tǒng)研究假定經(jīng)濟系統(tǒng)是穩(wěn)定的。但是,受到政治、經(jīng)濟和環(huán)境等多方面因素的影響,金融市場數(shù)據(jù)可能因為一些極端事件引起結構突變,使得時間序列的數(shù)據(jù)特征受到影響,從而導致參數(shù)不穩(wěn)定性和模型不確定性。在數(shù)據(jù)存在結構突變時,通常使用突變后的數(shù)據(jù)進行預測,而數(shù)據(jù)有限使得模型存在較高的不確定性。因此,金融預測研究的最大挑戰(zhàn)來自于考慮市場發(fā)生結構突變時存在預測模型的不確定性和估計參數(shù)的不穩(wěn)定性。Pesaran 等[7]認為這可能不會使均方預測誤差最小化,故在參數(shù)不確定性建模時,Dangl 等[8]和Zhu 等[9]使用時變參數(shù)模型,允許參數(shù)隨時間變化;Wang 等[10]提出時間加權最小二乘回歸方法,通過為距離預測時間越近的樣本賦予越高的權重來解決參數(shù)不穩(wěn)定性。Zhang 等[11]繼Pesaran 等[7]和Pesaran 等[12]之后,使用窗口平均預測方法(AveW),將在不同估計窗口長度上計算的同一模型進行平均,通過與其他預測方法比較發(fā)現(xiàn),該方法能提高股票收益預測效果,在參數(shù)不穩(wěn)定和結構突變情況下具有簡單而可靠的特點。
盡管已有文獻考慮到將偏度引入HAR-RV 模型,但尚無研究系統(tǒng)地比較過不同偏度指標所包含的信息差異和對波動率的預測能力。本文中主要探討風險中性偏度,基于日內高頻數(shù)據(jù)和日數(shù)據(jù)的不同偏度指標對已實現(xiàn)波動預測能力的信息差異,從這一新的角度對已有研究進行補充。在預測方法上,首先基于單個機器學習方法[13]預測已實現(xiàn)波動。考慮到市場結構突變導致的模型不確定性和參數(shù)不穩(wěn)定性,且已有研究提出基于時間維度的改進方法來提高收益率預測效果[10-11],因此將這一思想應用到數(shù)據(jù)驅動的機器學習算法中,充分考慮金融時間序列數(shù)據(jù)的時間維度特征,對距離預測點越近的樣本給予更多的關注,并與傳統(tǒng)的集成學習方法[14]相比較,從而提出具有更高預測精度的集成學習方法。
本文結構安排如下:第2 節(jié)介紹各種偏度指標和擴展模型以及研究方法;第3 節(jié)為實證結果,包括相關性分析、參數(shù)估計結果、每個方法的預測結果等;第4 節(jié)為穩(wěn)健性檢驗,通過調整訓練集長度來驗證方法是否具有穩(wěn)健性;第5 節(jié)為結論。
根據(jù)Andersen 等[2]的方法,通過將相應的高頻日內平方收益相加得出每日已實現(xiàn)波動,計算式如下:
其中:rt,i表示第t 天,第i 次交易的對數(shù)收益。
Andersen 等[15]證明了已實現(xiàn)波動有以下極限結果:
其中:Δps=ps-ps-表示在s 時刻跳的大小。
根據(jù)Barndorff-Nielsen 等[16]的研究,將已實現(xiàn)波動分解為已實現(xiàn)上半變差和已實現(xiàn)下半變差,定義如下:
并且證明了:
其中:I(*)表示示性函數(shù),易知已實現(xiàn)波動RVt=。
使用4 種不同的方法來刻畫波動率偏度:
1)參考鄭振龍等[6]的研究,利用m 個交易日的日對數(shù)收益率滾動計算已實現(xiàn)偏度(RSt),計算式如下:
其中:rt為第t 天的日對數(shù)收益率;為m 個交易日的收益率均值,m 取值為22。
2)根據(jù)Chen 等[17]的研究,基于日收益率滾動計算負偏度(NRSt)為:
其中:rt定義和m 的取值同上。
3)參考Amaya 等[18]的研究,基于日內高頻收益計算已實現(xiàn)偏度為:
Barndorff-Nielsen 等[16]和Mathieu 等[19]的研究結果表明:
根據(jù)Feunou 等[20]提供的理論支持,可將已實現(xiàn)上半變差與已實現(xiàn)下半變差之差看作是上述已實現(xiàn)偏度(INTRSkewt)的一種度量,記為波動率偏度(RSVt)。計算如下:
當RSVt<0 時,收益率分布是左偏的;當RSVt>0時,則分布是右偏的。
4)芝加哥期權交易所(CBOE)于2011 年推出風險中性偏度指數(shù),記為QSt,計算如下:
其中:Skt=,表示風險中性偏度;為S&P 500 對數(shù)收益;μ=,σ=分別是其在風險中性測度Q 下的期望和標準差,其具體計算方式參考文獻[21]。可以看出,RSt越小,左偏越明顯;而NRSt和QS 越大,左偏越明顯。
使用由Corsi[3]提出的HAR 模型研究已實現(xiàn)波動的預測。由于該模型能很好地刻畫資產(chǎn)收益波動率中的長記憶特性,且模型僅包含代表日、周和月效應的3 個變量,易于處理,因此該模型是已實現(xiàn)波動預測最受歡迎的模型。本文中采用對數(shù)回歸,模型設定為:
為了比較以上幾種偏度指標包含的信息對已實現(xiàn)波動預測的差異性和準確性,分別將上述4種偏度指標加入HAR-RV 模型,設定如下:
1.3.1 支持向量回歸
傳統(tǒng)的線性回歸方法只要真實值與擬合值不相等就計算誤差,而在支持向量回歸[22]方法下,僅當二者之差的絕對值大于某個正數(shù)ε 時才計算損失,相當于以擬合值為中心,構建了一個寬度為2ε 的間隔帶。若訓練樣本落入間隔帶中,則認為是預測正確。
支持向量回歸的求解表示為:
其中:C 為正則化常數(shù);lε為ε-不敏感損失函數(shù),表示為:
通過拉格朗日乘子法和對偶問題可以得到SVR 的解為:
若考慮到特征映射形式,則對應的核函數(shù)SVR 解形式為:
其中κ(xi,xj)=φ(xi)Tφ(xj)為核函數(shù),φ(x)表示將x 映射后的特征向量。本文中選取的核函數(shù)為徑向基(RBF)核函數(shù),其定義為κ(x,z)=。采用五折交叉驗證法和網(wǎng)格搜索法相結合來選取最優(yōu)參數(shù)組合[23]。
采用同模型(11)—(15)一致的輸入變量和輸出變量構建SVR 模型。以模型(11)為例,具體形式如下:
其中:x·=[(ln(RVd,·),ln(RVw,·),ln(RVm,·)]T。
1.3.2 帶懲罰項的線性回歸
在普通最小二乘回歸基礎上,引入帶懲罰項的線性回歸來解決簡單回歸分析可能產(chǎn)生的過擬合問題,即在最小化損失函數(shù)中加入懲罰函數(shù)φ(β),形式為:
根據(jù)φ(β)的不同,采用嶺回歸(ridge regression)和彈性網(wǎng)絡方法(elasticnet)[24],φ(β)形式分別表示為:
其中:λ 為正則化參數(shù),控制著模型的復雜度,λ 過大容易欠擬合,太小容易過擬合;α 為0~1 的正數(shù),控制著L1 和L2 范數(shù)的比重;當α=1 時,此時彈性網(wǎng)絡退化為套索回歸;當α=0 時,則退化為嶺回歸。由此可見彈性網(wǎng)絡結合了嶺回歸和套索回歸的共同特點。
1.3.3 集成學習
集成學習先通過已有的學習算法從訓練集中訓練得到個體學習器,再將若干個這樣的個體學習器通過某種方法結合,最終得到一個強學習器。根據(jù)個體學習器之間是否存在強依賴關系,分為串行生成的序列化方法和可同時生成的并行化方法,二者的代表方法分別是Boosting 和Bagging。
1)Adaboost 方法
本文中采用Boosting 族算法中最具代表性的Adaboost 方法[25],并在處理回歸問題時用平方誤差來衡量誤差率。在最后進行個體學習器集成時,用各個體學習器的預測結果乘以各自權重再求和作為最終結果。算法過程如下:
步驟1初始化訓練數(shù)據(jù)的分布權重:D1=(w11,w12,…,w1i,…,w1m),w1i=,i=1,2,…,m;
步驟2使用某個學習算法訓練具有權重D1的訓練集,得到第1 個基本學習器;
步驟3計算基本學習器T1(x)在訓練集上的預測誤差率e1:
Ⅰ)計算訓練集上的最大誤差:E1=,i=1,2,…,m。
Ⅱ)采用平方誤差,計算每個樣本的相對誤差e1i=,i=1,2,…,m。
Ⅲ)計算回歸預測誤差率:e1=。
步驟4計算基本學習器T1(x)的投票權重α1,并更新第2 輪訓練集的權重D2:
步驟5對第2 輪權重樣本再次訓練得到第2個基本學習器,重復上述過程N 次,得到N 個基本學習器T1(x),T2(x),…,TN(x)和相應的權重α1,α2,…,αN,則:
其中:T(x)是所有αnTn(x)的中位數(shù)(n=1,2,…,N)。
Adaboost 方法的本質是不改變訓練數(shù)據(jù),改變訓練數(shù)據(jù)權重分布,每一輪訓練提高前一輪誤差大的樣本權重;最后加權平均得到預測值,誤差率越低的基本學習器權重越高。
2)Bagging 方法
Bagging 方法[26]是并行式集成學習方法中最著名的代表。采用自助采樣法,即從包含n 個樣本的數(shù)據(jù)集中隨機取出一個樣本放在采樣集中,再將該樣本放回數(shù)據(jù)集,使之在下次采樣時仍有機會被選中,這樣隨機放回采樣m 次,然后重復N次該過程,即可得到N 個含有m 個訓練樣本的采樣集;對每個采樣集訓練得到一個基本學習器,對于分類問題用簡單投票法,對于回歸問題用簡單平均法。
3)窗口平均預測法
除上述2 種集成方法外,本文中采用窗口平均預測方法(AveW)[7,11]。該方法可以看作是固定取樣的Bagging。Bagging 集成預測方法在獲得采樣集時,由于自助采樣法的隨機性,對于時間序列預測來說可能并不是最優(yōu)選擇。而AveW 方法在不同估計窗口上擬合相同模型,并對模型的預測結果求平均。即終止日期相同,根據(jù)起始日期的不同獲得若干個窗口長度不同的訓練集,在這些訓練集上訓練得到基本學習器,將這些基本學習器的預測結果簡單平均作為最終結果。窗口平均預測法的優(yōu)勢是充分考慮數(shù)據(jù)在縱向時間維度上的特征,時間越近的樣本利用率越高,信息挖掘越充分。
以SVR 的窗口平均為例(記為 SVR +AveW),用數(shù)學語言描述為:將給定的訓練集作為最長的觀測窗口W=,其中m是訓練集長度,xt與2.3.1 部分提到的一致。首先,將W 分為N 個訓練窗口:
其中:wi=wmin+,wmin為給定的最小的訓練窗口。Wi由最小窗口逐步遞增到最大窗口。
然后,在每個Wi訓練窗口上利用SVR 進行擬合,得到N 個擬合結果,i=1,2,…,N。則SVR+AveW 預測結果為:
傳統(tǒng)的OLS 背后假定經(jīng)濟系統(tǒng)是穩(wěn)定的,Zhang 等[11]在預測股票收益率時考慮市場系統(tǒng)結構發(fā)生突變時模型的不確定性和參數(shù)的不穩(wěn)定性,發(fā)現(xiàn)窗口平均預測方法能有效提高股票收益率的預測效果。與Zhang 等[11]的研究不同,本文中分別在線性OLS、帶懲罰項的線性回歸和非線性SVR 方法預測的基礎上采用窗口平均集成預測方法來研究已實現(xiàn)波動預測。采用固定窗口大小的滾動估計,對于每個估計窗口,都用窗口平均預測法來向前一步預測已實現(xiàn)波動。
數(shù)據(jù)選取標準普爾500 指數(shù)從2000-02-04 到2019-12-31 共4 983 個交易日數(shù)據(jù)。數(shù)據(jù)來自https://realized.oxford-man.ox.ac.uk/,風險中性偏度數(shù)據(jù)來源于芝加哥期權交易所網(wǎng)站。由于QS 的數(shù)值全部大于100,由式(10)可知,式中S 均小于0,因此QS 實際上刻畫的是左偏風險。由于左偏風險與市場崩盤風險更直接密切相關,也為了與QS 保持一致,本文中對其余3 個偏度指標進行處理,提取RS 和RSV 中小于0 的部分并取絕對值,大于0 的部分賦值為0;對NRS 中小于0 的部分賦值為0,保留其大于0 的部分。RS-、RSV-和NRS+分別表示按上述處理之后的偏度;RS、RSV和NRS 分別表示未經(jīng)處理的偏度。
表1 給出了處理后的各個偏度指標和已實現(xiàn)波動自然對數(shù)的描述性統(tǒng)計結果。RS-和NRS+均為基于每日收益的偏度指標,可以看出,二者在數(shù)量級上相比于另外2 個指標差別不是很大,差異主要由指標本身計算公式引起,即由中心化調整和前面系數(shù)的調整引起,在數(shù)據(jù)特征上均呈現(xiàn)右偏厚尾;RSV-的量級由于基于已實現(xiàn)波動數(shù)據(jù)本身的原因,仍然是右偏厚尾,而QS 則是右偏瘦尾。由JB統(tǒng)計量可知,所有指標均不服從正態(tài)分布。
表1 各個變量的描述性統(tǒng)計結果
通過表2 得知,已實現(xiàn)波動與4 個偏度指標均存在一定相關性,但相關性方向不盡相同,證明偏度指標所包含的信息也存在一定的差異。
表2 各個變量間的皮爾遜相關系數(shù)
表3 給出了式(11)—(15)的最小二乘估計結果,在進一步放寬顯著性水平和有效位數(shù)的前提下(即可近似認為在10%顯著性水平下RS-對已實現(xiàn)波動有顯著影響),可以確定各個偏度指標對已實現(xiàn)波動預測確實有顯著性影響,但QS 的回歸系數(shù)與其他3 個偏度指標的回歸系數(shù)方向不同,因此QS 對已實現(xiàn)波動的影響與基于歷史數(shù)據(jù)的3個偏度指標的影響不同,進一步證實了各個偏度指標包含著不同的信息。后續(xù)將考慮用不同方法來比較不同偏度指標對已實現(xiàn)波動的預測能力。
表3 普通最小二乘回歸(OLS)參數(shù)估計結果
本文研究中,重點關注不同方法對樣本外已實現(xiàn)波動的預測效果。因此,將前70% (3 488個)的數(shù)據(jù)(2000 年2 月4 日至2014 年1 月16日)作為樣本內數(shù)據(jù),用于訓練模型;將2014 年1月17 日至2019 年12 月31 日的1 495 個數(shù)據(jù)作為樣本外數(shù)據(jù),用于預測。采用以下2 個損失函數(shù)來評估模型的預測能力:
1)平均絕對誤差:
2)均方根誤差:
其中:T 表示樣本內的觀測點個數(shù);N 是樣本外滾動窗口的長度;和RVT+i分別表示波動率的預測值和真實值。
表4 給出了OLS、Ridge、ElasticNet 和SVR 估計方法的預測誤差。由于帶懲罰項的線性回歸沒有表現(xiàn)出比OLS 更好的預測效果,因此表4 中集成方法只給出在基于OLS 和SVR 的Adaboost、Bagging 以及窗口平均(AveW)的預測誤差。方法上,對相同偏度的不同方法預測中,可以看到SVR的預測誤差明顯低于ElasticNet、Ridge 和OLS,說明非線性的SVR 方法優(yōu)于本文所選取的3 種線性回歸方法;在基于OLS 和SVR 的集成方法中,窗口平均預測法均有明顯提升,其中基于SVR 的窗口平均預測效果最佳。比較不同偏度的預測能力時,綜合比較各個方法得出:QS 對已實現(xiàn)波動的預測能力最強,基于日數(shù)據(jù)和日內高頻數(shù)據(jù)的偏度指標對已實現(xiàn)波動預測沒有特別明顯的改善;僅將QS 加入HAR-RV 模型時,模型性能才有提升,說明QS 包含已實現(xiàn)波動中沒有的信息,并有利于預測。
表4 測試集長度比例為30%時不同方法下各個偏度模型的預測誤差
采用MCS 檢驗來進一步驗證上述結果。MCS檢驗常用于評價不同模型的預測能力[27-28],根據(jù)Hansen 等[29]的研究,其檢驗統(tǒng)計量為:
其中:模型i 與模型j 是來自模型集合M 任意2 個互異的模型;dij表示其損失差,表示模型i 與模型j 的平均損失;的自舉估計。MCS 檢驗程序為初始設置中的每個模型分配P 值。對于給定的模型i,MCS 的P 值確定模型是否屬于MCS 的閾值置信水平,當且僅當≥α 時(i∈,α 為顯著性水平),越大的模型預測能力越強。
表5 給出了測試集長度比例為30%時的MCS檢驗結果。MCS 檢驗的模型集合M 分為2 種情形:①相同方法之下,5 個不同HAR 模型預測誤差所組成的模型集合(見Panel A);②相同模型之下,10 種方法的預測誤差組成的模型集合(見Panel B)。由A 部分可以看出,在2 種誤差標準下,對于單個方法而言,除了基于OLS 的Bagging方法是HAR-RV 模型最優(yōu)外,其余9 種方法均為加入風險中性偏度(QS)的結果最優(yōu)。因此,將風險中性偏度(QS)加入到HAR-RV 模型能提高模型對已實現(xiàn)波動的預測能力,而基于歷史信息的偏度對模型幾乎沒有提升作用;B 部分表示在2 種誤差標準下,對于不同的模型,其結果均為基于SVR 的窗口平均預測方法最優(yōu)??梢钥闯觯琈CS檢驗結果與上述表4 的預測結果一致。
表5 測試集長度比例為30%時2 種情況下的MCS 檢驗結果
上述結果基于測試集長度占樣本總長度的30%得到。為了驗證其是否具有穩(wěn)健性,表6 給出了測試集長度比例為50%時不同方法下各個偏度的預測誤差。以MAE 為衡量標準時,不同方法的最小誤差均出現(xiàn)在QS;以RMSE 為衡量標準時,QS 在OLS、Ridge、ElasticNet 這3 種方法下預測誤差小于NRS+,而其余7 種方法則是NRS+的預測結果略優(yōu)于QS。因此,綜合2 種標準可認為QS 的結果略優(yōu)于NRS+。
表7 給出了MCS 檢驗結果。由A 部分可以看出,以MAE 為衡量標準時,除SVR+Bagging、SVR+AveW 外,其余8 種方法下,均為HAR-RVQS 模型明顯優(yōu)于HAR-RV-NRS+模型;而以RMSE 為衡量標準時,同理可以得出,HAR-RVNRS+略優(yōu)于HAR-RV-QS,但綜合比較A 部分的2個誤差標準可知,HAR-RV-QS 模型表現(xiàn)優(yōu)越的情況居多,因此認為當測試集長度比例為50%時,QS 的結果要略優(yōu)于NRS+。由B 部分可以看出,在2 種誤差標準下的最佳方法仍為基于SVR 的窗口平均(SVR+AveW),MCS 檢驗結果和表6 預測誤差結果一致。
表6 測試集長度比例為50%時不同方法下各個偏度的預測誤差
表7 測試集長度比例為50%時兩種情況下的MCS 檢驗結果
續(xù)表(表7)
研究了風險中性偏度、基于日數(shù)據(jù)和日內高頻數(shù)據(jù)的偏度指標所包含的信息差異,通過機器學習方法比較不同偏度對已實現(xiàn)波動的預測能力。經(jīng)實證發(fā)現(xiàn),隨著訓練數(shù)據(jù)的增加,風險中性偏度的預測能力逐漸增強,且優(yōu)于基于日數(shù)據(jù)和日內高頻數(shù)據(jù)的偏度指標。在預測方法上,非線性的支持向量回歸(SVR)優(yōu)于普通最小二乘回歸(OLS)、嶺回歸(Ridge)以及彈性網(wǎng)絡(Elastic-Net)。在對OLS 和SVR 進行集成學習時,窗口平均預測法能明顯改善模型的預測能力,基于SVR的窗口平均預測法的預測能力最強。本文的研究方法和結論對我國金融市場風險管理具有借鑒意義。