楊 驀, 王 靜
(西北農(nóng)林科技大學(xué) 經(jīng)濟(jì)管理學(xué)院,陜西 楊陵 712100)
對(duì)股票市場(chǎng)的準(zhǔn)確預(yù)測(cè)可以為投資者提供投資參考,提高金融市場(chǎng)的運(yùn)行效率。然而,股票市場(chǎng)是一個(gè)復(fù)雜的、非線性的、有噪聲的、動(dòng)態(tài)的系統(tǒng),因此很難對(duì)其進(jìn)行準(zhǔn)確的預(yù)測(cè)。一方面,許多因素影響股票市場(chǎng)的價(jià)格,因此有必要解決外部屬性之間的相關(guān)性問(wèn)題。另一方面,股票市場(chǎng)的內(nèi)部變化是不規(guī)則的,容易受到外部屬性的影響。特別是在進(jìn)行長(zhǎng)期預(yù)測(cè)時(shí),外部影響會(huì)加劇股價(jià)的波動(dòng),因此很難提取股價(jià)隨時(shí)間變化的關(guān)系。然而,目前大多數(shù)方法只在股指的短期預(yù)測(cè)中取得良好的效果。在神經(jīng)網(wǎng)絡(luò)上分配注意力權(quán)重已經(jīng)出現(xiàn)在各種任務(wù)中,如文本翻譯、圖像識(shí)別等。主要原因是注意力機(jī)制可以自適應(yīng)地聚焦于特征的信息部分,減少不必要的特征,釋放運(yùn)行內(nèi)存,從而提高擬合數(shù)據(jù)時(shí)的模型精度。
傳統(tǒng)時(shí)間序列模型是最早被用于股票價(jià)格預(yù)測(cè)的一類模型,如DEVI等利用四家股票數(shù)據(jù)驗(yàn)證了ARIMA模型的預(yù)測(cè)準(zhǔn)確性[1]。傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)模型刻畫金融時(shí)間序列時(shí)假設(shè)具體的模型,但是高噪聲、非線性的動(dòng)態(tài)金融時(shí)間序列數(shù)據(jù)不能通過(guò)參數(shù)方程來(lái)描述,導(dǎo)致了傳統(tǒng)時(shí)間序列模型的局限性。
機(jī)器學(xué)習(xí)模型為股市建模和預(yù)測(cè)提供了一種新的方法。淺層機(jī)器學(xué)習(xí)模型可以從大量訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計(jì)規(guī)律。然而,在有限樣本和計(jì)算單元的情況下,淺層學(xué)習(xí)結(jié)構(gòu)對(duì)于復(fù)雜函數(shù)的表示能力是有限的。相反,深度學(xué)習(xí)可以通過(guò)構(gòu)建隱藏層多、訓(xùn)練數(shù)據(jù)量大的模型,實(shí)現(xiàn)復(fù)雜函數(shù)逼近、提高預(yù)測(cè)的精度,如RATHER等使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)預(yù)測(cè)六只股票回報(bào)率,并使用遺傳算法為模型生成最優(yōu)權(quán)重,得到了準(zhǔn)確的預(yù)測(cè)性能[2]。HOSEINZADE和 HARATIZADEH構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)CNN,預(yù)測(cè)S&P500、納斯達(dá)克等指數(shù)走勢(shì),發(fā)現(xiàn)CNN的預(yù)測(cè)性能比基線算法有顯著提高[3]。ZULQARNAIN等使用門控遞歸單元(GRU)層捕捉長(zhǎng)期信號(hào)相關(guān)性,在恒生指數(shù)HSI、德國(guó)DAX和S&P 500三個(gè)股票指數(shù)數(shù)據(jù)集上評(píng)估模型,發(fā)現(xiàn)基于GRU-CNN方法的預(yù)測(cè)準(zhǔn)確率最高[4]。
HOCHRITER提出的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是近年來(lái)最流行的模型之一,因?yàn)樗梢酝ㄟ^(guò)門結(jié)構(gòu)緩解RNN造成的梯度消失和爆炸。近年來(lái),許多基于LSTM的研究興起。FISCHER和KRAUSS驗(yàn)證了LSTM在股指預(yù)測(cè)上相對(duì)于隨機(jī)森林模型、DNN等的更高精度[5]。雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)由兩個(gè)相反方向的LSTM模型組成,在大范圍時(shí)間序列數(shù)據(jù)學(xué)習(xí)中具有顯著優(yōu)勢(shì)。SIAMI等發(fā)現(xiàn)BiLSTM額外的數(shù)據(jù)訓(xùn)練過(guò)程提供了比標(biāo)準(zhǔn)LSTM更好的預(yù)測(cè)效果[6]。
特征選擇是指選擇原始輸入變量的子集,這些輸入變量通常是技術(shù)或基本指標(biāo)。由于所選擇的輸入子集可以更好地表示數(shù)據(jù)集的原始特征,因此使用其構(gòu)造模型可以提高準(zhǔn)確性和效率。主成分分析(PCA)是數(shù)據(jù)降維的有效方法之一。
注意力機(jī)制逐漸被應(yīng)用到時(shí)間序列預(yù)測(cè)中,因?yàn)檫@種方法可以學(xué)習(xí)動(dòng)態(tài)的時(shí)空關(guān)系,并為屬性賦予不同的權(quán)重。其中,空間注意力權(quán)重是指屬性對(duì)預(yù)測(cè)結(jié)果的影響。CHEN等提出了空間注意力機(jī)制與BiLSTM相結(jié)合的混合模型,其中注意力機(jī)制對(duì)關(guān)鍵特征賦予更高的權(quán)重,從而獲得了較好的準(zhǔn)確性[7]。
此外,由于培訓(xùn)不穩(wěn)定和梯度消失問(wèn)題,LSTM無(wú)法記住非常長(zhǎng)期的相互依存關(guān)系。時(shí)間注意力機(jī)制可以緩解這一問(wèn)題,該機(jī)制對(duì)神經(jīng)網(wǎng)絡(luò)模塊的隱藏狀態(tài)進(jìn)行加權(quán),以確保動(dòng)態(tài)地、選擇性地獲得所有時(shí)間相關(guān)性。SHIH等提出了基于時(shí)間模式的注意力機(jī)制,不僅可以在同一時(shí)間步長(zhǎng)內(nèi),而且可以在多個(gè)時(shí)間步長(zhǎng)內(nèi)學(xué)習(xí)變量之間的相互依賴關(guān)系[8]。
本文的主要貢獻(xiàn)包括以下幾個(gè)方面:首先,分析了基于注意力機(jī)制的時(shí)空關(guān)系,并將其應(yīng)用于股指收盤價(jià)的多步預(yù)測(cè)。其次,利用BiLSTM對(duì)股指進(jìn)行預(yù)測(cè),探究在LSTM的基礎(chǔ)上加入反向LSTM層對(duì)預(yù)測(cè)的效果。第三,提出了兩種基于注意力機(jī)制的BiLSTM模型,可以學(xué)習(xí)數(shù)據(jù)的時(shí)空關(guān)系,提高BiLSTM模型的性能。
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)LSTM(long short term memory)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),由Hochreiter和Schmidhuber提出。它在傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)上添加了記憶存儲(chǔ)(Cell)和門結(jié)構(gòu)(Gates),Cell(Ct)用于記錄神經(jīng)元狀態(tài),門可以實(shí)現(xiàn)選擇性地讓信息通過(guò),主要通過(guò)一個(gè)sigmoid的神經(jīng)層和一個(gè)逐點(diǎn)相乘的操作來(lái)實(shí)現(xiàn)的。LSTM通過(guò)三個(gè)類似于過(guò)濾器的門結(jié)構(gòu)來(lái)實(shí)現(xiàn)信息的保護(hù)和控制:遺忘門(ft)決定從細(xì)胞狀態(tài)中丟棄的信息、輸入門(it)決定有多少新的信息加入到Cell中、輸出門(Ot)用過(guò)濾最終輸出信息。LSTM通過(guò)門結(jié)構(gòu)可以很好的表達(dá)輸入中的長(zhǎng)期依賴的信息,有效緩解了梯度消失和梯度爆炸的問(wèn)題。
在通常的時(shí)間序列處理中,LSTM往往會(huì)忽視未來(lái)的信息,雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)BiLSTM(Bi-directional long short term memory)在LSTM基礎(chǔ)上使用兩個(gè)單獨(dú)的隱藏層在正向和反向兩個(gè)方向上處理序列數(shù)據(jù),將兩個(gè)隱藏層連接到同一輸出層,將先前的信息和后來(lái)的信息都存儲(chǔ)為時(shí)間序列數(shù)據(jù)的當(dāng)前時(shí)間基礎(chǔ),因此理論上預(yù)測(cè)表現(xiàn)會(huì)比單向LSTM好。BiLSTM的隱藏層輸出包括前向隱藏層的激活輸出和后向隱藏層的激活輸出。
LSTM無(wú)法捕捉到不同時(shí)點(diǎn)和不同輸入特征對(duì)收盤價(jià)的不同貢獻(xiàn)。注意力機(jī)制是一種模擬人腦注意力機(jī)制的模型,它可以通過(guò)計(jì)算注意力概率分布,突出某個(gè)關(guān)鍵性輸入對(duì)于輸出的影響作用,在計(jì)算能力有限的情況下,將計(jì)算資源分配給更重要的任務(wù),對(duì)于傳統(tǒng)的模型具有很好的優(yōu)化作用。本文提出一種新穎的時(shí)空注意力機(jī)制,以捕獲股票市場(chǎng)上的動(dòng)態(tài)時(shí)空相關(guān)性,它包含兩種注意力機(jī)制,即空間注意力機(jī)制和時(shí)間注意力機(jī)制。
2.3.1 空間注意力機(jī)制
在空間維度上,不同的輸入特征相互影響,并且相互影響是高度動(dòng)態(tài)的,因此,本文使用空間注意力機(jī)制自適應(yīng)地捕獲空間維度上節(jié)點(diǎn)之間的動(dòng)態(tài)相關(guān)性。該部分機(jī)制表示總和為1 的注意力權(quán)重的外部特征對(duì)收盤價(jià)的影響。對(duì)于每個(gè)時(shí)間步長(zhǎng)t,權(quán)重用于衡量一個(gè)節(jié)點(diǎn)應(yīng)該在另一節(jié)點(diǎn)的狀態(tài)上集中多少注意力以預(yù)測(cè)其狀態(tài)計(jì)算未來(lái)的收盤價(jià)。
2.3.2 時(shí)間注意力機(jī)制
BiLSTM單元可以通過(guò)單元機(jī)制存儲(chǔ)時(shí)間信息,并通過(guò)門機(jī)制控制時(shí)間信息的增加或減少,從而保持長(zhǎng)期依賴性。但是,通過(guò)門機(jī)制的時(shí)間信息會(huì)導(dǎo)致BiLSTM單元在每個(gè)時(shí)間窗口T中更改單元狀態(tài),與歷史的輸入相比,此最終狀態(tài)傾向于保留有關(guān)最新輸入的更多信息。在較短時(shí)序的預(yù)測(cè)中,該問(wèn)題不會(huì)導(dǎo)致嚴(yán)重偏差。但是,對(duì)于較長(zhǎng)的預(yù)測(cè)范圍,標(biāo)準(zhǔn)模型可能會(huì)低估較早狀態(tài)的影響,時(shí)間注意力機(jī)制用于了解每個(gè)時(shí)間窗口中這些隱藏狀態(tài)的影響。本文BiLSTM單位存儲(chǔ)時(shí)間信息,并且注意力機(jī)制用于測(cè)量這些不同細(xì)胞狀態(tài)對(duì)收盤價(jià)預(yù)測(cè)的重要性。
2.3.3 時(shí)空注意力機(jī)制
空間相關(guān)性通過(guò)空間注意力機(jī)制將注意力權(quán)重分配給原始屬性來(lái)表示,時(shí)間關(guān)系通過(guò)時(shí)間注意力機(jī)制通過(guò)將注意力權(quán)重分配給空間注意力中的隱藏狀態(tài)來(lái)表示,時(shí)空注意力機(jī)制同時(shí)結(jié)合了空間和時(shí)間相關(guān)性,使神經(jīng)網(wǎng)絡(luò)自動(dòng)對(duì)有價(jià)值的信息給予更多關(guān)注。
為了全面評(píng)估所提出模型用于股票指數(shù)收盤價(jià)預(yù)測(cè)的有效性,本文將使用如下幾種評(píng)價(jià)指標(biāo)測(cè)評(píng)所提出的模型。平均絕對(duì)百分比誤差(MAPE)、均方根誤差(RMSE)和均值絕對(duì)誤差(MAE)用于定量評(píng)價(jià)模型的預(yù)測(cè)精度,MAPE,RMSE和MAE越小說(shuō)明精度越高。為了進(jìn)一步驗(yàn)證模型的有效性,對(duì)股指的漲跌趨勢(shì)進(jìn)行預(yù)測(cè)。本文使用預(yù)測(cè)分類準(zhǔn)確率對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。
為探究上述模型對(duì)于實(shí)際金融事件序列數(shù)據(jù)預(yù)測(cè)的適用性與有效性,本部分將基于注意力機(jī)制和BiLSTM神經(jīng)網(wǎng)絡(luò)的金融預(yù)測(cè)模型應(yīng)用于香港恒生股票指數(shù)(HSI)收盤價(jià)的預(yù)測(cè),數(shù)據(jù)樣本選取區(qū)間為1986年12月31日—2020年8月3日。本文的響應(yīng)變量為恒生指數(shù)的日收盤價(jià),影響指標(biāo)分為行情因子和技術(shù)因子,共29個(gè)指標(biāo),見(jiàn)表1。數(shù)據(jù)來(lái)源于銳思金融數(shù)據(jù)庫(kù)。
表1 香港恒生指數(shù)特征向量
本文采用如下標(biāo)準(zhǔn)選取數(shù)據(jù)集:剔除日成交量為0的初期數(shù)據(jù),選取自日成交量數(shù)據(jù)存在至2020年8月3日的所有交易數(shù)據(jù)。為了觀察預(yù)測(cè)方法對(duì)股指短期、中期、長(zhǎng)期的預(yù)測(cè)效果,本文分別對(duì)1日(次日),7日,30日,60日,120日的股指收盤價(jià)進(jìn)行預(yù)測(cè),其中,25%作為測(cè)試集,剩下數(shù)據(jù)中,15%為驗(yàn)證集,其余數(shù)據(jù)為訓(xùn)練集。
在使用模型對(duì)數(shù)據(jù)進(jìn)行擬合之前,為了加快梯度下降速度、提高運(yùn)算精度,本文先對(duì)數(shù)據(jù)進(jìn)行歸一化處理,對(duì)原始數(shù)據(jù)進(jìn)行線性處理,映射到[0,1]區(qū)間。
本部分訓(xùn)練模型的運(yùn)行環(huán)境如下:2.4GHz+四核+Intel Core i5+8 GB+2133 MHz LPDDR3。本文基于Python語(yǔ)言環(huán)境,以Tensorflow為深度學(xué)習(xí)框架進(jìn)行模型的訓(xùn)練及預(yù)測(cè),Python版本為3.7,Tensorflow版本為2.2.0。
首先,本文選取Adam作為優(yōu)化器。Adam算法集合了以下兩種隨機(jī)梯度下降擴(kuò)展式的優(yōu)點(diǎn),即:(1)適應(yīng)性梯度算法:為每一個(gè)參數(shù)保留一個(gè)學(xué)習(xí)率以提升在稀疏梯度上的性能。(2)均方根傳播:基于權(quán)重梯度最近量級(jí)的均值為每一個(gè)參數(shù)適應(yīng)性地保留學(xué)習(xí)率,這意味著該算法在非穩(wěn)態(tài)和非線性問(wèn)題上有很有優(yōu)秀的性能。此外,Adam算法很容易實(shí)現(xiàn),并且有較高的運(yùn)算效率和較低的內(nèi)存需求。
BiLSTM模型中有如下參數(shù)需要設(shè)置,即窗口T中的時(shí)間步數(shù):由于本文需要對(duì)模型的短期、中期、長(zhǎng)期預(yù)測(cè)效果進(jìn)行評(píng)估,本文選擇T∈{1,7,30,60,120},分別計(jì)算模型性能;每個(gè)注意力模塊中的隱藏層個(gè)數(shù),編碼器中的隱藏層個(gè)數(shù)m和解碼器中的隱藏層個(gè)數(shù)p:本文設(shè)置m=p∈{16,32,64,128,256},其中當(dāng)m=p=128時(shí)在驗(yàn)證集上得到最佳性能以用于評(píng)估。
本文構(gòu)建的Spatial-Temporal-BiLSTM主體結(jié)構(gòu)如下:一個(gè)全連接層,一個(gè)空間注意力機(jī)制,一個(gè)BiLSTM遞歸層,一個(gè)時(shí)間注意力機(jī)制,一個(gè)BiLSTM層。為了防止模型過(guò)擬合,在每個(gè)訓(xùn)練批次中,通過(guò)Dropout按照一定的概率隨機(jī)使某些隱含層節(jié)點(diǎn)不工作。Hinton等發(fā)現(xiàn),輸入層為0.2的Dropout率適用于各種任務(wù),因此本文將Dropout率設(shè)置為0.2。
為剔除神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的隨機(jī)性,本文對(duì)每個(gè)模型進(jìn)行10次訓(xùn)練,記錄結(jié)果并取均值以評(píng)價(jià)模型性能。
本節(jié)用于對(duì)比六種基線模型和四種添加了注意力機(jī)制的模型在短、中、長(zhǎng)期預(yù)測(cè)股票指數(shù)收盤價(jià)的表現(xiàn)。在基線模型中,支持向量回歸機(jī)(SVR),卷積神經(jīng)網(wǎng)絡(luò)(CNN),門控循環(huán)單元網(wǎng)絡(luò)(GRU),標(biāo)準(zhǔn)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM),雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM),結(jié)合主成分分析的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(PCA-BiLSTM),以及四個(gè)添加了注意力機(jī)制的模型:分別結(jié)合了空間注意力機(jī)制(Spatial-BiLSTM)和時(shí)間注意力機(jī)制(Temporal-BiLSTM)的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),結(jié)合時(shí)空注意力機(jī)制的標(biāo)準(zhǔn)LSTM模型(Spatial-Temporal-LSTM),以及結(jié)合時(shí)空注意力機(jī)制的BiLSTM(Spatial-Temporal-BiLSTM)。
在進(jìn)行模型評(píng)估指標(biāo)計(jì)算前,為了便于與原始數(shù)據(jù)進(jìn)行比較,衡量模型性能,對(duì)預(yù)測(cè)結(jié)果進(jìn)行反歸一化。表2展示了十種模型在不同時(shí)間步長(zhǎng)中的預(yù)測(cè)表現(xiàn),本文選取T=7和T=60時(shí)的結(jié)果進(jìn)行羅列??傮w來(lái)看,淺層學(xué)習(xí)模型模型SVR在所有時(shí)間步長(zhǎng)中表現(xiàn)都欠佳;深度學(xué)習(xí)模型CNN,GRU,LSTM表現(xiàn)均優(yōu)于淺層學(xué)習(xí)模型;BiLSTM模型由于在LSTM基礎(chǔ)上添加了一層反向結(jié)構(gòu),可以從歷史數(shù)據(jù)中捕獲空間特征和雙向時(shí)間依賴性,BiLSTM 精度高于LSTM,Spatial-Temporal-BiLSTM的精度也高于Spatial-Temporal-LSTM;此外,添加了注意力機(jī)制的模型總體上預(yù)測(cè)效果都要優(yōu)于沒(méi)有添加注意力機(jī)制的模型。
表2(a)和(b) 模型預(yù)測(cè)效果比較(T=7和T=60)
圖1和圖2分別為T=7和T=60時(shí)訓(xùn)練集損失和驗(yàn)證集損失隨迭代次數(shù)的變化趨勢(shì)。在T=7時(shí),時(shí)間注意力機(jī)制的作用不是很明顯,有時(shí)間注意力機(jī)制和沒(méi)有的訓(xùn)練集損失和驗(yàn)證集損失都有逐漸降低趨勢(shì)。但是當(dāng)時(shí)間步長(zhǎng)增加的時(shí)候,在T=60時(shí),如果沒(méi)有時(shí)間注意力機(jī)制,運(yùn)算時(shí)的驗(yàn)證集損失反而會(huì)隨著迭代次數(shù)的增加而呈上升趨勢(shì),而有時(shí)間注意力機(jī)制的模型,即使時(shí)間步長(zhǎng)增加,驗(yàn)證集損失也會(huì)隨著迭代次數(shù)增加而呈下降趨勢(shì),且當(dāng)?shù)螖?shù)在50以后逐漸穩(wěn)定下降。說(shuō)明在多步預(yù)測(cè)中,時(shí)間注意力機(jī)制可以捕捉數(shù)據(jù)之間的長(zhǎng)期依賴性,因此隨著運(yùn)算迭代次數(shù)的增加,模型在訓(xùn)練集和驗(yàn)證集數(shù)據(jù)上的準(zhǔn)確度才會(huì)逐漸增加。
(a)包含時(shí)間注意力機(jī)制 (b)不包含注意力機(jī)制圖1 T=7時(shí)訓(xùn)練集損失函數(shù)和驗(yàn)證集損失函數(shù)
(a)包含時(shí)間注意力機(jī)制 (b)不包含注意力機(jī)制圖2 T=60時(shí)訓(xùn)練集損失函數(shù)和驗(yàn)證集損失函數(shù)
圖3中(a)和(b)分別為BiLSTM, Spatial-BiLSTM, Temporal-BiLSTM, Spatial-Temporal-BiLSTM和PCA-BiLSTM的RMSE和MAE隨著時(shí)間步長(zhǎng)增加的變化圖。由于主成分分析方法作為比較有效的特征篩選方法,將其與空間注意力機(jī)制進(jìn)行對(duì)比,可以評(píng)估本文特征篩選方法的有效性。注意力權(quán)重可視化不僅可以看到每個(gè)特征有多少注意力被關(guān)注和接收,還可以識(shí)別最重要的特征。對(duì)比PCA-BiLSTM和Spatial-BiLSTM,發(fā)現(xiàn)使用空間注意力機(jī)制篩選特征在任何時(shí)間步長(zhǎng)都比用主成分分析降維達(dá)到更低的預(yù)測(cè)誤差,且當(dāng)T=1時(shí),PCA-BiLSTM模型預(yù)測(cè)精度低于原始BiLSTM,原因可能是進(jìn)行單步預(yù)測(cè)的時(shí)候,PCA會(huì)使輸入數(shù)據(jù)損失掉一部分有效信息,反而使原本模型的預(yù)測(cè)精度降低。而添加了空間注意力機(jī)制的模型,可以對(duì)輸入特征進(jìn)行篩選和分析,更有效的提取輸入指標(biāo)的數(shù)據(jù)結(jié)構(gòu),并對(duì)重要變量進(jìn)行更高的關(guān)注度,同時(shí)減少了在模型在訓(xùn)練非信息性特征時(shí)花費(fèi)的不必要的計(jì)算時(shí)間從而降低了高計(jì)算成本以及過(guò)度擬合的風(fēng)險(xiǎn),因此在進(jìn)行預(yù)測(cè)時(shí)可以達(dá)到更高的準(zhǔn)確率。
(a)不同模型MAE變化 (b)不同模型RMSE變化圖3 時(shí)間步長(zhǎng)改變時(shí)有無(wú)注意力機(jī)制的BiLSTM模型性能比較
由圖3可知,隨著時(shí)間步長(zhǎng)的增加,模型的預(yù)測(cè)精度均會(huì)降低,但是Temporal-BiLSTM隨著時(shí)間步長(zhǎng)的增加,其預(yù)測(cè)誤差增加幅度不大,且當(dāng)T=60時(shí),預(yù)測(cè)誤差相對(duì)于T=30有所下降,說(shuō)明添加了時(shí)間注意力模塊的模型在預(yù)測(cè)長(zhǎng)時(shí)間序列的時(shí)候有很大優(yōu)勢(shì),而沒(méi)有時(shí)間注意力機(jī)制的模型,當(dāng)時(shí)間步長(zhǎng)增加時(shí),模型預(yù)測(cè)誤差會(huì)有較大程度的升高,預(yù)測(cè)精度會(huì)大幅度降低,說(shuō)明時(shí)間注意力機(jī)制的確可以保持序列的長(zhǎng)期依賴性,在長(zhǎng)期預(yù)測(cè)時(shí)表現(xiàn)更優(yōu)。
概而言之,基于注意力的BiLSTM模型通過(guò)學(xué)習(xí)不同屬性和不同序列之間的時(shí)空關(guān)系,可以在股票指數(shù)序列預(yù)測(cè)中實(shí)現(xiàn)更好的性能,從而為該神經(jīng)網(wǎng)絡(luò)提供了良好的解釋性。
圖4(a)和(b)分別為T=7和T=60時(shí)的模型預(yù)測(cè)結(jié)果和真實(shí)收盤價(jià)的對(duì)比圖??梢钥闯霎?dāng)時(shí)間步數(shù)變長(zhǎng)時(shí),所有模型的擬合誤差都會(huì)增大。
圖4(a) T=7時(shí)所有模型的預(yù)測(cè)價(jià)格和真實(shí)價(jià)格比較
圖4(b) T=60時(shí)所有模型的預(yù)測(cè)價(jià)格和真實(shí)價(jià)格比較
本文研究了基于注意力機(jī)制的BiLSTM方法在短、中、長(zhǎng)期香港恒生股票指數(shù)收盤價(jià)預(yù)測(cè)中的有效性。所提出的模型Spatial-Temporal-BiLSTM在幾乎所有時(shí)間步長(zhǎng)的預(yù)測(cè)中均達(dá)到最佳結(jié)果。實(shí)驗(yàn)結(jié)果證明了以下結(jié)論:(1)在其他條件相同的情況下,BiLSTM可以在任何時(shí)間步長(zhǎng)達(dá)到比LSTM更優(yōu)的準(zhǔn)確率。(2)基于注意力機(jī)制的BiLSTM模型在股票指數(shù)的短、中、長(zhǎng)期預(yù)測(cè)中均優(yōu)于所有基線方法,這是由于時(shí)空關(guān)系的清晰有效表示和學(xué)習(xí)能力所致。(3)Spatial-BiLSTM模型在股票指數(shù)預(yù)測(cè)中,準(zhǔn)確率高于結(jié)合了PCA-BiLSTM模型,表明空間注意力機(jī)制可以更有效地提取數(shù)據(jù)關(guān)系。(4)Temporal-BiLSTM模型在股票指數(shù)的長(zhǎng)期預(yù)測(cè)中更準(zhǔn)確,這表明在長(zhǎng)期預(yù)測(cè)中保持時(shí)間序列的長(zhǎng)期依賴性很重要。