李桂城,許 麗,張 利
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽(yáng) 550025)
隨著人工智能技術(shù)的發(fā)展和金融市場(chǎng)的完善,利用大數(shù)據(jù)分析技術(shù)對(duì)股市進(jìn)行預(yù)測(cè)將有著重要的研究?jī)r(jià)值。在股價(jià)預(yù)測(cè)方面,目前已有了不少成熟的研究,比如,運(yùn)用在時(shí)間序列里包含的信息對(duì)未來(lái)的走勢(shì)做出預(yù)測(cè),運(yùn)用和股票有關(guān)的新聞信息對(duì)股價(jià)的漲跌做出預(yù)測(cè)等。其中,深度學(xué)習(xí)模擬神經(jīng)網(wǎng)絡(luò)的發(fā)展過(guò)程,使得股票預(yù)測(cè)的研究具有良好的可行性。
股票價(jià)格預(yù)測(cè)非常困難,因?yàn)橛绊懝善眱r(jià)格的因素有很多。對(duì)于個(gè)股來(lái)說(shuō),股票價(jià)格數(shù)據(jù)的趨勢(shì)、股票對(duì)應(yīng)公司的運(yùn)營(yíng)狀況、股民對(duì)該個(gè)股的評(píng)價(jià)、國(guó)家的政策、突發(fā)的新聞事件等等,都會(huì)對(duì)股票價(jià)格產(chǎn)生影響。股票價(jià)格數(shù)據(jù)是一種時(shí)序數(shù)據(jù),時(shí)序數(shù)據(jù)具有一定的趨勢(shì),股民常根據(jù)數(shù)據(jù)判斷價(jià)格走勢(shì),此預(yù)測(cè)過(guò)程可通過(guò)深度學(xué)習(xí)方法實(shí)現(xiàn)。
在深度學(xué)習(xí)中,RNN常會(huì)用來(lái)處理序列數(shù)據(jù),如時(shí)間序列、文本數(shù)據(jù)等。但已有研究表明,RNN可能導(dǎo)致梯度消失等問(wèn)題,于是研究者引入了
LSTM(Long-term and Short-Term Memory Network),
并在RNN的基礎(chǔ)上添加了門控結(jié)構(gòu)以及記憶單元,使得網(wǎng)絡(luò)能夠決定遺忘的信息以及往后傳播的信息,因此也具有了解決梯度爆炸和梯度消失的能力。除了應(yīng)用于圖像分類、語(yǔ)音識(shí)別等領(lǐng)域,LSTM在文本情感分析、時(shí)序數(shù)據(jù)預(yù)測(cè)等方面也表現(xiàn)良好。
當(dāng)下研究中,文獻(xiàn)[1]將RNN模型用于預(yù)測(cè)股票在未來(lái)一天的跌漲情況,證明了將新聞序列與股票價(jià)格序列相結(jié)合能夠帶來(lái)更高的準(zhǔn)確率。文獻(xiàn)[3]把LSTM模式運(yùn)用于對(duì)股市波動(dòng)率的預(yù)測(cè)中,經(jīng)過(guò)大量的對(duì)比實(shí)驗(yàn),得出了LSTM模型的預(yù)測(cè)效果優(yōu)于18種傳統(tǒng)的經(jīng)典預(yù)測(cè)模型的結(jié)論,與此同時(shí),歷史股票的增加會(huì)使得LSTM模型的預(yù)測(cè)結(jié)果更加穩(wěn)定。文獻(xiàn)[4]提供了一個(gè)基于LSTM技術(shù)的深度神經(jīng)網(wǎng)絡(luò)DP-LSTM,其中包括了使用新聞文章作為隱藏信息并利用差異隱私機(jī)制,整合不同的新聞來(lái)源對(duì)標(biāo)普500股票價(jià)格預(yù)測(cè),大量實(shí)證研究表明提出的DP-LSTM的預(yù)測(cè)比平均MPA增加了0.32%,對(duì)標(biāo)普500指數(shù)的預(yù)測(cè),改善達(dá)到了65.79%。文獻(xiàn)[5]提出了CNN-LSTM混合神經(jīng)網(wǎng)絡(luò),通過(guò)結(jié)合多種可能影響股票價(jià)格的因素,對(duì)結(jié)果進(jìn)行預(yù)測(cè)。另外,為提高結(jié)果的準(zhǔn)確率,作者在文章中增加了注意力機(jī)制,將該模型以及幾種經(jīng)典的方法應(yīng)用到2個(gè)真實(shí)的數(shù)據(jù)集上,通過(guò)橫向以及縱向的比較驗(yàn)證了所提出模型的有效性。文獻(xiàn)[6]運(yùn)用OpinionFinder等工具對(duì)Twitter上的內(nèi)容進(jìn)行每一天的大眾情感分析,并將提取到的情感特征加入模型中用于預(yù)測(cè)股票價(jià)格的跌漲。
根據(jù)研究表明,很多學(xué)者在股票預(yù)測(cè)上要么單一地考慮影響股票價(jià)格的因素,要么只是根據(jù)歷史值來(lái)預(yù)測(cè)未來(lái)值,這都不能全面地對(duì)股票價(jià)格進(jìn)行考量。另外,大量研究發(fā)現(xiàn)個(gè)人情緒和感情因素會(huì)對(duì)人的決策產(chǎn)生影響,對(duì)此進(jìn)行分析即可從中預(yù)測(cè)并獲取股票的相關(guān)指標(biāo),基于此,很多學(xué)者利用文本情感分析來(lái)研究股票價(jià)格的變動(dòng)?;诖?,本文融合了多種影響股票實(shí)際價(jià)格的因素,提出的時(shí)序預(yù)測(cè)與文本情感分析結(jié)合方法具有一定重要的現(xiàn)實(shí)意義。
本文內(nèi)容安排如下:首先簡(jiǎn)略地概述了深度學(xué)習(xí)以及文本情感分析在股票價(jià)格變動(dòng)以及跌漲方面的發(fā)展及應(yīng)用;然后,闡述了所應(yīng)用的深度學(xué)習(xí)模型的方法及原理;接下來(lái),將所提出的模型與傳統(tǒng)方法應(yīng)用于??低曊鎸?shí)數(shù)據(jù)集上,以、、準(zhǔn)確率、召回率等作為評(píng)價(jià)指標(biāo),對(duì)各模型進(jìn)行對(duì)比評(píng)價(jià)。最后,對(duì)本文內(nèi)容進(jìn)行總結(jié)概括。
股票價(jià)格預(yù)測(cè)指的是根據(jù)股票價(jià)格的歷史數(shù)據(jù)以及與股票相關(guān)的市場(chǎng)信息,預(yù)測(cè)股票在接下來(lái)一段時(shí)間內(nèi)的具體價(jià)格或者漲跌狀況。以往的股票價(jià)格預(yù)測(cè)研究大多簡(jiǎn)單地將股票價(jià)格作為序列數(shù)據(jù),通過(guò)模型進(jìn)行訓(xùn)練,或者只是通過(guò)分析新聞文本、股民評(píng)論的情感傾向進(jìn)行預(yù)測(cè)。為了將更多因素添加到股票價(jià)格預(yù)測(cè)中,本文將這2方面結(jié)合起來(lái)考慮,首先采用時(shí)間序列預(yù)測(cè)模型預(yù)測(cè)股票價(jià)格,然后再通過(guò)提取新聞文本信息等,對(duì)先前預(yù)測(cè)結(jié)果進(jìn)行調(diào)整,使預(yù)測(cè)值更趨近于真實(shí)值。
基于LSTM在文本、時(shí)序數(shù)據(jù)方面的優(yōu)良表現(xiàn),本文將使用基于LSTM的深度學(xué)習(xí)模型,應(yīng)用于時(shí)序預(yù)測(cè)與文本情感分析兩個(gè)方面,重點(diǎn)探索時(shí)間序列趨勢(shì)預(yù)測(cè)以及新聞文本情感對(duì)股票價(jià)格的影響,使股票價(jià)格預(yù)測(cè)結(jié)果更加準(zhǔn)確。本文的算法流程圖如圖1所示。
圖1 算法流程圖Fig.1 Algorithm flow chart
在時(shí)間序列預(yù)測(cè)中,本文引入了基于雙階段注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(DA-RNN)。DA-RNN模型如圖2所示。該模型包含2種注意力機(jī)制,第一種是在輸入階段中,使用注意力機(jī)制的編碼器,第二種是在每個(gè)時(shí)間步上,采用時(shí)間注意力機(jī)制的解碼器。輸入階段的注意力機(jī)制可以在每個(gè)時(shí)刻針對(duì)性地選擇相關(guān)信息,而時(shí)間注意力機(jī)制可以在比較長(zhǎng)的時(shí)間段內(nèi)捕捉到該時(shí)間段內(nèi)序列的關(guān)系。
圖2 DA-RNN模型Fig.2 DA-RNN model
輸入階段的注意力機(jī)制實(shí)現(xiàn)即為每個(gè)時(shí)刻輸入的影響因子賦予一定的權(quán)重,首先使用當(dāng)前時(shí)刻的輸入x∈R以及前一個(gè)時(shí)刻編碼器的隱藏狀態(tài)h,更新當(dāng)前時(shí)刻編碼器的隱藏層狀態(tài)h,更新公式如下:
其中,是一個(gè)非線性激活函數(shù),此處使用的是LSTM,利用其特性來(lái)捕獲長(zhǎng)距離依賴關(guān)系。每個(gè)LSTM單元的更新公式總結(jié)如下:
使用函數(shù)進(jìn)行歸一化,即:
在文本情感分析中,本文引入了基于注意力機(jī)制的雙向LSTM模型,雙向LSTM包含前向和后向兩個(gè)方向上的LSTM,前向LSTM主要獲取上文的信息特征,后向LSTM主要獲取下文的信息特征,因此該模型包含了前向與后向的所有信息,并使用Attention注意力機(jī)制有選擇性地聚焦比較重點(diǎn)的詞語(yǔ),最終對(duì)句子的情感進(jìn)行分類。既解決了多維度的信息爆炸以及傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失等問(wèn)題,也有效地避免了傳統(tǒng)模型對(duì)重點(diǎn)詞語(yǔ)在上下文中提取信息的缺失。該模型總共包含輸入層、嵌入層、LSTM層、注意力層、輸出層五個(gè)組成部分。
1.2.1 文本向量化
1.2.2 BiLSTM模型
BiLSTM模型表示雙向LSTM,該模型通過(guò)前向和后向?qū)π蛄羞M(jìn)行分析處理,更加有效地提取文本數(shù)據(jù)前后文的信息特征,最終將雙向LSTM的輸出加到一起。研究推得的數(shù)學(xué)公式如下:
1.2.3 注意力機(jī)制及情感分析
基于注意力機(jī)制的網(wǎng)絡(luò)在很多任務(wù)中表現(xiàn)不錯(cuò),如知識(shí)問(wèn)答、機(jī)器翻譯等。假設(shè)是由LSTM產(chǎn)生的向量集合,即{,,…,h,其中是句子的長(zhǎng)度。是一個(gè)已經(jīng)訓(xùn)練的向量,是句子的表示,由輸出向量加權(quán)和得到。因此可得到如下計(jì)算公式:
本次研究獲取句子級(jí)別的特征用來(lái)進(jìn)行分類,對(duì)應(yīng)的數(shù)學(xué)公式則可寫作如下形式:
至此,采用分類器計(jì)算每個(gè)類別的概率,并以概率最大的作為預(yù)測(cè)的結(jié)果。BiLSTMAttention模型如圖3所示。對(duì)于一個(gè)句子,將作為輸入,最終預(yù)測(cè)的結(jié)果標(biāo)簽為^。 則計(jì)算過(guò)程為:
圖3 BiLSTM-Attention模型Fig.3 BiLSTM-Attention model
為驗(yàn)證本文提出的模型M的有效性,首先獲取實(shí)驗(yàn)所需的相關(guān)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理,通過(guò)設(shè)置相應(yīng)的參數(shù),進(jìn)行時(shí)序預(yù)測(cè)、文本情感分析等實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果使用等多種評(píng)價(jià)指標(biāo)進(jìn)行檢驗(yàn)。
2.1.1 時(shí)序數(shù)據(jù)
時(shí)序數(shù)據(jù)主要通過(guò)Python第三方庫(kù)BaoStock獲取。BaoStock是開源的證券數(shù)據(jù)服務(wù)平臺(tái),其返回的數(shù)據(jù)格式為DataFrame類型。也可以將數(shù)據(jù)保存到本地文件后再進(jìn)行分析。通過(guò)設(shè)置相關(guān)參數(shù)可得到相應(yīng)時(shí)間內(nèi)的所有股票交易數(shù)據(jù),如股票代碼、查詢的日期范圍等。
本文采用的時(shí)序數(shù)據(jù)參數(shù)包含股票的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)等。本文將第二天的收盤價(jià)作為預(yù)測(cè)值y,因?yàn)閾p失和收益一般是當(dāng)天的收盤價(jià)計(jì)算得到的。實(shí)驗(yàn)的數(shù)據(jù)集為??低晫?duì)應(yīng)的股票信息。數(shù)據(jù)集包含了從2010年8月30日至2021年8月19日、總共2 668天的數(shù)據(jù)。時(shí)序數(shù)據(jù)樣例見表1。
表1 時(shí)序數(shù)據(jù)樣例Tab.1 Time series data samples
2.1.2 文本數(shù)據(jù)
論文采用的新聞文本數(shù)據(jù)來(lái)自于新浪財(cái)經(jīng)網(wǎng)站,該網(wǎng)站包含股票各方面的信息,如股票實(shí)時(shí)漲跌、公司咨詢、政策新聞等等。通過(guò)爬蟲獲?。枋鲂吕藬?shù)據(jù)集具體信息)新聞標(biāo)題、日期、涉及股票等。數(shù)據(jù)預(yù)處理過(guò)程包含清除中性標(biāo)題數(shù)據(jù)、對(duì)標(biāo)題文本進(jìn)行人工標(biāo)注,標(biāo)簽包含0和1。其中,0表示消極、1表示積極。該數(shù)據(jù)集共包含6 000條,這里,表示積極的文本共3 373條,表示消極的文本共2 627條。
在時(shí)序預(yù)測(cè)實(shí)驗(yàn)以及最終結(jié)果實(shí)驗(yàn)中,選用均方根誤差()、平均絕對(duì)誤差()作為評(píng)價(jià)標(biāo)準(zhǔn)。最終預(yù)測(cè)結(jié)果中選擇的評(píng)價(jià)指標(biāo)與時(shí)序預(yù)測(cè)實(shí)驗(yàn)所選的一致。 公式如下:
在文本情感分析實(shí)驗(yàn)中,選擇召回率、準(zhǔn)確率以及綜合準(zhǔn)確率和召回率兩者的作為評(píng)判結(jié)果好壞的準(zhǔn)則。數(shù)學(xué)定義的公式可分別表示為:
其中,、、、含義參見表2。
表2 混淆矩陣Tab.2 Confusion matrix
在股票歷史數(shù)據(jù)時(shí)序預(yù)測(cè)實(shí)驗(yàn)以及最終結(jié)果實(shí)驗(yàn)中,參數(shù)設(shè)置見表3。在文本情感分析實(shí)驗(yàn)中,參數(shù)設(shè)置見表4。
表3 時(shí)序預(yù)測(cè)及最終結(jié)果實(shí)驗(yàn)參數(shù)Tab.3 Time series forecast and final result experimental parameters
表4 文本情感分析實(shí)驗(yàn)參數(shù)Tab.4 Text sentiment analysis experimental parameters
2.4.1 時(shí)序預(yù)測(cè)實(shí)驗(yàn)
本文時(shí)序預(yù)測(cè)實(shí)驗(yàn)數(shù)據(jù)集為??低暪善毙畔ⅲ瑪?shù)據(jù)集時(shí)間跨度包含了從2010年8月30日至2021年8月19日、總共2 668天的數(shù)據(jù)。在本實(shí)驗(yàn)中,2 001條數(shù)據(jù)作為訓(xùn)練集,667條數(shù)據(jù)作為測(cè)試集。使用XGBoost、LSTM進(jìn)行對(duì)比實(shí)驗(yàn),??低晹?shù)據(jù)集實(shí)驗(yàn)結(jié)果見表5。DA-RNN在??低暅y(cè)試集上的預(yù)測(cè)值與真實(shí)值曲線如圖6所示。
表5 海康威視數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Tab.5 Hikvision datasets experimental results
圖4 DA-RNN在??低暅y(cè)試集上的預(yù)測(cè)值與真實(shí)值Fig.4 Predicted value and real value of DA-RNN on Hikvision test datasets
通過(guò)比較XGBoost、LSTM以及本文采用的DARNN模型的實(shí)驗(yàn)結(jié)果,可以得知,DA-RNN通過(guò)雙階段注意力機(jī)制,既考慮輸入階段的信息特征,也考慮長(zhǎng)時(shí)間距離的信息,相較于前2種模型表現(xiàn)更好,在、上分別從3020、3.642下降到1.584、1.981。證明了DA-RNN模型在股價(jià)時(shí)序數(shù)據(jù)上的有效性。
2.4.2 文本情感分析實(shí)驗(yàn)
本文文本情感分析實(shí)驗(yàn)包含6 000條已經(jīng)標(biāo)注的新聞標(biāo)題,其中,5 000條標(biāo)題文本數(shù)據(jù)作為訓(xùn)練集,600條作為驗(yàn)證集,400條作為測(cè)試集。為證明方法的有效性,將本文中的BiLSTM-Attention模型與SVM、LSTM方法在相同實(shí)驗(yàn)環(huán)境下做對(duì)比實(shí)驗(yàn),結(jié)果見表6。
表6 文本情感分析結(jié)果Tab.6 Text sentiment analysis experimental results
通過(guò)比較SVM、LSTM、BiLSTM-Attention算法的實(shí)驗(yàn)結(jié)果可知,本文采用的BiLSTM-Attention通過(guò)雙向的LSTM,同時(shí)考慮了上下文信息,并且加入了注意力機(jī)制,相較于單向的LSTM以及傳統(tǒng)機(jī)器學(xué)習(xí)算法支持向量機(jī)SVM表現(xiàn)更優(yōu),在準(zhǔn)確率評(píng)價(jià)指標(biāo)上分別提高了7.76%和2.76%。BiLSTMAttention方法在標(biāo)題文本數(shù)據(jù)集上的3個(gè)指標(biāo)中表現(xiàn)均是最好的,表明該模型有著較高的可用性。
首先獲取最終結(jié)果預(yù)測(cè)階段相關(guān)數(shù)據(jù)集,本文選擇2021年8月20日至2021年9月22日海康威視的時(shí)序數(shù)據(jù)集以及文本數(shù)據(jù)集。通過(guò)以上文本情感分析模型BiLSTM-Attention預(yù)測(cè)對(duì)應(yīng)標(biāo)題文本的情感傾向,對(duì)其添加權(quán)重,與DA-RNN模型預(yù)測(cè)的對(duì)應(yīng)天數(shù)的值進(jìn)行疊加,得到最終結(jié)果,見表7。
表7 最終實(shí)驗(yàn)結(jié)果Tab.7 Final experimental results
通過(guò)比較表7中的實(shí)驗(yàn)結(jié)果,可以得出,在本實(shí)驗(yàn)中,當(dāng)權(quán)重值為0.01時(shí),、值達(dá)到最小。本實(shí)驗(yàn)表明新聞文本數(shù)據(jù)對(duì)股票價(jià)格數(shù)值存在一定影響,當(dāng)通過(guò)對(duì)其附加一定的權(quán)重時(shí),可使股票價(jià)格預(yù)測(cè)值更接近真實(shí)值,說(shuō)明本模型的可用性。
本文提出的模型M,通過(guò)疊加影響股票價(jià)格預(yù)測(cè)的多種因素,如歷史數(shù)據(jù)、新聞文本情感傾向等,采用對(duì)比實(shí)驗(yàn)等方式,得到最終實(shí)驗(yàn)結(jié)果。相比原始DARNN模型,在評(píng)價(jià)指標(biāo)、上分別下降了13.3%、14.2%,證明了所提出模型M的有效性。
然而,本文算法主要考慮了新聞文本情感傾向作為時(shí)序數(shù)據(jù)的影響因素,后期工作會(huì)考慮將其他因素融入研究,如股民對(duì)個(gè)股信息的情感傾向、同一行業(yè)類別股票的漲跌趨勢(shì)等等。另外,本文只從4個(gè)維度的特征數(shù)據(jù)進(jìn)行時(shí)間序列預(yù)測(cè),后續(xù)工作可以添加其它維度的數(shù)據(jù),如交易量等,通過(guò)更豐富的時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè),進(jìn)一步提高準(zhǔn)確率。