基于LSTM的股票價(jià)格預(yù)測(cè)分析

2022-05-27 06:56:30李桂城

智能計(jì)算機(jī)與應(yīng)用 2022年5期

李桂城，許麗，張利

（貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院，貴陽(yáng) 550025）

0 引言

隨著人工智能技術(shù)的發(fā)展和金融市場(chǎng)的完善，利用大數(shù)據(jù)分析技術(shù)對(duì)股市進(jìn)行預(yù)測(cè)將有著重要的研究?jī)r(jià)值。在股價(jià)預(yù)測(cè)方面，目前已有了不少成熟的研究，比如，運(yùn)用在時(shí)間序列里包含的信息對(duì)未來(lái)的走勢(shì)做出預(yù)測(cè)，運(yùn)用和股票有關(guān)的新聞信息對(duì)股價(jià)的漲跌做出預(yù)測(cè)等。其中，深度學(xué)習(xí)模擬神經(jīng)網(wǎng)絡(luò)的發(fā)展過(guò)程，使得股票預(yù)測(cè)的研究具有良好的可行性。

股票價(jià)格預(yù)測(cè)非常困難，因?yàn)橛绊懝善眱r(jià)格的因素有很多。對(duì)于個(gè)股來(lái)說(shuō)，股票價(jià)格數(shù)據(jù)的趨勢(shì)、股票對(duì)應(yīng)公司的運(yùn)營(yíng)狀況、股民對(duì)該個(gè)股的評(píng)價(jià)、國(guó)家的政策、突發(fā)的新聞事件等等，都會(huì)對(duì)股票價(jià)格產(chǎn)生影響。股票價(jià)格數(shù)據(jù)是一種時(shí)序數(shù)據(jù)，時(shí)序數(shù)據(jù)具有一定的趨勢(shì)，股民常根據(jù)數(shù)據(jù)判斷價(jià)格走勢(shì)，此預(yù)測(cè)過(guò)程可通過(guò)深度學(xué)習(xí)方法實(shí)現(xiàn)。

在深度學(xué)習(xí)中，RNN常會(huì)用來(lái)處理序列數(shù)據(jù)，如時(shí)間序列、文本數(shù)據(jù)等。但已有研究表明，RNN可能導(dǎo)致梯度消失等問(wèn)題，于是研究者引入了

LSTM（Long-term and Short-Term Memory Network），

并在RNN的基礎(chǔ)上添加了門控結(jié)構(gòu)以及記憶單元，使得網(wǎng)絡(luò)能夠決定遺忘的信息以及往后傳播的信息，因此也具有了解決梯度爆炸和梯度消失的能力。除了應(yīng)用于圖像分類、語(yǔ)音識(shí)別等領(lǐng)域，LSTM在文本情感分析、時(shí)序數(shù)據(jù)預(yù)測(cè)等方面也表現(xiàn)良好。

當(dāng)下研究中，文獻(xiàn)［1］將RNN模型用于預(yù)測(cè)股票在未來(lái)一天的跌漲情況，證明了將新聞序列與股票價(jià)格序列相結(jié)合能夠帶來(lái)更高的準(zhǔn)確率。文獻(xiàn)［3］把LSTM模式運(yùn)用于對(duì)股市波動(dòng)率的預(yù)測(cè)中，經(jīng)過(guò)大量的對(duì)比實(shí)驗(yàn)，得出了LSTM模型的預(yù)測(cè)效果優(yōu)于18種傳統(tǒng)的經(jīng)典預(yù)測(cè)模型的結(jié)論，與此同時(shí)，歷史股票的增加會(huì)使得LSTM模型的預(yù)測(cè)結(jié)果更加穩(wěn)定。文獻(xiàn)［4］提供了一個(gè)基于LSTM技術(shù)的深度神經(jīng)網(wǎng)絡(luò)DP-LSTM，其中包括了使用新聞文章作為隱藏信息并利用差異隱私機(jī)制，整合不同的新聞來(lái)源對(duì)標(biāo)普500股票價(jià)格預(yù)測(cè)，大量實(shí)證研究表明提出的DP-LSTM的預(yù)測(cè)比平均MPA增加了0.32%，對(duì)標(biāo)普500指數(shù)的預(yù)測(cè)，改善達(dá)到了65.79%。文獻(xiàn)［5］提出了CNN-LSTM混合神經(jīng)網(wǎng)絡(luò)，通過(guò)結(jié)合多種可能影響股票價(jià)格的因素，對(duì)結(jié)果進(jìn)行預(yù)測(cè)。另外，為提高結(jié)果的準(zhǔn)確率，作者在文章中增加了注意力機(jī)制，將該模型以及幾種經(jīng)典的方法應(yīng)用到2個(gè)真實(shí)的數(shù)據(jù)集上，通過(guò)橫向以及縱向的比較驗(yàn)證了所提出模型的有效性。文獻(xiàn)［6］運(yùn)用OpinionFinder等工具對(duì)Twitter上的內(nèi)容進(jìn)行每一天的大眾情感分析，并將提取到的情感特征加入模型中用于預(yù)測(cè)股票價(jià)格的跌漲。

根據(jù)研究表明，很多學(xué)者在股票預(yù)測(cè)上要么單一地考慮影響股票價(jià)格的因素，要么只是根據(jù)歷史值來(lái)預(yù)測(cè)未來(lái)值，這都不能全面地對(duì)股票價(jià)格進(jìn)行考量。另外，大量研究發(fā)現(xiàn)個(gè)人情緒和感情因素會(huì)對(duì)人的決策產(chǎn)生影響，對(duì)此進(jìn)行分析即可從中預(yù)測(cè)并獲取股票的相關(guān)指標(biāo)，基于此，很多學(xué)者利用文本情感分析來(lái)研究股票價(jià)格的變動(dòng)?；诖?，本文融合了多種影響股票實(shí)際價(jià)格的因素，提出的時(shí)序預(yù)測(cè)與文本情感分析結(jié)合方法具有一定重要的現(xiàn)實(shí)意義。

本文內(nèi)容安排如下：首先簡(jiǎn)略地概述了深度學(xué)習(xí)以及文本情感分析在股票價(jià)格變動(dòng)以及跌漲方面的發(fā)展及應(yīng)用；然后，闡述了所應(yīng)用的深度學(xué)習(xí)模型的方法及原理；接下來(lái)，將所提出的模型與傳統(tǒng)方法應(yīng)用于?？低曊鎸?shí)數(shù)據(jù)集上，以、、準(zhǔn)確率、召回率等作為評(píng)價(jià)指標(biāo)，對(duì)各模型進(jìn)行對(duì)比評(píng)價(jià)。最后，對(duì)本文內(nèi)容進(jìn)行總結(jié)概括。

1 算法原理及流程

股票價(jià)格預(yù)測(cè)指的是根據(jù)股票價(jià)格的歷史數(shù)據(jù)以及與股票相關(guān)的市場(chǎng)信息，預(yù)測(cè)股票在接下來(lái)一段時(shí)間內(nèi)的具體價(jià)格或者漲跌狀況。以往的股票價(jià)格預(yù)測(cè)研究大多簡(jiǎn)單地將股票價(jià)格作為序列數(shù)據(jù)，通過(guò)模型進(jìn)行訓(xùn)練，或者只是通過(guò)分析新聞文本、股民評(píng)論的情感傾向進(jìn)行預(yù)測(cè)。為了將更多因素添加到股票價(jià)格預(yù)測(cè)中，本文將這2方面結(jié)合起來(lái)考慮，首先采用時(shí)間序列預(yù)測(cè)模型預(yù)測(cè)股票價(jià)格，然后再通過(guò)提取新聞文本信息等，對(duì)先前預(yù)測(cè)結(jié)果進(jìn)行調(diào)整，使預(yù)測(cè)值更趨近于真實(shí)值。

基于LSTM在文本、時(shí)序數(shù)據(jù)方面的優(yōu)良表現(xiàn)，本文將使用基于LSTM的深度學(xué)習(xí)模型，應(yīng)用于時(shí)序預(yù)測(cè)與文本情感分析兩個(gè)方面，重點(diǎn)探索時(shí)間序列趨勢(shì)預(yù)測(cè)以及新聞文本情感對(duì)股票價(jià)格的影響，使股票價(jià)格預(yù)測(cè)結(jié)果更加準(zhǔn)確。本文的算法流程圖如圖1所示。

圖1 算法流程圖Fig.1 Algorithm flow chart

1.1 時(shí)間序列預(yù)測(cè)

在時(shí)間序列預(yù)測(cè)中，本文引入了基于雙階段注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)（DA-RNN）。DA-RNN模型如圖2所示。該模型包含2種注意力機(jī)制，第一種是在輸入階段中，使用注意力機(jī)制的編碼器，第二種是在每個(gè)時(shí)間步上，采用時(shí)間注意力機(jī)制的解碼器。輸入階段的注意力機(jī)制可以在每個(gè)時(shí)刻針對(duì)性地選擇相關(guān)信息，而時(shí)間注意力機(jī)制可以在比較長(zhǎng)的時(shí)間段內(nèi)捕捉到該時(shí)間段內(nèi)序列的關(guān)系。

圖2 DA-RNN模型Fig.2 DA-RNN model

輸入階段的注意力機(jī)制實(shí)現(xiàn)即為每個(gè)時(shí)刻輸入的影響因子賦予一定的權(quán)重，首先使用當(dāng)前時(shí)刻的輸入x∈R以及前一個(gè)時(shí)刻編碼器的隱藏狀態(tài)h，更新當(dāng)前時(shí)刻編碼器的隱藏層狀態(tài)h，更新公式如下：

其中，是一個(gè)非線性激活函數(shù)，此處使用的是LSTM，利用其特性來(lái)捕獲長(zhǎng)距離依賴關(guān)系。每個(gè)LSTM單元的更新公式總結(jié)如下：

使用函數(shù)進(jìn)行歸一化，即：

1.2 文本情感分析

在文本情感分析中，本文引入了基于注意力機(jī)制的雙向LSTM模型，雙向LSTM包含前向和后向兩個(gè)方向上的LSTM，前向LSTM主要獲取上文的信息特征，后向LSTM主要獲取下文的信息特征，因此該模型包含了前向與后向的所有信息，并使用Attention注意力機(jī)制有選擇性地聚焦比較重點(diǎn)的詞語(yǔ)，最終對(duì)句子的情感進(jìn)行分類。既解決了多維度的信息爆炸以及傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失等問(wèn)題，也有效地避免了傳統(tǒng)模型對(duì)重點(diǎn)詞語(yǔ)在上下文中提取信息的缺失。該模型總共包含輸入層、嵌入層、LSTM層、注意力層、輸出層五個(gè)組成部分。

1.2.1 文本向量化

1.2.2 BiLSTM模型

BiLSTM模型表示雙向LSTM，該模型通過(guò)前向和后向?qū)π蛄羞M(jìn)行分析處理，更加有效地提取文本數(shù)據(jù)前后文的信息特征，最終將雙向LSTM的輸出加到一起。研究推得的數(shù)學(xué)公式如下：

1.2.3 注意力機(jī)制及情感分析

基于注意力機(jī)制的網(wǎng)絡(luò)在很多任務(wù)中表現(xiàn)不錯(cuò)，如知識(shí)問(wèn)答、機(jī)器翻譯等。假設(shè)是由LSTM產(chǎn)生的向量集合，即{，，…，h，其中是句子的長(zhǎng)度。是一個(gè)已經(jīng)訓(xùn)練的向量，是句子的表示，由輸出向量加權(quán)和得到。因此可得到如下計(jì)算公式：

本次研究獲取句子級(jí)別的特征用來(lái)進(jìn)行分類，對(duì)應(yīng)的數(shù)學(xué)公式則可寫作如下形式：

至此，采用分類器計(jì)算每個(gè)類別的概率，并以概率最大的作為預(yù)測(cè)的結(jié)果。BiLSTMAttention模型如圖3所示。對(duì)于一個(gè)句子，將作為輸入，最終預(yù)測(cè)的結(jié)果標(biāo)簽為＾。則計(jì)算過(guò)程為：

圖3 BiLSTM-Attention模型Fig.3 BiLSTM-Attention model

2 實(shí)驗(yàn)過(guò)程

為驗(yàn)證本文提出的模型M的有效性，首先獲取實(shí)驗(yàn)所需的相關(guān)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理，通過(guò)設(shè)置相應(yīng)的參數(shù)，進(jìn)行時(shí)序預(yù)測(cè)、文本情感分析等實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果使用等多種評(píng)價(jià)指標(biāo)進(jìn)行檢驗(yàn)。

2.1 實(shí)驗(yàn)數(shù)據(jù)集

2.1.1 時(shí)序數(shù)據(jù)

時(shí)序數(shù)據(jù)主要通過(guò)Python第三方庫(kù)BaoStock獲取。BaoStock是開源的證券數(shù)據(jù)服務(wù)平臺(tái)，其返回的數(shù)據(jù)格式為DataFrame類型。也可以將數(shù)據(jù)保存到本地文件后再進(jìn)行分析。通過(guò)設(shè)置相關(guān)參數(shù)可得到相應(yīng)時(shí)間內(nèi)的所有股票交易數(shù)據(jù)，如股票代碼、查詢的日期范圍等。

本文采用的時(shí)序數(shù)據(jù)參數(shù)包含股票的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)等。本文將第二天的收盤價(jià)作為預(yù)測(cè)值y，因?yàn)閾p失和收益一般是當(dāng)天的收盤價(jià)計(jì)算得到的。實(shí)驗(yàn)的數(shù)據(jù)集為?？低晫?duì)應(yīng)的股票信息。數(shù)據(jù)集包含了從2010年8月30日至2021年8月19日、總共2 668天的數(shù)據(jù)。時(shí)序數(shù)據(jù)樣例見表1。

表1 時(shí)序數(shù)據(jù)樣例Tab.1 Time series data samples

2.1.2 文本數(shù)據(jù)

論文采用的新聞文本數(shù)據(jù)來(lái)自于新浪財(cái)經(jīng)網(wǎng)站，該網(wǎng)站包含股票各方面的信息，如股票實(shí)時(shí)漲跌、公司咨詢、政策新聞等等。通過(guò)爬蟲獲?。枋鲂吕藬?shù)據(jù)集具體信息）新聞標(biāo)題、日期、涉及股票等。數(shù)據(jù)預(yù)處理過(guò)程包含清除中性標(biāo)題數(shù)據(jù)、對(duì)標(biāo)題文本進(jìn)行人工標(biāo)注，標(biāo)簽包含0和1。其中，0表示消極、1表示積極。該數(shù)據(jù)集共包含6 000條，這里，表示積極的文本共3 373條，表示消極的文本共2 627條。

2.2 評(píng)價(jià)指標(biāo)

在時(shí)序預(yù)測(cè)實(shí)驗(yàn)以及最終結(jié)果實(shí)驗(yàn)中，選用均方根誤差（）、平均絕對(duì)誤差（）作為評(píng)價(jià)標(biāo)準(zhǔn)。最終預(yù)測(cè)結(jié)果中選擇的評(píng)價(jià)指標(biāo)與時(shí)序預(yù)測(cè)實(shí)驗(yàn)所選的一致。公式如下：

在文本情感分析實(shí)驗(yàn)中，選擇召回率、準(zhǔn)確率以及綜合準(zhǔn)確率和召回率兩者的作為評(píng)判結(jié)果好壞的準(zhǔn)則。數(shù)學(xué)定義的公式可分別表示為：

其中，、、、含義參見表2。

表2 混淆矩陣Tab.2 Confusion matrix

2.3 參數(shù)設(shè)置

在股票歷史數(shù)據(jù)時(shí)序預(yù)測(cè)實(shí)驗(yàn)以及最終結(jié)果實(shí)驗(yàn)中，參數(shù)設(shè)置見表3。在文本情感分析實(shí)驗(yàn)中，參數(shù)設(shè)置見表4。

表3 時(shí)序預(yù)測(cè)及最終結(jié)果實(shí)驗(yàn)參數(shù)Tab.3 Time series forecast and final result experimental parameters

表4 文本情感分析實(shí)驗(yàn)參數(shù)Tab.4 Text sentiment analysis experimental parameters

2.4 實(shí)驗(yàn)

2.4.1 時(shí)序預(yù)測(cè)實(shí)驗(yàn)

本文時(shí)序預(yù)測(cè)實(shí)驗(yàn)數(shù)據(jù)集為?？低暪善毙畔ⅲ瑪?shù)據(jù)集時(shí)間跨度包含了從2010年8月30日至2021年8月19日、總共2 668天的數(shù)據(jù)。在本實(shí)驗(yàn)中，2 001條數(shù)據(jù)作為訓(xùn)練集，667條數(shù)據(jù)作為測(cè)試集。使用XGBoost、LSTM進(jìn)行對(duì)比實(shí)驗(yàn)，?？低晹?shù)據(jù)集實(shí)驗(yàn)結(jié)果見表5。DA-RNN在?？低暅y(cè)試集上的預(yù)測(cè)值與真實(shí)值曲線如圖6所示。

表5 海康威視數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Tab.5 Hikvision datasets experimental results

圖4 DA-RNN在?？低暅y(cè)試集上的預(yù)測(cè)值與真實(shí)值Fig.4 Predicted value and real value of DA-RNN on Hikvision test datasets

通過(guò)比較XGBoost、LSTM以及本文采用的DARNN模型的實(shí)驗(yàn)結(jié)果，可以得知，DA-RNN通過(guò)雙階段注意力機(jī)制，既考慮輸入階段的信息特征，也考慮長(zhǎng)時(shí)間距離的信息，相較于前2種模型表現(xiàn)更好，在、上分別從3020、3.642下降到1.584、1.981。證明了DA-RNN模型在股價(jià)時(shí)序數(shù)據(jù)上的有效性。

2.4.2 文本情感分析實(shí)驗(yàn)

本文文本情感分析實(shí)驗(yàn)包含6 000條已經(jīng)標(biāo)注的新聞標(biāo)題，其中，5 000條標(biāo)題文本數(shù)據(jù)作為訓(xùn)練集，600條作為驗(yàn)證集，400條作為測(cè)試集。為證明方法的有效性，將本文中的BiLSTM-Attention模型與SVM、LSTM方法在相同實(shí)驗(yàn)環(huán)境下做對(duì)比實(shí)驗(yàn)，結(jié)果見表6。

表6 文本情感分析結(jié)果Tab.6 Text sentiment analysis experimental results

通過(guò)比較SVM、LSTM、BiLSTM-Attention算法的實(shí)驗(yàn)結(jié)果可知，本文采用的BiLSTM-Attention通過(guò)雙向的LSTM，同時(shí)考慮了上下文信息，并且加入了注意力機(jī)制，相較于單向的LSTM以及傳統(tǒng)機(jī)器學(xué)習(xí)算法支持向量機(jī)SVM表現(xiàn)更優(yōu)，在準(zhǔn)確率評(píng)價(jià)指標(biāo)上分別提高了7.76%和2.76%。BiLSTMAttention方法在標(biāo)題文本數(shù)據(jù)集上的3個(gè)指標(biāo)中表現(xiàn)均是最好的，表明該模型有著較高的可用性。

2.5 模型M的實(shí)驗(yàn)結(jié)果

首先獲取最終結(jié)果預(yù)測(cè)階段相關(guān)數(shù)據(jù)集，本文選擇2021年8月20日至2021年9月22日海康威視的時(shí)序數(shù)據(jù)集以及文本數(shù)據(jù)集。通過(guò)以上文本情感分析模型BiLSTM-Attention預(yù)測(cè)對(duì)應(yīng)標(biāo)題文本的情感傾向，對(duì)其添加權(quán)重，與DA-RNN模型預(yù)測(cè)的對(duì)應(yīng)天數(shù)的值進(jìn)行疊加，得到最終結(jié)果，見表7。

表7 最終實(shí)驗(yàn)結(jié)果Tab.7 Final experimental results

通過(guò)比較表7中的實(shí)驗(yàn)結(jié)果，可以得出，在本實(shí)驗(yàn)中，當(dāng)權(quán)重值為0.01時(shí)，、值達(dá)到最小。本實(shí)驗(yàn)表明新聞文本數(shù)據(jù)對(duì)股票價(jià)格數(shù)值存在一定影響，當(dāng)通過(guò)對(duì)其附加一定的權(quán)重時(shí)，可使股票價(jià)格預(yù)測(cè)值更接近真實(shí)值，說(shuō)明本模型的可用性。

3 結(jié)束語(yǔ)

本文提出的模型M，通過(guò)疊加影響股票價(jià)格預(yù)測(cè)的多種因素，如歷史數(shù)據(jù)、新聞文本情感傾向等，采用對(duì)比實(shí)驗(yàn)等方式，得到最終實(shí)驗(yàn)結(jié)果。相比原始DARNN模型，在評(píng)價(jià)指標(biāo)、上分別下降了13.3%、14.2%，證明了所提出模型M的有效性。

然而，本文算法主要考慮了新聞文本情感傾向作為時(shí)序數(shù)據(jù)的影響因素，后期工作會(huì)考慮將其他因素融入研究，如股民對(duì)個(gè)股信息的情感傾向、同一行業(yè)類別股票的漲跌趨勢(shì)等等。另外，本文只從4個(gè)維度的特征數(shù)據(jù)進(jìn)行時(shí)間序列預(yù)測(cè)，后續(xù)工作可以添加其它維度的數(shù)據(jù)，如交易量等，通過(guò)更豐富的時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè)，進(jìn)一步提高準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡