国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LSTM的股票價(jià)格預(yù)測(cè)分析

2022-05-27 06:56:30李桂城
關(guān)鍵詞:股票價(jià)格時(shí)序預(yù)測(cè)

李桂城,許 麗,張 利

(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽(yáng) 550025)

0 引 言

隨著人工智能技術(shù)的發(fā)展和金融市場(chǎng)的完善,利用大數(shù)據(jù)分析技術(shù)對(duì)股市進(jìn)行預(yù)測(cè)將有著重要的研究?jī)r(jià)值。在股價(jià)預(yù)測(cè)方面,目前已有了不少成熟的研究,比如,運(yùn)用在時(shí)間序列里包含的信息對(duì)未來(lái)的走勢(shì)做出預(yù)測(cè),運(yùn)用和股票有關(guān)的新聞信息對(duì)股價(jià)的漲跌做出預(yù)測(cè)等。其中,深度學(xué)習(xí)模擬神經(jīng)網(wǎng)絡(luò)的發(fā)展過(guò)程,使得股票預(yù)測(cè)的研究具有良好的可行性。

股票價(jià)格預(yù)測(cè)非常困難,因?yàn)橛绊懝善眱r(jià)格的因素有很多。對(duì)于個(gè)股來(lái)說(shuō),股票價(jià)格數(shù)據(jù)的趨勢(shì)、股票對(duì)應(yīng)公司的運(yùn)營(yíng)狀況、股民對(duì)該個(gè)股的評(píng)價(jià)、國(guó)家的政策、突發(fā)的新聞事件等等,都會(huì)對(duì)股票價(jià)格產(chǎn)生影響。股票價(jià)格數(shù)據(jù)是一種時(shí)序數(shù)據(jù),時(shí)序數(shù)據(jù)具有一定的趨勢(shì),股民常根據(jù)數(shù)據(jù)判斷價(jià)格走勢(shì),此預(yù)測(cè)過(guò)程可通過(guò)深度學(xué)習(xí)方法實(shí)現(xiàn)。

在深度學(xué)習(xí)中,RNN常會(huì)用來(lái)處理序列數(shù)據(jù),如時(shí)間序列、文本數(shù)據(jù)等。但已有研究表明,RNN可能導(dǎo)致梯度消失等問(wèn)題,于是研究者引入了

LSTM(Long-term and Short-Term Memory Network),

并在RNN的基礎(chǔ)上添加了門控結(jié)構(gòu)以及記憶單元,使得網(wǎng)絡(luò)能夠決定遺忘的信息以及往后傳播的信息,因此也具有了解決梯度爆炸和梯度消失的能力。除了應(yīng)用于圖像分類、語(yǔ)音識(shí)別等領(lǐng)域,LSTM在文本情感分析、時(shí)序數(shù)據(jù)預(yù)測(cè)等方面也表現(xiàn)良好。

當(dāng)下研究中,文獻(xiàn)[1]將RNN模型用于預(yù)測(cè)股票在未來(lái)一天的跌漲情況,證明了將新聞序列與股票價(jià)格序列相結(jié)合能夠帶來(lái)更高的準(zhǔn)確率。文獻(xiàn)[3]把LSTM模式運(yùn)用于對(duì)股市波動(dòng)率的預(yù)測(cè)中,經(jīng)過(guò)大量的對(duì)比實(shí)驗(yàn),得出了LSTM模型的預(yù)測(cè)效果優(yōu)于18種傳統(tǒng)的經(jīng)典預(yù)測(cè)模型的結(jié)論,與此同時(shí),歷史股票的增加會(huì)使得LSTM模型的預(yù)測(cè)結(jié)果更加穩(wěn)定。文獻(xiàn)[4]提供了一個(gè)基于LSTM技術(shù)的深度神經(jīng)網(wǎng)絡(luò)DP-LSTM,其中包括了使用新聞文章作為隱藏信息并利用差異隱私機(jī)制,整合不同的新聞來(lái)源對(duì)標(biāo)普500股票價(jià)格預(yù)測(cè),大量實(shí)證研究表明提出的DP-LSTM的預(yù)測(cè)比平均MPA增加了0.32%,對(duì)標(biāo)普500指數(shù)的預(yù)測(cè),改善達(dá)到了65.79%。文獻(xiàn)[5]提出了CNN-LSTM混合神經(jīng)網(wǎng)絡(luò),通過(guò)結(jié)合多種可能影響股票價(jià)格的因素,對(duì)結(jié)果進(jìn)行預(yù)測(cè)。另外,為提高結(jié)果的準(zhǔn)確率,作者在文章中增加了注意力機(jī)制,將該模型以及幾種經(jīng)典的方法應(yīng)用到2個(gè)真實(shí)的數(shù)據(jù)集上,通過(guò)橫向以及縱向的比較驗(yàn)證了所提出模型的有效性。文獻(xiàn)[6]運(yùn)用OpinionFinder等工具對(duì)Twitter上的內(nèi)容進(jìn)行每一天的大眾情感分析,并將提取到的情感特征加入模型中用于預(yù)測(cè)股票價(jià)格的跌漲。

根據(jù)研究表明,很多學(xué)者在股票預(yù)測(cè)上要么單一地考慮影響股票價(jià)格的因素,要么只是根據(jù)歷史值來(lái)預(yù)測(cè)未來(lái)值,這都不能全面地對(duì)股票價(jià)格進(jìn)行考量。另外,大量研究發(fā)現(xiàn)個(gè)人情緒和感情因素會(huì)對(duì)人的決策產(chǎn)生影響,對(duì)此進(jìn)行分析即可從中預(yù)測(cè)并獲取股票的相關(guān)指標(biāo),基于此,很多學(xué)者利用文本情感分析來(lái)研究股票價(jià)格的變動(dòng)?;诖?,本文融合了多種影響股票實(shí)際價(jià)格的因素,提出的時(shí)序預(yù)測(cè)與文本情感分析結(jié)合方法具有一定重要的現(xiàn)實(shí)意義。

本文內(nèi)容安排如下:首先簡(jiǎn)略地概述了深度學(xué)習(xí)以及文本情感分析在股票價(jià)格變動(dòng)以及跌漲方面的發(fā)展及應(yīng)用;然后,闡述了所應(yīng)用的深度學(xué)習(xí)模型的方法及原理;接下來(lái),將所提出的模型與傳統(tǒng)方法應(yīng)用于??低曊鎸?shí)數(shù)據(jù)集上,以、、準(zhǔn)確率、召回率等作為評(píng)價(jià)指標(biāo),對(duì)各模型進(jìn)行對(duì)比評(píng)價(jià)。最后,對(duì)本文內(nèi)容進(jìn)行總結(jié)概括。

1 算法原理及流程

股票價(jià)格預(yù)測(cè)指的是根據(jù)股票價(jià)格的歷史數(shù)據(jù)以及與股票相關(guān)的市場(chǎng)信息,預(yù)測(cè)股票在接下來(lái)一段時(shí)間內(nèi)的具體價(jià)格或者漲跌狀況。以往的股票價(jià)格預(yù)測(cè)研究大多簡(jiǎn)單地將股票價(jià)格作為序列數(shù)據(jù),通過(guò)模型進(jìn)行訓(xùn)練,或者只是通過(guò)分析新聞文本、股民評(píng)論的情感傾向進(jìn)行預(yù)測(cè)。為了將更多因素添加到股票價(jià)格預(yù)測(cè)中,本文將這2方面結(jié)合起來(lái)考慮,首先采用時(shí)間序列預(yù)測(cè)模型預(yù)測(cè)股票價(jià)格,然后再通過(guò)提取新聞文本信息等,對(duì)先前預(yù)測(cè)結(jié)果進(jìn)行調(diào)整,使預(yù)測(cè)值更趨近于真實(shí)值。

基于LSTM在文本、時(shí)序數(shù)據(jù)方面的優(yōu)良表現(xiàn),本文將使用基于LSTM的深度學(xué)習(xí)模型,應(yīng)用于時(shí)序預(yù)測(cè)與文本情感分析兩個(gè)方面,重點(diǎn)探索時(shí)間序列趨勢(shì)預(yù)測(cè)以及新聞文本情感對(duì)股票價(jià)格的影響,使股票價(jià)格預(yù)測(cè)結(jié)果更加準(zhǔn)確。本文的算法流程圖如圖1所示。

圖1 算法流程圖Fig.1 Algorithm flow chart

1.1 時(shí)間序列預(yù)測(cè)

在時(shí)間序列預(yù)測(cè)中,本文引入了基于雙階段注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(DA-RNN)。DA-RNN模型如圖2所示。該模型包含2種注意力機(jī)制,第一種是在輸入階段中,使用注意力機(jī)制的編碼器,第二種是在每個(gè)時(shí)間步上,采用時(shí)間注意力機(jī)制的解碼器。輸入階段的注意力機(jī)制可以在每個(gè)時(shí)刻針對(duì)性地選擇相關(guān)信息,而時(shí)間注意力機(jī)制可以在比較長(zhǎng)的時(shí)間段內(nèi)捕捉到該時(shí)間段內(nèi)序列的關(guān)系。

圖2 DA-RNN模型Fig.2 DA-RNN model

輸入階段的注意力機(jī)制實(shí)現(xiàn)即為每個(gè)時(shí)刻輸入的影響因子賦予一定的權(quán)重,首先使用當(dāng)前時(shí)刻的輸入xR以及前一個(gè)時(shí)刻編碼器的隱藏狀態(tài)h,更新當(dāng)前時(shí)刻編碼器的隱藏層狀態(tài)h,更新公式如下:

其中,是一個(gè)非線性激活函數(shù),此處使用的是LSTM,利用其特性來(lái)捕獲長(zhǎng)距離依賴關(guān)系。每個(gè)LSTM單元的更新公式總結(jié)如下:

使用函數(shù)進(jìn)行歸一化,即:

1.2 文本情感分析

在文本情感分析中,本文引入了基于注意力機(jī)制的雙向LSTM模型,雙向LSTM包含前向和后向兩個(gè)方向上的LSTM,前向LSTM主要獲取上文的信息特征,后向LSTM主要獲取下文的信息特征,因此該模型包含了前向與后向的所有信息,并使用Attention注意力機(jī)制有選擇性地聚焦比較重點(diǎn)的詞語(yǔ),最終對(duì)句子的情感進(jìn)行分類。既解決了多維度的信息爆炸以及傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失等問(wèn)題,也有效地避免了傳統(tǒng)模型對(duì)重點(diǎn)詞語(yǔ)在上下文中提取信息的缺失。該模型總共包含輸入層、嵌入層、LSTM層、注意力層、輸出層五個(gè)組成部分。

1.2.1 文本向量化

1.2.2 BiLSTM模型

BiLSTM模型表示雙向LSTM,該模型通過(guò)前向和后向?qū)π蛄羞M(jìn)行分析處理,更加有效地提取文本數(shù)據(jù)前后文的信息特征,最終將雙向LSTM的輸出加到一起。研究推得的數(shù)學(xué)公式如下:

1.2.3 注意力機(jī)制及情感分析

基于注意力機(jī)制的網(wǎng)絡(luò)在很多任務(wù)中表現(xiàn)不錯(cuò),如知識(shí)問(wèn)答、機(jī)器翻譯等。假設(shè)是由LSTM產(chǎn)生的向量集合,即{,,…,h,其中是句子的長(zhǎng)度。是一個(gè)已經(jīng)訓(xùn)練的向量,是句子的表示,由輸出向量加權(quán)和得到。因此可得到如下計(jì)算公式:

本次研究獲取句子級(jí)別的特征用來(lái)進(jìn)行分類,對(duì)應(yīng)的數(shù)學(xué)公式則可寫作如下形式:

至此,采用分類器計(jì)算每個(gè)類別的概率,并以概率最大的作為預(yù)測(cè)的結(jié)果。BiLSTMAttention模型如圖3所示。對(duì)于一個(gè)句子,將作為輸入,最終預(yù)測(cè)的結(jié)果標(biāo)簽為^。 則計(jì)算過(guò)程為:

圖3 BiLSTM-Attention模型Fig.3 BiLSTM-Attention model

2 實(shí)驗(yàn)過(guò)程

為驗(yàn)證本文提出的模型M的有效性,首先獲取實(shí)驗(yàn)所需的相關(guān)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理,通過(guò)設(shè)置相應(yīng)的參數(shù),進(jìn)行時(shí)序預(yù)測(cè)、文本情感分析等實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果使用等多種評(píng)價(jià)指標(biāo)進(jìn)行檢驗(yàn)。

2.1 實(shí)驗(yàn)數(shù)據(jù)集

2.1.1 時(shí)序數(shù)據(jù)

時(shí)序數(shù)據(jù)主要通過(guò)Python第三方庫(kù)BaoStock獲取。BaoStock是開源的證券數(shù)據(jù)服務(wù)平臺(tái),其返回的數(shù)據(jù)格式為DataFrame類型。也可以將數(shù)據(jù)保存到本地文件后再進(jìn)行分析。通過(guò)設(shè)置相關(guān)參數(shù)可得到相應(yīng)時(shí)間內(nèi)的所有股票交易數(shù)據(jù),如股票代碼、查詢的日期范圍等。

本文采用的時(shí)序數(shù)據(jù)參數(shù)包含股票的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)等。本文將第二天的收盤價(jià)作為預(yù)測(cè)值y,因?yàn)閾p失和收益一般是當(dāng)天的收盤價(jià)計(jì)算得到的。實(shí)驗(yàn)的數(shù)據(jù)集為??低晫?duì)應(yīng)的股票信息。數(shù)據(jù)集包含了從2010年8月30日至2021年8月19日、總共2 668天的數(shù)據(jù)。時(shí)序數(shù)據(jù)樣例見表1。

表1 時(shí)序數(shù)據(jù)樣例Tab.1 Time series data samples

2.1.2 文本數(shù)據(jù)

論文采用的新聞文本數(shù)據(jù)來(lái)自于新浪財(cái)經(jīng)網(wǎng)站,該網(wǎng)站包含股票各方面的信息,如股票實(shí)時(shí)漲跌、公司咨詢、政策新聞等等。通過(guò)爬蟲獲?。枋鲂吕藬?shù)據(jù)集具體信息)新聞標(biāo)題、日期、涉及股票等。數(shù)據(jù)預(yù)處理過(guò)程包含清除中性標(biāo)題數(shù)據(jù)、對(duì)標(biāo)題文本進(jìn)行人工標(biāo)注,標(biāo)簽包含0和1。其中,0表示消極、1表示積極。該數(shù)據(jù)集共包含6 000條,這里,表示積極的文本共3 373條,表示消極的文本共2 627條。

2.2 評(píng)價(jià)指標(biāo)

在時(shí)序預(yù)測(cè)實(shí)驗(yàn)以及最終結(jié)果實(shí)驗(yàn)中,選用均方根誤差()、平均絕對(duì)誤差()作為評(píng)價(jià)標(biāo)準(zhǔn)。最終預(yù)測(cè)結(jié)果中選擇的評(píng)價(jià)指標(biāo)與時(shí)序預(yù)測(cè)實(shí)驗(yàn)所選的一致。 公式如下:

在文本情感分析實(shí)驗(yàn)中,選擇召回率、準(zhǔn)確率以及綜合準(zhǔn)確率和召回率兩者的作為評(píng)判結(jié)果好壞的準(zhǔn)則。數(shù)學(xué)定義的公式可分別表示為:

其中,、、、含義參見表2。

表2 混淆矩陣Tab.2 Confusion matrix

2.3 參數(shù)設(shè)置

在股票歷史數(shù)據(jù)時(shí)序預(yù)測(cè)實(shí)驗(yàn)以及最終結(jié)果實(shí)驗(yàn)中,參數(shù)設(shè)置見表3。在文本情感分析實(shí)驗(yàn)中,參數(shù)設(shè)置見表4。

表3 時(shí)序預(yù)測(cè)及最終結(jié)果實(shí)驗(yàn)參數(shù)Tab.3 Time series forecast and final result experimental parameters

表4 文本情感分析實(shí)驗(yàn)參數(shù)Tab.4 Text sentiment analysis experimental parameters

2.4 實(shí)驗(yàn)

2.4.1 時(shí)序預(yù)測(cè)實(shí)驗(yàn)

本文時(shí)序預(yù)測(cè)實(shí)驗(yàn)數(shù)據(jù)集為??低暪善毙畔ⅲ瑪?shù)據(jù)集時(shí)間跨度包含了從2010年8月30日至2021年8月19日、總共2 668天的數(shù)據(jù)。在本實(shí)驗(yàn)中,2 001條數(shù)據(jù)作為訓(xùn)練集,667條數(shù)據(jù)作為測(cè)試集。使用XGBoost、LSTM進(jìn)行對(duì)比實(shí)驗(yàn),??低晹?shù)據(jù)集實(shí)驗(yàn)結(jié)果見表5。DA-RNN在??低暅y(cè)試集上的預(yù)測(cè)值與真實(shí)值曲線如圖6所示。

表5 海康威視數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Tab.5 Hikvision datasets experimental results

圖4 DA-RNN在??低暅y(cè)試集上的預(yù)測(cè)值與真實(shí)值Fig.4 Predicted value and real value of DA-RNN on Hikvision test datasets

通過(guò)比較XGBoost、LSTM以及本文采用的DARNN模型的實(shí)驗(yàn)結(jié)果,可以得知,DA-RNN通過(guò)雙階段注意力機(jī)制,既考慮輸入階段的信息特征,也考慮長(zhǎng)時(shí)間距離的信息,相較于前2種模型表現(xiàn)更好,在、上分別從3020、3.642下降到1.584、1.981。證明了DA-RNN模型在股價(jià)時(shí)序數(shù)據(jù)上的有效性。

2.4.2 文本情感分析實(shí)驗(yàn)

本文文本情感分析實(shí)驗(yàn)包含6 000條已經(jīng)標(biāo)注的新聞標(biāo)題,其中,5 000條標(biāo)題文本數(shù)據(jù)作為訓(xùn)練集,600條作為驗(yàn)證集,400條作為測(cè)試集。為證明方法的有效性,將本文中的BiLSTM-Attention模型與SVM、LSTM方法在相同實(shí)驗(yàn)環(huán)境下做對(duì)比實(shí)驗(yàn),結(jié)果見表6。

表6 文本情感分析結(jié)果Tab.6 Text sentiment analysis experimental results

通過(guò)比較SVM、LSTM、BiLSTM-Attention算法的實(shí)驗(yàn)結(jié)果可知,本文采用的BiLSTM-Attention通過(guò)雙向的LSTM,同時(shí)考慮了上下文信息,并且加入了注意力機(jī)制,相較于單向的LSTM以及傳統(tǒng)機(jī)器學(xué)習(xí)算法支持向量機(jī)SVM表現(xiàn)更優(yōu),在準(zhǔn)確率評(píng)價(jià)指標(biāo)上分別提高了7.76%和2.76%。BiLSTMAttention方法在標(biāo)題文本數(shù)據(jù)集上的3個(gè)指標(biāo)中表現(xiàn)均是最好的,表明該模型有著較高的可用性。

2.5 模型M的實(shí)驗(yàn)結(jié)果

首先獲取最終結(jié)果預(yù)測(cè)階段相關(guān)數(shù)據(jù)集,本文選擇2021年8月20日至2021年9月22日海康威視的時(shí)序數(shù)據(jù)集以及文本數(shù)據(jù)集。通過(guò)以上文本情感分析模型BiLSTM-Attention預(yù)測(cè)對(duì)應(yīng)標(biāo)題文本的情感傾向,對(duì)其添加權(quán)重,與DA-RNN模型預(yù)測(cè)的對(duì)應(yīng)天數(shù)的值進(jìn)行疊加,得到最終結(jié)果,見表7。

表7 最終實(shí)驗(yàn)結(jié)果Tab.7 Final experimental results

通過(guò)比較表7中的實(shí)驗(yàn)結(jié)果,可以得出,在本實(shí)驗(yàn)中,當(dāng)權(quán)重值為0.01時(shí),、值達(dá)到最小。本實(shí)驗(yàn)表明新聞文本數(shù)據(jù)對(duì)股票價(jià)格數(shù)值存在一定影響,當(dāng)通過(guò)對(duì)其附加一定的權(quán)重時(shí),可使股票價(jià)格預(yù)測(cè)值更接近真實(shí)值,說(shuō)明本模型的可用性。

3 結(jié)束語(yǔ)

本文提出的模型M,通過(guò)疊加影響股票價(jià)格預(yù)測(cè)的多種因素,如歷史數(shù)據(jù)、新聞文本情感傾向等,采用對(duì)比實(shí)驗(yàn)等方式,得到最終實(shí)驗(yàn)結(jié)果。相比原始DARNN模型,在評(píng)價(jià)指標(biāo)、上分別下降了13.3%、14.2%,證明了所提出模型M的有效性。

然而,本文算法主要考慮了新聞文本情感傾向作為時(shí)序數(shù)據(jù)的影響因素,后期工作會(huì)考慮將其他因素融入研究,如股民對(duì)個(gè)股信息的情感傾向、同一行業(yè)類別股票的漲跌趨勢(shì)等等。另外,本文只從4個(gè)維度的特征數(shù)據(jù)進(jìn)行時(shí)間序列預(yù)測(cè),后續(xù)工作可以添加其它維度的數(shù)據(jù),如交易量等,通過(guò)更豐富的時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè),進(jìn)一步提高準(zhǔn)確率。

猜你喜歡
股票價(jià)格時(shí)序預(yù)測(cè)
基于時(shí)序Sentinel-2數(shù)據(jù)的馬鈴薯遙感識(shí)別研究
無(wú)可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
基于Sentinel-2時(shí)序NDVI的麥冬識(shí)別研究
基于GARCH族模型的重慶啤酒股票價(jià)格波動(dòng)研究
不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
一種毫米波放大器時(shí)序直流電源的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:08
論股票價(jià)格準(zhǔn)確性的社會(huì)效益
我國(guó)股票價(jià)格指數(shù)與“克強(qiáng)指數(shù)”的關(guān)系研究
高要市| 湖口县| 武安市| 宽甸| 错那县| 巴青县| 长宁区| 奇台县| 茂名市| 彰武县| 罗定市| 舟曲县| 安徽省| 阳东县| 家居| 二连浩特市| 邵阳市| 长垣县| 濮阳县| 沾化县| 远安县| 九寨沟县| 斗六市| 沧州市| 临潭县| 新宁县| 徐水县| 石林| 丰顺县| 依安县| 蓝田县| 鄂尔多斯市| 大同县| 大新县| 阜新市| 开阳县| 崇文区| 南投市| 陇西县| 中超| 察雅县|