基于機器學習在股票預(yù)測中的應(yīng)用

2024-05-13 15:36閆文欣

信息系統(tǒng)工程 2024年4期

閆文欣

摘要：隨著我國金融行業(yè)不斷發(fā)展，股票市場預(yù)測已經(jīng)成為該行業(yè)一個重點的實際問題，越來越多的學者投入股票預(yù)測的研究中，金融市場股票預(yù)測精度不斷提升。歸納目前基于機器學習的股票預(yù)測研究現(xiàn)狀，分別從單一模型、改進模型和組合模型分類介紹研究情況，總結(jié)不同類別下預(yù)測模型的優(yōu)缺點。介紹各種用于股票預(yù)測的預(yù)測模型，以及不同模型的實際應(yīng)用和研究現(xiàn)狀，并總結(jié)這些模型的應(yīng)用特點。最后使用ARIMA模型對科大訊飛股票預(yù)測開盤價走勢，使用VAR模型預(yù)測先進數(shù)通的股票開盤價、收盤價、最高價和最低價。

關(guān)鍵詞：股票預(yù)測；機器學習；ARIMA模型；VAR模型；時間序列

一、前言

從股票市場出現(xiàn)到發(fā)展至今已有四百多年歷史，股票能夠在股票市場內(nèi)交易，是當前經(jīng)濟發(fā)展中不可或缺的重要部分，對各大公司來說是籌備資金的重要方式。同樣，股票也可以從側(cè)面表現(xiàn)出各大公司的未來發(fā)展趨勢。股票價格受各種因素的影響，股市中，股票價格每天都在發(fā)生變化，每天的變化不僅會給投資者帶來獲利的可能，也會給投資者帶來一定的風險，甚至影響整個社會的整體經(jīng)濟運行發(fā)展。股票價格對股票市場有著重大影響，對于股票交易來講，選擇合適的股票十分關(guān)鍵，擇股正確會使投資者獲利，因此正確預(yù)測股票走勢十分必要，股票預(yù)測就成為股票市場中擇股的必要手段。

隨著科技發(fā)展，計算機水平不斷提高、先進算法不斷成熟，人工智能一直處于社會關(guān)注的熱點，在各領(lǐng)域?qū)θ斯ぶ悄艿膽?yīng)用都會掀起熱浪，各行各業(yè)通過使用人工智能來解決問題并取得有效進展。得益于機器學習對數(shù)據(jù)的高效處理，越來越多的研究者通過機器學習進行數(shù)據(jù)分析處理，從中挖掘大量實用信息并以此獲利，機器學習對金融行業(yè)的發(fā)展有著重要的促進作用。

從單個投資者到整個社會經(jīng)濟，股票預(yù)測都十分必要，當前對股票預(yù)測的研究存在各種各樣機器學習算法，機器學習可以有效提高股票預(yù)測精度。本文基于機器學習模型，介紹目前用于股票預(yù)測的機器學習模型，建立模型對先進數(shù)通和科大訊飛的股票數(shù)據(jù)進行預(yù)測。

二、股票預(yù)測研究現(xiàn)狀

近年來，研究者使用了多種預(yù)測方法用于股票預(yù)測，包括單一模型、改進模型和集合模型。

（一）單一模型

李瀟寧（2019）以上證00001股的股票數(shù)據(jù)為依據(jù)，在不知將來股票數(shù)據(jù)的情況下使用多元線性回歸模型和時間序列ARIMA模型（差分整合移動平均自回歸模型）兩種預(yù)測方法，對00001股股票的收盤價做預(yù)測，比較兩種模型的精度[1]。黃秋萍等人（2015）分別介紹了基于小波神經(jīng)網(wǎng)絡(luò)模型、SVM模型和BP神經(jīng)網(wǎng)絡(luò)模型的不同股票預(yù)測研究，以上證指數(shù)2000年到2014年的交易數(shù)據(jù)為依據(jù)，對上證這些歷史股票數(shù)據(jù)的價格走勢進行訓練，并以總盈利率、走勢準確性和均方誤差三個指標評價三個模型的預(yù)測結(jié)果[2]。趙康銀等人（2020）建立ARIMA模型，將TCL集團2019年的歷史股票數(shù)據(jù)作為訓練集，預(yù)測該集團2019年9月17日的收盤價[3]。Lin Lei（2022）基于RNN對上證指數(shù)股票數(shù)據(jù)進行預(yù)測，并分析其收斂速度，實驗表明股票數(shù)據(jù)的合理性和其性能與擬合效果成正比[4]。李嘉浩（2021）鑒于支持向量機模型預(yù)測精準度高和預(yù)測速度快的特點，采用支持向量機對寶鋼股份和恒瑞醫(yī)藥的股票收盤價進行預(yù)測，將2018年至2020年的股票數(shù)據(jù)作為訓練集，將結(jié)果與真實數(shù)據(jù)比對有90%的準確率[5]。

（二）改進模型

江柏霖等人（2021）為解決RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）在處理數(shù)據(jù)過程中，面對大量數(shù)據(jù)會出現(xiàn)梯度爆炸等狀況導致預(yù)測的精準度降低的問題，在RNN中引入了LSTM模型（長短期記憶網(wǎng)絡(luò)模型），并以GQY視訊的股票數(shù)據(jù)作為實例，對該集團2018年至2020年的股票最低價、最高價、成交額、開盤價、收盤價等股票數(shù)據(jù)進行訓練，以股票收盤價為輸出，結(jié)果表明該方法提高預(yù)測精度，并降低計算消耗[6]。方紅等人（2019）采用改進之后的LSTM模型對股票數(shù)據(jù)進行預(yù)測，致力于解決LSTM模型的滯后問題。在模型輸入部分，選取關(guān)聯(lián)性大的公司股票數(shù)據(jù)與預(yù)測的股票價格相結(jié)合作為模型輸入，選取多次訓練之后，滯后性得到顯著降低的特征向量和將相關(guān)文本內(nèi)容經(jīng)過情感分析之后得到的情感分值作為輸入[7]。黃建華等人（2022）為解決LSTM模型因計算成本因素導致最優(yōu)值確定困難和缺乏客觀性的定參而影響其擬合能力等問題，通過改進的粒子群算法來優(yōu)化模型的重要參數(shù)，減少主觀性，提高整體最優(yōu)性，從而得到更高精度的預(yù)測模型，并選取了上證指數(shù)和深證指數(shù)的股票數(shù)據(jù)對改進的LSTM模型進行評估，驗證了模型有效性[8]。王燕等人（2019）鑒于XGBoost模型在股票預(yù)測方面會同時保證精準度和速度的特點，將網(wǎng)格搜索算法與該模型相結(jié)合構(gòu)建改進的GS-XGBoost模型，網(wǎng)格搜索算法用來對模型的參數(shù)進行優(yōu)化，最后選取中國建筑、科大訊飛等公司從2005年至2018年的股票數(shù)據(jù)為研究對象，將不同模型與改進的GS-XGBoost模型比較平均絕對誤差（MAE）、均方誤差（MSE）和均方根誤差（RMSE）的結(jié)果，結(jié)果顯示改進的GS-XGBoost模型更具有效性[9]。

（三）組合模型

陳登建等人（2022）采用將自回歸差分移動平均模型（ARIMA）與支持向量機（SVR）滾動殘差模型相結(jié)合的組合模型用于股票數(shù)據(jù)預(yù)測，以提升預(yù)測精度為目的，該組合模型中ARIMA模型的作用是根據(jù)歷史股票數(shù)據(jù)預(yù)測股票走勢方向，支持向量機滾動殘差模型的作用是修正ARIMA模型預(yù)測出的數(shù)據(jù)殘差，最終得到組合模型的預(yù)測結(jié)果。研究實例選取貴州茅臺2008年到2021年的數(shù)據(jù)，預(yù)測其收盤價，驗證組合模型的有效性[10]。楊智勇等人（2023）提出以LSTM模型為基礎(chǔ)的BiLSTM-SA-TCN模型，該模型結(jié)合了自注意力機制（SA）和時間卷積網(wǎng)絡(luò)（TCN）的雙向長短期記憶網(wǎng)絡(luò)模型（BiLSTM），來解決預(yù)測模型現(xiàn)存的功能缺乏多樣性問題。BiLSTM-SA-TCN模型可以對股票數(shù)據(jù)進行高效學習，預(yù)測得出第二日的股票收盤價，實驗結(jié)果表明該模型的預(yù)測結(jié)果誤差降低、精度和擬合度提高，有效解決模型的時效性問題[11]。謝游宇等人（2023）提出EMD-SSA-LSTM-SVR 組合模型，該模型將經(jīng)驗?zāi)B(tài)分解模型（EMD）、LSTM模型、SVR模型和奇異譜分析模型（SSA）相結(jié)合，綜合各個模型的優(yōu)點，EMD模型和SSA模型通過對原始序列分解得到不同時間尺度的子序列，進行分解有效提高模型預(yù)測精準度，實證以滬深300指數(shù)為依據(jù)，與現(xiàn)存的其他基于EMD和SSA的模型相比，EMD-SSA-LSTM-SVR 組合模型的精度高于其他模型[12]。閆冬（2012）提出一種ARMA-GARCH組合模型，該組合模型將ARMA模型用于預(yù)測處理之后的平穩(wěn)的時間序列數(shù)據(jù)，結(jié)合廣義自回歸條件異方差模型（GARCH）的特點，得到預(yù)測精度更高的組合預(yù)測模型，通過預(yù)測上證指數(shù)來驗證該組合模型的有效性[13]。孫存浩等人（2020）提出一種BP-LSTMＢ組合模型，該模型結(jié)合基于BP神經(jīng)網(wǎng)絡(luò)模型與LSTM神經(jīng)網(wǎng)絡(luò)模型，并通過實驗驗證該組合模型較傳統(tǒng)模型有更高的精準度[14]。

三、模型簡介

（一）LSTM模型

LSTM模型全稱為長短期記憶網(wǎng)絡(luò)模型，是專門用來處理循環(huán)神經(jīng)網(wǎng)絡(luò)的長期依賴問題而存在的模型，可以說LSTM模型是RNN模型的變體形式，由四部分組成，分別為記憶細胞、遺忘門、輸入門和輸出門。LSTM的獨特門結(jié)構(gòu)保證該模型可以通過記憶長期有效信息，避免長期有效信息被忽略的問題，解決循環(huán)神經(jīng)網(wǎng)絡(luò)模型的梯度爆炸和消失問題。梯度消失會造成神經(jīng)網(wǎng)絡(luò)調(diào)參速度快速下降，梯度爆炸則會造成學習不穩(wěn)定的問題。LSTM模型的門結(jié)構(gòu)使模型保留對之前訓練數(shù)據(jù)的記憶，減少梯度消失的發(fā)生。LSTM模型雖然可以有效地處理時間序列數(shù)據(jù)，但仍存在預(yù)測滯后性和局部最優(yōu)解等問題。

每次輸入時，LSTM會將新的輸入信息與上一步的輸出信息結(jié)合來決定是否遺忘一些記憶，經(jīng)過sigmoid神經(jīng)層，在單元狀態(tài)上做點對點乘，結(jié)果為0的分量被遺忘，在輸出門結(jié)合當前時刻輸入的值與前一時刻的輸出值，經(jīng)過tanh函數(shù)和sigmoid函數(shù)后，整合的向量點對點乘得到該時刻輸出。在LSTM 模型的門結(jié)構(gòu)中，遺忘門用來決定是否遺忘信息，保留重要有用信息；輸入門控制不同時刻信息的輸入；輸出門主控信息輸出。

（二）ARIMA模型

ARIMA模型全稱為差分整合移動平均自回歸模型，是一種時間序列預(yù)測模型。在股票預(yù)測模型研究中，ARIMA模型是一種很常見的預(yù)測模型。ARIMA模型實際上是移動平均模型（MA）、自回歸模型（AR）和差分法相結(jié)合的模型，ARIMA（p，d，q）中，p是自回歸項數(shù)，q是滑動平均項數(shù)，d是差分次數(shù)也稱為階數(shù)。

ARIMA模型的預(yù)測步驟為：第一，測試序列平穩(wěn)性，構(gòu)建ARIMA模型時間序列必須是平穩(wěn)的，選擇歷史數(shù)據(jù)做預(yù)測就說明希望時間序列在歷史數(shù)據(jù)上的某些性質(zhì)可以一直處于不變的狀態(tài)，這就要求了時間序列的平穩(wěn)性，若時間序列是非平穩(wěn)的，那么歷史數(shù)據(jù)對預(yù)測就沒有任何意義。在這一步通常選擇DF和ADF單位根檢驗，如果檢測出的p值結(jié)果大于0.05，則說明時間序列是非平穩(wěn)的需要差分，若結(jié)果小于0.05則說明是平穩(wěn)的。差分就是將非平穩(wěn)的時間序列轉(zhuǎn)化為平穩(wěn)的操作，對數(shù)據(jù)做差分處理之后得到新的數(shù)據(jù)集，再次檢驗平穩(wěn)性，依據(jù)差分次數(shù)也就是d階，出現(xiàn)一階差分、二階差分等，通常情況下不會超過二階差分。第二，識別AR模型的p階和MA模型的q階，使用自相關(guān)函數(shù)（ACF）和偏相關(guān)函數(shù)（PACF）來識別p和q。第三，模型預(yù)測，參數(shù)確定之后，就可以估算出預(yù)測模型的準確性，對測試集的數(shù)據(jù)進行預(yù)測。

（三）支持向量機模型

支持向量機（SVM）作為一種從統(tǒng)計學理論發(fā)展起來的機器學習方法，具有相當完善的數(shù)學理論。SVM的優(yōu)勢主要體現(xiàn)在處理非線性、小樣本和高維度問題，泛化能力較強，預(yù)測結(jié)果受核函數(shù)選擇影響，不少研究將SVM應(yīng)用到股票預(yù)測方面。在股票預(yù)測方面，支持向量機的作用是實現(xiàn)高低維度和線性非線性的問題轉(zhuǎn)化，將低維度轉(zhuǎn)化為高維度，非線性轉(zhuǎn)化為線性。SVM通過有監(jiān)督的學習對數(shù)據(jù)進行分類，是一個線性分類器。

（四）BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)全稱為反向傳播神經(jīng)網(wǎng)絡(luò)，BP神經(jīng)網(wǎng)絡(luò)模型是一種應(yīng)用廣泛的模型，常用來模型分類、時間序列預(yù)測和函數(shù)逼近等，在股票市場中常用于預(yù)測股票數(shù)據(jù)，BP神經(jīng)網(wǎng)絡(luò)在訓練樣本數(shù)據(jù)過程中不斷修正閾值和權(quán)值縮小誤差，不斷逼近期望值。反向傳播神經(jīng)網(wǎng)絡(luò)分為三部分，分別是輸入層、輸出層和隱藏層，是一個典型的多層網(wǎng)絡(luò)，層與層之間的神經(jīng)元存在權(quán)連接，同一層的神經(jīng)元不存在權(quán)連接。BP神經(jīng)網(wǎng)絡(luò)通過Sigmoid函數(shù)得到輸出值，輸入值不應(yīng)太大，避免造成神經(jīng)元過飽和。BP神經(jīng)網(wǎng)絡(luò)具有強泛化能力，可在少數(shù)迭代下實現(xiàn)精度提升，但也存在不足，比如收斂速度慢、全局搜索能力低等問題，反向傳播神經(jīng)網(wǎng)絡(luò)容易造成局部極小值，使預(yù)測精度降低。

（五）卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)簡稱CNN，專門處理有網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)，CNN由輸出層、輸入層、激活層、卷積層、全連接層和池化層組成。這些層結(jié)構(gòu)使得CNN具有權(quán)重共享、局部感知和多核的特點，CNN在處理圖像、語音、文本等領(lǐng)域有著廣泛應(yīng)用，也有研究人員將CNN用于預(yù)測金融時間序列。卷積層是CNN層結(jié)構(gòu)的核心層，大量的計算在卷積層產(chǎn)生，計算量大部分是在該層，卷積層可以說是神經(jīng)元的一個輸出，神經(jīng)元只觀察數(shù)據(jù)的一小部分，接著與位于左右的其他神經(jīng)元共享參數(shù)，還可以降低參數(shù)的數(shù)量，從而降低計算量，防止因參數(shù)過多造成過擬合現(xiàn)象。池化層的池化操作包括平均池化和最大池化兩種，最大池化的效果較優(yōu)，池化層在CNN層結(jié)構(gòu)中可以減小特征空間維度。全連接層將當前層的全部節(jié)點與下層節(jié)點連接。

四、模型應(yīng)用

（一）ARIMA模型應(yīng)用

該部分選擇了從Choice金融終端下載的科大訊飛集團2017年至2020年的股票開盤價作為訓練集，預(yù)測2019年12月30日到2021年6月14日的股票開盤價，首先處理數(shù)據(jù)，將每周的開盤價平均值算到周一上，可視化數(shù)據(jù)集可發(fā)現(xiàn)存在空缺值并且開盤價變動大，因此該序列數(shù)據(jù)可能不平穩(wěn)，需要做時間序列平穩(wěn)性檢驗（ADF），結(jié)果p值大于0.05，拒絕原假設(shè)，需要對數(shù)據(jù)進行差分處理，對數(shù)據(jù)進行一階差分后再進行ADF檢驗，得出結(jié)果p值小于0.05，接受原假設(shè)。

給ARIMA模型定階，由ADF檢驗得到ARIMA（p，d，q）中d等于1，現(xiàn)在確定p和q，對數(shù)據(jù)做自相關(guān)和偏自相關(guān)圖，最后確定模型為ARIMA（1，1，0），使用ARIMA（1，1，0）模型來預(yù)測科大訊飛2019年12月30日到2021年6月14日的股票開盤價走勢，結(jié)果見圖1。

（二）VAR模型應(yīng)用

該部分選擇從Choice金融終端下載的先進數(shù)通2017年1月3日至2023年4月24日之間1533個交易日的股票開盤價、收盤價、最高價和最低價作為數(shù)據(jù)集，選取1503個交易日作為訓練集用來構(gòu)建預(yù)測模型，通過向量自回歸（VAR）模型預(yù)測先進數(shù)通2023年3月13日至4月24日30個交易日的開盤價、最高價、最低價和收盤價。首先檢驗時間序列平穩(wěn)性，對四項指標做單位根檢驗，得出p值大于0.05，說明該序列屬于非平穩(wěn)序列；做一階差分處理，再進行單位根檢驗，觀察得出的p值小于0.05，說明該序列屬于平穩(wěn)序列。接下來對VAR模型定階，再次使用階數(shù)逐步增加的方法，選擇對應(yīng)AIC最小的階數(shù)，運行結(jié)果顯示AIC值最小對應(yīng)的值是2，則該模型定階為2，接著對30個交易日的數(shù)據(jù)進行預(yù)測并得出預(yù)測準確率，準確率為98.02%，預(yù)測結(jié)果見圖2。

五、結(jié)語

股票預(yù)測一直是股票市場的研究熱點，股票預(yù)測存在非常多的預(yù)測方法，預(yù)測方法的種類也在不斷增加。本文總結(jié)了基于機器學習的股票預(yù)測研究，從單一模型、改進模型和組合模型三個角度對股票預(yù)測的研究做綜述，介紹各種預(yù)測模型，分析其優(yōu)缺點，單一預(yù)測模型的預(yù)測大多存在一定局限性，改進模型主要針對單一模型存在的缺陷進行改進，組合模型會結(jié)合多模型優(yōu)點，采用改進模型和組合模型可以更有效地解決問題。最后選擇先進數(shù)通和科大訊飛的股票數(shù)據(jù)，使用VAR模型和ARIMA模型分別進行預(yù)測并得出結(jié)果，具有一定的應(yīng)用研究意義。

參考文獻

[1]李瀟寧.多元線性回歸與時間序列模型在股票預(yù)測中的應(yīng)用[J].科技創(chuàng)業(yè)月刊，2019，32（02）：153-155.

[2]黃秋萍，周霞，甘宇健，等.SVM與神經(jīng)網(wǎng)絡(luò)模型在股票預(yù)測中的應(yīng)用研究[J].微型機與應(yīng)用，2015，34（05）：88-90.

[3]趙康銀，薛亞楠.基于ARIMA模型的TCL集團股票預(yù)測及評價[J].廣西質(zhì)量監(jiān)督導報，2020（09）：144-145.

[4]Lin Lei. Stock Prediction and Analysis based on RNN Neural Network[J]. SHS Web of Conferences，2022，151.

[5]李嘉浩.基于支持向量機的股票預(yù)測與分析[J].經(jīng)濟研究導刊，2021（32）：107-110.

[6]江柏霖，岳杰，蘭勝杰.基于LSTM神經(jīng)網(wǎng)絡(luò)的股票預(yù)測系統(tǒng)的研究[J].河北建筑工程學院學報，2021，39（04）：165-170.

[7]方紅，韓星煜，徐濤.改進型基于LSTM的股票預(yù)測方法[J].安徽大學學報（自然科學版），2019，43（06）：36-42.

[8]黃建華，鐘敏，胡慶春.基于改進粒子群算法的LSTM股票預(yù)測模型[J].華東理工大學學報（自然科學版），2022，48（05）：696-707.

[9]王燕，郭元凱.改進的XGBoost模型在股票預(yù)測中的應(yīng)用[J].計算機工程與應(yīng)用，2019，55（20）：202-207.

[10]陳登建，杜飛霞，夏換.基于ARIMA與SVR滾動殘差模型組合的股票預(yù)測[J].計算機時代，2022（05）：76-81.

[11]楊智勇，葉玉璽，周瑜.基于BiLSTM-SA-TCN時間序列模型在股票預(yù)測中的應(yīng)用[J].南京信息工程大學學報（自然科學版），2023，15（06）：643-651.

[12]謝游宇，王萬雄.基于EMD和SSA的股票預(yù)測模型[J].計算機工程與應(yīng)用，2023，59（18）：285-292.

[13]閆冬.基于ARMA-GARCH模型的上證指數(shù)短期預(yù)測研究[J].重慶理工大學學報（社會科學），2012，26（10）：36-39.

[14]孫存浩，胡兵，鄒雨軒.指數(shù)趨勢預(yù)測的BP-LSTM模型[J].四川大學學報（自然科學版），2020，57（01）：27-31.

責任編輯：張津平、尚丹

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于機器學習在股票預(yù)測中的應(yīng)用