閆文欣
摘要:隨著我國金融行業(yè)不斷發(fā)展,股票市場預(yù)測已經(jīng)成為該行業(yè)一個重點的實際問題,越來越多的學者投入股票預(yù)測的研究中,金融市場股票預(yù)測精度不斷提升。歸納目前基于機器學習的股票預(yù)測研究現(xiàn)狀,分別從單一模型、改進模型和組合模型分類介紹研究情況,總結(jié)不同類別下預(yù)測模型的優(yōu)缺點。介紹各種用于股票預(yù)測的預(yù)測模型,以及不同模型的實際應(yīng)用和研究現(xiàn)狀,并總結(jié)這些模型的應(yīng)用特點。最后使用ARIMA模型對科大訊飛股票預(yù)測開盤價走勢,使用VAR模型預(yù)測先進數(shù)通的股票開盤價、收盤價、最高價和最低價。
關(guān)鍵詞:股票預(yù)測;機器學習;ARIMA模型;VAR模型;時間序列
一、前言
從股票市場出現(xiàn)到發(fā)展至今已有四百多年歷史,股票能夠在股票市場內(nèi)交易,是當前經(jīng)濟發(fā)展中不可或缺的重要部分,對各大公司來說是籌備資金的重要方式。同樣,股票也可以從側(cè)面表現(xiàn)出各大公司的未來發(fā)展趨勢。股票價格受各種因素的影響,股市中,股票價格每天都在發(fā)生變化,每天的變化不僅會給投資者帶來獲利的可能,也會給投資者帶來一定的風險,甚至影響整個社會的整體經(jīng)濟運行發(fā)展。股票價格對股票市場有著重大影響,對于股票交易來講,選擇合適的股票十分關(guān)鍵,擇股正確會使投資者獲利,因此正確預(yù)測股票走勢十分必要,股票預(yù)測就成為股票市場中擇股的必要手段。
隨著科技發(fā)展,計算機水平不斷提高、先進算法不斷成熟,人工智能一直處于社會關(guān)注的熱點,在各領(lǐng)域?qū)θ斯ぶ悄艿膽?yīng)用都會掀起熱浪,各行各業(yè)通過使用人工智能來解決問題并取得有效進展。得益于機器學習對數(shù)據(jù)的高效處理,越來越多的研究者通過機器學習進行數(shù)據(jù)分析處理,從中挖掘大量實用信息并以此獲利,機器學習對金融行業(yè)的發(fā)展有著重要的促進作用。
從單個投資者到整個社會經(jīng)濟,股票預(yù)測都十分必要,當前對股票預(yù)測的研究存在各種各樣機器學習算法,機器學習可以有效提高股票預(yù)測精度。本文基于機器學習模型,介紹目前用于股票預(yù)測的機器學習模型,建立模型對先進數(shù)通和科大訊飛的股票數(shù)據(jù)進行預(yù)測。
二、股票預(yù)測研究現(xiàn)狀
近年來,研究者使用了多種預(yù)測方法用于股票預(yù)測,包括單一模型、改進模型和集合模型。
(一)單一模型
李瀟寧(2019)以上證00001股的股票數(shù)據(jù)為依據(jù),在不知將來股票數(shù)據(jù)的情況下使用多元線性回歸模型和時間序列ARIMA模型(差分整合移動平均自回歸模型)兩種預(yù)測方法,對00001股股票的收盤價做預(yù)測,比較兩種模型的精度[1]。黃秋萍等人(2015)分別介紹了基于小波神經(jīng)網(wǎng)絡(luò)模型、SVM模型和BP神經(jīng)網(wǎng)絡(luò)模型的不同股票預(yù)測研究,以上證指數(shù)2000年到2014年的交易數(shù)據(jù)為依據(jù),對上證這些歷史股票數(shù)據(jù)的價格走勢進行訓練,并以總盈利率、走勢準確性和均方誤差三個指標評價三個模型的預(yù)測結(jié)果[2]。趙康銀等人(2020)建立ARIMA模型,將TCL集團2019年的歷史股票數(shù)據(jù)作為訓練集,預(yù)測該集團2019年9月17日的收盤價[3]。Lin Lei(2022)基于RNN對上證指數(shù)股票數(shù)據(jù)進行預(yù)測,并分析其收斂速度,實驗表明股票數(shù)據(jù)的合理性和其性能與擬合效果成正比[4]。李嘉浩(2021)鑒于支持向量機模型預(yù)測精準度高和預(yù)測速度快的特點,采用支持向量機對寶鋼股份和恒瑞醫(yī)藥的股票收盤價進行預(yù)測,將2018年至2020年的股票數(shù)據(jù)作為訓練集,將結(jié)果與真實數(shù)據(jù)比對有90%的準確率[5]。
(二)改進模型
江柏霖等人(2021)為解決RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))在處理數(shù)據(jù)過程中,面對大量數(shù)據(jù)會出現(xiàn)梯度爆炸等狀況導致預(yù)測的精準度降低的問題,在RNN中引入了LSTM模型(長短期記憶網(wǎng)絡(luò)模型),并以GQY視訊的股票數(shù)據(jù)作為實例,對該集團2018年至2020年的股票最低價、最高價、成交額、開盤價、收盤價等股票數(shù)據(jù)進行訓練,以股票收盤價為輸出,結(jié)果表明該方法提高預(yù)測精度,并降低計算消耗[6]。方紅等人(2019)采用改進之后的LSTM模型對股票數(shù)據(jù)進行預(yù)測,致力于解決LSTM模型的滯后問題。在模型輸入部分,選取關(guān)聯(lián)性大的公司股票數(shù)據(jù)與預(yù)測的股票價格相結(jié)合作為模型輸入,選取多次訓練之后,滯后性得到顯著降低的特征向量和將相關(guān)文本內(nèi)容經(jīng)過情感分析之后得到的情感分值作為輸入[7]。黃建華等人(2022)為解決LSTM模型因計算成本因素導致最優(yōu)值確定困難和缺乏客觀性的定參而影響其擬合能力等問題,通過改進的粒子群算法來優(yōu)化模型的重要參數(shù),減少主觀性,提高整體最優(yōu)性,從而得到更高精度的預(yù)測模型,并選取了上證指數(shù)和深證指數(shù)的股票數(shù)據(jù)對改進的LSTM模型進行評估,驗證了模型有效性[8]。王燕等人(2019)鑒于XGBoost模型在股票預(yù)測方面會同時保證精準度和速度的特點,將網(wǎng)格搜索算法與該模型相結(jié)合構(gòu)建改進的GS-XGBoost模型,網(wǎng)格搜索算法用來對模型的參數(shù)進行優(yōu)化,最后選取中國建筑、科大訊飛等公司從2005年至2018年的股票數(shù)據(jù)為研究對象,將不同模型與改進的GS-XGBoost模型比較平均絕對誤差(MAE)、均方誤差(MSE)和均方根誤差(RMSE)的結(jié)果,結(jié)果顯示改進的GS-XGBoost模型更具有效性[9]。
(三)組合模型
陳登建等人(2022)采用將自回歸差分移動平均模型(ARIMA)與支持向量機(SVR)滾動殘差模型相結(jié)合的組合模型用于股票數(shù)據(jù)預(yù)測,以提升預(yù)測精度為目的,該組合模型中ARIMA模型的作用是根據(jù)歷史股票數(shù)據(jù)預(yù)測股票走勢方向,支持向量機滾動殘差模型的作用是修正ARIMA模型預(yù)測出的數(shù)據(jù)殘差,最終得到組合模型的預(yù)測結(jié)果。研究實例選取貴州茅臺2008年到2021年的數(shù)據(jù),預(yù)測其收盤價,驗證組合模型的有效性[10]。楊智勇等人(2023)提出以LSTM模型為基礎(chǔ)的BiLSTM-SA-TCN模型,該模型結(jié)合了自注意力機制(SA)和時間卷積網(wǎng)絡(luò)(TCN)的雙向長短期記憶網(wǎng)絡(luò)模型(BiLSTM),來解決預(yù)測模型現(xiàn)存的功能缺乏多樣性問題。BiLSTM-SA-TCN模型可以對股票數(shù)據(jù)進行高效學習,預(yù)測得出第二日的股票收盤價,實驗結(jié)果表明該模型的預(yù)測結(jié)果誤差降低、精度和擬合度提高,有效解決模型的時效性問題[11]。謝游宇等人(2023)提出EMD-SSA-LSTM-SVR 組合模型,該模型將經(jīng)驗?zāi)B(tài)分解模型(EMD)、LSTM模型、SVR模型和奇異譜分析模型(SSA)相結(jié)合,綜合各個模型的優(yōu)點,EMD模型和SSA模型通過對原始序列分解得到不同時間尺度的子序列,進行分解有效提高模型預(yù)測精準度,實證以滬深300指數(shù)為依據(jù),與現(xiàn)存的其他基于EMD和SSA的模型相比,EMD-SSA-LSTM-SVR 組合模型的精度高于其他模型[12]。閆冬(2012)提出一種ARMA-GARCH組合模型,該組合模型將ARMA模型用于預(yù)測處理之后的平穩(wěn)的時間序列數(shù)據(jù),結(jié)合廣義自回歸條件異方差模型(GARCH)的特點,得到預(yù)測精度更高的組合預(yù)測模型,通過預(yù)測上證指數(shù)來驗證該組合模型的有效性[13]。孫存浩等人(2020)提出一種BP-LSTMB組合模型,該模型結(jié)合基于BP神經(jīng)網(wǎng)絡(luò)模型與LSTM神經(jīng)網(wǎng)絡(luò)模型,并通過實驗驗證該組合模型較傳統(tǒng)模型有更高的精準度[14]。
三、模型簡介
(一)LSTM模型
LSTM模型全稱為長短期記憶網(wǎng)絡(luò)模型,是專門用來處理循環(huán)神經(jīng)網(wǎng)絡(luò)的長期依賴問題而存在的模型,可以說LSTM模型是RNN模型的變體形式,由四部分組成,分別為記憶細胞、遺忘門、輸入門和輸出門。LSTM的獨特門結(jié)構(gòu)保證該模型可以通過記憶長期有效信息,避免長期有效信息被忽略的問題,解決循環(huán)神經(jīng)網(wǎng)絡(luò)模型的梯度爆炸和消失問題。梯度消失會造成神經(jīng)網(wǎng)絡(luò)調(diào)參速度快速下降,梯度爆炸則會造成學習不穩(wěn)定的問題。LSTM模型的門結(jié)構(gòu)使模型保留對之前訓練數(shù)據(jù)的記憶,減少梯度消失的發(fā)生。LSTM模型雖然可以有效地處理時間序列數(shù)據(jù),但仍存在預(yù)測滯后性和局部最優(yōu)解等問題。
每次輸入時,LSTM會將新的輸入信息與上一步的輸出信息結(jié)合來決定是否遺忘一些記憶,經(jīng)過sigmoid神經(jīng)層,在單元狀態(tài)上做點對點乘,結(jié)果為0的分量被遺忘,在輸出門結(jié)合當前時刻輸入的值與前一時刻的輸出值,經(jīng)過tanh函數(shù)和sigmoid函數(shù)后,整合的向量點對點乘得到該時刻輸出。在LSTM 模型的門結(jié)構(gòu)中,遺忘門用來決定是否遺忘信息,保留重要有用信息;輸入門控制不同時刻信息的輸入;輸出門主控信息輸出。
(二)ARIMA模型
ARIMA模型全稱為差分整合移動平均自回歸模型,是一種時間序列預(yù)測模型。在股票預(yù)測模型研究中,ARIMA模型是一種很常見的預(yù)測模型。ARIMA模型實際上是移動平均模型(MA)、自回歸模型(AR)和差分法相結(jié)合的模型,ARIMA(p,d,q)中,p是自回歸項數(shù),q是滑動平均項數(shù),d是差分次數(shù)也稱為階數(shù)。
ARIMA模型的預(yù)測步驟為:第一,測試序列平穩(wěn)性,構(gòu)建ARIMA模型時間序列必須是平穩(wěn)的,選擇歷史數(shù)據(jù)做預(yù)測就說明希望時間序列在歷史數(shù)據(jù)上的某些性質(zhì)可以一直處于不變的狀態(tài),這就要求了時間序列的平穩(wěn)性,若時間序列是非平穩(wěn)的,那么歷史數(shù)據(jù)對預(yù)測就沒有任何意義。在這一步通常選擇DF和ADF單位根檢驗,如果檢測出的p值結(jié)果大于0.05,則說明時間序列是非平穩(wěn)的需要差分,若結(jié)果小于0.05則說明是平穩(wěn)的。差分就是將非平穩(wěn)的時間序列轉(zhuǎn)化為平穩(wěn)的操作,對數(shù)據(jù)做差分處理之后得到新的數(shù)據(jù)集,再次檢驗平穩(wěn)性,依據(jù)差分次數(shù)也就是d階,出現(xiàn)一階差分、二階差分等,通常情況下不會超過二階差分。第二,識別AR模型的p階和MA模型的q階,使用自相關(guān)函數(shù)(ACF)和偏相關(guān)函數(shù)(PACF)來識別p和q。第三,模型預(yù)測,參數(shù)確定之后,就可以估算出預(yù)測模型的準確性,對測試集的數(shù)據(jù)進行預(yù)測。
(三)支持向量機模型
支持向量機(SVM)作為一種從統(tǒng)計學理論發(fā)展起來的機器學習方法,具有相當完善的數(shù)學理論。SVM的優(yōu)勢主要體現(xiàn)在處理非線性、小樣本和高維度問題,泛化能力較強,預(yù)測結(jié)果受核函數(shù)選擇影響,不少研究將SVM應(yīng)用到股票預(yù)測方面。在股票預(yù)測方面,支持向量機的作用是實現(xiàn)高低維度和線性非線性的問題轉(zhuǎn)化,將低維度轉(zhuǎn)化為高維度,非線性轉(zhuǎn)化為線性。SVM通過有監(jiān)督的學習對數(shù)據(jù)進行分類,是一個線性分類器。
(四)BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)全稱為反向傳播神經(jīng)網(wǎng)絡(luò),BP神經(jīng)網(wǎng)絡(luò)模型是一種應(yīng)用廣泛的模型,常用來模型分類、時間序列預(yù)測和函數(shù)逼近等,在股票市場中常用于預(yù)測股票數(shù)據(jù),BP神經(jīng)網(wǎng)絡(luò)在訓練樣本數(shù)據(jù)過程中不斷修正閾值和權(quán)值縮小誤差,不斷逼近期望值。反向傳播神經(jīng)網(wǎng)絡(luò)分為三部分,分別是輸入層、輸出層和隱藏層,是一個典型的多層網(wǎng)絡(luò),層與層之間的神經(jīng)元存在權(quán)連接,同一層的神經(jīng)元不存在權(quán)連接。BP神經(jīng)網(wǎng)絡(luò)通過Sigmoid函數(shù)得到輸出值,輸入值不應(yīng)太大,避免造成神經(jīng)元過飽和。BP神經(jīng)網(wǎng)絡(luò)具有強泛化能力,可在少數(shù)迭代下實現(xiàn)精度提升,但也存在不足,比如收斂速度慢、全局搜索能力低等問題,反向傳播神經(jīng)網(wǎng)絡(luò)容易造成局部極小值,使預(yù)測精度降低。
(五)卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)簡稱CNN,專門處理有網(wǎng)格結(jié)構(gòu)的數(shù)據(jù),CNN由輸出層、輸入層、激活層、卷積層、全連接層和池化層組成。這些層結(jié)構(gòu)使得CNN具有權(quán)重共享、局部感知和多核的特點,CNN在處理圖像、語音、文本等領(lǐng)域有著廣泛應(yīng)用,也有研究人員將CNN用于預(yù)測金融時間序列。卷積層是CNN層結(jié)構(gòu)的核心層,大量的計算在卷積層產(chǎn)生,計算量大部分是在該層,卷積層可以說是神經(jīng)元的一個輸出,神經(jīng)元只觀察數(shù)據(jù)的一小部分,接著與位于左右的其他神經(jīng)元共享參數(shù),還可以降低參數(shù)的數(shù)量,從而降低計算量,防止因參數(shù)過多造成過擬合現(xiàn)象。池化層的池化操作包括平均池化和最大池化兩種,最大池化的效果較優(yōu),池化層在CNN層結(jié)構(gòu)中可以減小特征空間維度。全連接層將當前層的全部節(jié)點與下層節(jié)點連接。
四、模型應(yīng)用
(一)ARIMA模型應(yīng)用
該部分選擇了從Choice金融終端下載的科大訊飛集團2017年至2020年的股票開盤價作為訓練集,預(yù)測2019年12月30日到2021年6月14日的股票開盤價,首先處理數(shù)據(jù),將每周的開盤價平均值算到周一上,可視化數(shù)據(jù)集可發(fā)現(xiàn)存在空缺值并且開盤價變動大,因此該序列數(shù)據(jù)可能不平穩(wěn),需要做時間序列平穩(wěn)性檢驗(ADF),結(jié)果p值大于0.05,拒絕原假設(shè),需要對數(shù)據(jù)進行差分處理,對數(shù)據(jù)進行一階差分后再進行ADF檢驗,得出結(jié)果p值小于0.05,接受原假設(shè)。
給ARIMA模型定階,由ADF檢驗得到ARIMA(p,d,q)中d等于1,現(xiàn)在確定p和q,對數(shù)據(jù)做自相關(guān)和偏自相關(guān)圖,最后確定模型為ARIMA(1,1,0),使用ARIMA(1,1,0)模型來預(yù)測科大訊飛2019年12月30日到2021年6月14日的股票開盤價走勢,結(jié)果見圖1。
(二)VAR模型應(yīng)用
該部分選擇從Choice金融終端下載的先進數(shù)通2017年1月3日至2023年4月24日之間1533個交易日的股票開盤價、收盤價、最高價和最低價作為數(shù)據(jù)集,選取1503個交易日作為訓練集用來構(gòu)建預(yù)測模型,通過向量自回歸(VAR)模型預(yù)測先進數(shù)通2023年3月13日至4月24日30個交易日的開盤價、最高價、最低價和收盤價。首先檢驗時間序列平穩(wěn)性,對四項指標做單位根檢驗,得出p值大于0.05,說明該序列屬于非平穩(wěn)序列;做一階差分處理,再進行單位根檢驗,觀察得出的p值小于0.05,說明該序列屬于平穩(wěn)序列。接下來對VAR模型定階,再次使用階數(shù)逐步增加的方法,選擇對應(yīng)AIC最小的階數(shù),運行結(jié)果顯示AIC值最小對應(yīng)的值是2,則該模型定階為2,接著對30個交易日的數(shù)據(jù)進行預(yù)測并得出預(yù)測準確率,準確率為98.02%,預(yù)測結(jié)果見圖2。
五、結(jié)語
股票預(yù)測一直是股票市場的研究熱點,股票預(yù)測存在非常多的預(yù)測方法,預(yù)測方法的種類也在不斷增加。本文總結(jié)了基于機器學習的股票預(yù)測研究,從單一模型、改進模型和組合模型三個角度對股票預(yù)測的研究做綜述,介紹各種預(yù)測模型,分析其優(yōu)缺點,單一預(yù)測模型的預(yù)測大多存在一定局限性,改進模型主要針對單一模型存在的缺陷進行改進,組合模型會結(jié)合多模型優(yōu)點,采用改進模型和組合模型可以更有效地解決問題。最后選擇先進數(shù)通和科大訊飛的股票數(shù)據(jù),使用VAR模型和ARIMA模型分別進行預(yù)測并得出結(jié)果,具有一定的應(yīng)用研究意義。
參考文獻
[1]李瀟寧.多元線性回歸與時間序列模型在股票預(yù)測中的應(yīng)用[J].科技創(chuàng)業(yè)月刊,2019,32(02):153-155.
[2]黃秋萍,周霞,甘宇健,等.SVM與神經(jīng)網(wǎng)絡(luò)模型在股票預(yù)測中的應(yīng)用研究[J].微型機與應(yīng)用,2015,34(05):88-90.
[3]趙康銀,薛亞楠.基于ARIMA模型的TCL集團股票預(yù)測及評價[J].廣西質(zhì)量監(jiān)督導報,2020(09):144-145.
[4]Lin Lei. Stock Prediction and Analysis based on RNN Neural Network[J]. SHS Web of Conferences,2022,151.
[5]李嘉浩.基于支持向量機的股票預(yù)測與分析[J].經(jīng)濟研究導刊,2021(32):107-110.
[6]江柏霖,岳杰,蘭勝杰.基于LSTM神經(jīng)網(wǎng)絡(luò)的股票預(yù)測系統(tǒng)的研究[J].河北建筑工程學院學報,2021,39(04):165-170.
[7]方紅,韓星煜,徐濤.改進型基于LSTM的股票預(yù)測方法[J].安徽大學學報(自然科學版),2019,43(06):36-42.
[8]黃建華,鐘敏,胡慶春.基于改進粒子群算法的LSTM股票預(yù)測模型[J].華東理工大學學報(自然科學版),2022,48(05):696-707.
[9]王燕,郭元凱.改進的XGBoost模型在股票預(yù)測中的應(yīng)用[J].計算機工程與應(yīng)用,2019,55(20):202-207.
[10]陳登建,杜飛霞,夏換.基于ARIMA與SVR滾動殘差模型組合的股票預(yù)測[J].計算機時代,2022(05):76-81.
[11]楊智勇,葉玉璽,周瑜.基于BiLSTM-SA-TCN時間序列模型在股票預(yù)測中的應(yīng)用[J].南京信息工程大學學報(自然科學版),2023,15(06):643-651.
[12]謝游宇,王萬雄.基于EMD和SSA的股票預(yù)測模型[J].計算機工程與應(yīng)用,2023,59(18):285-292.
[13]閆冬.基于ARMA-GARCH模型的上證指數(shù)短期預(yù)測研究[J].重慶理工大學學報(社會科學),2012,26(10):36-39.
[14]孫存浩,胡兵,鄒雨軒.指數(shù)趨勢預(yù)測的BP-LSTM模型[J].四川大學學報(自然科學版),2020,57(01):27-31.
責任編輯:張津平、尚丹