閆政旭,秦 超,宋 剛
1.山東財(cái)經(jīng)大學(xué) 金融學(xué)院,濟(jì)南 250014
2.山東財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南 250014
3.山東大學(xué) 數(shù)學(xué)學(xué)院,濟(jì)南 250100
在股票市場(chǎng)中,股票價(jià)格的漲跌受價(jià)格指標(biāo)、流通量指標(biāo)以及活躍程度等多種因素的影響。在股票市場(chǎng)中,人們希望能夠有效地預(yù)測(cè)出股票價(jià)格的走勢(shì),從而避免帶來(lái)不必要的損失,并分析出影響股票價(jià)格波動(dòng)的重要影響因子。但在股票市場(chǎng)中,股票價(jià)格的波動(dòng)本身就是一種非線性、動(dòng)態(tài)、不平穩(wěn)的過(guò)程。其波動(dòng)過(guò)程中本身就含有或大或小的噪聲,從而對(duì)股票價(jià)格的走勢(shì)造成重大的影響。所以,如何更加準(zhǔn)確地在多維數(shù)據(jù)特征下準(zhǔn)確地預(yù)測(cè)股票價(jià)格走向以及波動(dòng)程度成為了國(guó)內(nèi)外諸多學(xué)者關(guān)心的問(wèn)題。
股票價(jià)格作為一種時(shí)序性的時(shí)間序列,對(duì)其預(yù)測(cè)的方法一直是人們關(guān)注的重點(diǎn)。機(jī)器學(xué)習(xí)是近年來(lái)流行起來(lái)對(duì)股票價(jià)格進(jìn)行預(yù)測(cè)的一種新的方法,支持向量機(jī)(Support Vector Machine,SVM),BP 神經(jīng)網(wǎng)絡(luò)以及邏輯回歸都曾先后用于股票的預(yù)測(cè)。彭燕等[1]用LSTM對(duì)股票進(jìn)行了良好的預(yù)測(cè),但LSTM因遺忘門的存在將先前的股票數(shù)據(jù)保留一部分對(duì)未來(lái)股票價(jià)格進(jìn)行分析預(yù)測(cè)從而具有滯后性,使得預(yù)測(cè)結(jié)果整體后移,增加了實(shí)驗(yàn)誤差。張晨希等[2]采用支持向量機(jī)的方法對(duì)股票建立了預(yù)測(cè)模型,但是其并未對(duì)支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化。而在缺失數(shù)據(jù)的情況下,支持向量機(jī)會(huì)變得敏感,影響輸出結(jié)果。在復(fù)雜的特征以及大量數(shù)據(jù)下這些單分類器模型并不能對(duì)股票預(yù)測(cè)取得良好的效果。集成學(xué)習(xí)是一種多分類器學(xué)習(xí)方法,在面對(duì)復(fù)雜的股票數(shù)據(jù),單分類器因分類結(jié)果單一而導(dǎo)致誤差更大。隨機(jī)森林[3]作為一種分類和回歸的集成學(xué)習(xí)算法在不同的領(lǐng)域中分別取得了不錯(cuò)的效果[4-9]。隨機(jī)森林采取Bootstrap抽樣法。通過(guò)多輪抽樣,生成k個(gè)數(shù)據(jù)集并構(gòu)成含有k棵決策樹的隨機(jī)森林。隨機(jī)森林通過(guò)其隨機(jī)性使得其不易陷入過(guò)擬合并降低敏感數(shù)據(jù)對(duì)實(shí)驗(yàn)預(yù)測(cè)結(jié)果的影響。曹正鳳等[10]利用隨機(jī)森林對(duì)優(yōu)質(zhì)股票進(jìn)行選擇,但沒(méi)有考慮無(wú)關(guān)特征對(duì)選股的影響。根據(jù)文獻(xiàn)[11-12]可知,在對(duì)股票進(jìn)行回歸預(yù)測(cè)時(shí)為了減少數(shù)據(jù)復(fù)雜度以及降低無(wú)關(guān)變量因素對(duì)實(shí)驗(yàn)預(yù)測(cè)的影響,首先需要建立初始指標(biāo)體系進(jìn)行相關(guān)性篩選,將篩選完成后的指標(biāo)體系放入隨機(jī)森林中進(jìn)行訓(xùn)練得出結(jié)果。Nesselroade 等[13]對(duì)相關(guān)系數(shù)進(jìn)行了詳細(xì)的描述。相關(guān)系數(shù)是用來(lái)判斷兩個(gè)變量是否具有相關(guān)關(guān)系及其關(guān)系的密切程度。相關(guān)系數(shù)描述的變量是隨機(jī)變量,且變量之間不必區(qū)分因變量和自變量。而回歸系數(shù)則是研究因變量和自變量,并用該系數(shù)擬合一元或多元線性回歸。相關(guān)分析是回歸分析的基礎(chǔ),當(dāng)相關(guān)關(guān)系很低時(shí),則對(duì)兩個(gè)變量進(jìn)行分析是沒(méi)有實(shí)際意義的。股票價(jià)格呈現(xiàn)非線性趨勢(shì)波動(dòng),而股票的指標(biāo)特征與股票價(jià)格預(yù)測(cè)存在相關(guān)關(guān)系的強(qiáng)弱,即股票指標(biāo)特征對(duì)價(jià)格預(yù)測(cè)的貢獻(xiàn)程度存在差異。特征方法選擇主要有Pearson 系數(shù)、Spearman系數(shù)和Kendall 系數(shù)。但由于股票價(jià)格是定比數(shù)據(jù)變量。Spearman 系數(shù)和Kendall 系數(shù)都適合于定序變量或是間隔相同的時(shí)點(diǎn)數(shù)據(jù),且Kendall 相關(guān)系數(shù)是用來(lái)對(duì)分類變量進(jìn)行相關(guān)性的檢驗(yàn)。Pearson系數(shù)是用來(lái)分析特征與響應(yīng)變量相關(guān)關(guān)系程度的大小。股票價(jià)格的漲跌情況作為響應(yīng)變量,且不具備等級(jí)相關(guān)程度,Cai等[14]利用Pearson 系數(shù)來(lái)衡量變量之間的線性相關(guān)關(guān)系,從而篩除影響因素。因此選擇Pearson 系數(shù)對(duì)股票特征選擇。
但隨機(jī)森林中決策樹的參數(shù)以及決策樹的棵數(shù)將會(huì)直接影響特征重要性排序以及股票價(jià)格的預(yù)測(cè)結(jié)果。莊進(jìn)發(fā)等[15]以及Genuer[16]對(duì)隨機(jī)森林的最大特征數(shù)選取進(jìn)行了實(shí)驗(yàn),研究了最大特征數(shù)對(duì)隨機(jī)森林的影響。網(wǎng)格搜索法通過(guò)對(duì)超參數(shù)范圍的設(shè)定,將所有參數(shù)組合進(jìn)行循環(huán)迭代組合,通過(guò)窮舉法對(duì)所有參數(shù)進(jìn)行評(píng)分從而尋得最優(yōu)參數(shù)。網(wǎng)格搜索法不會(huì)遺漏掉任何參數(shù)組合,但在大量參數(shù)組合情況下,網(wǎng)格搜索法運(yùn)算速度將會(huì)降低,因此本文在原有基礎(chǔ)上對(duì)其進(jìn)行改進(jìn),提高了參數(shù)尋優(yōu)的速度。
因此,本文在原有的隨機(jī)森林的回歸算法基礎(chǔ)上進(jìn)行改進(jìn),將Pearson系數(shù)和改進(jìn)網(wǎng)格搜索法相結(jié)合,提出了一種新的隨機(jī)森林算法——基于Pearson相關(guān)系數(shù)的隨機(jī)森林算法。首先,利用Pearson 進(jìn)行第一次特征篩選,選擇出與股票價(jià)格相關(guān)性強(qiáng)的因素,將無(wú)關(guān)因素刪除。其次,利用改進(jìn)網(wǎng)格搜索法找尋出決策樹的最優(yōu)參數(shù)并通過(guò)對(duì)隨機(jī)森林的各項(xiàng)重要指標(biāo)進(jìn)行逐步測(cè)試,如決策樹的棵數(shù)以及樹節(jié)點(diǎn)的最大特征數(shù)并對(duì)特征進(jìn)行重要性排序;然后,將剩余變量進(jìn)行建模,組成改進(jìn)的隨機(jī)森林對(duì)股票價(jià)格的預(yù)測(cè)模型;最后,將改進(jìn)的隨機(jī)森林與其他模型在預(yù)測(cè)值的平均絕對(duì)誤差(MAE)、均方誤差(MSE)進(jìn)行對(duì)比分析。
Pearson相關(guān)系數(shù)是用來(lái)衡量自變量與因變量之間的相關(guān)程度的大小,其值介于?1 和1 之間,其絕對(duì)值越大,相關(guān)性則越強(qiáng)。皮爾遜相關(guān)系數(shù)大于0 代表正相關(guān),小于0代表負(fù)相關(guān)。其公式為:
其中,xi是自變量,yi是因變量。
決策樹(Classification and Regression Tree,CART)是一種單分類回歸器的歸納學(xué)習(xí)算法,由根節(jié)點(diǎn)、葉子節(jié)點(diǎn)以及非葉子節(jié)點(diǎn)組成。決策樹通過(guò)對(duì)訓(xùn)練集進(jìn)行回歸分析,生成從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑并分析出路徑規(guī)則。根據(jù)路徑規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類或預(yù)測(cè)。CART是基于信息熵,通過(guò)Gini系數(shù)最小原則指標(biāo)來(lái)進(jìn)行節(jié)點(diǎn)分裂,對(duì)訓(xùn)練集D={(x1,y1),(x2,y2),…,(xn,yn)}的輸入空間劃分區(qū)域,遞歸地將每個(gè)樣本劃入相應(yīng)的區(qū)域并得出確定的輸出值,其算法步驟如下:
(1)假設(shè)自變量特征為j,該特征的取值為s。假設(shè)取值s將特征j的空間劃分兩個(gè)區(qū)域,其式如下:
(2)依次遍歷計(jì)算每個(gè)切分點(diǎn)(j,s) 的損失函數(shù)(Loss Function,LF),并選取損失函數(shù)最小的切分點(diǎn)。
其中,c1、c2分別為R1、R2區(qū)間內(nèi)的輸出平均值。
(3)將劃分的兩部分進(jìn)行計(jì)算切點(diǎn),依次進(jìn)行,直到不能繼續(xù)劃分。
(4)將輸入空間劃分成M個(gè)部分R1,R2,…,RM生成最終的決策樹為:
隨機(jī)森林是一種集成學(xué)習(xí)算法,由多個(gè)弱分類器組合成一個(gè)強(qiáng)分類器。隨機(jī)森林利用bootstrap 對(duì)訓(xùn)練集采取隨機(jī)有放回地抽取m個(gè)樣本,并在bagging的基礎(chǔ)上對(duì)每棵決策樹進(jìn)行隨機(jī)特征的選擇。將這m個(gè)樣本建立m個(gè)決策樹模型。最終,通過(guò)這m個(gè)決策樹模型進(jìn)行投票得出結(jié)果。隨機(jī)森林具體算法步驟如下:
(1)輸入訓(xùn)練集D。
(2)利用bootstrap抽樣形成k個(gè)訓(xùn)練子集Dk。
(3)從原始特征中隨機(jī)抽取m個(gè)特征。
(4)對(duì)訓(xùn)練子集Dk進(jìn)行訓(xùn)練,將隨機(jī)選擇的m個(gè)特征做出最優(yōu)切分,得出k棵決策樹預(yù)測(cè)結(jié)果。
(5)根據(jù)k個(gè)預(yù)測(cè)結(jié)果進(jìn)行投票得出票數(shù)最高的預(yù)測(cè)結(jié)果。
隨機(jī)森林是一種容易受自身參數(shù)以及特征變量影響的機(jī)器學(xué)習(xí)算法。為提高隨機(jī)森林的預(yù)測(cè)效果,本文將特征方法選擇與改進(jìn)網(wǎng)格搜索法相結(jié)合。先利用Pearson 特征選擇刪除無(wú)關(guān)數(shù)據(jù)特征,利用改進(jìn)的網(wǎng)格搜索法對(duì)決策樹的參數(shù)進(jìn)行調(diào)優(yōu),通過(guò)優(yōu)化后的k棵決策樹所構(gòu)成的隨機(jī)森林來(lái)得到預(yù)測(cè)結(jié)果。其算法過(guò)程如圖1所示。
圖1 基于Pearson特征選擇的隨機(jī)森林模型Fig.1 Random forest model based on Pearson feature selection
利用Pearson 系數(shù)對(duì)所有解釋變量進(jìn)行劃分,找出解釋變量中的高度、中度、弱以及無(wú)關(guān)變量。(特征變量的Pearson系數(shù)大于0.8為高度相關(guān),介于0.5到0.8之間為中度相關(guān),在0.3與0.5之間為弱相關(guān),小于0.3為幾乎不相關(guān)。)
本文將前一天的OPEN、PP等指標(biāo)因子作為解釋變量,當(dāng)天的收盤價(jià)作為被解釋變量,利用Python 語(yǔ)言進(jìn)行Pearson 相關(guān)性的檢測(cè),得到解釋變量與被解釋變量的相關(guān)性結(jié)果,然后根據(jù)Pearson 系數(shù)的大小來(lái)判定解釋變量與被解釋變量之間的相關(guān)性強(qiáng)弱,以今世緣為例,其系數(shù)結(jié)果如表1所示。
表1 今世緣Pearson相關(guān)系數(shù)Table 1 Pearson’s temporal correlation coefficient
根據(jù)相關(guān)性大小,BUYVOL和RF為幾乎不相關(guān)變量,說(shuō)明該兩種解釋變量與被解釋變量收盤價(jià)沒(méi)有直接或間接的必要聯(lián)系。為了避免因指標(biāo)太多從而使隨機(jī)森林的計(jì)算時(shí)間增加且無(wú)關(guān)變量對(duì)實(shí)驗(yàn)精確度的影響。從指標(biāo)變量中剔除與收盤價(jià)不相關(guān)的RF 和BUYVOL特征變量,將剩余變量作為模型的最終解釋變量。
網(wǎng)格搜索法是對(duì)指定的參數(shù)值進(jìn)行窮舉尋優(yōu),將指定參數(shù)通過(guò)交叉驗(yàn)證進(jìn)行評(píng)估來(lái)得到最優(yōu)參數(shù)的方法。在傳統(tǒng)的網(wǎng)格搜索法的基礎(chǔ)上,先對(duì)參數(shù)進(jìn)行大范圍的區(qū)間劃分,選取出最優(yōu)點(diǎn),在最優(yōu)點(diǎn)處進(jìn)行小范圍的參數(shù)調(diào)優(yōu),直至尋找出最優(yōu)點(diǎn)。對(duì)決策樹的深度,節(jié)點(diǎn)最小分割樣本以及節(jié)點(diǎn)最小樣本量進(jìn)行參數(shù)調(diào)優(yōu),網(wǎng)格搜索法如圖2所示。
圖2 改進(jìn)網(wǎng)格搜索法參數(shù)選擇和模型評(píng)估Fig.2 Improved grid search method parameter selection and model evaluation
輸入篩選后的解釋變量,根據(jù)解釋變量的數(shù)量,對(duì)決策樹的max_depth、min_samples_split、min_samples_leaf三個(gè)參數(shù)進(jìn)行取值范圍設(shè)定并依次進(jìn)行組合。
通過(guò)改進(jìn)的網(wǎng)格搜索法先對(duì)參數(shù)進(jìn)行大步長(zhǎng)網(wǎng)格尋優(yōu),在評(píng)分最優(yōu)點(diǎn)處再進(jìn)行小步長(zhǎng)劃分網(wǎng)格尋優(yōu),重復(fù)此步驟直至尋找到最優(yōu)參數(shù)組合。
利用改進(jìn)網(wǎng)格搜索法,用損失函數(shù)評(píng)價(jià)出最優(yōu)的參數(shù)。搜索出最佳參數(shù)組合并以此參數(shù)生成決策樹。改進(jìn)網(wǎng)格搜索法使運(yùn)算速度提升,其運(yùn)算時(shí)間對(duì)比如表2所示。
表2 搜索時(shí)間比較Table 2 Comparison of search times
在確定好決策樹的最優(yōu)參數(shù)之后,利用隨機(jī)森林的袋外誤差分?jǐn)?shù)來(lái)進(jìn)行來(lái)尋求隨機(jī)森林最大的決策樹棵數(shù)和樹節(jié)點(diǎn)的最大特征數(shù),并對(duì)剩余的特征進(jìn)行重要性排序,以便于投資者后期根據(jù)不同的解釋變量來(lái)進(jìn)行股票投資。今世緣模型的隨機(jī)森林的最大特征數(shù)和最佳棵數(shù)分別為如圖3和圖4所示。
通常情況下,當(dāng)特征數(shù)數(shù)量為M時(shí),max_features取值為在圖3 中,最大特征數(shù)為4 時(shí),OOB袋外分?jǐn)?shù)最高,所以尋得最大特征數(shù)為4。通過(guò)實(shí)驗(yàn),圖像化地展示了袋外分?jǐn)?shù)與n_estimators的關(guān)系。通過(guò)圖4 可以觀察出,在n_estimators 大于260 之后,隨機(jī)森林的袋外分?jǐn)?shù)逐漸趨于平穩(wěn)且趨于0.75,誤差逐漸降低且袋外分?jǐn)?shù)較高。根據(jù)目前的學(xué)術(shù)研究來(lái)看,n_estimators大于100較為合適。根據(jù)本文的研究數(shù)據(jù),當(dāng)n_estimators取值為300時(shí)符合當(dāng)前的研究,所以尋得決策樹的數(shù)量為300棵對(duì)本實(shí)驗(yàn)來(lái)說(shuō)較為合適。
圖3 最大特征數(shù)Fig.3 Maximum characteristic number
圖4 決策樹的最佳數(shù)量Fig.4 The best number of decision tree
根據(jù)決策樹的max_depth、min_samples_split、min_samples_leaf的參數(shù)以及隨機(jī)森林中決策樹的棵數(shù)和最大特征數(shù),將數(shù)據(jù)進(jìn)行訓(xùn)練,得到今世緣股票特征重要性排序結(jié)果,如圖5所示。
圖5 特征重要性排序Fig.5 Feature importance ranking
為更好地驗(yàn)證特征選擇的隨機(jī)森林模型對(duì)股票的預(yù)測(cè)。本文分別從白酒行業(yè)、保險(xiǎn)行業(yè)以及房地產(chǎn)行業(yè)選取了今世緣、中國(guó)平安和上海臨港三只股票進(jìn)行預(yù)測(cè)。選取2019 年9 月1 日到2019 年9 月30 日的數(shù)據(jù)作為訓(xùn)練樣本,2019年10月1日到2019年10月31日的數(shù)據(jù)作為預(yù)測(cè)樣本。
今世緣參數(shù)指標(biāo)如表3所示,其實(shí)驗(yàn)結(jié)果如圖6,綠色實(shí)線代表真實(shí)值,紅色實(shí)線代表預(yù)測(cè)值。通過(guò)圖6的預(yù)測(cè)結(jié)果顯示,機(jī)器學(xué)習(xí)方法相比于傳統(tǒng)的金融擬合方法要好。幾何布朗運(yùn)動(dòng)對(duì)于股票的價(jià)格波動(dòng)是不會(huì)隨著時(shí)間的變化而變化的,而隨機(jī)森林、支持向量機(jī)等監(jiān)督類學(xué)習(xí)算法,能夠良好地跟隨股票的波動(dòng),受股票波動(dòng)的影響較小。并且?guī)缀尾祭蔬\(yùn)動(dòng)的隨機(jī)過(guò)程St在實(shí)際情況下并不符合正態(tài)分布,股票的真實(shí)收益具有更高的峰度,所以價(jià)格波動(dòng)將會(huì)更大。支持向量機(jī)的模擬曲線較為良好的符合股票的實(shí)際趨向走勢(shì),但是具有一定程度上的誤差性和滯后性。這是因?yàn)镾VM對(duì)數(shù)據(jù)非常的敏感,在股票價(jià)格的分析特征中,部分特征對(duì)股票價(jià)格的預(yù)測(cè)產(chǎn)生不利影響,從而導(dǎo)致支持向量機(jī)的預(yù)測(cè)效果不如隨機(jī)森林。而經(jīng)過(guò)特征方法選擇改進(jìn)之后的隨機(jī)森林模型在股票的模擬走勢(shì)上因刪除無(wú)關(guān)變量對(duì)實(shí)驗(yàn)預(yù)測(cè)的影響以及對(duì)隨機(jī)森林的參數(shù)進(jìn)行調(diào)優(yōu),使得縮小了誤差。由于隨機(jī)森林通過(guò)對(duì)股票特征重要性的排序并以前一天的數(shù)據(jù)作為訓(xùn)練集從而不受之前數(shù)據(jù)集的影響,使得滯后性減弱,更接近股票的真實(shí)走勢(shì)。對(duì)時(shí)間序列的股票進(jìn)行預(yù)測(cè)時(shí),因可利用Pearson 系數(shù)對(duì)與時(shí)間序列無(wú)關(guān)的變量以及產(chǎn)生消極影響的變量刪除的特點(diǎn),因此Pearson 系數(shù)的隨機(jī)森林更合適。經(jīng)過(guò)改進(jìn)的隨機(jī)森林在價(jià)格波動(dòng)上更小,可以使預(yù)測(cè)價(jià)格更好地接近于實(shí)際價(jià)格,使投資效用達(dá)到最大,投資風(fēng)險(xiǎn)降低相比單一的隨機(jī)森林,改進(jìn)后的隨機(jī)森林能夠在短時(shí)間內(nèi)進(jìn)行較好的預(yù)測(cè),預(yù)測(cè)的結(jié)果具有較好的跟隨能力。為了進(jìn)一步比較改進(jìn)后的隨機(jī)森林和邏輯回歸以及其他兩種算法對(duì)模型擬合的準(zhǔn)確性和有效性,分別選取均方誤差(MSE)、平均絕對(duì)誤差(MAE)來(lái)進(jìn)行比較:
圖6 今世緣各模型預(yù)測(cè)結(jié)果比較Fig.6 Comparison of prediction results of each model of King’s Luck
表3 今世緣參數(shù)指標(biāo)Table 3 Parameter index of King’s Luck
其中,ym是股票價(jià)格的真實(shí)值,是股票價(jià)格的預(yù)測(cè)值。
四個(gè)算法模型的MSE、MAE比較如表4所示。
表4 今世緣各模型預(yù)測(cè)指標(biāo)對(duì)比Table 4 Comparison of prediction indexes of each model of King’s Luck
MSE 是用來(lái)評(píng)價(jià)股票價(jià)格的變化程度,即進(jìn)一步反應(yīng)股票的預(yù)測(cè)程度,MSE越小,則說(shuō)明預(yù)測(cè)的精確度越高。MAE 則是更好地反映出預(yù)測(cè)值的誤差程度,即進(jìn)一步反應(yīng)股票的預(yù)測(cè)價(jià)格與實(shí)際價(jià)格的誤差,MAE越小,則說(shuō)明股票價(jià)格的波動(dòng)誤差率越小。觀察表4的預(yù)測(cè)指標(biāo)對(duì)比結(jié)果和圖7誤差率對(duì)比結(jié)果發(fā)現(xiàn),改進(jìn)后的隨機(jī)森林在MSE和MAE中都是最小的,即說(shuō)明其在預(yù)測(cè)股票的漲跌中預(yù)測(cè)得最為精準(zhǔn)且價(jià)格的波動(dòng)誤差率最小。而與傳統(tǒng)的幾何布朗運(yùn)動(dòng)相比,改進(jìn)的隨機(jī)森林算法的MSE 和MAE 值都有顯著減小。與一般的機(jī)器學(xué)習(xí)相比,MSE 和MAE 也都有較好的改觀。說(shuō)明改進(jìn)后的隨機(jī)森林使得股票的預(yù)測(cè)效果相比傳統(tǒng)的金融方法和一般的機(jī)器學(xué)習(xí)方法有了顯著提高。改進(jìn)后的隨機(jī)森林的兩項(xiàng)指標(biāo)優(yōu)于傳統(tǒng)隨機(jī)森林模型,但兩者的差距并不明顯,原因在于兩者具有相同的基礎(chǔ)單元結(jié)構(gòu)——決策樹,而改進(jìn)后的隨機(jī)森林的優(yōu)勢(shì)在于減少無(wú)關(guān)變量,降低其對(duì)股價(jià)預(yù)測(cè)的影響并通過(guò)網(wǎng)格搜索法實(shí)現(xiàn)決策樹以及隨機(jī)森林的最優(yōu)調(diào)參,而且運(yùn)行時(shí)間和預(yù)測(cè)結(jié)果都要好于隨機(jī)森林。
圖7 今世緣隨機(jī)森林與Pearson-隨機(jī)森林預(yù)測(cè)結(jié)果比較Fig.7 Comparison of prediction results between King’s Luck random forest and Pearson-random forest
中國(guó)平安的參數(shù)指標(biāo)如表5。各模型預(yù)測(cè)結(jié)果比較如圖8所示,支持向量機(jī)在股票價(jià)格持續(xù)下跌或持續(xù)上漲時(shí)跟隨性較好,而在股票價(jià)格發(fā)生大幅度變化時(shí)其跟隨能力遠(yuǎn)不如隨機(jī)森林和Pearson-隨機(jī)森林。隨機(jī)森林和Pearson-隨機(jī)森林在股票的實(shí)際走勢(shì)上基本一樣,但改進(jìn)后的隨機(jī)森林在時(shí)間點(diǎn)上的誤差要小于隨機(jī)森林。隨機(jī)森林的模型要優(yōu)于幾何布朗運(yùn)動(dòng)模型,邏輯回歸模型以及SVM模型。但是在中國(guó)平安股票的預(yù)測(cè)模型中,Pearson-隨機(jī)森林模型的預(yù)測(cè)效果最好,其預(yù)測(cè)值更好地逼近真實(shí)值。該股票的指標(biāo)評(píng)價(jià)標(biāo)準(zhǔn)如表6 所示,Pearson-隨機(jī)森林模型的評(píng)價(jià)指標(biāo)結(jié)果均優(yōu)于其他模型。
表5 中國(guó)平安參數(shù)指標(biāo)Table 5 Parameters index of Ping An of China
圖8 中國(guó)平安各模型預(yù)測(cè)結(jié)果比較Fig.8 Comparison of prediction results of each model of Ping An of China
表6 中國(guó)平安各模型預(yù)測(cè)指標(biāo)對(duì)比Table 6 Comparison of prediction indexes of each model of Ping An of China
改進(jìn)后的隨機(jī)森林與隨機(jī)森林的進(jìn)一步比較如圖9所示。
圖9 中國(guó)平安隨機(jī)森林與Pearson-隨機(jī)森林預(yù)測(cè)結(jié)果比較Fig.9 Comparison of prediction results between China Ping An random forest and Pearson-random forest
為進(jìn)一步驗(yàn)證Pearson-隨機(jī)森林對(duì)個(gè)股的實(shí)驗(yàn)效果,選取房地產(chǎn)業(yè)的上海臨港進(jìn)行實(shí)驗(yàn),其參數(shù)指標(biāo)如表7所示。
表7 上海臨港參數(shù)指標(biāo)Table 7 Parameters index of Shanghai Lin-Gang
實(shí)驗(yàn)結(jié)果如圖10 所示,幾何布朗運(yùn)動(dòng)在前期的跟隨能力較好,而后期的跟隨能力較差,對(duì)股票的預(yù)測(cè)走向也沒(méi)有跌落的現(xiàn)象,出現(xiàn)了極大的預(yù)測(cè)偏差。支持向量機(jī)和邏輯回歸在股票價(jià)格的拐點(diǎn)預(yù)測(cè)能力相相比隨機(jī)森林要較差。原因在于SVM 對(duì)部分?jǐn)?shù)據(jù)極為敏感,當(dāng)碰到實(shí)際情況發(fā)生變故時(shí),SVM 的預(yù)測(cè)能力便不如隨機(jī)森林穩(wěn)定。Pearson-隨機(jī)森林使原始隨機(jī)森林在拐點(diǎn)處價(jià)格的預(yù)測(cè)變得更加精準(zhǔn)。相比于其他的預(yù)測(cè)模型,Pearson-隨機(jī)森林在上海臨港股票的預(yù)測(cè)中仍表現(xiàn)較好。該股票的評(píng)價(jià)指標(biāo)如表8所示。Pearson-隨機(jī)森林的MSE和MAE略好于傳統(tǒng)隨機(jī)森林,說(shuō)明改進(jìn)后的隨機(jī)森林在預(yù)測(cè)誤差上要優(yōu)于傳統(tǒng)隨機(jī)森林。其進(jìn)一步比較結(jié)果如圖11所示。
圖10 上海臨港各模型預(yù)測(cè)結(jié)果比較Fig.10 Comparison of prediction results of each model in Shanghai Lin-Gang
圖11 上海臨港隨機(jī)森林與Pearson-隨機(jī)森林預(yù)測(cè)結(jié)果比較Fig.11 Comparison of prediction results between Shanghai Lin-Gang random forest and Pearson-random forest
表8 上海臨港各模型預(yù)測(cè)指標(biāo)對(duì)比Table 8 Comparison of prediction indexes of each model of Shanghai Lin-Gang
為了減少個(gè)體股所帶來(lái)的偶然性和隨機(jī)性,更好地驗(yàn)證特征選擇的隨機(jī)森林模型的優(yōu)越性,本文選取上證指數(shù)對(duì)股票進(jìn)行進(jìn)一步預(yù)測(cè)。其參數(shù)指標(biāo)如表9。
表9 上證指數(shù)參數(shù)指標(biāo)Table 9 Shanghai Index parameters indicators
實(shí)驗(yàn)結(jié)果如圖12 所示,幾何布朗運(yùn)動(dòng)在前期預(yù)測(cè)方向與實(shí)際方向相反。原因在于上證指數(shù)是以上海證券交易所所有股票數(shù)為樣本,通過(guò)計(jì)算樣本股在基期和計(jì)算期的總市值,并按照指定常數(shù)將計(jì)算期總市值與基期值相比得出。支持向量機(jī)預(yù)測(cè)跟隨力不如個(gè)股,這是因?yàn)橹笖?shù)價(jià)格較高,對(duì)數(shù)據(jù)的歸一化處理以及其核函數(shù)無(wú)法良好的對(duì)高價(jià)格進(jìn)行跟隨預(yù)測(cè)。
圖12 上證指數(shù)各模型預(yù)測(cè)結(jié)果比較Fig.12 Comparison of prediction results of each model of Shanghai Index
指數(shù)價(jià)格的評(píng)價(jià)指標(biāo)如表10所示,Pearson-隨機(jī)森林的指標(biāo)要明顯地優(yōu)于其他預(yù)測(cè)模型。其與隨機(jī)森林的比較如圖13所示。
表10 上證指數(shù)各模型預(yù)測(cè)指標(biāo)對(duì)比Table 10 Comparison of prediction indexes of each model of Shanghai Index
圖13 上海指數(shù)隨機(jī)森林與Pearson-隨機(jī)森林預(yù)測(cè)結(jié)果比較Fig.13 Comparison of prediction results between Shanghai Index random forest and Pearson-random forest
為了進(jìn)一步減少實(shí)驗(yàn)帶來(lái)的隨機(jī)性與誤差性,選取滬深300 指數(shù)來(lái)進(jìn)一步驗(yàn)證基于Pearson 特征選擇的隨機(jī)森林模型的普遍適應(yīng)性。參數(shù)指標(biāo)如表11所示。實(shí)驗(yàn)結(jié)果如圖14所示。
圖14 滬深指數(shù)各模型預(yù)測(cè)結(jié)果比較Fig.14 Comparison of prediction results of each model of Shanghai and Shenzhen Index
表11 滬深指數(shù)參數(shù)指標(biāo)Table 11 Shanghai and Shenzhen Index parameters indicators
幾何布朗運(yùn)動(dòng)的后期預(yù)測(cè)較好,但前期預(yù)測(cè)走向與滬深300 指數(shù)的走向相反,這是由于滬深300 是選取的上交所以及深交所中重要的股票編制而成,反映的是上交所以及深交所大盤的整體走向,而支持向量機(jī)對(duì)其預(yù)測(cè)跟隨更為平緩且跟隨能力差。這是由于滬深300指數(shù)價(jià)格較高,且選取的不再是個(gè)股,支持向量機(jī)核函數(shù)導(dǎo)致其預(yù)測(cè)跟隨能力遠(yuǎn)不如個(gè)股。而隨機(jī)森林雖在前期產(chǎn)生了較大的誤差,但其中期跟隨能力較好。Pearson-隨機(jī)森林使得后期價(jià)格的預(yù)測(cè)誤差變小。滬深300 指數(shù)的價(jià)格評(píng)價(jià)指標(biāo)如表12 所示。Pearson-隨機(jī)森林的MSE和MAE指標(biāo)要優(yōu)于未改進(jìn)的隨機(jī)森林和其他的機(jī)器學(xué)習(xí)及傳統(tǒng)金融模型。為更直觀地觀測(cè)Pearson-隨機(jī)森林與隨機(jī)森林的預(yù)測(cè)結(jié)果,其比較圖如圖15所示。
圖15 滬深指數(shù)隨機(jī)森林與Pearson-隨機(jī)森林預(yù)測(cè)結(jié)果比較Fig.15 Comparison of prediction results between Shanghai and Shenzhen Index random forest and Pearson-random forest
表12 滬深指數(shù)各模型預(yù)測(cè)指標(biāo)對(duì)比Table 12 Comparison of prediction indexes of each model of Shanghai and Shenzhen Index
彭燕等[1]利用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)美國(guó)的蘋果公司進(jìn)行了股票價(jià)格的預(yù)測(cè),宋剛等[17]通過(guò)基于粒子群的LSTM 對(duì)五糧液進(jìn)行了股票的模擬走向。為了進(jìn)一步增加實(shí)驗(yàn)的可行性,在原有三支股票的基礎(chǔ)上選取A股的五糧液和美股的蘋果進(jìn)行Pearson-隨機(jī)森林實(shí)驗(yàn)并與兩篇文章利用LSTM 取得的實(shí)驗(yàn)結(jié)果進(jìn)行數(shù)據(jù)對(duì)比。
Pearson-隨機(jī)森林與彭燕等[1]在單層LSTM 網(wǎng)絡(luò)模型下取得的效果相比指標(biāo)數(shù)據(jù)得到良好的改進(jìn),預(yù)測(cè)精度遠(yuǎn)高于單層LSTM,原因在于LSTM 具有滯后性,從而導(dǎo)致預(yù)測(cè)結(jié)果向后偏差使得誤差偏大。而與兩層的LSTM 網(wǎng)絡(luò)模型相比,Pearson-隨機(jī)森林在MSE 上略優(yōu)于LSTM,而在MAE 中所取得的效果不及兩層LSTM網(wǎng)絡(luò)模型的效果。相比MAE,MSE 更能反映價(jià)格波動(dòng)的大小,其更能反映出價(jià)格的誤差大小。其數(shù)據(jù)對(duì)比如表13所示。
表13 實(shí)驗(yàn)數(shù)據(jù)對(duì)比(蘋果)Table 13 Comparison of experimental data(Apple)
Pearson-隨機(jī)森林與宋剛[17]的原始LSTM 相比取得了較為良好的效果,也再一次證明了改進(jìn)后的隨機(jī)森林相比一般情況下的LSTM 網(wǎng)絡(luò)模型來(lái)說(shuō)是有更加良好的效果。其實(shí)驗(yàn)數(shù)據(jù)對(duì)比如表14所示。
表14 實(shí)驗(yàn)數(shù)據(jù)對(duì)比(五糧液)Table 14 Comparison of experimental data(Wuliangye)
本文使用Pearson系數(shù)相關(guān)性檢驗(yàn)以及隨機(jī)森林算法對(duì)股票價(jià)格的趨勢(shì)進(jìn)行實(shí)驗(yàn)研究。利用改進(jìn)網(wǎng)格搜索法對(duì)決策樹的參數(shù)進(jìn)行調(diào)優(yōu)并提高了調(diào)優(yōu)速度。用隨機(jī)森林的重要性排序篩選出了在市場(chǎng)上影響股票因素的重要市場(chǎng)因子。兩種方法的結(jié)合以及對(duì)參數(shù)的優(yōu)化使得預(yù)測(cè)效果得到提高。該組合算法在對(duì)股票的短期預(yù)測(cè)上具有良好的效果、精確度較高,能夠達(dá)到讓人滿意的預(yù)期收入。此外,該方法還同樣適用于其他的股票價(jià)格預(yù)測(cè),從而驗(yàn)證了該方法在實(shí)際應(yīng)用中具有一定的有效性和實(shí)用性。
在時(shí)代飛速發(fā)展的今天,行業(yè)的發(fā)展在不斷地變化,黑天鵝事件的產(chǎn)生越來(lái)越多,一件小的黑天鵝事件將會(huì)產(chǎn)生巨大的影響。因此,在日后對(duì)股票的分析中,如何降低時(shí)間序列的噪聲將是今后的研究重點(diǎn),如何更好地及時(shí)預(yù)測(cè)黑天鵝事件對(duì)股票走向的影響將顯得尤為重要。